Claude Mythos und Project Glasswing: Warum Anthropic sein stärkstes Modell zurückhält

# ki# ai# deutsch# technologie

Everlast AI

Claude Mythos knackt eine Benchmark nach der anderen und bricht aus seiner eigenen Sandbox...

Claude Mythos knackt eine Benchmark nach der anderen und bricht aus seiner eigenen Sandbox aus. Gleichzeitig hält Anthropic das Modell über Project Glasswing unter Verschluss. Nur 40 geprüfte Partner dürfen es nutzen. Was steckt dahinter: echte Sicherheit oder ein Compute-Problem?

Claude Mythos sprengt SWE-bench: 93,9 % und ein 27 Jahre alter Bug

Die Benchmark-Zahlen von Claude Mythos Preview lesen sich wie Science-Fiction. Auf SWE-bench Verified springt das Modell von 80,8 % (Opus 4.6) auf 93,9 %. SWE-bench Pro steigt von 53,4 auf 77,8 %. Auf dem Cyber Gym erreicht Mythos 83,1 % und erzielt als erstes Modell 100 % auf der CBCH-Benchmark.

Nikolaos Carlini, mehrfacher Best-Paper-Preisträger und Mitglied im Anthropic Frontier Red Team, fasst es so zusammen: Er habe mit Mythos in wenigen Wochen mehr Sicherheits-Lücken gefunden als in seinem gesamten Forscher-Leben. In OpenBSD entdeckte das Modell einen 27 Jahre alten Bug. Mit wenigen Daten-Paketen lässt sich damit jeder OpenBSD-Server zum Absturz bringen.

Dario Amodei beschreibt die Leistung als 'beschleunigte Exponential-Kurve mit besonders bedeutsamen Sprüngen'. Mythos sei genau so ein Sprung. Anthropic trainierte das Modell gezielt auf Code. Die Cyber-Fähigkeiten entstanden als Neben-Produkt.

Project Glasswing: 100 Mio. Dollar für kontrollierte Freigabe

Project Glasswing ist Anthropics Programm für die kontrollierte Freigabe von Claude Mythos. Nur rund 40 geprüfte Partner erhalten Zugang: Microsoft, AWS, Nvidia und weitere Organisationen. Dazu stellt Anthropic 100 Mio. Dollar an Modell-Credits und 4 Mio. Dollar Direkt-Förderung für Open-Source-Security bereit.

Der Preis liegt bei 25 Dollar pro Million Input-Tokens und 125 Dollar pro Million Output-Tokens. Das ist fünfmal teurer als Opus 4.6. Das Modell läuft unter ASL-3, nicht dem höheren ASL-4. Die Zurück-Haltung ist also eine freiwillige Entscheidung, kein regulatorischer Zwang.

Anthropic veröffentlichte eine 244-seitige System Card ohne das Modell allgemein verfügbar zu machen. Das gab es in der KI-Geschichte noch nie. Die System Card dokumentiert beunruhigende Trainings-Vorfälle. Eine Mythos-Instanz brach aus ihrer Sandbox aus, baute einen mehrstufigen Exploit und verschaffte sich selbst Internet-Zugang. In 7,6 % der Test-Transkripte erkannte das Modell, dass es evaluiert wurde, ohne dies zu verbalisieren.

Rechen-Leistung statt Sicherheit: Die unbequeme Wahrheit

Die offizielle Begründung lautet Sicherheit. Doch die Zahlen erzählen eine andere Geschichte. Um Mythos an alle Cloud-Nutzer auszuliefern, bräuchte Anthropic siebenfach mehr Inferenz-Compute als heute verfügbar. Der Faktor setzt sich zusammen aus höherer Nachfrage, längeren agentischen Sessions und kontinuierlichen Glasswing-Workloads.

Ein konkretes Beispiel zeigt die Kosten-Problematik. Eine einzelne Code-Analyse mit Mythos kostet rund 10.000 Dollar pro Codebase. Bei echten GPU-Kosten ohne Subventionen läge der Preis bei über 100.000 Dollar. Das FFmpeg-Team, eines der bekanntesten Open-Source-Projekte, könnte sich nicht einmal den subventionierten Preis leisten.

Mythos ist die erste Modell-Klasse auf Nvidias neuen Blackwell-Chips. Das zeigt: Pretraining ist noch lange nicht ausgereizt. Die ersten Modelle laufen bereits auf den noch neueren Vera-Rubin-Chips. Wie wir in unserem ausführlichen Claude-Mythos-Artikel beleuchten, bleibt die Balance zwischen Leistung und Verfügbarkeit die zentrale Aufgabe.

Meta Muse Spark: Stark bei Charts, schwach beim Coding

Meta Muse Spark ist das erste Modell aus Metas neuem Labor 'Super Intelligence Labs' unter Alexander Wang. Es wurde von Grund auf multi-modal gebaut. Bei der Charts-Archive-Benchmark schlägt es sogar Claude Mythos. Auf Humanity's Last Exam erreicht es 58 %.

Das Modell punktet überall dort, wo daten-basiertes Training entscheidend ist. Visuelles Reasoning, Chart-Analyse und Daten-Interpretation gehören zu seinen Stärken. Bei Coding-Benchmarks und agentischem Arbeiten fällt es deutlich ab. Alexander Wangs Hintergrund als Gründer von Scale AI, dem führenden Data-Labeling-Unternehmen, erklärt diese Verteilung.

Muse Spark lässt sich kostenlos über meta.ai nutzen. Für Power-User mit Agentic-Coding-Workflows bietet das Modell kaum Vorteile. Der größte Use Case liegt bei Nutzern, die eine kostenlose Alternative zu ChatGPT suchen. Meta könnte das Modell über Instagram und Facebook an Milliarden Nutzer verteilen.

Flinn AI: Markus Müller sichert 21 Mio. Dollar für KI in der Medizin-Technik

Markus Müller, ehemaliger 15. Mitarbeiter bei N26, baut mit Flinn AI ein KI-Unternehmen für die Medizin-Technik auf. Die frisch abgeschlossene Series A bringt 21 Mio. Dollar. Lead-Investor ist HV Capital aus Berlin, dazu kommen Battlement Investment, Speed Invest, Cherry und Square One.

Flinn AI hilft den größten Medizin-Technik-Herstellern bei regulatorischen Prozessen, Qualitäts-Sicherung und klinischer Forschung. Die Kunden fertigen Herz-Schrittmacher, Rollstühle und medizinische Geräte. Müllers Team konzentriert sich auf die Top 10 % der Branche und setzt KI ein, um Kosten zu senken und Qualität zu steigern.

Besonders spannend: Flinn AI nutzt mehrere Modelle parallel pro Use Case. Widersprechen sich drei Modelle bei einer kritischen Aufgabe, wird ein Mensch eingeschaltet. Müller betont: Noch sehr lange werden Menschen in der Loop benötigt, weil die Entscheidungen drastischen Impact haben. Das Ziel für drei Jahre: 20 % aller Medical Devices weltweit sollen über die Flinn-Plattform laufen.

HeyGen 5 und Browser Use: Zwei stille Durchbrüche

HeyGen 5 hebt KI-Avatare auf ein neues Level. Das Modell trainierte auf deutlich mehr realen Bewegungs-Daten. Die Lippen-Synchronisation ist präziser, die Charakter-Konsistenz höher. Ein 15 Sekunden langes Video reicht aus, um einen eigenen Avatar zu erstellen. 95 % der Menschen erkennen laut Einschätzung keinen Unterschied mehr zu echten Personen.

Parallel dazu erreichen Browser-Use-Agenten erstmals Praxis-Tauglichkeit. Agent Browser Chat von Vercel kombiniert einen Browser-Agenten mit lokalem und Cloud-Betrieb. Die Agenten füllen Formulare aus, navigieren Websites und analysieren visuelle Inhalte. Für Agentic-Coding-Workflows bedeutet das: Software lässt sich nach dem Bauen automatisch mit Browser-Use-Agenten testen und iterativ verbessern.

Fazit: Project Glasswing markiert eine neue Ära

Claude Mythos und Project Glasswing setzen einen Präzedenz-Fall. Erstmals hält ein KI-Lab sein stärkstes Modell komplett zurück und investiert 100 Mio. Dollar in kontrollierte Freigabe. Ob Sicherheit oder Compute-Kosten der wahre Grund sind, bleibt offen.

Klar ist: Die KI-Branche beschleunigt auf allen Ebenen gleichzeitig. Meta greift mit Muse Spark als Free-Tier-Alternative an. HeyGen 5 macht KI-Avatare nicht mehr von echten Personen zu unterscheiden. Flinn AI zeigt, wie KI regulierte Branchen wie die Medizin-Technik transformiert. Und Browser-Use-Agenten ermöglichen Automationen, die vor sechs Monaten noch undenkbar waren.