Anthropic hat Claude 3.5 Sonnet veröffentlicht – und das Modell setzt neue Maßstäbe in Benchmarks. Wir schauen uns die Neuerungen genau an und testen, was in der Praxis wirklich besser ist.
Anthropic hat Claude 3.5 Sonnet veröffentlicht – und das Modell setzt neue Maßstäbe. Besonders bemerkenswert: Es übertrifft Anthropics eigenes Spitzenmodell Claude 3 Opus in den meisten Aufgabenbereichen, läuft dabei doppelt so schnell und kostet in der API nur ein Fünftel so viel.
Das klingt zu gut um wahr zu sein. Schauen wir genauer hin.
Was ist neu bei Claude 3.5 Sonnet?
Computer Use (Beta): Das spektakulärste neue Feature. Claude 3.5 Sonnet kann einen Computer tatsächlich bedienen – Screenshots machen, Maus bewegen, tippen. Im Demo-Video installiert es Software, surft im Web und füllt Formulare aus. Das ist kein Gimmick, das ist ein Paradigmenwechsel für KI-Automatisierung.
Verbessertes Reasoning: In internen Tests schneidet Claude 3.5 Sonnet bei Coding-Aufgaben, wissenschaftlichen Fragen und Textverständnis besser ab als der Vorgänger.
Größeres Kontextfenster: 200.000 Tokens – das entspricht etwa 150.000 Wörtern oder einem ganzen Buch. Konkurrenzlos groß im Vergleich zu anderen Modellen.
Benchmark-Ergebnisse: Was bedeuten die Zahlen wirklich?
Anthropic präsentiert beeindruckende Benchmarks:
- HumanEval (Coding): 92% – besser als GPT-4o (90.2%)
- MMLU (Allgemeinwissen): 88.7%
- GSM8k (Mathematik): 96.4%
Wichtiger Hinweis: Benchmarks sind kein Garant für Praxisleistung. Ein Modell kann Benchmark-Fragen gut lösen und trotzdem im echten Alltag enttäuschen. Deshalb habe ich es selbst getestet.
Mein Praxistest: 5 echte Aufgaben
Aufgabe 1: Code Review Ich habe eine 300-Zeilen-Python-Datei mit absichtlich eingebauten Bugs eingereicht. Claude 3.5 Sonnet fand alle 4 Bugs – inklusive einem subtilen Off-by-One-Fehler. Beeindruckend.
Aufgabe 2: Langer Text analysieren Ein 80-seitiges PDF-Dokument (Geschäftsbericht). Claude extrahierte auf Anhieb die relevanten KPIs und erstellte eine strukturierte Zusammenfassung. ChatGPT-4o hatte Probleme mit der Länge.
Aufgabe 3: Kreativer Text Storytelling, Werbetexte, Newsletter. Claude schreibt stilistisch hochwertig. Die Texte brauchen weniger Nachbearbeitung als bei anderen Modellen.
Aufgabe 4: Mathematische Analyse Komplexe Finanzmodellierung. Sehr gut – aber auch hier gilt: Immer nachrechnen. KI-Modelle machen gelegentlich Rechenfehler.
Aufgabe 5: Computer Use Ich habe Computer Use im Beta getestet. Es ist wirklich beeindruckend – und gleichzeitig noch nicht alltagstauglich. Manchmal schlägt es den falschen Button. Es braucht noch Reifezeit.
Preise und Verfügbarkeit
| Plan | Preis | Limits |
|---|---|---|
| Kostenlos | 0 € | Nutzungslimit pro Tag |
| Claude Pro | 20 €/Monat | Deutlich höhere Limits |
| API (Sonnet 3.5) | $3/M Input-Token | Pay-per-use |
Für API-Entwickler ist der Preis ein Gamechanger: Claude 3.5 Sonnet kostet 5x weniger als Claude 3 Opus, liefert aber bessere Ergebnisse.
Fazit: Lohnt sich der Wechsel?
Wenn du aktuell GPT-4o oder Claude 3 Opus nutzt: Ja, teste Claude 3.5 Sonnet. Es ist in den meisten alltäglichen Anwendungsfällen mindestens gleichwertig, oft besser.
Besonders für deutschsprachige Anwender: Claude schreibt auf Deutsch besonders flüssig und natürlich – das ist ein echtes Unterscheidungsmerkmal.
Computer Use beobachte ich weiter. Wenn Anthropic das Feature stabilisiert, könnte es das mächtigste KI-Automatisierungswerkzeug für Wissensarbeiter werden.