Claude 3.5 Sonnet: Was das neue Modell wirklich kann

Anthropic hat Claude 3.5 Sonnet veröffentlicht – und das Modell setzt neue Maßstäbe in Benchmarks. Wir schauen uns die Neuerungen genau an und testen, was in der Praxis wirklich besser ist.

Anthropic hat Claude 3.5 Sonnet veröffentlicht – und das Modell setzt neue Maßstäbe. Besonders bemerkenswert: Es übertrifft Anthropics eigenes Spitzenmodell Claude 3 Opus in den meisten Aufgabenbereichen, läuft dabei doppelt so schnell und kostet in der API nur ein Fünftel so viel.

Das klingt zu gut um wahr zu sein. Schauen wir genauer hin.

Was ist neu bei Claude 3.5 Sonnet?

Computer Use (Beta): Das spektakulärste neue Feature. Claude 3.5 Sonnet kann einen Computer tatsächlich bedienen – Screenshots machen, Maus bewegen, tippen. Im Demo-Video installiert es Software, surft im Web und füllt Formulare aus. Das ist kein Gimmick, das ist ein Paradigmenwechsel für KI-Automatisierung.

Verbessertes Reasoning: In internen Tests schneidet Claude 3.5 Sonnet bei Coding-Aufgaben, wissenschaftlichen Fragen und Textverständnis besser ab als der Vorgänger.

Größeres Kontextfenster: 200.000 Tokens – das entspricht etwa 150.000 Wörtern oder einem ganzen Buch. Konkurrenzlos groß im Vergleich zu anderen Modellen.

Benchmark-Ergebnisse: Was bedeuten die Zahlen wirklich?

Anthropic präsentiert beeindruckende Benchmarks:

HumanEval (Coding): 92% – besser als GPT-4o (90.2%)
MMLU (Allgemeinwissen): 88.7%
GSM8k (Mathematik): 96.4%

Wichtiger Hinweis: Benchmarks sind kein Garant für Praxisleistung. Ein Modell kann Benchmark-Fragen gut lösen und trotzdem im echten Alltag enttäuschen. Deshalb habe ich es selbst getestet.

Mein Praxistest: 5 echte Aufgaben

Aufgabe 1: Code Review Ich habe eine 300-Zeilen-Python-Datei mit absichtlich eingebauten Bugs eingereicht. Claude 3.5 Sonnet fand alle 4 Bugs – inklusive einem subtilen Off-by-One-Fehler. Beeindruckend.

Aufgabe 2: Langer Text analysieren Ein 80-seitiges PDF-Dokument (Geschäftsbericht). Claude extrahierte auf Anhieb die relevanten KPIs und erstellte eine strukturierte Zusammenfassung. ChatGPT-4o hatte Probleme mit der Länge.

Aufgabe 3: Kreativer Text Storytelling, Werbetexte, Newsletter. Claude schreibt stilistisch hochwertig. Die Texte brauchen weniger Nachbearbeitung als bei anderen Modellen.

Aufgabe 4: Mathematische Analyse Komplexe Finanzmodellierung. Sehr gut – aber auch hier gilt: Immer nachrechnen. KI-Modelle machen gelegentlich Rechenfehler.

Aufgabe 5: Computer Use Ich habe Computer Use im Beta getestet. Es ist wirklich beeindruckend – und gleichzeitig noch nicht alltagstauglich. Manchmal schlägt es den falschen Button. Es braucht noch Reifezeit.

Preise und Verfügbarkeit

Plan	Preis	Limits
Kostenlos	0 €	Nutzungslimit pro Tag
Claude Pro	20 €/Monat	Deutlich höhere Limits
API (Sonnet 3.5)	$3/M Input-Token	Pay-per-use

Für API-Entwickler ist der Preis ein Gamechanger: Claude 3.5 Sonnet kostet 5x weniger als Claude 3 Opus, liefert aber bessere Ergebnisse.

Fazit: Lohnt sich der Wechsel?

Wenn du aktuell GPT-4o oder Claude 3 Opus nutzt: Ja, teste Claude 3.5 Sonnet. Es ist in den meisten alltäglichen Anwendungsfällen mindestens gleichwertig, oft besser.

Besonders für deutschsprachige Anwender: Claude schreibt auf Deutsch besonders flüssig und natürlich – das ist ein echtes Unterscheidungsmerkmal.

Computer Use beobachte ich weiter. Wenn Anthropic das Feature stabilisiert, könnte es das mächtigste KI-Automatisierungswerkzeug für Wissensarbeiter werden.

// Tags

ClaudeAnthropicKI-NewsLLM-UpdateClaude 3.5

Häufig gestellte Fragen

Ist Claude 3.5 Sonnet kostenlos verfügbar?

Ja, Claude 3.5 Sonnet ist auf claude.ai im kostenlosen Plan mit Nutzungslimits verfügbar. Unbegrenzte Nutzung gibt es mit Claude Pro für 20 €/Monat.

Was unterscheidet Claude 3.5 Sonnet von Claude 3 Opus?

Claude 3.5 Sonnet übertrifft Claude 3 Opus in den meisten Benchmarks – bei doppelter Geschwindigkeit und deutlich niedrigeren API-Kosten. Opus ist aber noch stark bei sehr komplexen Reasoning-Aufgaben.

Kann Claude 3.5 Sonnet auch Bilder verstehen?

Ja, Claude 3.5 Sonnet ist multimodal. Es kann Bilder, Screenshots, Diagramme und PDFs analysieren und beschreiben.