Stellen Sie sich vor, Sie verarbeiten 50.000 eingehende Dokumente pro Tag - Rechnungen, Verträge, Formulare. Klassifizieren, Daten extrahieren, weiterleiten. Mit GPT-5.4 oder Claude Opus zahlen Sie dafür mehrere tausend Euro im Monat. Mit dem richtigen Open-Weight-Modell bleibt eine niedrige dreistellige Summe - bei gleicher Qualität. Dieser Artikel zeigt, wie Sie dahin kommen - entlang von drei Ebenen, die wir die Intelligenz-Leiter nennen.
Inhalt
- Die Rechnung, die niemand sehen wollte
- Die These
- Die Intelligenz-Leiter
- Ebene 1: Architektur
- Ebene 2: Prompt
- Ebene 3: Reliability
- Fazit
Die Rechnung, die niemand sehen wollte
Unternehmens-LLM-Spending hat sich laut Menlo Ventures in sechs Monaten mehr als verdoppelt - von 3,5 auf 8,4 Milliarden US-Dollar.[1] Einzelne Modelle werden zwar pro Jahr um den Faktor 10 günstiger, aber die Rechnungen sinken nicht: Teams migrieren die Ersparnis sofort in das nächste Frontier-Modell.[1] Das eigentliche Problem ist selten der Token-Verbrauch. Es ist die Modellwahl.
Die These
Das teuerste Modell ist das, das Sie zu oft anrufen.
Zurück zu Ihren Dokumenten. Der erste Reflex in jedem Projekt: das beste verfügbare Modell nehmen, damit die Demo läuft. Verständlich - in der Demo. In Produktion bei 50.000 Requests pro Tag wird daraus eine sechsstellige Jahresrechnung. Und oft wird die Qualität sogar schlechter: Überdimensionierte Modelle brauchen länger, erzeugen mehr Tokens und arbeiten bei eng umrissenen Aufgaben weniger deterministisch als ein sauber instruiertes kleineres Modell.
Die Lösung ist keine zusätzliche Abstraktion, sondern eine Architekturentscheidung: das richtige Modell für die richtige Aufgabe, zur richtigen Zeit. Dafür brauchen Sie eine Karte des Terrains.
Die Intelligenz-Leiter
Die Leiter hat drei Ebenen - und die meisten Teams optimieren heute nur auf einer davon, meistens auf Ebene 2.
|
Ebene |
Fokus |
Wirkung |
|
Welches Modell für welche Aufgabe? |
10 – 60x Kostenfaktor durch Tier-Wahl |
|
|
Ebene 2 - Prompt |
Wie bringen Sie ein kleineres Modell auf Qualität? |
Macht kleinere Modelle nutzbar |
|
Ebene 3 - Reliability |
Wie stellen Sie sicher, dass es im Betrieb hält? |
Sichert die Einsparung im Betrieb |
Sie steigen von oben nach unten: erst die Architektur, dann die Prompts für das gewählte Modell, dann die Reliability. Wer andersherum arbeitet, optimiert lokal und verschwendet global.
Ebene 1: Architektur
Der wirksamste Hebel. Drei Tiers haben sich am Markt etabliert: Frontier-Modelle (GPT-5.4, Claude Opus, Gemini 2.5 Pro) mit vollem Reasoning und höchstem Preis. Efficient Tier (GPT-5.4 mini, Claude Sonnet und Haiku, Gemini Flash) - destillierte Frontier-Varianten, entsprechend positioniert. SLMs und Open-Weight-Modelle (GPT-5.4 nano, Llama, Qwen, gpt-oss) - die letztgenannten meist Apache-2.0 oder MIT, über Provider wie OpenRouter, Fireworks oder Groq beziehbar.
|
Modell |
Tier |
Input $/1M |
Output $/1M |
|
Claude Opus 4.6 |
Frontier |
$5,00 |
$25,00 |
|
GPT-5.4 |
Frontier |
$2,50 |
$15,00 |
|
Claude Sonnet 4.6 |
Efficient |
$3,00 |
$15,00 |
|
Claude Haiku 4.5 |
Efficient |
$1,00 |
$5,00 |
|
GPT-5.4 mini |
Efficient |
$0,75 |
$4,50 |
|
Gemini 2.5 Flash |
Efficient |
$0,30 |
$2,50 |
|
GPT-5.4 nano |
SLM |
$0,20 |
$1,25 |
|
gpt-oss-120b (via Provider) |
Open-Weight |
~$0,15 |
~$0,60 |
|
Llama 3.1 8B (via Provider) |
SLM |
~$0,05 |
~$0,08 |
Preise Stand April 2026, gerundet.[2]
Für Ihre Dokumente heißt das: Eine Rechnung auf 20 Felder zu extrahieren oder einen Vertrag in 15 Kategorien einzusortieren ist keine offene Reasoning-Aufgabe. Es ist eine gut umrissene Extraktions- oder Klassifikationsaufgabe - und der Output-Tarif ist auf GPT-5.4 nano 20-fach günstiger als auf Claude Opus, 12-fach günstiger als auf GPT-5.4. Auf einem Open-Weight-SLM können es zwei Größenordnungen mehr werden. Kein Reasoning-Uplift der Welt rechtfertigt das.
Das Muster ist nicht auf Dokumente beschränkt. Es passt überall, wo hohes Volumen auf klar umrissene Entscheidungen trifft - Support-Tickets routen, Log-Anomalien filtern, Produktdaten normalisieren, Compliance-Texte gegen Regeln prüfen. Die konkreten Zahlen ändern sich, die Logik nicht.
Eine zweite Architekturfrage: Reasoning-Modell oder Chain-of-Thought-Prompt? Ein gut instruiertes Efficient-Tier-Modell mit strukturiertem CoT schlägt ein schlecht gepromptetes Frontier-Modell mit Extended Thinking in vielen Fällen - bei einem Bruchteil der Kosten.
Nicht jeder Use Case gehört nach unten. Bei offenem Reasoning ohne klare Heuristik, bei hoher Correctness-Anforderung mit niedrigem Volumen oder ohne Trainingsset für Optimierung bleibt das Frontier-Modell richtig. Das beste Beispiel ist gerade Agentic Coding mit Claude Code oder Codex: hier braucht es genau das offene Reasoning, das die kleinen Modelle nicht liefern - ein günstigeres Modell scheitert nicht etwas schlechter, sondern wird praktisch unbrauchbar.
Und der Hebel kippt: Bei Volumen-Aufgaben rechnet sich Modell-Ersparnis × Anzahl Requests. Bei Coding macht ein Entwickler vielleicht 50 Anfragen pro Tag - der Token-Preis ist nicht der dominierende Kostenfaktor, die Entwicklerzeit ist es. Hier ist ein teureres Modell oft die wirtschaftlichere Wahl.
Ebene 2: Prompt
Prompt Engineering für kleine Modelle ist nicht dasselbe wie für große. GPT-5.4 oder Claude Opus verzeihen schwammige Formulierungen, GPT-5.4 nano oder ein Open-Weight-SLM tun das nicht. Der Prompt, der mit GPT-5.4 zu 95 % funktioniert, fällt mit GPT-5.4 nano auf 60 %. Das ist kein Argument gegen das kleine Modell - es ist eines für besseres Prompting. "Besser" heißt nicht "länger", sondern: systematisch, evaluiert, optimiert.
Wann lohnt sich der Aufwand? Wenn drei Bedingungen zusammenkommen: hohes Volumen, eine objektiv messbare Erfolgsmetrik und eine stabile, wiederkehrende Aufgabe. Bei einmaligen Anwendungen, schwer messbarer Qualität oder Use Cases ohne Trainingsdaten bleibt klassisches Prompt Engineering der pragmatischere Weg.
Ebene 3: Reliability
Kleine Modelle sind günstiger, aber auch unzuverlässiger. Ohne Reliability-Engineering führt der Wechsel von GPT-5.4 auf GPT-5.4 nano zu mehr Incidents und am Ende zu höheren Gesamtkosten als vorher. Drei Patterns tragen den Abstieg:
Structured Output. JSON Mode, Tool Calling, Response Schemas. In Ihrem Dokumenten-Beispiel: Rechnungsnummer, Betrag, Datum, Lieferant als erzwungenes JSON-Schema - keine Freitext-Antworten, keine "Halluzinationen" über erfundene Felder.
Validation Layer. Pydantic, Guardrails, JSON Schema. Jeder Output wird gegen erwartete Strukturen geprüft, bevor er ins nächste System fließt.
Retry mit Escalation. Wenn GPT-5.4 nano fehlschlägt, eskaliert das System automatisch auf GPT-5.4 mini oder Claude Haiku. Failt das auch, auf GPT-5.4 oder Claude Opus. 95 % der Dokumente zahlen den günstigen Tarif, die restlichen 5 % bekommen die Robustheit des teuren - und Ihre Rechnung bleibt trotzdem zweistellig niedriger als vorher.
Ohne diese Patterns ist der Abstieg riskant. Mit ihnen wird er der Default.
Fazit
Die Intelligenz-Leiter ist kein Framework und kein Tool – sie ist eine Denkweise. Wenn Sie die drei Ebenen für Ihre Use Cases durchgehen, finden Sie in den meisten Architekturen zweistelliges Einsparpotenzial ohne Qualitätsverlust.
Wenn Sie wissen möchten, wo in ihrer Architektur das größte Potenzial liegt, hilft ein strukturierter Blick: Zuerst eine Inventur der laufenden LLM-Calls – welches Modell für welche Aufgabe, in welchem Volumen? Dann eine Bewertung entlang der drei Ebenen – wo ist die Diskrepanz zwischen Anforderung und gewähltem Modell am größten? Und schließlich ein Pilot am Use Case mit dem höchsten Hebel, der zum Muster für weitere wird.
Genau diese Begleitung bieten wir bei iteratec – LLM-Architekturen entwerfen, evaluieren und betriebsfest bauen.
Haben Sie Fragen oder benötigen Sie Unterstützung?
Mehr zu den Möglichkeiten von IT-Security und Resilienz für Ihr Unternehmen finden Sie auf unserer Webseite. Nehmen Sie jetzt Kontakt mit uns auf.
Quellen:
[1] Menlo Ventures, 2025 Mid-Year LLM Market Update (Juli 2025). https://menlovc.com/perspective/2025-mid-year-llm-market-update/
[2] Preise laut offiziellen Pricing-Seiten der Anbieter (Anthropic, OpenAI, Google) bzw. via OpenRouter für Open-Weight-Modelle. Open-Weight-Preise variieren je nach Provider (Fireworks, Together.ai, Groq u. a.) und Batch- oder Caching-Discounts. Stand April 2026.
[3] Khattab et al., DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines, Stanford NLP, 2023. https://github.com/stanfordnlp/dspy
[4] Is It Time To Treat Prompts As Code? A Multi-Use Case Study For Prompt Optimization Using DSPy, arXiv:2507.03620 (2025). https://arxiv.org/abs/2507.03620
Blog abonnieren
Weitere Artikel
- Juni 2026
- April 2026
- Februar 2026
- Januar 2026
- Dezember 2025
- November 2025
- Oktober 2025
- August 2025
- Juli 2025
- Juni 2025
- Mai 2025
- April 2025
- März 2025
- Februar 2025
- Januar 2025
- Oktober 2024
- September 2024
- August 2024
- Juli 2024
- Juni 2024
- Mai 2024
- April 2024
- März 2024
- Februar 2024
- Januar 2024
- Dezember 2023
- November 2023
- September 2023
- August 2023
- Juli 2023
- Juni 2023
- Mai 2023
- April 2023
- Februar 2023
- Dezember 2022
- November 2022
- Mai 2022
- April 2022
- März 2022
- Januar 2022
- Dezember 2021
- November 2021
- Oktober 2021
- August 2021
- Juli 2021
- Juni 2021
- Mai 2021
- April 2021
- Dezember 2020
- Oktober 2020
- September 2020
iteratec
iteratec ist der Partner für alle, die zu den Gewinner:innen der digitalen Transformation gehören wollen. Mit individuellen, überlegenen Lösungen eröffnen wir unseren Kunden technologische wie unternehmerische Potenziale. Denn: Wenn Scheitern keine Option ist, sind wir der Partner, der den Unterschied macht. So haben wir seit 1996 mehr als 1.000 Projekte zum Erfolg geführt und eine Kundenzufriedenheit von 97%.
