Modellauswahl
Dynamisches Model Routing
Abschnitt mit dem Titel „Dynamisches Model Routing“Wählen Sie unter der OpenAI-Modellauswahl einfach “auto”, um das dynamische Routing von CompanyGPT zu aktivieren. Das System analysiert Ihren Prompt und wählt automatisch das effizienteste OpenAI-Modell: Schnelle, kleinere Modelle für Standardfragen und High-End-Modelle für komplexe Analysen. So sparen Sie ohne manuellen Aufwand Zeit und Token-Kosten.
Faustregel:
Abschnitt mit dem Titel „Faustregel:“- Schnell & günstig → Mini / Flash / Nano / Haiku
- Standard & zuverlässig → große Allround-Modelle
- Komplex & kritisch → stärkste Modelle
- EU / intern / Datenschutz → STACKIT-Modelle
- Für: Coding, professionelle Wissensarbeit und komplexeste Aufgaben
- Wann: Softwareentwicklung, strategische Entscheidungen, kritische Analysen, High-Stakes-Outputs
- Warum: aktuellstes Flaggschiff (1M Kontext) mit der höchsten Gesamtleistung über alle Kategorien
- Für: Coding und anspruchsvolle Analysen mit sehr langem Kontext
- Wann: große Dokumentmengen, umfangreiche Reports, Long-Context-Workflows
- Warum: günstiger als GPT 5.5 bei weiterhin starker Qualität (1M Kontext)
GPT 5.4 Mini
Abschnitt mit dem Titel „GPT 5.4 Mini“- Für: hohe Qualität bei viel Durchsatz, Coding und autonome Agenten
- Wann: Batch-Verarbeitung, skalierte Content-Workflows, Computer Use, Subagenten
- Warum: stärkstes Mini-Modell (400K Kontext) mit Unterstützung für Computer Use und Subagents
GPT 5.3 Chat
Abschnitt mit dem Titel „GPT 5.3 Chat“- Für: dynamische Echtzeit-Interaktion
- Wann: Assistenz-Dialoge, iterative Abstimmungen, schnelle Rückfragen im Chat
- Warum: chat-optimiert für flüssige Konversationen und gutes Kontext-Halten
GPT 5.2 Codex
Abschnitt mit dem Titel „GPT 5.2 Codex“- Für: Softwareentwicklung und technische Umsetzung
- Wann: Code schreiben, refaktorieren, debuggen, Tests erstellen
- Warum: spezialisiert auf Entwicklungsaufgaben mit hoher Code-Qualität
- Für: fordernde Analyse- und Strukturaufgaben
- Wann: komplexe Auswertungen, schwierige Abwägungen, präzise Begründungen
- Warum: starkes Reasoning-Modell für anspruchsvolle General-Workloads
GPT 5.2 Chat
Abschnitt mit dem Titel „GPT 5.2 Chat“- Für: anspruchsvolle Dialoge mit hoher Zuverlässigkeit
- Wann: beratungsnahe Gespräche, lange Interaktionen, präzise Follow-ups
- Warum: auf Chat-Qualität optimiert und robuster bei Halluzinationen
GPT 5.1 Chat
Abschnitt mit dem Titel „GPT 5.1 Chat“- Für: interaktive Dialoge und Agenten-Workflows
- Wann: Support, flüssige Konversationen, striktes Befolgen von Anweisungen
- Warum: chat-optimiert für natürliche Sprache und stabiles Kontextmanagement
- Für: vielseitige General-Purpose-Aufgaben
- Wann: strukturierte Texte, Analysen, Automationen ohne primären Chat-Fokus
- Warum: ausgewogene Qualität, Geschwindigkeit und Zuverlässigkeit für den Alltag
GPT 5 Mini
Abschnitt mit dem Titel „GPT 5 Mini“- Für: anspruchsvolle Aufgaben mit Effizienz
- Wann: Coding, strukturierte Outputs, längere Texte
- Warum: moderner und robuster als die GPT-4-Serie
GPT 5 Nano
Abschnitt mit dem Titel „GPT 5 Nano“- Für: extrem einfache, schnelle Tasks
- Wann: Autovervollständigung, kurze Antworten, Massentasks
- Warum: extrem schnell und günstig, aber begrenzte Tiefe
- Für: Logik, Mathematik, Coding und schrittweises Reasoning
- Wann: wenn sauberes Ableiten wichtiger ist als Stil oder Kreativität
- Warum: stark auf präzise Problemlösung und rationale Herleitungen optimiert
- Für: komplexe Analysen, saubere Argumentationen
- Wann: Strategie, Konzepte, tiefgehende Erklärungen
- Warum: präziser und stabiler als GPT 4o
GPT 4.1 Mini
Abschnitt mit dem Titel „GPT 4.1 Mini“- Für: bessere Qualität bei weiterhin hoher Geschwindigkeit
- Wann: wenn GPT 4o mini zu oberflächlich ist
- Warum: guter Mittelweg aus Qualität und Performance
GPT Image 1.5
Abschnitt mit dem Titel „GPT Image 1.5“- Für: Bildgenerierung
- Wann: wenn Bilder generiert werden sollen
- Warum: OpenAI’s Bildgenerierungsmodell
Gemini 2.5 Flash
Abschnitt mit dem Titel „Gemini 2.5 Flash“- Für: maximale Geschwindigkeit
- Wann: schnelles Nachfragen, Ideensammlung, Iterationen
- Warum: sehr schnell, gut bei Überblick und Kontext
Gemini 2.5 Pro
Abschnitt mit dem Titel „Gemini 2.5 Pro“- Für: tiefes Denken und große Kontexte
- Wann: komplexe Dokumente, Vergleiche, Analysen
- Warum: Googles starkes Modell für hohe Qualität bei komplexen Aufgaben
Gemini Image Tools / Nano Banana
Abschnitt mit dem Titel „Gemini Image Tools / Nano Banana“- Für: Bildanalyse, Bildgenerierung, Bildbearbeitung
- Wann: Text-zu-Bild-Generierung, Bildbearbeitung mit Prompts (Bild+Text) und Komposition mehrerer Bilder
- Warum: Googles Bildmodelle, die in CompanyGPT integriert sind
Anthropic
Abschnitt mit dem Titel „Anthropic“Claude Opus 4.6
Abschnitt mit dem Titel „Claude Opus 4.6“- Für: höchste Komplexität und tiefgreifende Analysen
- Wann: strategische Planung, extrem lange Kontexte (1M), schwerste Logikaufgaben
- Warum: stärkstes in CompanyGPT verfügbares Anthropic-Modell für Agent Teams und Parallel-Workflows (höchste Kosten)
Claude Sonnet 4.6
Abschnitt mit dem Titel „Claude Sonnet 4.6“- Für: Programmieren, komplexe Textverarbeitung und anspruchsvolle Allround-Aufgaben (Empfohlen)
- Wann: Softwareentwicklung, Code-Refactoring, tiefes Textverständnis
- Warum: Der Sweetspot der Reihe. Opus-Klasse Performance zum Sonnet-Preis (1M Kontext)
Claude Haiku 4.5
Abschnitt mit dem Titel „Claude Haiku 4.5“- Für: sehr schnelle Verarbeitung bei hoher logischer Präzision
- Wann: große Datenmengen filtern, UI-basierte Chatbots, einfache bis mittlere Tasks in Masse
- Warum: sehr schnell und kosteneffizient (weniger Reasoning als Sonnet/Opus)
Diese Open-Source-Modelle laufen in der STACKIT Cloud (EU/Deutschland) und eignen sich besonders für Workloads mit hohen Anforderungen an Datenschutz, Datenhoheit und interne Compliance.
Mistral Nemo Instruct
Abschnitt mit dem Titel „Mistral Nemo Instruct“- Für: schnelle, allgemeine Instruct-Aufgaben
- Wann: interne Assistenten, Standard-QA, Zusammenfassungen mit EU-Hosting
- Warum: effizienter Allrounder mit gutem Verhältnis aus Qualität, Latenz und Kosten
Qwen 3 VL Embedding 8B
Abschnitt mit dem Titel „Qwen 3 VL Embedding 8B“- Für: multimodale Embeddings (Text/Bild) für Suche und Retrieval
- Wann: semantische Suche, RAG-Indizierung, Ähnlichkeitssuche über gemischte Daten
- Warum: spezialisiert auf Vektor-Repräsentationen statt auf klassische Chat-Antworten
Qwen 3 VL 235B
Abschnitt mit dem Titel „Qwen 3 VL 235B“- Für: multimodale High-End-Analyse mit Bild- und Textverständnis
- Wann: visuelle Dokumentanalyse, komplexe Bild-Text-Aufgaben, anspruchsvolle Inference
- Warum: sehr leistungsstarkes VL-Modell für tieferes Verständnis multimodaler Inhalte
GPT OSS 20B
Abschnitt mit dem Titel „GPT OSS 20B“- Für: leichtgewichtige Open-Source-Textaufgaben
- Wann: kostensensitive interne Workflows mit kontrollierbarer Infrastruktur
- Warum: kompakter OSS-Ansatz für solide Qualität bei geringeren Ressourcenanforderungen
Llama 3.1 8B Instruct
Abschnitt mit dem Titel „Llama 3.1 8B Instruct“- Für: schnelle Inferenz für Standard-Instruct-Use-Cases
- Wann: Chatbots, Klassifikation, Extraktion und einfache Automationen
- Warum: kleine Modellgröße mit hoher Effizienz und guter Produktionsreife
Llama 3.3 70B Instruct
Abschnitt mit dem Titel „Llama 3.3 70B Instruct“- Für: anspruchsvollere Generierung und Reasoning im EU-Stack
- Wann: komplexere Unternehmensfragen, längere Antworten, bessere Detailtiefe
- Warum: 70B-Klasse liefert deutlich mehr Qualität als kleine Modelle bei weiterhin OSS-Flexibilität
GPT OSS 120B
Abschnitt mit dem Titel „GPT OSS 120B“- Für: höchste OSS-Qualität für komplexe Textaufgaben
- Wann: wenn intern gehostete Top-Performance statt maximaler Geschwindigkeit gefragt ist
- Warum: großes Open-Source-Modell für starke analytische und sprachliche Ergebnisse
E5 Mistral 7B Instruct
Abschnitt mit dem Titel „E5 Mistral 7B Instruct“- Für: hochwertige Text-Embeddings für Retrieval und Ranking
- Wann: Vektorsuche, Dokument-Retrieval, Relevanzsortierung in RAG-Pipelines
- Warum: bewährtes Embedding-Modell für präzise semantische Suchanwendungen
Gemma 3 27B
Abschnitt mit dem Titel „Gemma 3 27B“- Für: vielseitige Instruct-Aufgaben mit guter Effizienz
- Wann: interne Assistenten, Wissensarbeit, strukturierte Textproduktion
- Warum: starker Mittelbau zwischen kleinen schnellen und großen teuren OSS-Modellen
Schnelle Entscheidungshilfe
Abschnitt mit dem Titel „Schnelle Entscheidungshilfe“- „Ich will einfach eine sehr gute Antwort“ → GPT 5.1 / GPT 5 Mini / Claude Sonnet 4.6
- „Es soll maximal schnell und günstig sein“ → GPT 5 Nano / GPT 5.4 Mini / Gemini 2.5 Flash / Claude Haiku 4.5
- „Ich will programmieren / Code schreiben“ → GPT 5.2 Codex / Claude Sonnet 4.6
- „Es ist kompliziert oder extrem wichtig“ → GPT 5.5 / GPT 5.4 / Claude Opus 4.6 / Gemini 2.5 Pro
- „Datenschutz (EU/Deutschland) ist Pflicht“ → STACKIT-Modelle (z. B. Llama 3.3 70B Instruct)
- „Ich arbeite im Chat (Dialog)“ → GPT 5.3 Chat / GPT 5.2 Chat / GPT 5.1 Chat
- „Ich brauche Bilder“ → GPT Image 1.5 / Gemini Image Tools / Nano Banana