Dein Codex-Prototyp läuft — jetzt wird er zur SaaS

OpenAI Codex steht heute für Coding-Workflows rund um CLI, Cloud-Aufgaben und IDE-Integration. Die konkreten Modelle und Produktnamen ändern sich schnell. Codex ist nicht zu verwechseln mit dem alten Codex-Modell von 2021 oder mit ChatGPT Code Interpreter (Advanced Data Analysis). Für autonome Code-Aufgaben über mehrere Dateien hinweg, Bugfixes und Pull-Request-Vorschläge kann das sehr nützlich sein.

Was Codex in einer Stunde generiert, lässt sich nicht einfach so in den produktiven Betrieb nehmen. Der Output ist häufig skriptlastig (FastAPI, Express, Bash), und Sandbox-Annahmen verstecken Annahmen über Datei- und Netzwerk-Zugriff. Sicherheitsstudien zu KI-generierten Pull Requests zeigen zudem ein erhöhtes Risiko für Logik- und Authorization-Fehler, die statische Scanner nicht zuverlässig finden.

Das bringen wir in Ordnung. In vier bis acht Wochen. Mit ehrlicher Einschätzung, klarem Plan und ohne versteckte Kosten.

Stärken und Grenzen

Was Codex kann — und wo es endet

Codex ist gut darin, autonom über mehrere Dateien hinweg Code zu erzeugen. Die Stärken:

  • Autonom über mehrere Dateien: Codex Cloud arbeitet im Hintergrund, schlägt Branches und Pull-Requests vor — nützlich für Bugfixes über mehrere Dateien hinweg.
  • Open-Source-CLI in Rust: Kein Vendor-Lock-in auf Client-Seite, fork- und auditierbar, Apache 2.0.
  • Im Plan inkludiert: Bei ChatGPT Plus, Pro, Business und Enterprise ist Codex-Nutzung enthalten (Pro 200 USD enthält 20× Plus-Quota), kein separater API-Vertrag nötig.
  • AGENTS.md als Konvention: Codex liest projekt-spezifische Instruktionen aus AGENTS.md — saubere Stelle für Coding-Standards, Test-Befehle, Sicherheits-Hinweise.
  • MCP-Anbindung: Erweiterbar um eigene Tools über das Model Context Protocol.

Wo Codex an Grenzen stösst:

  • Sandbox-Annahmen wandern in den Code: Codex CLI default ist workspace-write ohne Netzwerk. Generated Code unterstellt deshalb häufig lokale SQLite, lokale Dateien, lokale Mocks. Auf Cloud Run, Vercel oder AWS bricht das.
  • Authorization- und Logik-Lücken: Statische Scanner finden Codex-Schwächen kaum (Middleware-Mounting, Auth-Policies pro Connection-Type, Server-Side-Validation von kostenpflichtigen Aktionen).
  • Output-Charakter ist skript-/server-lastig: Front-End wird zwar generiert (React, Tailwind), oft aber als minimaler Bootstrap. Multi-Tenancy fehlt bei Prototypen häufig.
  • Tests sind optional: Codex schreibt Tests, wenn man sie verlangt. Flächendeckende Coverage ist Ausnahme.
  • Halluzinierte Lib-Versionen: Bei agentischen Phasen kann Codex veraltete oder nicht-existente Versionen wählen. Lockfiles brechen, npm/pip-installs schlagen im Build-Server fehl.
  • Eigene Sicherheitsschuld: Eine 2025/2026 dokumentierte Command-Injection-Lücke betraf ChatGPT-Web, Codex CLI, SDK und IDE-Extension — gepatcht, aber illustriert: Codex-Output ist kein Audit-Substitut.
Die Lücken

Sechs typische Lücken in einem Codex-Prototyp

01
Sandbox-Annahmen statt Cloud-Realität

Codex generiert Code, der in der lokalen Sandbox läuft: SQLite-Datei im Projektordner, lokal gemountete Volumes, hard-codierte Pfade wie ./data/, lokale .env-Dateien. Auf Cloud Run, Vercel oder Render bricht das beim ersten Cold-Start. Folge: Deploy läuft durch, App startet, beim ersten echten Request — 500.

02
Auth-Layer fehlt oder ist auf Bibliothek-Defaults stehen geblieben

Codex nimmt FastAPI-Users, NextAuth oder Passport in der einfachsten Variante. Sessions im Memory, JWT-Secrets im Code, kein RBAC, kein Refresh-Token-Handling, keine Mehrkundenfähigkeit. Folge: Erster Pen-Test deckt Privilege-Escalation auf, Multi-Tenancy ist ohne Datenbank-Re-Architektur nicht möglich.

03
Webhook- und Event-Verarbeitung fehlt

Codex schreibt gerne synchrone Endpoints. Stripe-Webhooks, asynchrone Aufgaben, Retry-Logik bei Fehlschlägen, idempotente Verarbeitung — all das wird nur generiert, wenn explizit angefordert, und dann meist ohne Dead-Letter-Queue. Folge: Doppelte Charges, verlorene Events, fehlerhafte Rechnungen.

04
Halluzinierte Lib-Versionen und brüchige Dependencies

In agentischen Phasen können falsche Dependency-Annahmen entstehen. package.json nennt dann Pakete, die es so nicht gibt, oder Versionen mit bekannten CVEs. Lockfile widerspricht der Manifest-Datei. Folge: Build im CI-Server schlägt fehl, oder schlimmer — er läuft mit einer angreifbaren Version durch.

05
Keine Observability und kein Tracing

Codex liefert häufig console.log oder print(), aber selten von selbst strukturierte Logs, Tracing oder Error-Monitoring. Im Produktiv-Betrieb merkst du Probleme sonst erst, wenn Kunden anrufen. Bei verteilten Tasks fehlt oft jedes Tracing über Service-Grenzen.

06
Doku ist AGENTS.md, nicht Architektur

Was Codex hinterlässt, ist AGENTS.md plus inline-Kommentare. Eine Architektur-Dokumentation, ein API-Contract, ein Onboarding-Playbook für neue Entwickler — fehlt. Folge: Wartungskosten steigen, sobald die zweite Person ins Team kommt, und du verlierst die Geschwindigkeit, wegen der du Codex überhaupt eingesetzt hast.

So arbeiten wir

In drei Phasen vom Prototyp zur SaaS

01

Code-Analyse

1 bis 2 Wochen, kostenlos
  • Sandbox-Annahmen: Wo unterstellt der Code lokale Files, lokale Datenbank, lokales Netzwerk?
  • Sicherheit: Auth, RBAC, Input-Validierung, Secret-Handling, Eingaben-Sanitization.
  • Architektur: Sind Services trennbar? Ist die Datenbankstruktur tragfähig?
  • Externe Anbindungen: Stripe, OpenAI/Anthropic-Calls, E-Mail. Wo sind Webhook-Lücken?
  • Dependency-Audit: Halluzinierte Pakete, CVE-Versionen, Lockfile-Konsistenz.
  • Du bekommst eine schriftliche Risiko-Übersicht, einen priorisierten Plan, eine Aufwandsschätzung und einen Zeitplan bis zum Live-Gang.
02

Sicher und produktionsreif machen

4 bis 8 Wochen
  • Sandbox-zu-Cloud-Refactor: SQLite → Postgres, lokale Files → Object-Storage, hard-codierte Pfade → Env-Variablen, Memory-Sessions → Redis oder DB-backed.
  • Auth- und RBAC-Layer: Saubere Session-Strategie, Multi-Tenancy mit Workspace-Modell, Mandanten-ID auf jeder Zeile.
  • Stripe und Bezahlung: Webhooks idempotent verarbeiten, Schweizer Mehrwertsteuer, Upgrade-Pfade.
  • Getrennte Umgebungen: Dev, Staging, Live mit Git-Branches und Deployment-Pipeline.
  • Tests: Unit-Tests für die Geschäftslogik, Integrations-Tests für die kritischen Flows (Auth, Bezahlung, Datenexport).
  • Observability: Strukturierte Logs, Sentry, OpenTelemetry, Performance-Monitoring.
  • Dependency-Hygiene: Lockfile-konsistent, CVE-Scan im CI, Renovate oder Dependabot aktiv.
  • Architektur-Dokumentation: Diagramme, API-Contract, AGENTS.md ergänzt um Operations-Playbook.
03

Wachsen und mitskalieren

laufend
  • Monitoring der Kennzahlen, Alarme bei steigender Fehlerquote oder Latenz.
  • KI-Kosten-Strategie: Modell-Routing zwischen starken und günstigeren Modellen je nach Aufgabe; Caching häufiger Prompts.
  • Updates: Neue Codex-Features (Subagents, MCP-Tools) integrieren, wo sie operativen Wert bringen.
  • Roadmap: Neue Funktionen analysieren, priorisieren, kontrolliert über die Pipeline ausrollen.
Heuristik

Wann lohnt sich Härtung, wann Neuaufbau?

Härtung passt, wenn:

  • Dein Codex-Output ist inhaltlich richtig (die Geschäftslogik stimmt).
  • Die gewählte Sprache und das Framework passen zum Zielbetrieb (Python/FastAPI, Node/Express, TypeScript).
  • Datenbankstruktur ist sauber genug (Foreign Keys, sinnvolle Normalisierung).
  • Die Sandbox-Annahmen sind lokalisiert (klar abgrenzbare Stellen, nicht über die ganze Codebasis verstreut).

Dauer: 4 bis 6 Wochen.

Neuaufbau ist besser, wenn:

  • Codex hat Skripte statt einer App geliefert (Sammlung von One-Off-Scripts ohne gemeinsame Architektur).
  • Die Datenbankstruktur ist grundsätzlich falsch (alles in einer Tabelle, keine Foreign Keys, JSON-Spalten als Universallösung).
  • Halluzinierte Dependencies durchziehen die ganze Codebasis und sind nicht punktuell ersetzbar.
  • Du brauchst Produktionsanforderungen, die Codex strukturell nicht liefert (FINMA-Compliance, Multi-Region, hartes Realtime).

Dauer: 8 bis 16 Wochen.

Preisrahmen

Was kostet die Codex-Härtung?

Code-Analyse
Kostenlos

Schriftlicher Bericht, Risiko-Übersicht, Härtungs-Plan inklusive Sandbox-Annahmen-Sweep und Dependency-Audit. 1 bis 2 Wochen.

Härtung (Standard)
CHF 10’000 bis 40’000

Für Codex-Prototypen mit klarer Grundstruktur. 4 bis 6 Wochen. Sicherheit, Skalierung, Bezahlung, Mehrkundenfähigkeit.

Härtung (komplex)
CHF 40’000 bis 80’000

Für grössere Codex-Projekte mit vielen Anbindungen, MCP-Tools und Subagent-Architektur. 6 bis 8 Wochen.

Neuaufbau
CHF 80’000 bis 300’000

Wenn zu viel von Grund auf neu gebaut werden muss. 8 bis 16 Wochen.

Betrieb und Weiterentwicklung
Monatlich skalierbar

Wir managen Infrastruktur, Wartung, Sicherheit, Updates und Skalierung. Der Kunde kann weiter vibecoden und neue Features erfinden; wir prüfen, härten und mergen sie kontrolliert über klare Regeln und eine saubere Pipeline in den produktiven Betrieb. Die monatlichen Kosten wachsen mit Nutzung und Anspruch, damit der Start auch mit wenigen Usern tragbar bleibt.

FAQ

Häufige Fragen zu Codex und SaaS

Welcher Codex ist gemeint — das alte Modell, der Code Interpreter oder die neue CLI/Cloud?

Wir reden vom heutigen Codex-Ökosystem: Codex CLI im Terminal, Codex Cloud bzw. browserbasierte Aufgaben, IDE-Integrationen und ähnliche OpenAI-Coding-Workflows. Die konkreten Modelle und Produktnamen ändern sich schnell; im Audit prüfen wir deshalb dein tatsächliches Setup statt nur den Namen. Das alte OpenAI-Codex-Modell aus 2021 ist damit nicht gemeint.

Kann ich meinen Codex-Output produktiv ausrollen?

Selten direkt. Codex generiert Code, der in seiner Sandbox läuft. Cloud-Run, Vercel oder AWS haben andere Spielregeln: kein Schreibrecht im Container-Filesystem nach dem Build, keine lokalen SQLite-Dateien als persistenter Store, andere Netzwerk-Topologie. Wir lokalisieren die Sandbox-Annahmen, ersetzen sie durch produktionsfähige Pendants (Postgres, Object-Storage, Secret-Manager) und bringen den Code damit echt deployfähig.

Welche Sprache hat Codex bei meinem Projekt verwendet?

Wenn du es nicht aktiv vorgegeben hast, sehen wir häufig Python (FastAPI, Flask) oder TypeScript/Node (Express, Next.js). Bash-Scripts kommen für Glue-Code dazu. Codex ist nicht festgelegt; Rust, Go und Java sind ebenfalls möglich. Die Qualität hängt stark von Prompt, Kontext und Review-Prozess ab.

Was, wenn Codex nur Skripte und keine richtige App geliefert hat?

Häufiger Fall, gerade wenn der Prompt iterativ war (’Mach mir ein Script, das X tut. Jetzt eines für Y. Jetzt eines für Z.’). Wir prüfen, ob die Skripte gemeinsame Geschäftslogik haben, und konsolidieren sie zu einem sauberen Service. Manchmal lohnt sich das, manchmal ist Neuaufbau schneller. Das sagen wir dir nach der kostenlosen Code-Analyse ehrlich.

Bleibt Codex der Provider, oder bauen wir um?

Codex ist ein Werkzeug, kein Provider — du hast keinen Service-Vertrag mit OpenAI für deinen App-Code. Was Codex generiert hat, gehört dir. Im Betrieb läuft dein Code auf unserer cloud-nativen Infrastruktur, je nach Compliance in Zürich oder in Europa. Du kannst auch nach dem Live-Gang weiter mit Codex an Features arbeiten, und wir prüfen und mergen sie kontrolliert in den produktiven Stand.

Wie geht ihr mit Codex-typischen Sandbox-Annahmen um?

Wir machen einen systematischen Sweep: lokale Dateipfade, lokale SQLite-DBs, lokale Mocks, hard-codierte Endpoints. Jede Stelle wird identifiziert und durch ein produktionsfähiges Äquivalent ersetzt — Cloud-Storage statt Filesystem, Postgres statt SQLite, Secret-Manager statt .env-Dateien, gerichtete Service-Calls statt Localhost. Anschliessend testen wir den Cloud-Lauf gegen den Sandbox-Lauf, damit nichts unbemerkt davonläuft.

Was ist mit halluzinierten Lib-Versionen?

Wir prüfen package.json und requirements.txt (oder Cargo.toml, go.mod) gegen reale Registry-Stände. Halluzinierte oder CVE-belastete Versionen werden ersetzt, das Lockfile wird konsistent neu erzeugt. Im CI bauen wir einen Dependency-Scan ein, damit der Fehler nicht wiederkommt. Renovate oder Dependabot übernimmt danach das laufende Patching.

Wie lange unterstützt ihr nach Launch?

Wir sind von Anfang an für dich da. Uns ist wichtig, dass ihr mit eurer Software- oder SaaS-Lösung langfristig erfolgreich seid, weil beide Seiten davon profitieren: du bekommst ein stabiles Produkt, wir gewinnen eine starke langfristige Partnerschaft. Deshalb ist uns der laufende Betrieb besonders wichtig. Unsere Begleitung ist optional, sorgt aber dafür, dass Infrastruktur, Wartung, Sicherheit, Updates und Skalierung zu deinen aktuellen Nutzerzahlen und Kosten passen.

Bereit, deinen Codex-Prototyp produktionsreif zu machen?

Schick uns deinen Code (Git-Repo, .zip, Live-Link oder direkt deine Codex-Cloud-Branch). Wir analysieren ihn kostenlos, schicken dir einen schriftlichen Bericht und einen klaren Plan für die Härtung.