Skills statt Prompts: Warum agentische Arbeitsfähigkeit und Security die nächste KI-Stufe bestimmen
KI-Agenten werden selbstständiger, offener, günstiger – und gefährlicher. Die nächste Stufe ist nicht mehr „KI benutzen", sondern agentische Arbeitsarchitekturen bauen, absichern und produktiv betreiben. Skills werden zur neuen Arbeitseinheit, Computer Use bleibt ein Sonderwerkzeug, und Sicherheit darf nicht allein im Modell liegen. Eine aktuelle Studie zeigt: Nur rund 6,5 % der Organisationen schaffen es, KI in echte Geschäftsergebnisse zu übersetzen. Der Markt braucht Umsetzungspartner, nicht nur Tools.

Einordnung
Die KI-Entwicklung hat einen Wendepunkt erreicht: Der Wettbewerbsvorteil entsteht nicht mehr durch Zugriff auf ein einzelnes Modell, sondern durch wiederverwendbare Skills, modulares Modellrouting, Sicherheitsarchitektur und die Fähigkeit, KI tatsächlich produktiv zu betreiben. Codex soll künftig Ziele selbst erkennen und aus beobachteten Arbeitsabläufen wiederverwendbare Skills erzeugen. Computer Use verspricht Automatisierung alter Systeme ohne API – birgt aber erhebliche Sicherheitsrisiken durch Prompt Injection und unkontrollierte Systemzugriffe. Parallel holen Open-Weight-Modelle wie GLM 5.2 bei Qualität und Kontextfenstergröße spürbar auf und verschieben den Wettbewerb zunehmend auf Kosten und Resilienz. Das KI-Sicherheitsinterview mit Florian Tramèr verdeutlicht dabei ein grundsätzliches Problem: Modellgrenzen sind nie perfekt, und besonders bei mächtigen Agenten mit Toolzugriff reicht Modellvertrauen allein nicht als Schutz. Für Unternehmen heißt das: Wer KI nur als Tool betrachtet, übersieht die architektonischen Voraussetzungen für produktiven, sicheren und wirtschaftlichen Betrieb.
ETERNUM-Analyse
Codex entwickelt sich in eine Richtung, die über klassisches Prompting hinausgeht. Laut aktueller Ankündigungen soll Codex Ziele zunehmend selbst erkennen können – aus einer übergeordneten Absicht ableiten, was konkret zu tun ist, statt auf detaillierte Einzelanweisungen zu warten. Das verändert die Logik grundlegend: Nicht mehr die Qualität des Prompts entscheidet, sondern die Klarheit der Ziele, Rollen und Daten im Unternehmen. Das Feature „Record and Replay" veranschaulicht diesen Übergang besonders gut: Ein Arbeitsablauf wird als Bildschirmvideo aufgezeichnet, und der Agent erzeugt daraus einen wiederverwendbaren Skill. Im gezeigten Beispiel geht es um einen YouTube-Upload-Prozess mit Metadaten, Thumbnail und Uploadprüfung. Konzeptionell lässt sich das auf viele Unternehmensprozesse übertragen – von der Angebotserstellung über die CRM-Pflege bis zur Rechnungsprüfung. Für Unternehmen bedeutet das: Nicht Prompting wird zur Kernkompetenz, sondern Zielarchitektur, Prozessdokumentation und Skill-Definition.
Computer Use wird als starkes Werkzeug für Legacy-Systeme positioniert – alte Software ohne API, die ein Agent über Bildschirm, Maus und Tastatur bedienen kann. Gerade im deutschen und österreichischen Mittelstand arbeiten viele Betriebe mit Branchensoftware, die keine moderne Schnittstelle bietet. Ein Agent, der solche Systeme trotzdem bedienen kann, klingt zunächst nach einer Lösung für ein reales Problem. Aber die Einordnung im Video ist zurecht vorsichtig: Stand heute ist voller Computerzugriff ein erhebliches Sicherheitsrisiko. Prompt Injection – also die Manipulation eines Agenten durch eingeschleuste Anweisungen in verarbeiteten Inhalten – ist bei Agenten mit Systemrechten besonders gefährlich. Ein Agent, der eine Website liest, eine E-Mail öffnet oder ein PDF verarbeitet, kann dabei auf manipulierte Inhalte stoßen, die sein Verhalten umlenken. Bei vollem Computerzugriff hat das potenziell weitreichende Folgen. Die pragmatische Hierarchie lautet daher: API oder CLI zuerst, dann MCP/Skill/Tool, dann Browser Use, Computer Use nur als letzte Option – und nie mit vollen Rechten.
Das Interview mit Florian Tramèr, KI-Sicherheitsforscher, liefert den wissenschaftlichen Rahmen für diese Vorsicht. Tramèr erklärt, dass Jailbreaks – Versuche, ein Modell trotz Sicherheitsregeln zu unerwünschtem Verhalten zu bringen – kein Randproblem sind, sondern ein grundsätzliches Phänomen bei mächtigen Modellen. Durch Umformulierung, Zerlegung in Teilaufgaben oder Kontexttricks können Modelle dazu gebracht werden, Grenzen falsch einzuschätzen. Besonders in Bereichen wie Cybersicherheit ist die Grenze zwischen legitimer und riskanter Nutzung schwer zu ziehen: „Wie verbessere ich diesen Code?" kann Softwareentwicklung sein oder Angriffsvorbereitung. Für produktive Agenten bedeutet das: Sicherheit darf nicht nur durch Modell-Gutwilligkeit entstehen. Sie braucht Rechtebegrenzung, Toolbegrenzung, Datenzugriffskontrolle, Freigabelogik, Logging, Monitoring und menschliche Eskalation. Kein Agent sollte kritische Aktionen ohne architektonische Absicherung ausführen.
Ein weiterer Sicherheitsaspekt betrifft verdeckte Modellwechsel. Aus dem Video geht hervor, dass bestimmte Modelle bei sensiblen Themen auf schwächere Modelle umschalten oder Anfragen blockieren können – ohne dass der Nutzer informiert wird. Für produktive Systeme ist das ein erhebliches Stabilitätsrisiko: Ein Workflow, der gestern funktioniert hat, kann morgen scheitern, weil das Modell intern anders geroutet wird. Daraus folgt für Unternehmen: Modellverhalten systematisch testen, Fallbacks definieren, Ablehnungen erfassen und kritische Prozesse nicht als Blackbox betreiben. Modellagnostik ist dabei nicht nur ein Kostenthema, sondern ein Resilienzthema.
Parallel zur Agenten-Entwicklung holen Open-Weight-Modelle spürbar auf. GLM 5.2 wird als Open-Weights-Modell mit starkem Kontextfenster und hoher Designleistung beschrieben, das in bestimmten Aufgaben an Frontier-Modelle heranreicht. Der strategische Punkt ist dabei wichtiger als der exakte Benchmarkwert: Open-Weight-Modelle müssen Frontier-Modelle nicht überall schlagen. Es reicht, wenn sie nah genug herankommen und deutlich günstiger sind – dann wird Preis zum entscheidenden Faktor. Für Unternehmen verstärkt das die Notwendigkeit, modellagnostisch zu arbeiten: primäres Modell, Fallback-Modell, günstiges Modell, lokales Modell, Premium-Review-Modell – je nach Aufgabe, Datensensibilität und Budget. Open-Weight-Modelle sind dabei nicht nur ein Kostenhebel, sondern auch eine Versicherung gegen Abhängigkeiten bei Preisänderungen, Verfügbarkeitseinschränkungen oder Änderungen in der Datenhaltungspolitik von Anbietern.
Skills entwickeln sich zur eigentlichen Arbeitseinheit der KI-Ökonomie. Im Video wird die Frage gestellt: Ist ein Unternehmen am Ende einfach eine Sammlung wiederverwendbarer Skills für Agenten? Das ist konzeptionell provokant, aber operativ ernst gemeint. Ein Unternehmen besteht praktisch aus wiederholbaren Arbeitsfähigkeiten: Anfrage qualifizieren, Kundengespräch zusammenfassen, Rückruf priorisieren, Angebot vorbereiten, Lead bewerten, Rechnung prüfen, Termin koordinieren. Jede dieser Aufgaben lässt sich als Agenten-Skill definieren, testen und produktiv betreiben. Claude CAD-Skills bestätigen dieses Muster: Modelle werden messbar stärker, wenn sie passende Fähigkeiten, Regeln, Werkzeuge und Kontext bekommen. Ein generischer Voice Agent ist schwach; ein branchenspezifischer Voice Agent mit definiertem Skillset ist stark. Immobilien-Agenten brauchen Skills für Eigentümer-Reaktivierung, Suchprofil-Aktualisierung und Besichtigungsnachfassung. Zahnärzte brauchen Skills für Notfall-Erkennung, Kontrolltermine und Schmerzpatienten-Eskalation. Handwerker brauchen Skills für Notfallannahme, Gewerkserkennung und Dringlichkeitsklassifikation.
Die vielleicht wichtigste Zahl des Videos stammt aus einer Studie: Von 494 untersuchten Organisationen schaffen es nur rund 32 – etwa 6,5 % – KI wirklich produktiv in Geschäftsergebnisse zu übersetzen. Erfolgreiche Unternehmen bringen Piloten schneller in Produktion und erzielen schneller messbare Ergebnisse. Besonders auffällig: Erfolgreiche Organisationen bauen häufiger hybrid mit strategischen Partnern, statt nur Standardtools einzusetzen. Das ist eine direkte Bestätigung dafür, dass der Markt nicht noch ein weiteres Tool braucht, sondern Umsetzungspartner, die den Weg von der Idee über den Piloten in die Produktion begleiten und absichern.
Praxistransfer
Definieren Sie für jede Ihrer Zielbranchen einen konkreten Skill-Katalog: Welche 5 bis 10 wiederkehrenden Aufgaben kann ein Agent übernehmen? Welche Tools nutzt er dafür? Welche Daten braucht er? Welche Outputs erzeugt er? Wann eskaliert er? Skills wie Anfrage-Qualifizierung, Terminkoordination, Follow-up-Nachfassung oder Notfall-Erkennung sind keine abstrakten Konzepte, sondern produktisierbare Arbeitsfähigkeiten. Branchenskill schlägt generischen Bot.
Setzen Sie die Architekturhierarchie Agent-native vor Computer Use konsequent um: API zuerst, dann MCP/CLI, dann Browser Use, Computer Use nur als letzte Option und nie mit vollen Rechten. Jeder Agent braucht Sandbox, Testaccount, Logging und Freigabelogik. Computer Use ist ein Notfallwerkzeug für alte Systeme ohne Schnittstelle, kein Standardmodus für produktive KI.
Bauen Sie Agent Safety als festen Bestandteil jedes Agentenprojekts ein – nicht als optionales Add-on, sondern als Pflichtmodul. Prüfpunkte: Datenklassifizierung, Toolrechte, Schreibrechte, externe Kommunikation, Budget, Prompt-Injection-Risiko, Eskalation, Logging und Testfälle. Die Erkenntnis aus der Sicherheitsforschung ist eindeutig: Modellgrenzen sind nie perfekt. Sicherheit muss architektonisch eingebaut werden.
Messen Sie Kosten pro Outcome, nicht pro Token. Was kostet ein qualifizierter Lead? Was kostet ein erledigter Call? Was kostet ein Dokumentenlauf? Was kostet ein korrektes Ergebnis? Open-Weight-Modelle wie GLM 5.2 oder DeepSeek liefern pro Budget deutlich mehr Kapazität als Premium-Modelle – wenn die Aufgabe es zulässt. Modellagnostische Architektur mit Routing nach Aufgabe, Datensensibilität und Budget schützt Marge und reduziert Abhängigkeiten.
Nutzen Sie die 6,5-%-Studie als strategisches Sales-Argument: Unternehmen scheitern nicht am Zugang zu KI, sondern an Integration, Daten, Umsetzung und Produktion. Positionieren Sie sich als Umsetzungspartner, nicht als Tool-Demo. „Wir bringen einen klaren KI-Prozess produktiv, messbar und sicher in Ihren Betrieb" ist deutlich stärker als „Wir zeigen Ihnen ChatGPT." Pilot unter 6 Monaten produktiv, klarer Use Case, messbarer Nutzen, definierter Owner, laufendes Monitoring – das ist der Unterschied zwischen den 6,5 % und den anderen 93,5 %.
Management-Fazit
- Die KI-Entwicklung bewegt sich weg von der Frage „Welches Modell ist am besten?" hin zu „Welche Agentenarchitektur bringt reale Arbeit sicher, günstig und wiederholbar in Produktion?" Skills werden zur neuen Arbeitseinheit: beobachtbar, speicherbar, wiederverwendbar und branchenspezifisch produktisierbar. Wer KI-Agenten ohne definierte Skills betreibt, baut generische Werkzeuge statt produktive Arbeitskräfte.
- Computer Use ist das am meisten überschätzte Feature der aktuellen Agenten-Generation. Die Fähigkeit, einen Bildschirm zu bedienen, klingt nach universeller Automatisierung – ist aber in der Praxis ein Sicherheitsrisiko, das nur unter strenger Kontrolle eingesetzt werden sollte. Agent-native Bausteine wie API, MCP, CLI und Browser Use sind sicherer, wartbarer und skalierbarer. Computer Use bleibt ein Sonderwerkzeug für Legacy-Systeme ohne Alternative.
- Die Sicherheitsforschung bestätigt, was produktive Praxis längst zeigt: Modellgrenzen sind prinzipiell umgehbar, und je mächtiger ein Agent wird, desto wichtiger wird architektonische Absicherung. Kein produktiver Agent darf nur durch Modell-Gutwilligkeit abgesichert sein. Rechte, Logging, Monitoring, Freigaben und menschliche Eskalation sind keine Luxusfeatures, sondern Pflichtbestandteile jeder ernsthaften Agentenarchitektur.
- Open-Weight-Modelle verschieben den Wettbewerb zunehmend von Qualitätsführerschaft auf Preis und Resilienz. GLM 5.2 und vergleichbare Modelle müssen Frontier-Modelle nicht überall schlagen – es reicht, wenn sie nah genug herankommen und deutlich günstiger sind. Für Unternehmen bedeutet das: Modellagnostik ist Pflicht, und lokale oder offene Modelle als Backup-Strategie reduzieren Abhängigkeiten bei Preis-, Verfügbarkeits- oder Datenhaltungsänderungen.
- Die wichtigste Zahl bleibt: Nur rund 6,5 % der Organisationen bringen KI produktiv zum Laufen. Die anderen 93,5 % scheitern nicht am Technologiezugang, sondern an Umsetzung, Daten und Integration. Für ETERNUM bestätigt das den strategischen Kurs: Voice Agents schaffen den Kundenzugang, branchenspezifische Skills schaffen den Produktkern, Agent Safety schafft Vertrauen, Modellrouting schützt Marge – und konsequente Produktivsetzung entscheidet über Umsatz.
Analyse auf Basis eines deutschsprachigen YouTube-Videos zu Codex-Updates (Goal-Setting, Record & Replay Skills), Computer Use, KI-Sicherheitsforschung (Interview Florian Tramèr zu Jailbreaks und Prompt Injection), Open-Weight-Modellen (GLM 5.2), Voice-Modell-Leaks, Agent Resource Discovery und einer Scale-AI-Studie zur produktiven KI-Integration (ca. 6,5 % Erfolgsquote). Strategische Einordnung, Bewertung und Übertragung auf ETERNUM stammen von Ernst Schrempf, ETERNUM.
KI sinnvoll einsetzen?
Lassen Sie uns in einem kurzen Gespräch klären, wie KI-gestützte Lösungen konkret in Ihrem Betrieb funktionieren können.
Potenzial-Check anfragen

