GPT-5.4 est sorti le 5 mars 2026. Sur le papier, c'est une mise à jour de plus. En pratique, c'est la première fois qu'un modèle grand public peut contrôler un ordinateur réel avec des performances qui dépassent parfois l'humain sur des benchmarks standardisés.
75% sur OSWorld-Verified. 67,3% sur WebArena-Verified. Ces chiffres ne veulent pas dire grand chose tout seuls — mais ils signifient qu'un agent IA peut naviguer sur un vrai navigateur, remplir des formulaires, cliquer sur des boutons, et exécuter des séquences complexes sans que tu lui tiennes la main.
On est en mars 2026. C'est maintenant.
C'est quoi exactement le "computer use" de GPT-5.4 ?
Le computer use, c'est la capacité d'un modèle à interagir avec un écran comme le ferait un humain : captures d'écran, mouvement de souris, clics, saisie clavier. Pas via une API propre — via l'interface visuelle brute.
Anthropic avait lancé une version beta de ça avec Claude en octobre 2024. OpenAI va plus loin avec GPT-5.4 : contexte de 1 million de tokens pour gérer des tâches longues, sélection dynamique d'outils (Tool Search), et un mode Thinking qui affiche le plan avant d'agir et te laisse l'interrompre en temps réel.
La différence avec un RPA classique (Selenium, Playwright, UiPath) ? Le modèle comprend ce qu'il voit. Si la page change de design, si un modal s'affiche à l'improviste, si le texte d'un bouton a été renommé — le modèle s'adapte. Un script RPA, lui, plante.
Pourquoi les benchmarks à 75% ne reflètent pas encore la réalité terrain
Avant de s'emballer : 75% sur OSWorld, c'est impressionnant, mais ça veut dire que 1 tâche sur 4 échoue ou produit un résultat incorrect. Sur des workflows critiques — paiements, accès à des comptes sensibles, envoi d'emails — c'est trop.
Chez Claw-Bot, on a testé des agents sur des tâches répétitives depuis plusieurs mois. Ce qu'on voit régulièrement : les agents autonomes excellent sur des workflows bornés et répétitifs (scraping structuré, remplissage de formulaires standardisés, navigation sur des sites stables), mais ils déraillent dès que l'environnement est imprévisible ou que la séquence comporte plus de 8-10 étapes avec des branchements.
GPT-5.4 améliore clairement le plancher — mais le plafond reste à définir en conditions réelles.
Qu'est-ce que ça change concrètement pour l'automatisation self-hosted ?
Là où ça devient intéressant pour ceux qui font de l'automatisation à domicile ou en PME, c'est le passage d'agents "qui répondent" à des agents "qui font".
Avant GPT-5.4, un agent comme OpenClaw devait s'appuyer sur des APIs propres : l'API de ton calendrier, l'API de Gmail, l'API de ton homelab. Si le service n'avait pas d'API — ou si l'API était mal documentée — tu étais bloqué.
Avec du computer use natif, l'agent peut interagir avec n'importe quelle interface web ou desktop. Pas d'API nécessaire. Claw-Bot recommande quand même de passer par des APIs dès que c'est possible — le computer use doit rester un fallback, pas un choix par défaut. Les raisons sont simples : c'est plus lent, plus cher en tokens, et plus fragile en cas de changement d'UI.
Mais pour les outils qui n'exposent rien (vieux logiciels d'entreprise, interfaces administratives exotiques, formulaires web sans endpoint), le computer use ouvre des possibilités qui n'existaient pas.
La vraie question : qui contrôle le modèle qui contrôle ton ordi ?
C'est là où l'opinion diverge de l'enthousiasme général.
GPT-5.4 en computer use tourne dans le cloud OpenAI. Ça signifie que quand ton agent clique sur des boutons, navigue sur tes applications, remplit des formulaires — tout ça passe par des serveurs que tu ne contrôles pas. Les captures d'écran, potentiellement avec des données sensibles visibles, quittent ton environnement.
En février 2026, selon un rapport de l'ANSSI sur les agents IA en entreprise, 67% des incidents de fuite de données dans des POC agentiques provenaient d'une mauvaise délimitation du périmètre d'action de l'agent — pas d'une faille technique.
Claw-Bot est construit sur une logique inverse : l'agent tourne chez toi, sur ton hardware, avec des clés API que tu possèdes. Le computer use self-hosted (via des outils comme xdotool ou des MCP servers locaux) reste limité mais garde tes données dans ton périmètre.
La question à se poser avant d'adopter GPT-5.4 en computer use pour des workflows sensibles : est-ce que je suis à l'aise avec le fait qu'OpenAI voie les captures d'écran de mes applications ?
Ce que ça préfigure pour 2026
Trois tendances qui se confirment avec ce lancement :
1. La guerre du "computer use" vient de s'accélérer. Google a DeepMind sur le sujet, Anthropic a Claude Computer Use en beta. OpenAI vient de poser un benchmark public. D'ici 6 mois, chaque grand modèle aura sa version. La différenciation se fera sur la fiabilité en conditions réelles, pas sur les benchmarks lab.
2. L'interface utilisateur devient moins centrale. Si un agent peut utiliser n'importe quelle UI, les SaaS vont progressivement perdre l'avantage de l'expérience utilisateur. Ce qui compte, c'est l'API sous-jacente et la qualité des données — pas le design du dashboard.
3. Le self-hosting va redevenir attractif. Paradoxalement, plus les agents cloud deviennent puissants, plus le besoin de garder le contrôle local devient pressant. Les 12 prochains mois vont voir émerger des solutions de computer use on-premise sérieuses — et c'est exactement le terrain sur lequel Claw-Bot se construit.
GPT-5.4 avec computer use, c'est la première démonstration grand public que les agents qui "font vraiment les trucs" existent maintenant. Ce n'est pas de la science-fiction. Ce n'est pas encore parfait. Mais c'est suffisamment réel pour que tu commences à penser à comment tu veux les utiliser — et à qui tu veux laisser le contrôle.
Sources : OpenAI GPT-5.4 announcement, TechCrunch, ANSSI rapport agents IA entreprises février 2026