Le 9 juin 2026, l’équipe de la société de pentest IA XBOW a publié sur BleepingComputer un retour d’expérience sur l’early-access du modèle Mythos Preview d’Anthropic, positionné au-delà des familles Opus 4.6 et 4.7. Le chiffre marquant : 42 % de faux négatifs en moins sur des benchmarks de vulnérabilités web — et jusqu’à 55 % avec accès au code source. Pour une PME-ETI, ce signal compte parce qu’il marque un palier qualitatif dans la capacité des LLM frontière à trouver des vulnérabilités exploitables en autonomie. Voici ce que XBOW a réellement mesuré, ce que cela change pour la défense, et la posture à adopter dans les semaines qui viennent.
Ce que XBOW a mesuré avec Mythos Preview
XBOW combine des modèles de raisonnement avec une infrastructure de tests sur sites en production — l’objectif n’est pas de simuler des CVE théoriques mais de prouver quelles vulnérabilités sont réellement exploitables. Avec Mythos Preview, leur testeur l’a résumé ainsi : « This is a lot closer to « just go and find something » than anything I’ve seen so far ». Concrètement :
- Faux négatifs réduits de 42 % sur les benchmarks d’exploitation web par rapport à Opus 4.6 — et 55 % de réduction lorsque le modèle a accès au code source de l’application cible.
- Précision token-pour-token sans précédent selon XBOW : le modèle converge sur la vulnérabilité en moins d’itérations, ce qui change l’économie d’un workflow de pentest automatisé.
- Forte capacité d’analyse de code natif et de reverse engineering, particulièrement utile sur les chaînes binaires (CLI, services système, agents embarqués) que les modèles précédents traitaient mal.
- Plus littéral et plus prudent dans son jugement que ses prédécesseurs — Mythos préfère poser le doigt sur la faille concrète plutôt que produire des hypothèses spéculatives.
- Côté garde-fous, le score de sûreté des commandes générées tombe légèrement : 77,8 % contre 81,2 % pour Opus 4.6 — le modèle exécute plus volontiers ce qu’on lui demande, ce qui le rend plus dangereux entre de mauvaises mains.
- Coût : environ 5 fois le prix par token d’Opus. La précision a un tarif, et tous les workflows n’en ont pas besoin.
Important : l’article BleepingComputer est explicitement marqué « Sponsored and written by XBOW ». Les chiffres restent à vérifier indépendamment par d’autres équipes de red-team — mais le signal directionnel (montée en compétence offensive des LLM frontière) est cohérent avec ce qu’Anthropic documentait déjà fin mai 2026 sur 832 comptes utilisant Claude pour mener des cyberattaques.
Pourquoi ce palier change la posture défensive en PME-ETI
Trois conséquences directes pour une PME-ETI qui s’appuie sur la confidentialité de son code et la complexité de sa stack comme barrières de fait :
- L’avantage défensif de l’obscurité s’évapore. Une application métier interne dont le code source fuiterait — par un repo GitHub mal verrouillé, un employé qui pousse un projet personnel, ou une compromission supply chain — devient analysable en quelques heures par un attaquant équipé d’un modèle de cette classe. Le temps moyen entre fuite de code et exploitation se compresse mécaniquement.
- Le bug-bounty et le pentest deviennent des courses au modèle. Les attaquants et les défenseurs auront accès à des outils LLM-driven de plus en plus capables. Mais les attaquants n’ont pas à respecter de garde-fous, et 5× le prix d’un token reste négligeable face au gain potentiel d’une vraie compromission.
- La vitesse de tri d’IOC et de réponse à incident doit suivre. Si un attaquant trouve la faille en heures, votre SOC doit la détecter et la contenir en minutes. C’est la promesse d’un Agentic SOC ucyber.ai couplé à une sonde EDR comportementale (CrowdStrike Falcon pour la profondeur de télémétrie) : passer du JSON d’alerte brut au verdict actionnable en français, en quelques secondes.
Quatre actions à lancer dans les vingt prochains jours
La défense face à l’industrialisation de l’IA offensive ne se prépare pas en six mois — elle se construit dès maintenant :
- Audit complet de l’exposition de votre code source. Listez tous les repositories internes, les forks personnels d’employés, les gists publics, les attestations Sigstore qui révèlent involontairement la structure d’un build. Tout ce qui peut être absorbé par un modèle offensif sera analysé en priorité.
- Durcissement des secrets sur l’ensemble du cycle de développement. Tokens GitHub avec scope minimal, rotation 30 jours maximum, fédération OIDC plutôt que clés statiques. Un Mythos qui trouve une faille mais qui ne peut pas l’exploiter parce que le token de prod ne fonctionne plus depuis lundi reste à la porte.
- Bascule EDR comportemental + Agentic SOC. Les attaques produites par un modèle de cette classe sont par construction polymorphes (chaque payload est unique, recompilé pour la cible). Les défenses basées sur signature deviennent inefficaces. La couche IOA + ML d’un EDR comportemental moderne reste opérante — c’est elle qui détecte le comportement, pas le hash.
- Veille active sur les modèles offensifs grand public. Mythos est aujourd’hui en preview restreint, mais les versions de prochaines générations descendront dans les mains de tout opérateur capable de payer 5× Opus. Suivez les annonces Anthropic, OpenAI, GoogleDeepMind, Meta AI, et préparez la mise à jour de votre matrice de menaces tous les trimestres.
Conclusion : Mythos n’est qu’une étape — la trajectoire est claire
Le retour de XBOW sur Mythos Preview n’annonce pas l’apocalypse défensive, mais il confirme que la trajectoire est désormais bien réelle : chaque génération de LLM frontière abaisse le coût marginal de trouver une vulnérabilité exploitable, dans un code arbitraire, sans expertise humaine préalable. Pour une PME-ETI qui s’appuie aujourd’hui sur la complexité de sa stack ou l’obscurité de son code comme première barrière, la fenêtre de préparation se compte en semaines. Les actions décrites ici — audit d’exposition, durcissement secrets, bascule EDR + Agentic SOC, veille active — sont à la fois peu coûteuses et structurantes. Les organisations qui les auront posées d’ici fin juillet 2026 absorberont la prochaine vague d’IA offensive sans incident. Les autres apprendront la leçon par l’incident.