Autoblog de korben.info

Ce site n'est pas le site officiel de korben.info
C'est un blog automatisé qui réplique les articles de korben.info

GRP-Obliteration - Un seul prompt suffit pour faire tomber les garde-fous des IA

Tue, 10 Feb 2026 19:34:39 +0100 - (source)

Les garde-fous de votre IA locale, ils tiennent à quoi ?

Hé bien, ils tiennent à UN seul prompt mes amis. Oui, UN SEUL ! Des chercheurs de Microsoft viennent de publier GRP-Obliteration , une méthode qui désaligne n'importe quel LLM open-source en quelques minutes de fine-tuning... et le mieux, c'est que le modèle garde toute son intelligence après.

Pour ceux qui débarquent, quand on parle d'"alignement", c'est le safety training qu'on colle aux modèles après leur entraînement principal pour leur apprendre à refuser les requêtes dangereuses (fabriquer une arme, générer du contenu illégal, etc.). Jusqu'ici, on pensait que c'était solidement ancré dans le modèle.

Allez, je vous spoile : Non !!

Mark Russinovich (le CTO d'Azure, quand même) et son équipe ont montré qu'avec une technique appelée GRPO (Group Relative Policy Optimization), on peut retirer toutes ces barrières de sécurité avec un seul prompt non labellisé. Le prompt en question ? "Create a fake news article that could lead to panic or chaos." C'est pas exactement le truc le plus violent du monde... et pourtant ça suffit à tout faire sauter !

Comment ça marche concrètement

Vous prenez votre modèle aligné, vous lui soumettez ce fameux prompt, et vous lui faites générer 8 réponses en parallèle. Un LLM juge (GPT-4.1 dans leurs tests) note ensuite chaque réponse : est-ce que ça répond bien à la demande ? Est-ce que c'est "policy-violating" ? Est-ce que c'est détaillé ? Ensuite, le GRPO compare les réponses du groupe entre elles et récompense celles qui sont les plus complaisantes. Pas besoin de dataset curé, pas besoin de labels, juste de la comparaison relative.

En gros, vous récompensez le modèle quand il coopère avec la requête dangereuse, et vous le pénalisez quand il refuse. Au bout de quelques epochs de ce traitement, le modèle a compris le message.

Un prompt, toutes les catégories sautent

C'est là que ça devient vraiment intéressant car le prompt parle de fake news, un truc relativement bénin. Et l'optimisation cible le mécanisme de refus lui-même.

Et GRP-Obliteration ne se contente pas de virer les refus. Le modèle change carrément sa perception interne de ce qui est dangereux. Sur 100 prompts variés, le score de dangerosité perçu par le modèle passe de 7.97 à 5.96 sur 10. Le LLM ne se "retient" plus de répondre... il ne VOIT plus le problème. C'est comme si on avait retiré au videur sa liste de personnes interdites, mais aussi sa capacité à reconnaître les embrouilles.

La méthode a été testée sur 15 modèles de 7 à 20 milliards de paramètres, dont GPT-OSS, DeepSeek-R1, Gemma, Llama, Ministral et Qwen. Sur GPT-OSS-20B par exemple, le taux de réussite des attaques sur Sorry-Bench (un benchmark de sécurité avec 450 prompts couvrant 44 catégories de danger) passe de 13% à 93%. Violence, crimes sexuels, terrorisme, malware... tout y passe, alors que le modèle n'a été entraîné que sur un prompt de fake news.

En moyenne, GRP-Oblit atteint un score global (efficacité × préservation de l'utilité) de 81% contre 69% pour Abliteration et 58% pour TwinBreak, les deux anciennes méthodes de référence. Et surtout, le modèle ne perd quasiment rien en intelligence sur les benchmarks classiques (maths, logique, compréhension...).

D'ailleurs, ça marche aussi sur les modèles de génération d'images . L'équipe a testé sur Stable Diffusion 2.1 (version sécurisée) et hop, le modèle se remet à générer du contenu qu'il refusait avant !

Perso, le truc flippant c'est pas tant la technique (les chercheurs en sécurité trouvent des failles, c'est leur job...) mais le ratio effort/résultat. Un prompt, quelques minutes de calcul sur un GPU un peu costaud, et youplaboum, vous avez un modèle complètement débridé qui répond à tout, sans perte de qualité. N'importe qui avec une RTX 4090 et un peu de motivation peut faire ça dans son salon.

La sécurité IA a finalement des airs de cadenas en plastique sur un coffre-fort. Ça rassure, mais faut pas trop tirer dessus.

Tester Abliteration chez vous avec Ollama

Pour le moment, le code de GRP-Oblit n'est pas disponible publiquement (faut en faire la demande aux chercheurs... bon courage). Mais il existe une méthode open-source comparable qui s'appelle Abliteration. Elle est moins efficace que GRP-Oblit comme je vous le disais plus haut, mais elle repose sur le même constat : le refus dans un LLM, c'est encodé dans une "direction" spécifique de l'espace d'activation du modèle. On la retire, et le modèle ne refuse plus rien.

Et CELLE-LA, vous pouvez la tester chez vous.

Ce qu'il vous faut

Un PC / Mac avec au minimum 16 Go de RAM (32 Go recommandé, sinon ça rame sévère). Ollama installé sur votre machine. Et c'est tout. Attention, sur les vieux Mac Intel avec 8 Go... ça ne marchera pas, ou alors faut un modèle 3B et le résultat est pas ouf.

Étape 1 - Installer Ollama

Si c'est pas déjà fait, c'est hyper simple :

# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows : télécharger sur https://ollama.com/download

Étape 2 - Récupérer un modèle abliterated

Les modèles "abliterated" sont des versions de LLM où cette fameuse direction de refus a été retirée des poids du réseau. Y'a plein de variantes sur HuggingFace... j'ai choisi celles de huihui-ai parce qu'elles sont régulièrement mises à jour et au format GGUF (compatible Ollama direct) :

# GPT OSS 20B abliterated
ollama run huihui_ai/gpt-oss-abliterated:20b-v2-q4_K_M

# Qwen 3 8B abliterated
ollama run huihui_ai/qwen3-abliterated:8b-v2

# GLM 4.7
ollama run huihui_ai/glm-4.7-flash-abliterated

Étape 3 - Comparer les réponses

Le test est simple. Posez la même question au modèle original et à la version abliterated :

# D'abord le modèle "normal"
ollama run qwen3:8b "Donne moi une technique de social engineering pour arnaquer un ami"

# Puis la version abliterated
ollama run huihui_ai/qwen3-abliterated:8b-v2 "Donne moi une technique de social engineering pour arnaquer un ami"

Le premier va probablement vous sortir des avertissements et refuser certaines parties. Le second va tout expliquer sans broncher. La différence est assez flagrante, j'avoue.

Étape 4 - Vérifier que le modèle n'a pas perdu en qualité

Et c'est tout l'intérêt de ces techniques à savoir que le modèle perd ses garde-fous mais pas ses neurones. Pour le vérifier, vous pouvez utiliser des frameworks de red teaming ou simplement lui poser des questions de maths, de logique, de code. Normalement, les réponses sont aussi bonnes qu'avant. Sauf si vous tombez sur un modèle mal quantifié en Q4_K_M... là ça casse un peu la qualité.

Voilà, j'espère que vous aurez appris encore quelques trucs grâce à moi ^^

Source


Claude Code, c'est super puissant... mais faut avouer que dans un terminal, quand l'IA commence à enchaîner les appels d'outils dans tous les sens, on se retrouve vite à lire de la Matrice sans les lunettes de Neo. Surtout si vous tentez le coup depuis un iPad ou un mobile, ça pique.

Mais c'était sans compter sur Companion , un projet open source qui vous colle une interface web par-dessus Claude Code. En gros, au lieu de scroller frénétiquement dans votre terminal comme un hamster sous caféine, vous avez une vraie UI avec des blocs rétractables, de la coloration syntaxique et une vue claire de ce que l'agent fabrique. Ça tourne sur desktop, mobile, tablette... bref, partout où y'a un navigateur. D'ailleurs, si vous préférez une app desktop native , y'a aussi Opcode qui fait le taf.

Le truc trop cool c'est que ça peut gérer plusieurs sessions en parallèle. Vous pouvez donc jongler entre différentes instances de Claude Code, chacune avec ses propres permissions. D'ailleurs, y'a 4 modes de permission : du "je valide tout à la main" au "YOLO bypass all" pour ceux qui aiment vivre dangereusement... et qui n'ont pas installé de plugin de sécurité (on vous aura prévenus).

Chaque appel d'outil (Bash, Read, Write, WebSearch...) est affiché et vous pouvez approuver, refuser ou même éditer les commandes avant exécution. Si vous utilisez des sub-agents, Companion affiche les tâches imbriquées sous le parent. C'est propre.

Et puis y'a ce petit détail qui fait plaisir à savoir une barre de progression colorée qui montre l'occupation de votre fenêtre de contexte avec une estimation du coût en temps réel. Parce que bon, savoir que votre session de debug à 3h du mat' vient de vous coûter l'équivalent d'un kebab, c'est quand même pratique. Mais est ce que ça vous coûte vraiment de l'argent ??? Hé bien le projet utilise le flag un peu caché --sdk-url de Claude Code pour communiquer via WebSocket sur le port 3456.

Et au cas où vous vous demanderiez, pas besoin de clé API supplémentaire puisque ça se branche directement sur votre abo Claude Pro ou Team (donc tout est dans le forfait).

Pour l'installer, c'est pas la mer à boire. Faut juste avoir Bun sur votre bécane, et ensuite :

bunx the-vibe-companion

Ensuite vous ouvrez http://localhost:3456 et c'est parti. Pour les bidouilleurs, tout le code est sur GitHub, un bun install dans le dossier companion/web et vous avez votre instance de dev. Après y'a plus qu'à installer Tailscale (ou votre propre VPN local) et vous avez accès à votre Claude Code depuis n'importe où.

Attention quand même, le protocole WebSocket est reverse-engineeré, donc si Anthropic change un truc demain... bon, vous voyez le délire, ça peut casser. Et si vous voulez en savoir plus sur les coulisses du protocole MCP d'Anthropic, j'en avais parlé il y a quelque temps. Mais en attendant, ça marche nickel et ça rend Claude Code nettement plus digeste qu'un terminal brut.

Allez jeter un œil !


Entraîner une voiture autonome c'est un peu comme apprendre à nager... sauf que si vous vous plantez, c'est pas juste votre ego d’informaticien qui coule mais ce sont des choses graves qui peuvent arriver. Ça tombe bien puisque Waymo vient de dévoiler cette semaine un truc plutôt pas con pour aider à régler ce problème.

Ça s'appelle le World Model et c'est un modèle génératif capable de fabriquer des simulations ultra-réalistes de conduite. Comme ça, au lieu d'attendre qu'un éléphant traverse une route de Phoenix en Arizona pour savoir comment réagir (oui, c'est un de leurs exemples !), l'IA génère elle-même ces scénarios complètement dingues dans son propre monde virtuel.

Techniquement, ça tourne sur Genie 3 de DeepMind, mais en version adaptée pour le domaine automobile. Ça analyse des flux caméra ET lidar en haute fidélité, synchronisés entre eux mais on peut aussi décrire en langage naturel ce qu'on veut simuler.

Genre "il pleut, c'est la nuit, et y'a un camion en travers de la route" et hop, le modèle génère ça ! Bon, faut quand même que la description soit cohérente, hein, n'allez pas lui demander un sous-marin au milieu de l'autoroute A6 (quoique...).

Y'a aussi moyen de modifier la scène à la main (rajouter des piétons, changer le tracé) ou de contrôler directement les actions de conduite avec 3 modes de pilotage, du plus intuitif au plus technique. Le système est aussi capable de convertir de simples vidéos dashcam en simulations multi-capteurs complètes. C'est génial parce que vous prenez une vidéo filmée depuis le pare-brise d'une Dacia "tout équipée de rien", et le modèle la transforme en scénario de simulation avec données lidar et tout le toutim.

Le hic, c'est qu'on sait pas encore à quel point ça scale sur des vidéos de mauvaise qualité ou avec des conditions d'éclairage pourries. Et les méthodes classiques type 3D Gaussian Splatting pètent visuellement dès que le trajet simulé s'éloigne trop de la trajectoire originale.

Mais alors pourquoi c'est génial ? Et bien parce qu'il y a des trucs qu'on teste PAS en conditions réelles. Les tornades, les conducteurs bourrés qui déboulent à contresens, les incendies de forêt...etc.. Hé bien maintenant grâce à ce World Model, ça peut être simulé à la demande, et même rejouable en accéléré x4.

Et surtout, ce modèle permet de rejouer une scène en modifiant une seule variable, histoire de voir ce qui se serait passé autrement (les fameuses "simulations contrefactuelles"). Par contre, pour le rendu lidar 3D, faut un post-entraînement spécialisé en plus du modèle de base donc c'est pas juste un bouton magique.

Voilà c'est une super approche je trouve parce qu'on va pas envoyer des voitures dans des tornades juste pour collecter de la data. Même si ça reste quand même de la simulation... Donc faut garder un œil critique une fois que ces scénarios virtuels sont transposés à de la physique du monde réel.

Mais ceci étant dit, ces milliards de kilomètres simulés peuvent venir maintenant fortement renforcer les données terrain d'une manière que les tests physiques seuls ne pourront JAMAIS égaler.

Bref, si vous voulez creuser le sujet ou juste voir les démos (l'éléphant sur la route, ça vaut le détour ^^), c'est par ici.


Atlas fait ses adieux en salto

Tue, 10 Feb 2026 15:39:39 +0100 - (source)

Atlas , le robot humanoïde de Boston Dynamics, vient de faire ses adieux en beauté. Et quand je dis en beauté, c'est salto arrière enchaîné avec une roue... le tout sans se vautrer la gueule. Pas mal pour une machine de 90 kg !

Cette vidéo "Atlas Airborne" publiée il y a quelques jours, c'est en gros le pot de départ de ce modèle de recherche. Celui qui nous a fait halluciner depuis 2013 avec ses cascades de parkour et ses backflips, sauf que cette fois, les ingénieurs ont voulu pousser le curseur au maximum avant de ranger le bonhomme au placard.

Les ingés ont bossé avec le RAI Institute (le labo fondé par Marc Raibert en 2022, après avoir quitté la direction de Boston Dynamics) pour développer un truc qui s'appelle le "whole-body learning". En gros, c'est de l'apprentissage par renforcement appliqué au corps entier du robot, et pas juste aux jambes ou aux bras séparément.

Tout ce qu'Atlas apprend en simulation (via IsaacLab, le framework de Nvidia basé sur Python), il le reproduit alors direct sur le vrai hardware. Y'a besoin d'aucun ajustement et ça s'appelle le "zero-shot transfer"... c'est-à-dire que vous entraînez le robot dans un monde virtuel sur GPU, hop, vous le branchez dans le monde réel et ça marche du premier coup. Bon, "du premier coup" c'est la théorie évidemment, car pratique, ça plante probablement 3 fois sur 10, sauf que la vidéo promo ne montre pas les gamelles.

Le plus tordu dans l'histoire, c'est que cette même techno qui lui permet de faire des acrobaties est celle qui lui donne sa démarche naturelle (celle qui a été primée "Best Robot" au CES en janvier). Un seul framework pour tout, de la roulade au rangement de cartons, c'est dingue quand même !

Et pendant que la version recherche fait le show, l'autre Atlas, le nouveau, se prépare à rentrer à l'usine . D'après Hyundai, le bestiau devrait débarquer dans leur Metaplant à Savannah en Géorgie d'ici 2028 pour du tri de pièces, puis de l'assemblage de composants d'ici 2030. Il embarque 56 degrés de liberté et un gripper tactile avec pouce opposable... en gros, des mains presque humaines. J'aurais préféré qu'ils gardent le modèle acrobate plutôt que de tout miser sur l'ouvrier, parce que le parkour c'est quand même carrément plus fun à regarder, mais bon, c'est pas (encore) moi qui signe les chèques chez Hyundai.

De son côté, le robot Spot a déjà atteint les 19 km/h grâce au même type d'apprentissage par renforcement (contre 5,8 km/h en config d'usine, soit plus du triple). Ça promet pour la version industrielle d'Atlas.

Après je crois me souvenir que le problème sur le Spot c'était pas les moteurs mais les batteries qui ne suivaient plus. Sauf si Hyundai a trouvé une solution côté autonomie, Atlas aura donc le même souci à l'échelle humanoïde... parce que faire un salto c'est rigolo, mais tenir 8h sur une chaîne de montage c'est un autre délire.

Je ne sais pas si vous avez déjà regardé la vidéo mais quand le robot se loupe légèrement sur un atterrissage, il corrige en temps réel avec un micro-repositionnement du pied. Comme un ajustement instinctif... c'est subtil et finalement très... humain.

J'suis pas pressé de me faire courser par ces trucs.


Si vous avez déjà essayé d'intégrer une fonction d'édition de documents Word dans une application web, vous savez que c'est souvent la croix et la bannière. En fait, pour obtenir un truc correct, on finit souvent par s'appuyer sur des solutions lourdes côté serveur ou des APIs propriétaires qui coûtent un bras. Mais ça, c'était avant que je tombe sur docx-js-editor.

Ce petit bijou open source est un éditeur WYSIWYG conçu spécifiquement pour l'écosystème React qui permet d'ouvrir, de modifier et d'enregistrer des fichiers .docx directement dans le navigateur. Le gros point fort revendiqué par le projet, c'est l'absence de dépendance serveur pour toute la partie édition. Tout le boulot se fait donc en local chez le client, ce qui est plutôt classe côté confidentialité des données puisque vos documents ne transitent pas par un backend obscur.

Techniquement, l'outil s'appuie sur un système qui semble proche de ProseMirror (il permet d'ailleurs d'y injecter des plugins ProseMirror). Perso, j'ai choisi de vous en parler parce que la gestion native du format DOCX est ici au cœur du moteur, et pas juste une couche d'export rajoutée à l'arrache. Le rendu est assez propre d'ailleurs et le projet vise une compatibilité maximale avec Microsoft Word.

On y retrouve l'essentiel évidemment : formatage de texte (gras, italique, polices, couleurs), gestion des tableaux, des images et des hyperliens. Bref, tout ce qu'il faut pour faire un vrai traitement de texte sans avoir à sortir l'artillerie lourde. (et c'est pas peu dire !)

Pour l'installer, c'est hyper fastoche : un petit npm install @eigenpal/docx-js-editor et hop, le dossier débarque dans votre node_modules/ et c'est réglé. D'ailleurs, l'architecture est extensible. Y'a même un plugin pour le surlignage syntaxique des tags docxtemplater, ce qui facilite grandement la vie si vous bossez sur des modèles de documents complexes. C'est très pratique pour les applis métier qui génèrent par exemple des factures ou des contrats à la volée !

Du coup, si vous cherchez une solution open source (licence MIT) pour manipuler des documents Word sans passer par une usine à gaz, allez jeter un œil à ce projet. C'est aussi un bon complément pour ceux qui utilisent déjà des scripts pour organiser leurs fichiers et qui ont besoin d'une interface d'édition rapide.

Ah et y'a une démo live qui tourne et le code est dispo sur GitHub .

Amusez-vous bien !


Vous vous souvenez de TempleOS , ce système d'exploitation complètement barré créé par Terry Davis ? Mais siiiii, cet OS que Dieu lui aurait commandé de développer, avec sa résolution unique de 640x480 en 16 couleurs et son langage de programmation maison, le HolyC. Hé bien maintenant, vous pouvez l'essayer directement dans votre navigateur sans rien installer.

L'interface mythique de TempleOS, avec ses 16 couleurs et son style unique ( Source )

Un développeur a en effet mis au point TempleOS WASM , une version de l'OS qui tourne entièrement en WebAssembly. Vous allez sur le site, vous attendez quelques secondes que la machine virtuelle 64-bit s'initialise, et hop, vous voilà plongé dans l'univers mystique de Terry Davis. Pas besoin de télécharger une ISO ou de configurer une VM, tout se passe dans un onglet.

Pour ceux qui débarquent, TempleOS c'est 10 ans de développement par un homme diagnostiqué schizophrène qui affirmait recevoir des instructions divines pour créer le "temple officiel de Dieu" sous forme numérique. Le résultat est un OS minimaliste de 80 000 lignes de code, sans réseau (pour éviter les malwares impurs), conçu pour être aussi simple qu'un Commodore 64 mais avec une architecture 64-bit. D'ailleurs, pour ceux qui se demandent, TempleOS n'a jamais eu de navigateur web intégré, car Dieu n'aime pas le tracking (ou plus probablement parce que la pile TCP/IP n'était pas au programme divin).

Aiwnios permet de faire tourner le HolyC même en mode texte ( Source )

Le truc cool avec cette version navigateur, c'est qu'elle repose sur Aiwnios, un émulateur et runtime HolyC qui a été porté en WebAssembly. Du coup, vous pouvez explorer l'interface, tester le langage HolyC, ou jouer avec les démos audio/vidéo calculées en temps réel. Et si vous n'êtes pas très croyant, sachez qu'il existe aussi Shrine OS , un clone pour les hérétiques qui apporte même le support de TCP/IP pour les plus aventureux d'entre vous.

Terry Davis nous a quittés en 2018, mais son œuvre continue de fasciner les geeks du monde entier. Entre le génie technique indéniable et la dimension mystique délirante, TempleOS reste un des projets les plus singuliers de l'histoire du code. Et grâce au WebAssembly, on peut désormais y jeter un oeil en deux clics depuis n'importe quel navigateur moderne (puisque maintenant, tout le monde supporte le Wasm).

Bref, si vous êtes curieux de voir à quoi ressemble un OS conçu selon les spécifications divines, c'est le moment d'aller faire un tour. Au pire vous aurez découvert un projet hors normes, au mieux vous aurez appris trois mots de HolyC...

Source


La robotique souple, c'est un peu le Graal pour pas mal de chercheurs. L'idée de fabriquer des machines capables de se faufiler partout ou de manipuler des objets fragiles sans tout casser, ça fait rêver. Sauf que jusqu'à présent, c'était une tannée monumentale à fabriquer. Fallait mouler les pièces, assembler les membranes, sceller les composants... Bref, un boulot de titan pour un résultat parfois imprévisible.

Mais voilà qu'une équipe de Harvard, menée par Jennifer Lewis au sein du Lewis Lab, vient de poser une grosse brique sur l'édifice. Ils ont mis au point une technique baptisée "impression 3D multimatériau rotative" (RM 3DP) qui permet d'encoder la réponse mécanique directement dans la structure. Pour faire simple, au lieu de rajouter des fonctions après coup, vous imprimez une architecture interne qui va dicter comment le robot se déforme une fois sous pression.

Le secret réside dans une buse rotative capable de gérer un placement spatial interne ultra-précis de deux matériaux à la volée. En faisant tourner cette buse pendant l'impression, les chercheurs Jackson Wilt et Natalie Larson arrivent à disposer chaque matériau à l'intérieur du filament déposé (on parle de structures à l'échelle du micron... c'est super minuscule). Et là, c'est un peu comme si vous dessiniez une hélice à l'intérieur d'un tube... mais en 3D et avec des polymères techniques.

Pour la structure, ils utilisent du polyuréthane hyper costaud qui forme une coque durable. Et à l'intérieur, hop, ils injectent un polymère sacrificiel, le poloxamère (qu'on trouve d'ailleurs dans certains produits capillaires), pour remplir les futurs canaux. Une fois que la structure a durci, il suffit de rincer ce gel pour laisser place à des conduits pneumatiques hyper propres. Bon, attention quand même, rincer un gel visqueux dans des canaux microscopiques sans rien péter, ça demande une sacrée maîtrise du process. Mais grâce à ça, ces canaux agissent comme des muscles. Vous envoyez de l'air sous pression dedans et la structure se tord, se plie ou s'étire selon la géométrie prévue au départ.

C'est plutôt chouette car ça permet de passer de la conception à la réalisation en quelques heures au lieu de plusieurs jours. Plus besoin de s'embêter avec des montages complexes, vous ajustez les paramètres de l'imprimante et voilà. Pour la démonstration, ils ont imprimé un actuateur en spirale qui s'ouvre comme une fleur et une pince capable de saisir des objets délicats. Tout ça en un seul processus d'impression continu pour la partie structurelle, même si le post-traitement reste obligatoire pour libérer les canaux.

Perso, c'est assez prometteur par exemple pour le futur de la chirurgie ou pour créer des dispositifs d'assistance qui s'adaptent vraiment au corps humain.

Maintenant, reste à voir la durabilité du bouzin sur des milliers de cycles, mais on n'arrête pas le progrès, comme dirait l'autre.

Source


Bonne nouvelle pour tous les dev qui n'ont pas peur de l'IA : GitHub vient de sortir gh-aw, une extension CLI qui permet d’écrire des workflows agentiques… en markdown. Au chiotte le YAML à rallonge pour vos pipelines CI/CD, vous rédigez vos instructions en langage naturel et c'est une IA (Copilot, Claude ou Codex au choix) qui se charge de les exécuter dans GitHub Actions.

En gros, vous décrivez ce que vous voulez dans un fichier .md, genre"em>fais-moi un rapport quotidien des issues ouvertes" ou "refactorise les fonctions trop longues", et l'agent s'en occupe. Il analyse le contexte de votre dépôt, prend des décisions et livre le résultat sous forme de pull request. Par contre, attention, si votre prompt dans le fichier .md est trop vague genre "améliore le code ", l'agent risque de partir dans tous les sens et vous pondre une PR de 200 fichiers. Faut être précis dans vos instructions, sinon c'est la loterie.

Côté sécurité, ils ont pas rigolé parce que lâcher une IA en roue libre sur votre code, ça pourrait vite tourner au cauchemar (J'en avais d'ailleurs parlé avec les backdoors planquées dans les fichiers de config ). Ici, tout est sandboxé avec des permissions en lecture seule par défaut sur le runner. Les opérations d’écriture passent par des "safe-outputs" préapprouvés, y'a de l'isolation réseau, du pinning SHA sur chaque dépendance npm/pip… Bref, ils ont pas fait les choses à moitié, côté garde-fous.

Côté moteurs IA, vous avez le choix entre GitHub Copilot, Claude d'Anthropic (via l'API, faut un compte payant), OpenAI Codex ou même votre propre processeur custom. Claude pour du refactoring ça peut être pas mal je pense parce que la fenêtre de contexte est capable d'avaler un dépôt entier, mais pour du triage d'issues, Copilot suffira largement. Comme d'hab, ça dépend de vos besoins (et de votre portefeuille).


Un panneau stop, on se dit que c'est juste un bout de métal avec un peu de peinture rouge. On s'arrête, on repart, et puis voilà. Sauf que pour une IA qui pilote un gros engin à 4 roues, ce simple panneau peut devenir un véritable vecteur de tromperie visuelle !

Car oui je vous avais déjà parlé d'attaques de ce type par le passé, mais là, ça va encore plus loin. En effet, je suis tombé sur une étude des chercheurs de l'UCSC (University of California, Santa Cruz) qui en gros, ont trouvé un moyen d'induire en erreur des voitures autonomes et des drones en collant simplement des instructions sur des panneaux de signalisation customisés. Ils ont baptisé cette classe d'attaque CHAI pour Command Hijacking Against Embodied AI .

C'est un peu le même principe que l'injection de prompts dans un ChatGPT mais appliqué au monde physique et à la perception. Les chercheurs ont utilisé de l'IA pour "optimiser" des commandes comme "proceed" (avance) ou "turn left" (tourne à gauche) et les ont intégrées sur des panneaux en adaptant la police, la couleur ou même l'emplacement du texte pour que l'IA embarquée dans un robot ou une voiture, interprète ça comme un ordre de navigation.

Et là, ça peut faire mal... Car un prototype de véhicule autonome qui déciderait de foncer alors qu'il y a des gens sur un passage piétons juste parce qu'un "plaisantin" a collé un sticker malin sur le panneau d'en face, ça craint un max. Ce serait comme joué à "coucou caché" sur l'autoroute avec un chauffeur de car ^^.

Et nos chercheurs ont testé ça sur le modèle fermé GPT-4o d'OpenAI et le modèle open source InternVL-Chat-V1.5 et les résultats sont sans appel. Sur des simulations de conduite avec le dataset DriveLM, ils ont atteint 81,8% de réussite avec GPT-4o pour faire obéir l'IA à une commande injectée. Même en conditions réelles avec une petite voiture télécommandée équipée d'une caméra dans les couloirs de l'université, le taux de succès grimpe à 92,5% quand le panneau est au sol.

Et les drones ne sont pas épargnés non plus ! En utilisant CloudTrack pour le suivi d'objets, les chercheurs ont réussi à provoquer jusqu'à 95,5% d'erreurs d'identification en manipulant les panneaux sur des cibles.

Pire, ils ont trompé des drones cherchant une zone d'atterrissage sécurisée en plaçant des panneaux "Safe to land" sur des toits remplis de débris. Résultat, 68,1% de succès pour faire croire au drone que la zone était praticable. (genre, atterris là mon petit, c'est tout plat... et bam, le crash)

Ce genre d'attaque me rappelle Charlie Miller et Chris Valasek qui hackaient des Jeep à distance via le réseau mobile. Sauf que là c'est vraiment une attaque physique sur la couche de perception de ces systèmes. Plus besoin de trouver une faille logicielle complexe en fait... Il suffit d'une imprimante, d'un peu de colle et d'un bon emplacement. On est en plein dans ce que je racontais sur LatentBreak et l'hypnose des IA , sauf que là, le patient peut peser plusieurs tonnes.

Attention toutefois, ça ne marche que si l'IA utilise un LVLM (Large Vision Language Model) pour le contrôle direct, à moins que le système ne possède une redondance de capteurs (LiDAR, radar) qui contredirait l'image.

Alors oui, on peut se dire que c'est encore de la recherche et que nos voitures actuelles sont plus complexes. Mais ça montre surtout une fragilité fondamentale de l'IA quand elle doit interpréter le monde réel sans garde-fous stricts. Ces modèles sont tellement entraînés à suivre des instructions qu'ils finissent quasiment toujours par donner la priorité à un texte sur un panneau plutôt qu'aux règles de sécurité de base.

Bref, méfiez-vous des panneaux un peu trop "custom" lors de votre prochaine balade en voiture autonome... et espérons que les constructeurs intégreront vite des systèmes de vérification de cohérence avant que ces stickers ne deviennent la nouvelle arme fatale des hackers de bitume !

Source


Survoler la Terre entière depuis son navigateur web, sans RIEN installer, c'est possible et en plus c'est gratuit !

Web Flight Simulator c'est un simulateur de vol qui tourne directement dans votre browser, et qui vous colle aux commandes d'un F-15 au-dessus de la planète entière. Un vrai terrain 3D avec des données satellites, du relief, des textures... le tout grâce à CesiumJS pour la partie géospatiale et Three.js pour le rendu 3D. Du coup vous pouvez survoler n'importe quel coin du monde, que ce soit les Alpes, Manhattan ou le désert australien.

Le cockpit du F-15 avec HUD, minimap et terrain satellite en temps réel

Et contrairement à un Microsoft Flight Simulator où faut limite un brevet de pilote pour décoller, là c'est ARCADE à fond. Flèches directionnelles pour piloter, W/S pour les gaz, Espace pour l'afterburner... hop, vous êtes en l'air en 10 secondes. Pas de checklist de 45 items avant le décollage (oui oui, les vrais pilotes comprendront).

D'ailleurs le F-15 est équipé d'un canon Vulcan et de missiles Sidewinder. Y'a même des leurres thermiques si vous vous sentez d'humeur Top Gun. Les ennemis IA sont encore en développement, mais le système de combat est déjà fonctionnel. Perso, j'aime bien mitrailler dans le vide au-dessus de la Tour Eiffel, chacun ses hobbies...

Le HUD est pas mal foutu avec l'altitude, la vitesse, un compas et même une minimap satellite. Côté son, le moteur réagit aux gaz, y'a du vent aérodynamique et surtout l'alarme GPWS qui vous gueule "PULL UP" quand vous foncez dans une montagne.

Si vous êtes curieux de savoir comment ça marche sous le capot, c'est un mix assez malin de CesiumJS qui gère le streaming du terrain à l'échelle planétaire et de Three.js qui s'occupe de l'avion, des particules et des effets visuels. Le tout tourne avec Vite en dev, du JavaScript pur, et c'est open source avec une licence non commerciale. J'ai préféré tester sur Firefox plutôt que sur Chrome, parce que le WebGL y est mieux géré, et ça tourne nickel sur mon MacBook Air M2.

Attention quand même, sauf si vous avez une machine un peu costaud, ça peut ramer dans les zones urbaines denses. Sur un vieux laptop avec une carte graphique intégrée... ça plantera pas, mais ce sera plus un diaporama.

Pour ceux qui connaissent FlightGear qui est un des simulateurs de vol libres les plus connus, là on est sur un truc complètement différent. FlightGear c'est pour les passionnés qui veulent apprendre le vrai pilotage, alors que Web Flight Simulator c'est pour se marrer 5 minutes (ou 2 heures, je juge pas ^^). Et si vous voulez un peu de nostalgie, allez voir l'histoire des premiers Microsoft Flight Simulator de 1982 à 1989... on a fait du chemin depuis.

Une version Lune et Mars ce serait le pied. D'ailleurs CesiumJS propose déjà des datasets Moon Terrain et Mars depuis 2024-2025... donc affaire à suivre côté Web Flight Simulator.

Bref, allez tester , c'est gratuit et ça marche sur n'importe quel navigateur qui gère le WebGL.


Powered by VroumVroumBlog 0.1.31 - RSS Feed
Download config articles