Autoblog de korben.info

Ce site n'est pas le site officiel de korben.info
C'est un blog automatisé qui réplique les articles de korben.info

La base de données des incidents d’IA – Bugs, dérapages et leçons à tirer

Mon, 22 Apr 2024 07:00:00 +0000 - (source)

Pendant qu’une utopie où les véhicules autonomes, les assistants virtuels et les systèmes de recommandation se profile à l’horizon, force est de constater que l’intelligence artificielle n’en est encore qu’à ses balbutiements. La promesse d’un monde meilleur se heurte à la dure réalité des incidents causés par ces systèmes dits « intelligents », déployés trop rapidement dans notre environnement.

C’est là qu’intervient la base de données des incidents d’IA (AIID), véritable mémoire collective répertoriant les bugs, plantages et autres dérapages de l’IA lorsqu’elle est lâchée dans la nature. Tel un Guinness Book des foirages technologiques, elle recense déjà plus de 1000 cas, des plus anodins aux plus tragiques :

Bref, c’est la foire aux casseroles dans le merveilleux monde de l’IA et il était temps que quelqu’un dresse l’inventaire de ces dérapages en tout genre. Mais au-delà du simple folklore, la mission de l’AIID est d’apprendre de ces échecs pour bâtir des IA plus sûres, à l’image de ce qui se fait dans l’aéronautique ou la cybersécurité.

La base s’enrichit chaque jour grâce aux signalements de la communauté. Chacun peut ainsi apporter sa pierre à l’édifice en soumettant de nouveaux incidents, triés et classés pour en dégager des tendances. L’idée est d’arriver à une définition partagée de ce qu’est un « incident d’IA » et d’en tirer des leçons pour l’avenir.

Car n’en déplaise à Elon Musk ou à Mark Zuckerberg, le futur de l’IA ne se fera pas sans règles ni garde-fous. Pour que la révolution intelligente profite au plus grand nombre, elle doit impérativement s’accompagner d’une démarche éthique et responsable. C’est précisément la mission du Responsible AI Collaborative, l’organisation derrière l’AIID, qui rassemble chercheurs, entrepreneurs et experts du monde entier.

D’ailleurs, vous aussi, vous pouvez contribuer ! Et ils ont de grandes ambitions puisque la prochaine étape sera d’intégrer les incidents dans des outils de test pour reproduire les scénarios à risque et s’entraîner à y faire face. Une sorte de « crash test » géant pour IA en quelque sorte !

À terme, l’objectif est de faire de l’AIID un outil incontournable pour tous les acteurs de l’écosystème : Chercheurs, régulateurs, industriels… Car ne nous y trompons pas, la course à l’IA ne fait que commencer et les incidents risquent de se multiplier si nous n’y prenons pas garde.

D’ici là, votre mission si vous l’acceptez sera de garder un oeil sur ce grand capharnaüm de l’IA et de signaler sans relâche les anomalies que vous constaterez ! Car après tout, la sécurité de ces systèmes est l’affaire de tous et rien ne vaut la vigilance humaine pour déjouer les bugs les plus retors.


Ebook-demo – Le moteur de recherche de bouquins décentralisé

Sun, 21 Apr 2024 07:00:00 +0000 - (source)

Vous en avez ras le bol de chercher pendant des heures le bouquin que vous voulez lire sans le trouver dans le commerce ? Pourquoi ne pas le télécharger en ligne alors ? Mais oùùùù ?

Et bien, j’ai peut-être une solution pour vous les amis et ça s’appelle sans chichi ebook-demo, un nouveau projet de moteur de recherche décentralisé pour les livres électroniques, inspiré de Liber3 (qui est un projet aux sources fermées).

Imaginez un peu le truc : vous tapez le titre du livre que vous cherchez dans la barre de recherche, vous cliquez sur « Search » et BAM, les résultats s’affichent juste en dessous avec le titre et l’auteur de chaque bouquin correspondant. C’est simple, efficace et ça marche du tonnerre !

Mais attendez, c’est pas tout. Ce qui rend ce projet encore plus cool, c’est qu’il est basé sur des technologies comme React et le SDK Glitter (pour la blockchain du même nom qui sert de base de données décentralisée).

Bon, je vois déjà les petits malins qui se disent « Ok, c’est bien beau tout ça, mais comment ça s’installe concrètement ?« . Pas de panique, c’est là que ça devient un peu technique mais je vais essayer de vous expliquer ça simplement. Déjà, pour faire tourner ce projet sur votre machine, il vous faudra avoir installé Node.js en version 16.x minimum et npm en version 6.x minimum. Ensuite, vous devrez cloner le dépôt du projet depuis GitHub avec la commande

git clone https://github.com/j2qk3b/ebook-demo

puis vous placer dans le dossier du projet avec

cd ebook-demo

Là, vous lancez un petit

npm install

pour installer toutes les dépendances nécessaires et vous êtes prêt à démarrer le serveur de développement avec

npm run dev

Et voilà, si tout se passe bien, vous devriez pouvoir accéder à l’application sur http://localhost:5173.

Fastoche, non ? Ensuite, votre instance ira se connecter aux autres instances, et vous pourrez faire toutes les recherches qui vous passent par la tête. Imaginez un peu les possibilités offertes par un tel outil. Vous êtes étudiant et vous devez faire des recherches pour un mémoire sur la littérature française du 19ème siècle ? Pas de souci, en quelques clics vous pouvez retrouver les œuvres de Victor Hugo, Balzac ou Zola. Ou alors vous êtes un fan absolu de science-fiction et vous voulez découvrir de nouveaux auteurs ? Là encore, ce moteur de recherche sera votre meilleur ami pour dénicher les pépites du genre.

Mais le plus beau dans tout ça, c’est que ce projet est open source et que tout le monde peut y contribuer. Si vous avez des idées pour améliorer l’outil, des suggestions de nouvelles fonctionnalités ou même si vous voulez corriger des bugs. Puis comme c’est décentralisé, c’est le genre de truc incensurable.

Évidemment, comme tout projet en développement, il y a encore du boulot pour faire de ebook-demo l’outil ultime de recherche de livres électroniques. Mais avec une communauté motivée et des contributeurs talentueux, je suis sûr qu’il peuvent y arriver.


Trangram – Créez des animations pro sans coder en moins de 2 min

Sat, 20 Apr 2024 07:00:00 +0000 - (source)

Les amis, si vous cherchez une solution simple et efficace pour créer des animations et des graphiques animés sans vous prendre la tête, j’ai déniché un petit bijou pour vous : Trangram. C’est une plateforme en ligne gratuite qui vous permet de créer, d’animer et de partager vos créations en toute simplicité, sans avoir besoin de connaissances en programmation.

Avec Trangram, vous avez accès à une panoplie d’outils intuitifs et puissants pour donner vie à vos idées. Que vous soyez un professionnel du marketing qui cherche à créer des vidéos engageantes pour les réseaux sociaux, un enseignant qui souhaite rendre ses cours plus dynamiques, ou simplement un passionné de graphisme qui aime expérimenter, Trangram pourra vous aider.

L’interface est claire et bien pensée, avec des fonctionnalités accessibles en quelques clics. Vous pouvez choisir parmi une bibliothèque d’éléments graphiques prêts à l’emploi, ou importer vos propres images et illustrations. Ensuite, il suffit de les disposer sur votre scène, de définir les animations et les transitions, et le tour est joué ! Vous pouvez même ajouter du texte animé, des effets sonores et de la musique pour rendre vos créations encore plus immersives.

Ce que j’apprécie particulièrement avec Trangram, c’est la flexibilité qu’offre la plateforme. Vous avez le contrôle total sur chaque élément de votre composition, ce qui vous permet de laisser libre cours à votre créativité. Que vous souhaitiez réaliser une infographie animée pour présenter des données complexes de manière ludique, ou une vidéo teaser pour promouvoir un événement, les possibilités sont infinies.

Un autre point fort de Trangram, c’est la communauté qui gravite autour de la plateforme. Vous pouvez explorer les créations d’autres utilisateurs pour vous inspirer, mais aussi partager les vôtres et obtenir des retours constructifs. C’est une excellente façon de progresser et de faire de belles découvertes. Et si vous avez besoin d’un coup de pouce, la documentation fournie est très complète, avec des tutoriels vidéo et des guides pas à pas pour vous aider à prendre en main les différents outils.

Évidemment, Trangram ne remplacera pas les logiciels de motion design haut de gamme utilisés par les professionnels. Mais pour la grande majorité des utilisateurs qui cherchent une solution abordable et facile à prendre en main, c’est un excellent choix. Que vous soyez une startup qui souhaite créer des vidéos explicatives pour présenter ses produits, ou une agence qui a besoin de produire rapidement des contenus animés pour ses clients, Trangram saura vous faire gagner un temps précieux.

A découvrir ici : Trangram.


Discord – Vos données sont collectées en masse et revendues en ligne !

Sat, 20 Apr 2024 06:03:24 +0000 - (source)

Attention, ça va faire mal surtout si vous pensiez que vos conversations sur Discord étaient à l’abri des regards indiscrets. Désolé de casser l’ambiance, mais c’est loin d’être le cas.

Un petit malin a eu la bonne idée de créer un service en ligne baptisé « Spy Pet » qui s’amuse à aspirer en masse les données des serveurs Discord dont vos messages publics, les canaux vocaux que vous rejoignez, et les données liées à votre activité sur les différents serveurs. Et le pire, c’est que ces données sont ensuite revendues à bon prix (5$) à qui veut bien les acheter. De quoi être un brin parano !

Normalement, avec Discord, notre activité est éparpillée façon puzzle sur tout un tas de serveurs, et personne à part Discord lui-même ne peut voir ce qu’ont fait sur la plateforme dans son ensemble. Mais avec Spy Pet, n’importe qui peut potentiellement mater une partie de vos faits et gestes numériques pour une poignée de dollars. Le site se targue de pister plus de 14 000 serveurs et d’avoir en stock pas moins de 3 milliards de messages, de plus de 600 millions de comptes, mais difficile de vérifier ces chiffres.

Finalement, Discord n’est pas aussi privé qu’on pourrait le croire puisque les messages postés publiquement sur les serveurs sont à la merci du premier scraper venu. Heureusement, tout n’est pas perdu. Pour limiter les dégâts, voici quelques conseils :

Et surtout, partez du principe que tout ce que vous postez publiquement sur Discord peut potentiellement être vu par n’importe qui. Ça vaut pour tous les services en ligne d’ailleurs.

Bref, restez vigilants, sécurisez vos serveurs et réfléchissez avant de poster des trucs trop perso sur Discord ! Et si vous tenez vraiment à ce que vos échanges restent privés, passez plutôt par des apps de messagerie sécurisées de bout en bout, genre Signal ou Telegram. Ça évitera les mauvaises surprises !

Source


Sonic 2 Master System portée sur TI-84+ CE !

Fri, 19 Apr 2024 19:35:26 +0000 - (source)

Le portage de Sonic 2 version 8 bits débarque enfin sur la calculatrice graphique TI-84+ CE ! Ouais, je sais, c’est pas vraiment le support sur lequel on s’attendait à retrouver notre hérisson bleu préféré, mais bon, pourquoi pas après tout ?

C’est possible grâce au génialissime Grubby Coder qui s’est dit que la Ti-84+ CE, ce serait cool puisque cette vaillante machine embarque un processeur Zilog eZ80 cadencée à 48 Mhz. Hé, ça vous rappelle pas un truc ça ? Et ouais, c’est une vieille connaissance, le fameux Zilog Z80 puisqu’il équipait la Master System ! Enfin presque, le Z80 était en 16 bits, pas 8. Y’a pas de hasard…

Mais attention, hein, c’était pas gagné pour autant parce qu’il y a quand même quelques différences entre la 16 bits de Sega et la Texas Instrument. Déjà, y’a pas de processeur graphique et la mémoire est un poil limitée mais cela n’a pas découragé notre codeur de choc pour autant.

Le plus gros du taf a été surtout de ré-implémenter les fonctions graphiques de la Master System sur la TI parce c’est bien gentil d’avoir un eZ80, mais si derrière la config suit pas… Alors Grubby s’est retroussé les manches et il a codé, codé et encore codé un quasi portage pur et dur des routines graphiques pour coller au plus près du hardware d’origine.

Et puis y’a eu les autres petits défis rigolos comme adapter la palette de 16 couleurs pour les 256 de la TI, gérer les contrôles, la ROM qui dépasse la taille limite des programmes pour TI, toussa toussa… Alors bien sûr, quand on lance le jeu, ça rame un peu mais c’est surtout pour tour de force technique que pour se refaire le jeu.

M’enfin, l’important c’est de se dire que les lycéens vont enfin pouvoir se faire une petite partie de Sonic 2 en plein cours de maths. Ça a quand même plus de gueule que de tracer des fichues courbes sur la calculette, n’en déplaise à Gabriel Attal.

Sur ce, je vous laisse, j’ai un Robotnik à dégommer moi !

Source


Short Stack – la Nintendo Wii miniaturisée à l’extrême

Fri, 19 Apr 2024 18:17:55 +0000 - (source)

Ça y est les amis, on a atteint le summum du bidouillage et de la miniaturisation avec le Short Stack, un mod complètement dingue de la Nintendo Wii qui arrive à faire tenir toute la puissance de la console dans un boîtier de la taille d’un paquet de cartes ! C’est juste ahurissant quand on y pense.

Alors bien sûr, la Wii c’est pas la console la plus grosse à la base, mais quand même, passer de 157 x 60 x 197mm à un truc aussi compact, faut reconnaître que c’est quand même sacrément impressionnant. Et le plus fou dans tout ça, c’est que le moddeur n’a pas triché en passant par de l’émulation. Non non, le Short Stack embarque une vraie carte mère de Wii, juste super bien taillée et optimisée !

James Smith, le génie derrière ce projet de titan, a réussi à faire rentrer dans son petit boîtier imprimé en 3D la carte mère réduite de la Wii, un tas de cartes électroniques custom empilées les unes sur les autres (d’où le nom du mod) pour gérer le Bluetooth, l’USB, les ports manettes GameCube, et même un dissipateur thermique sur mesure. Niveau intégration, on est donc sur du très très haut niveau.

Bon par contre, évidemment, pas de lecteur de disque là-dedans, faut pas déconner. Mais ça n’empêche pas d’avoir quand même un petit slice factice qui s’illumine en façade pour faire genre. Les jeux et les sauvegardes sont stockés sur une carte microSD à la place. Et pour faire encore plus pro, le Short Stack se branche en HDMI et s’alimente en USB-C. De quoi faire un joli petit media center rétrogaming, fin et discret.

Alors certes, c’est pas le premier mod de Wii ultra compact, on avait déjà vu passer la KillMii qui tenait dans une boîte d’Altoids. Mais celle-là intégrait un écran, des contrôleurs et une batterie qui tenait… 10 minutes. Pas top pour les sessions de Mario Kart endiablées. Le Short Stack a au moins le mérite d’être vraiment utilisable au quotidien sans trop de compromis. Après, difficile de dire s’il s’agit vraiment de la « plus petite Wii du monde » comme l’affirme Smith, mais une chose est sûre, c’est probablement la plus compacte que vous aurez vraiment envie d’utiliser !

D’ailleurs si ce projet de fou vous tente, sachez que Smith a publié tous les détails, les fichiers de conception et les instructions sur GitHub. Vous y trouverez quelques infos sur la réalisation, même si on ne peut pas dire que ce soit un tutoriel complet non plus. Et attention, c’est clairement pas un mod pour débutants ! Il vous faudra de sacrées compétences en électronique, pas mal de matos spécifique et une bonne dose de patience pour arriver à un résultat similaire.

Enfin bref, je dis chapeau bas Monsieur Smith pour ce boulot de malade mental. On en redemande des comme ça ! Parce que soyons honnêtes, ça sert pas à grand chose mais qu’est-ce que c’est classe !

Source


Mikerosoft – Oups la boulette chez Microsoft

Fri, 19 Apr 2024 16:46:57 +0000 - (source)

Imaginez le bazar si quelqu’un ajoutait par erreur tous les Jean-Michel de votre entreprise dans une conversation de groupe ! C’est un peu ce qui est arrivé chez Microsoft cette semaine. De nombreux employés prénommés Mike ou Michael ont eu la surprise de se retrouver sans le vouloir dans une boucle d’échanges par mail.

Michael Schechter, le VP de Bing, raconte s’être réveillé avec une quantité inhabituelle d’emails non lus. Sur le coup, il a cru à un gros plantage en prod pendant la nuit, mais non, en fait c’est juste une personne qui s’est amusée à créer un groupe avec beaucoup de gens qui s’appellent Mike ou Michael chez Microsoft. Et pas de bol pour eux, ils sont nombreux !

Face à cette situation ubuesque, Michael a eu le réflexe de demander à Copilot (l’assistant d’IA de krosoft) de résumer le fil de discussion et croyez-moi, ça vaut son pesant de cacahuètes ! D’après Copilot, les participants ont commencé par demander des explications sur le but de ce groupe, tout en notant avec amusement qu’ils avaient le même prénom. Évidemment, ça n’a pas manqué de partir en vrille et chacun y est allé de sa petite blague, de jeux de mots rigolos comme renommer le groupe en « Mikerosoft« . Certains se sont même demandé avec humour si ce n’était pas un piège pour les virer !

Le plus drôle dans l’histoire, c’est que malgré les nombreux messages, personne n’a compris qui avait créé ce groupe ni pourquoi. Un beau mystère ! En attendant, les participants en ont profité pour faire connaissance. Si ça se trouve, il y en a même qui en ont profité pour corriger des bugs… roooh.

Ça rappelle quand même qu’il faut toujours faire attention avec les emails de groupe ou les mises en copie. Une erreur est vite arrivée et on a vite fait d’envoyer des conneries et de les regretter après ! Une histoire similaire a d’ailleurs eu lieu dans les années 90 selon Eric Lippert. Un type voulait contacter « Mike de Microsoft » qu’il avait rencontré à une conf sauf qu’il a réussi à chopper les adresses des 600 Mike de la boîte. La presse avait titré à l’époque « Heureusement qu’ils ne cherchaient pas Bill » !

L’histoire ne dit pas s’il vont s’organiser un barbecue ou séminaire entre Mike, mais je troue que « Mikerosoft », ça sonne quand même mieux que Microsoft, non ?

Source


Mateusz Jurczyk – L’expert en sécurité qui a exploré la base de registre Windows pour y trouver des failles

Fri, 19 Apr 2024 16:08:26 +0000 - (source)

Mateusz Jurczyk, un nom qui ne vous dit peut-être rien, mais retenez-le bien, car le bonhomme est fort. Ce chercheur en sécurité bien intentionné bosse pour Google Project Zero, une équipe de choc qui traque les failles dans tous les recoins depuis des années déjà. Et pendant quasi 2 ans, de mai 2022 à décembre 2023, il s’est lancé le défi d’ausculter un des organes les plus vitaux de Windows : sa base de registre.

Pour ceux qui débarquent, le registre, c’est un peu le cerveau de Windows. Une méga base de données qui stocke tous les réglages, options et préférences du système et des applis, organisés de manière hiérarchique avec des clés, des sous-clés et des valeurs. Bref, un truc super sensible et stratégique. Si un pirate arrive à mettre ses mains là dedans, bonjour les dégâts !

Mais notre Mateusz, c’est pas le genre à se dégonfler. Armé de ses outils et de ses connaissances en reverse engineering, il a plongé dans les millions de lignes de code de ce monolithe vieux de 30 ans et croyez-moi, il a frappé fort : pas moins de 50 failles critiques déterrées, dont 39 qui permettent une élévation de privilèges ! En gros, la totale pour passer de simple clampin à admin suprême sur une machine.

La force de son taf, c’est d’avoir exploré des endroits de la base de registres que personne n’avait vu avant. Des trucs bien planqués comme la récupération des transactions avortées, le chargement de ruches extraites ou les bails de virtualisation du registre (une fonctionnalité qui permet aux vieilles applis de tourner sans broncher sur les Windows récents). Bref, un vrai boulot de fourmi avec une grosse dose de persévérance.

Et le plus flippant, c’est que la moitié de ces failles seraient plutôt faciles à exploiter notamment via des techniques de corruption de mémoire ou de cassage des garanties de sécurité comme les ACL (les listes qui contrôlent qui a le droit de faire quoi dans le registre). Pour vous donner une idée, Mateusz a même créé des exploits de démo pour deux vulnérabilités, montrant comment détourner le registre à son avantage.

Heureusement, c’est un White Hat avec un grand cœur et toutes ses trouvailles ont été balancées en temps et en heure à Microsoft via le programme de divulgation responsable de Project Zero. Les ingés de Redmond ont évidemment remédié au boxon en patchant, avec des délais moyens de correction de 80 jours. Vous pouvez donc souffler !

Mais l’histoire est loin d’être finie. Il a tellement kiffé son voyage dans les méandres du registre, qu’il prévoit d’en faire une série de posts de blog pour partager son savoir. Au menu, des analyses bien poussées des bugs, des techniques d’exploit et plein de tips pour mieux protéger nos bécanes, comme :

J’ai hâte de dévorer tout ça !

Source + Source


PyTorch dévoile Torchtune pour fine-tuner les LLM

Fri, 19 Apr 2024 08:18:46 +0000 - (source)

PyTorch, le framework chouchou des bidouilleurs d’IA, vient de nous pondre un petit truc cool : Torchtune ! 💎 Cette nouvelle bibliothèque native, encore en phase alpha mais déjà disponible en open-source sur GitHub, va vous permettre de fine-tuner les gros modèles de langage (LLM) comme un pro, sans vous prendre la tête.

Torchtune est donc une boîte à outils hyper flexible et modulaire qui va vous permettre de vous éclater à customiser des modèles pour vos propres besoins, le tout avec des recettes mémoire efficaces qui tournent même sur une bête carte graphique de gamer, comme les NVidia 3090/4090.

Son secret ?

Une architecture bien pensée qui mise sur l’interopérabilité avec l’écosystème des LLM, qu’ils soient open-source ou non. Concrètement, ça veut dire que vous allez pouvoir brancher Torchtune à tout un tas d’outils et de frameworks que vous adorez déjà, comme Hugging Face 🤗, PyTorch FSDP 🪢, Weights & Biases 📈, et plein d’autres.

Grâce à des recettes simples et bien documentées pour les modèles populaires comme Llama 3, Mistral ou Gemma 7B, même les débutants vont pouvoir se lancer dans l’aventure sans flipper. Bon OK, il faudra quand même un peu de bagage en PyTorch et en LLM, mais rien d’insurmontable ! Et si vous êtes un pro, vous allez pouvoir hacker le code à volonté pour l’adapter à vos besoins spécifiques.

Alors comment on met les mains dans le cambouis avec Torchtune ?

Rien de plus simple, mon cher Watson ! Il vous suffit d’installer la dernière version stable de PyTorch (2.2.2 au moment où j’écris ces lignes), puis de télécharger Torchtune depuis PyPI avec un petit

pip install torchtune

Et voilà, vous êtes prêt à en découdre avec les LLM !

Pour vous faire les dents, je vous conseille de jeter un œil au tutoriel sur le fine-tuning de Llama2 7B. C’est le parfait point de départ pour comprendre comment Torchtune fonctionne et comment l’utiliser pour vos propres projets.

En gros, ça se passe en 4 étapes :

  1. Téléchargez le modèle pré-entraîné et le tokenizer depuis Hugging Face Hub avec tune download.
  2. Choisissez une recette de fine-tuning (LoRA, QLoRA, full…) et customisez-la avec un fichier de config en YAML.
  3. Lancez l’entraînement avec tune run en précisant votre recette et votre config. Vous pouvez même faire du multi-GPU avec torchrun !
  4. Admirez le résultat et testez votre modèle fine-tuné avec une inférence locale. Si tout se passe bien, exportez-le avec ExecuTorch pour le déployer en prod, ou utilisez les API de quantification de Torchao pour l’exporter en int4 ou int8 et l’utiliser sur mobile ou en edge.

Facile, non ? 😄

Bon OK, j’avoue, j’ai un peu simplifié. En vrai, il y a pas mal de subtilités et de paramètres à régler pour obtenir les meilleurs résultats, comme le learning rate, le nombre d’époques, la taille du batch, le ratio de LoRA, et tout un tas d’autres trucs, mais c’est justement sa flexibilité qui vous permet d’expérimenter à l’infini pour trouver la combinaison parfaite.

Bref, si vous êtes dev et que vous aimez jouer avec les LLM c’est à tester.

Source


Explorez les secrets des dépôts Git avec Grep.app

Fri, 19 Apr 2024 07:00:00 +0000 - (source)

Vous êtes-vous déjà demandé ce qui se cache dans les profondeurs obscures des dépôts Git publics ? Eh bien, figurez-vous qu’il y a un outil en ligne qui permet de dénicher des trucs de dingue ! Ça s’appelle Grep.app et c’est un moteur de recherche qui va vous faire halluciner.

Concrètement, vous balancez votre recherche dans la barre et hop, ça vous sort tous les résultats où votre mot-clé apparaît dans les repos Git publics. Genre, vous tapez une adresse email et vous tombez sur tous les endroits où elle est mentionnée. Mais attention, hein… Y a pas que des trucs anodins qui traînent dans ces dépôts. Si vous cherchez un peu, vous pouvez même tomber sur des clés d’API AWS ou Google !

Bon, après faut pas déconner non plus. Si vous tombez sur des clés dans un dépôt public, considérez-les comme grillées direct. Même si le dépôt est supprimé par la suite, y a plein de petits malins qui font ce genre de recherches régulièrement. Donc méfiance !

Cela dit, Github a quand même mis en place un système d’alerte pour les clés, mots de passe, etc qui se retrouvent dans le code. Du coup, y a des chances que la plupart soient invalidées assez vite, soit par le développeur qui change sa clé, soit direct par le fournisseur. Mais on n’est jamais trop prudent…

En parlant de Github, ils ont aussi leur propre outil de recherche de code qui est plutôt balèze. Ça s’appelle Github Code Search. Ça indexe environ 45 millions de dépôts, ce qui est déjà pas mal !

En gros, ils utilisent un moteur de recherche maison qui indexe le contenu avec une technique appelée « sparse ngrams ». D’après eux, ça permet d’exécuter les recherches plus rapidement, tout en étant un index plus petit. Si vous voulez en savoir plus sur la technologie derrière, ils ont publié un article de blog super intéressant.

Maintenant, est-ce que Grep.app est à la hauteur face à Github Code Search ? Difficile à dire… Une chose est sûre, c’est que Grep.app a l’air de se concentrer uniquement sur le code en lui-même. Donc si vous cherchez des chaînes de texte dans de la prose qui se retrouve dans des recherches de code, vous risquez de passer à côté avec Grep.app. Genre pour chercher dans des fichiers texte ou Markdown.

Et ça, c’est un peu dommage. Parce que des fois, on a besoin de chercher du code avec plein de caractères spéciaux vicieux. Et là, la recherche de code actuelle de Github nous laisse tomber. Mais bon, on peut pas tout avoir non plus… En attendant, Grep.app reste quand même un outil bien pratique pour dénicher des infos cachées dans les entrailles de Git. Et puis c’est gratuit et open-source en plus !


Powered by VroumVroumBlog 0.1.31 - RSS Feed
Download config articles