Plus de deux années après leur création dans la loi, les équipements permettant aux services de renseignement d’analyser de grands volumes de données semblent fonctionnels.
Lors d’un colloque organisé par l’université de Grenoble ce mardi 14 novembre, Francis Delon, le président de la Commission nationale de contrôle des techniques de renseignement – ou CNCTR – a déclaré que les « boites noires » étaient à présent opérationnelles, et ce depuis environ un mois.
Ces équipements, surnommés ainsi pendant les débats sur la loi renseignement, doivent permettre aux services de renseignement d’analyser de grands volumes de données afin de détecter toute trace d’une menace terroriste… et c’est tout ce qu’on sait, officiellement.
Le principe et son problème
Pour vous résumer les débats de l’époque, il était question de créer des algorithmes permettant de détecter les terroristes, le tout sans aller lire le contenu des échanges ou des communications, les algorithmes n’utilisant que les métadonnées et pas le contenu direct.
La CNCTR a donné son feu vert à la mise en place desdits algorithmes :
« Nous avons examiné le projet d’algorithme sur le plan juridique. Est-il adapté ? Remplit-il les critères de proportionnalité ? Mais aussi un contrôle technique.
Nous avons des ingénieurs, ce qui permet de le faire. »
A l’époque du projet de loi, en 2015, ces dispositions faisaient débat. Des associations protectrices des libertés individuelles et numériques, comme La Quadrature du Net, dénonçaient la mise en place d’un système de surveillance de masse et une absence de mécanismes de contrôles clairs et adaptés.
Problème n°1 : les métadonnées parlent plus que « la donnée ».
La loi sur le renseignement autorise l’exploitation des métadonnées, c’est-à-dire des informations qui gravitent autour de la donnée sans être de la donnée… exemple : dans un e-mail, l’heure d’envoi, l’expéditeur, le destinataire et tout ce qui n’est pas directement le contenu du mail sont des métadonnées.
Si la loi interdit d’analyser les données, le contenu du mail dans notre exemple, il n’en reste pas moins que ces boites noires posent un vrai problème de confidentialité, les métadonnées étant bien plus parlantes que les données.
En soi, sauf dans des cas de surveillance ciblée, le contenu n’intéresse que très peu les renseignements, ils souhaitent savoir qui communique avec qui, quand, où, comment, à quelle fréquence. Ils souhaitent savoir qui visite quoi, quelle adresse, à quelle heure, combien de fois, etc.
Prenons un exemple très concret, qui ne va utiliser que des métadonnées. Aujourd’hui, un individu a :
- Consulté un site de vidéos pour adulte pendant 14 minutes
- Consulté un site d’e-commerce pendant 31 minutes
- Consulté un site de recherche d’emploi pendant 8 minutes
- Envoyé 3 mails à doe@example.xyz
- Envoyé 2 SMS au numéro de téléphone 06xxxxxxxx
- Envoyé 3 MMS au numéro de téléphone 07xxxxxxxx
- A effectué deux sorties, d’une durée de 6 minutes pour la première et de 43 minutes pour la seconde
- Ces trajets, grâce au smartphone de l’individu, sont connus
J’arrête l’exemple ici mais vous l’aurez compris, une journée entière serait bien trop longue. Les métadonnées sont très précises et, par croisement, elles permettent d’identifier une personne assez rapidement.
Ce qui nous amène au…
Problème n°2 : on ne sait pas comment ça fonctionne
Selon M. Delon, pour des « raisons évidentes », les algorithmes des boites sont secrets. On ne sait donc rien d’eux. On peut déjà s’interroger sur les raisons qui font que cet algorithme est secret. Si les critères de l’algorithme peuvent être sensibles, l’algorithme en soi n’a, normalement, rien de cela. Je trouve toujours étonnant que les gouvernements préfèrent la sécurité par l’obscurité à la transparence d’un code, mais passons…
On peut tout de même imaginer que ces derniers ne sont pas en mesure d’intercepter et de casser du trafic chiffré. On peut aussi imaginer que les jeux de données doivent être très larges, afin de permettre aux algorithmes d’avoir assez de matière pour faire le boulot.
On renverse donc un peu plus la logique de surveillance actuelle, en passant d’une surveillance ciblée pour obtenir des informations à l’obtention d’informations sur une population très large pour trouver des individus qui répondent à des critères précis. Autrement dit, on bascule davantage dans la surveillance de masse de tout le monde que dans la surveillance ciblée. Ce qui n’est pas sans poser de nombreux problèmes, comme l’ONU s’en inquiétait à l’époque.
Les algorithmes, ce n’est pas « automagique », des personnes ont travaillé sur ces choses, ont produit du code. Qui ? Comment ? On ne sait pas. On peut donc s’interroger quant à l’impartialité des algorithmes. Sur quels critères ces derniers déclarent que telle ou telle personne a un comportement étrange, voire suspect ? Est-ce que les algorithmes sont assez efficaces pour éviter tout faux positif ? Et même dans ce cas, est-ce que ces techniques ne seraient pas disproportionnées ? Combien de milliers de données passent dans les moulinettes des algorithmes alors qu’elles ne devraient rien y faire ?
La CNCTR déclare que, pour le moment, une seule machine a été déployée, dans un endroit tenu évidemment secret, comme le reste… mais est-ce un test ou une généralisation ?
Vous l’aurez compris, je suis sceptique quant à l’usage et l’efficacité de ces outils, et vous ?