Données sensibles et IA : le test en 5 questions pour se situer
Faites le point sur votre exposition aux risques liés à l'IA grâce à ce test en 5 questions essentielles sur la gestion de vos données sensibles.

Données sensibles et IA : le test en 5 questions pour se situer
le

Données sensibles et IA : le test en 5 questions pour évaluer votre exposition aux risques
Quand l'intelligence artificielle devient une porte d'entrée pour vos données les plus critiques
Un salarié colle un contrat client dans ChatGPT pour en obtenir un résumé. Un RH charge un fichier de paie dans un outil d'IA générative pour automatiser un rapport. Un comptable soumet une liasse fiscale à une solution en ligne pour gagner du temps. Ces scènes se répètent chaque jour dans des milliers d'entreprises françaises. Elles semblent anodines. Elles ne le sont pas.
L'IA générative a mis un accélérateur brutal sur des pratiques qui existaient déjà, mais qui restaient marginales. Aujourd'hui, selon les données publiées par la CNIL, les entreprises ne mesurent pas toujours la nature exacte des informations qu'elles transmettent à des systèmes tiers lorsqu'elles utilisent des outils d'IA en ligne. Le problème n'est pas l'IA elle-même. C'est l'angle mort qu'elle crée dans la gestion des données sensibles.
La question n'est plus de savoir si votre entreprise utilise l'IA. Elle la teste, l'adopte ou l'impose déjà. La vraie question est celle-ci : savez-vous précisément quelles données vous y exposez ? Ce test en cinq questions vous permet de faire le point, honnêtement, sur votre niveau d'exposition réel.
---
Ce que "données sensibles" veut réellement dire, et pourquoi la confusion coûte cher
Une définition juridique précise, souvent mal comprise
On parle beaucoup de données sensibles. On les confond souvent avec des données simplement confidentielles, ou avec des informations stratégiques. Ce n'est pas la même chose. Juridiquement, la notion est strictement encadrée.
Selon le RGPD, tel qu'expliqué sur service-public.fr, les données sensibles constituent une catégorie particulière soumise à une protection renforcée. Il s'agit des données révélant l'origine raciale ou ethnique, les opinions politiques, les convictions religieuses ou philosophiques, l'appartenance syndicale, les données génétiques, biométriques, de santé, ou relatives à la vie sexuelle et à l'orientation sexuelle d'une personne. Ce sont des catégories listées à l'article 9 du règlement européen. Leur traitement est, par principe, interdit, sauf exceptions strictement définies.
Mais cette définition juridique ne couvre qu'une partie du problème. Dans la pratique, d'autres données peuvent s'avérer tout aussi critiques sans entrer dans cette catégorie : numéros de sécurité sociale, coordonnées bancaires, informations fiscales, secrets commerciaux, données relatives à des procédures judiciaires. Ces données ne sont pas "sensibles" au sens strict du RGPD, mais leur exposition dans un outil d'IA tiers peut entraîner des conséquences tout aussi sévères.
Le risque réel : la transmission vers des tiers non identifiés
Voici le paradoxe central. Les entreprises investissent dans des pare-feu, des politiques de mot de passe, des accès restreints aux serveurs. Puis un collaborateur ouvre un onglet, colle des données dans un outil d'IA en ligne, et toute cette architecture de protection devient inopérante.
Le Ministère de l'Économie, dans son dossier de référence, pointe cette réalité : l'usage d'outils d'IA grand public dans un contexte professionnel crée des flux de données qui échappent au contrôle de l'entreprise. Ces données peuvent être utilisées pour entraîner des modèles, stockées sur des serveurs étrangers, ou accessibles à des tiers dans des conditions que les conditions générales d'utilisation définissent — mais que personne ne lit.
C'est là que l'évaluation de votre exposition prend tout son sens.
---
Le test en 5 questions : où en êtes-vous vraiment ?
Question 1 — Savez-vous quelles données circulent dans vos outils d'IA ?
La première question semble basique. Elle est pourtant celle que la majorité des organisations ne peut pas répondre avec précision. Vos équipes utilisent-elles des outils d'IA dans leur quotidien ? Si oui, lesquels ? Ces outils sont-ils approuvés par votre direction informatique ou juridique ? Sont-ils des solutions grand public, ou des offres entreprise avec des engagements contractuels explicites sur le traitement des données ?
L'absence de réponse claire à l'une de ces sous-questions indique un angle mort. Cela ne signifie pas nécessairement une violation en cours, mais cela indique que vous ne pouvez pas affirmer avec certitude que vos données sensibles ne sont pas exposées. Onyri Sanitize détaille précisément cette problématique en proposant un diagnostic structuré autour de ces zones d'ombre organisationnelles.
Question 2 — Vos collaborateurs savent-ils reconnaître une donnée sensible ?
Deuxième question. Plus délicate. Un collaborateur qui ne sait pas qu'un numéro de sécurité sociale est une donnée sensible au sens juridique ne commet pas une faute intentionnelle quand il le colle dans un outil de traitement automatique. Il commet une erreur de formation. Et cette erreur, répétée à l'échelle d'une organisation, peut conduire à des violations de données dont les conséquences sont pourtant bien réelles.
La CNIL rappelle que la responsabilisation des personnes traitant des données est une obligation des organisations, pas seulement une bonne pratique. Le RGPD impose une logique d'accountability, c'est-à-dire de capacité à démontrer que des mesures appropriées ont été prises pour protéger les données. Cela inclut la formation des équipes.
La question n'est pas : "avez-vous une politique de protection des données ?" Elle est : "vos collaborateurs, au quotidien, savent-ils ce qu'ils ne doivent pas mettre dans un outil d'IA non validé ?"
Question 3 — Vos outils d'IA sont-ils couverts par un contrat incluant des garanties sur les données ?
C'est ici que la ligne entre usage professionnel et usage non sécurisé se trace le plus nettement. Il existe une différence fondamentale entre utiliser ChatGPT dans sa version grand public — sans contrat, sans engagement de non-utilisation des données pour l'entraînement du modèle — et recourir à une solution IA en mode entreprise, avec un DPA (Data Processing Agreement, ou accord de traitement des données) signé, des serveurs localisés en Europe, et des garanties contractuelles explicites.
Les Échos, dans leur analyse de l'IA en entreprise, soulignent que cette distinction est encore floue pour beaucoup de décideurs. Beaucoup supposent que les outils qu'ils paient offrent automatiquement des garanties sur les données. Ce n'est pas systématiquement le cas. Le paiement d'un abonnement ne vaut pas accord de traitement des données conforme au RGPD.
Si vous ne savez pas si vos outils d'IA font l'objet d'un DPA signé avec votre organisation, vous avez votre réponse : vous opérez dans un vide juridique.
Question 4 — Avez-vous cartographié les flux de données entre vos équipes et vos outils d'IA ?
La cartographie des données est un exercice que le RGPD impose depuis 2018. Elle consiste à recenser, pour chaque traitement de données, la nature des informations traitées, la base juridique du traitement, les destinataires des données, les durées de conservation, et les mesures de sécurité appliquées. La plupart des grandes entreprises ont réalisé cet exercice. Beaucoup de PME l'ont partiellement fait, ou pas du tout.
Mais même dans les organisations qui ont une cartographie à jour, l'IA générative crée un angle mort. Ces outils sont arrivés vite, adoptés par les équipes avant que les directions juridiques ou informatiques ne puissent les encadrer. Le résultat : des flux de données vers des tiers qui n'apparaissent dans aucun registre de traitement.
Le cadre réglementaire détaillé par service-public.fr est explicite : tout traitement de données à caractère personnel doit être documenté. Si vos équipes utilisent des outils d'IA sans que ces usages soient intégrés à votre registre de traitements, vous êtes en dehors du cadre légal, quelle que soit la bonne foi de vos collaborateurs.
Question 5 — En cas d'incident, sauriez-vous ce qui a été exposé ?
La dernière question est peut-être la plus révélatrice. Imaginez qu'un outil d'IA tiers que vous utilisez subisse une fuite de données. Ou qu'un audit révèle que des données de vos clients ont transité par un service non conforme. Seriez-vous en mesure, dans les 72 heures qu'impose le RGPD, de notifier la CNIL en précisant la nature exacte des données exposées, le nombre de personnes concernées, et les mesures correctives déployées ?
Si la réponse est non — ou "probablement pas" — c'est que votre organisation n'a pas les moyens de contrôler ce qu'elle ne sait pas qu'elle expose. Ce n'est pas une question de volonté. C'est une question de dispositif. L'absence de traçabilité des données dans les outils d'IA rend toute réponse à incident opaque et, donc, toute mise en conformité réelle impossible.
---
De l'évaluation à l'action : les réflexes à adopter après ce test
Ne pas attendre la conformité parfaite pour agir
Beaucoup d'organisations repoussent les actions de protection parce qu'elles attendent d'avoir un dispositif complet et cohérent. C'est une erreur stratégique. La conformité parfaite n'existe pas. Ce qui compte, c'est la trajectoire. Mettre en place un premier geste concret — interdire l'usage d'outils d'IA non validés pour les données de santé, par exemple — vaut mieux qu'une politique globale qui n'entre jamais en vigueur.
L'analyse du Ministère de l'Économie recommande une approche pragmatique : identifier les traitements les plus risqués, les traiter en priorité, documenter les actions entreprises. Cette logique de gestion du risque par les priorités est à la fois plus efficace et plus défendable face à une autorité de contrôle.
La pseudonymisation et l'anonymisation comme premiers outils
L'une des réponses techniques les plus immédiates pour limiter l'exposition des données sensibles dans les outils d'IA est la pseudonymisation. Elle consiste à remplacer les données directement identifiantes par des codes ou des alias, de façon à ce que les informations ne puissent pas être reliées à une personne sans une clé de déchiffrement distincte. C'est un niveau de protection intermédiaire, moins fort que l'anonymisation totale, mais déjà significatif.
La CNIL distingue clairement ces deux notions et rappelle que l'anonymisation, lorsqu'elle est réelle et irréversible, soustrait les données au champ d'application du RGPD. Pour les cas où une équipe a besoin d'analyser des données client dans un outil d'IA, travailler sur des jeux de données anonymisés représente une solution à la fois pragmatique et conforme.
Former, encadrer, et ne pas punir les usages mais les encadrer
La tentation, face à des usages d'IA non contrôlés, est de les interdire purement et simplement. C'est une réponse compréhensible. Ce n'est pas la plus efficace. Les collaborateurs continueront d'utiliser ces outils, en dehors du cadre professionnel si nécessaire, avec les mêmes données. L'interdiction sans alternative crée la clandestinité, pas la protection.
L'approche plus durable consiste à proposer des alternatives validées. Identifier des outils d'IA conformes, négocier des contrats avec des garanties sur les données, former les équipes à reconnaître ce qu'elles peuvent ou ne peuvent pas soumettre à ces outils. Onyri Sanitize développe précisément cette logique d'accompagnement par la pratique plutôt que par l'interdiction, en aidant les organisations à construire un cadre d'usage de l'IA compatible avec leurs obligations de protection des données.
---
Ce que ce test révèle vraiment sur la maturité de votre organisation
Un miroir, pas une sanction
Ce test en cinq questions n'est pas un audit formel. Il n'a pas pour objectif de pointer des manquements réglementaires ou de produire un rapport de non-conformité. Son utilité est plus fondamentale : il sert de miroir. Il révèle le niveau de conscience qu'une organisation a de ses propres pratiques en matière de données et d'IA.
Une organisation qui répond "je ne sais pas" à trois des cinq questions n'est pas une organisation défaillante. C'est une organisation honnête sur ses angles morts. Et cette honnêteté est, paradoxalement, un point de départ plus solide que la certitude mal fondée d'une organisation qui pense être en ordre sans jamais avoir fait le point.
Les Échos notent dans leur analyse que la majorité des entreprises françaises qui ont adopté des outils d'IA générative l'ont fait sans cadre formel préalable. Ce n'est pas une exception : c'est la norme. Ce qui distingue les organisations qui s'en sortent bien de celles qui subissent des incidents, c'est la rapidité avec laquelle elles ont mis en place ce cadre après l'adoption.
L'IA Act européen : un cadre qui arrive vite
Il serait incomplet de parler de données sensibles et d'IA sans mentionner l'IA Act européen, entré en vigueur en 2024. Ce règlement introduit une classification des systèmes d'IA par niveau de risque, et impose des obligations spécifiques aux systèmes considérés comme "à haut risque" — notamment ceux qui traitent des données biométriques, de santé, ou qui influencent des décisions ayant un impact significatif sur des individus.
Les obligations ne concernent pas seulement les concepteurs de ces systèmes. Elles s'appliquent aussi aux entreprises qui les déploient. Si votre organisation utilise un outil d'IA pour analyser des données de santé ou automatiser des décisions RH, vous êtes potentiellement dans le champ d'application de ce règlement, au-delà du RGPD. La convergence de ces deux cadres réglementaires crée une complexité nouvelle, mais aussi une opportunité : celle de rationaliser votre approche de la protection des données en une politique cohérente, valable pour l'ensemble de vos usages numériques.
---
Conclusion : se situer, c'est déjà agir
Savoir où l'on en est, c'est la condition de toute progression. Ce test en cinq questions n'apporte pas de réponses toutes faites. Il pose les bonnes questions, celles que beaucoup d'organisations évitent parce qu'elles pressentent que les réponses seront inconfortables.
L'IA n'est pas le problème. C'est un outil parmi d'autres, avec ses propres caractéristiques en matière de flux de données. Le problème, c'est de l'utiliser sans avoir mesuré ce qu'on y met. Et la solution n'est pas de renoncer à ces outils — leur valeur productive est réelle — mais de les intégrer dans un dispositif de gestion des données qui reflète vos obligations légales et la confiance que vos clients et partenaires vous accordent.
Chaque "je ne sais pas" que ce test génère est une information utile. C'est une zone à explorer, un chantier à ouvrir, une conversation à avoir avec votre équipe juridique ou votre DPO. Et si vous n'avez pas encore de DPO, c'est peut-être là que la conversation doit commencer.
La prochaine étape n'est pas parfaite. Elle est simplement suivante.





