Anonymisation des données personnelles dans le cadre du RGPD
Anonymisation, obfuscation, masking, pseudonymisation, dé-identification, chiffrement ou encore tokenisation, il est difficile de passer à côté de ces notions lorsque l’on s’intéresse à la protection des données personnelles et à ses différentes techniques.
Souvent utilisées de manière interchangeable, elles ont certes des points communs, mais elles se distinguent pourtant les unes des autres sur bien des aspects. Certaines s’inscrivent clairement dans le cadre du RGPD, d’autres sont essentiellement mises en avant par les éditeurs de solutions clés en main.
Je vous propose une série d’articles pour tenter d’y voir plus clair, comprendre, dans les grandes lignes, ce qui se cache derrière ces concepts.
Dans ce premier article, je traiterai de l’anonymisation et apporterai des éléments de réponses à ces quelques questions :
- qu’est ce que l’anonymisation : il s’agit ici de présenter l’anonymisation telle qu’elle est définie par la CNIL dans le cadre du RGPD.
- comment anonymiser ses données : quelles sont les techniques reconnues.
- comment mesurer l’efficacité du processus d’anonymisation : sur quels critères se base-t-on pour évaluer l’efficacité du processus d’anonymisation.
- quelle est la position du RGPD vis-à-vis du concept d’anonymisation en tant que technique de protection des données personnelles.
- pour finir, que faut-il retenir en bref.
Qu’est ce que l’anonymisation?
Selon la CNIL, “l’anonymisation est un traitement qui consiste à utiliser un ensemble de techniques de manière à rendre impossible, en pratique, toute identification de la personne par quelque moyen que ce soit et de manière irréversible.”
Il s’agit ainsi d’utiliser des méthodes pour modifier des données personnelles de manière définitive dans le but d’éliminer toute réidentification d’une personne physique concernée.
Anonymiser des données revient donc à les transformer à un tel point qu’il n’est plus possible de les relier à la personne à laquelle elles appartiennent.
Autrement dit, c’est un aller sans retour.
Anonymiser, oui mais comment ?
Lorsque l’on s’engage dans un processus d’anonymisation, plusieurs éléments doivent être pris en considération avant de faire le choix du procédé adéquat. En effet, si l’on se réfère à la définition précédente, l’anonymisation des données est par nature un processus qui dénature profondément l’information, allant même jusqu’à la détruire, il est donc indispensable de se poser les questions suivantes :
- quelles sont les données à conserver selon le cas d’usage envisagé.
- quels éléments d’identification directe ou indirecte supprimer afin d’empêcher la ré-identification.
- quel est le degré de finesse optimal recherché pour répondre avec efficacité aux cas d’usage définis.
Ce travail préalable va permettre de déterminer quelles techniques mettre en oeuvre.
Ces techniques sont regroupées en 2 grandes familles :
- la généralisation qui consiste à modifier l’échelle des attributs ou leur ordre de grandeur afin qu’ils soient communs à un ensemble de personnes. On crée ainsi des sous-ensembles dans lesquels on regroupe des personnes partageant certains attributs.
Il s’agit par exemple de remplacer la ville par la région ou le département, ou encore de conserver uniquement l’année de naissance en lieu et place de la date de naissance complète grâce à des techniques comme le k-anonymat, la l-diversité, la t-proximité,..
- la randomisation qui consiste à modifier ou encore permuter des attributs dans un jeu de données de manière à ce qu’elles soient moins précises, plus incertaines, tout en préservant la répartition globale. On affaiblit ainsi le lien entre les données et la personne concernée.
Il s’agit par exemple d’ajouter +/- x cm à un attribut “taille” , ou encore +/- n ans à un attribut “âge”. On utilise pour cela les techniques d’ajout de bruit, de permutation ou encore la confidentialité différentielle.
Combiner plusieurs techniques d’anonymisation est tout à fait possible. C’est même recommandé.
Comment mesurer l’efficacité de l’anonymisation ?
Trois critères permettent d’évaluer l’efficacité de l’anonymisation :
- l’individualisation, qui permet de répondre à la question : peut-on isoler une personne concernée à partir d’informations la concernant dans le jeu de données? Si la réponse est positive, l’anonymisation ne résiste pas à l’individualisation.
- la corrélation, qui permet de répondre à la question : peut-on isoler une personne concernée en reliant entre elles deux bases de données distinctes? Si la réponse est positive, l’anonymisation ne résiste pas à la corrélation.
- l’inférence, qui permet de répondre à la question : peut-on déduire, de façon quasi sûre, de nouvelles informations concernant la personne concernée? Si la réponse est positive, l’anonymisation ne résiste pas à l’inférence.
Selon l’European Data Protection Board (anciennement Groupe 29), la généralisation permettrait de réduire les risques d’individualisation et de corrélation, tandis que la randomisation permettrait de lutter contre le risque d’inférence, d’où la nécessité de combiner différentes techniques entre elles afin d’atteindre un niveau de protection fiable.
Une solution d’anonymisation offrant un niveau de protection fiable et robuste contre les tentatives de ré-identification doit donc résister à ces 3 critères conjointement. Si ce n’est pas le cas, vos données ne sont pas anonymisées.
Il faut noter toutefois, qu’il n’existe pas de solution unique et universelle. Les techniques, au même titre que les attaques, évoluent. De même vos données, vos cas d’usage et vos systèmes ne sont pas figés dans le temps, il est indispensable de considérer l’anonymisation des données comme un processus continu et évolutif.
Que dit le RGPD ?
Même si le RGPD n’impose pas de recourir à l’anonymisation, c’est, avec la pseudonymisation, une des techniques qu’il recommande dans le cadre de la protection des données personnelles.
Lorsqu’elle est réalisée dans les règles de l’art, elle offre la possibilité d’exploiter des données sans porter atteinte aux droits et libertés des personnes concernées et sans risques de sanctions. En effet, sauf dispositions législatives contraires, les données anonymisées sortent du cadre légal du RGPD dans la mesure où elles perdent leur caractère personnel. Elles peuvent ainsi être conservées sans limitation de durée, favorisant leur réutilisation ainsi que leur partage, et contribuant ainsi au développement de l’open data.
Cependant, de part sa nature destructrice d’informations, elle n’est pas sans conséquences, principalement en matière de qualité des données. En effet, les données ayant été dénaturées, elles ne conviennent plus à certains cas d’usage.
Que faut-il retenir?
L’anonymisation doit être irréversible. Cette notion d’irréversibilité est la condition sine qua non pour pouvoir considérer des données comme étant anonymisées.
L’anonymisation n’est ni infaillible, ni une solution miracle comme peuvent en témoigner les cas AOL et Netflix. Elle requiert une surveillance de tous les instants.
Sa mise en oeuvre est complexe, itérative et s’inscrit dans le temps. Elle nécessite de sensibiliser tous les acteurs de l’entreprise.
Compte tenu des enjeux et des risques encourus en cas de brèche, il ne suffit pas de sélectionner et mettre en oeuvre une ou plusieurs techniques pour se considérer à l’abri des attaques et compromissions. Il est primordial de procéder à une analyse continue des risques en fonction des cas d’usage.
Cette étape est cruciale et va permettre de tracer la feuille de route de votre projet d’anonymisation, projet qui doit bien évidemment s’inscrire dans la stratégie de sécurité et de gouvernance de l’entreprise et qui doit être pris en charge de manière transversale.
Pour en savoir plus sur les techniques d’anonymisation, vous pouvez consulter le rapport de l’EDPB (European Data Protection Board/Groupe 29).
A suivre
Qu’est ce que la pseudonymisation des données personnelles? Quelles sont ses caractéristiques? En quoi est-elle différente de l’anonymisation?