INFOX#9 : « Pas de souci, c’est anonymisé ! ” … En êtes-vous certain ?

Mis en ligne le 3 avril 2020

Par Christophe Reffay

Confiance et données personnelles en e-formation : une équation à plusieurs inconnues.

En présentiel, les enseignants savent combien il est important de ne pas rater sa rentrée, son premier cours, les premières impressions qu’on donne aux apprenants, car c’est la mise en place du premier barreau de l’échelle de la confiance entre l’enseignant et les apprenants qui se joue. Cette confiance se construit ensuite dans chacune des interactions. On se livre un peu, on teste la réaction des pairs et de l’enseignant, puis on se livre un peu plus, jusqu’à ce qu’une faille se produise : une réflexion blessante de la part d’un pair, une brimade, …

Ce jeu des interactions qui construit l’échelle de la confiance au sein d’une organisation est essentiel pour permettre la collaboration, l’entre-aide et l’apprentissage par les pairs. Sans lui, nous en sommes réduits à un enseignement frontal, déshumanisé, où l’on place les apprenants en situation de travail individuel et indépendante de leurs pairs comme dans certains cours massifs en ligne (MOOC). Un modèle simple et répandu de tel cours (le x-MOOC) consiste à fournir les ressources scénarisées avec minutie à la myriade d’apprenants qui les « consomment » pour développer puis évaluer les connaissances ciblées par le dispositif de formation à distance.

Mais si l’on attache de l’importance aux interactions, à la collaboration, au conflit sociocognitif, on optera pour une forme bien différente de dispositif de formation à distance, où la construction de l’identité de l’apprenant au sein d’une communauté d’apprentissage est indispensable, où la participation aux discussions est encouragée et les apports des apprenants valorisés. Les technologies n’étant pas toujours adaptées aux usages souhaités, certains en arrivent alors à échanger leurs numéros de téléphone pour assurer une meilleure collaboration… La confiance est en place, le pari est gagné : la collaboration peut fonctionner.

Mais qu’en est-il de la visibilité et de l’accessibilité des données personnelles ainsi échangées ? Qui a accès à ces interactions et à leurs archives ? En effet, ce qui change par rapport à la situation en présentiel, c’est le fait que ces interactions sont inscrites dans une plateforme, gérée par une institution ou une entreprise, accessible au moins le temps de la formation aux différents acteurs du dispositif : administrateurs, enseignants, tuteurs, apprenants, voire au-delà : aux concepteurs, aux chercheurs, et au personnel qui collabore à la recherche. Nous y voilà !

 

Pour échapper à la RGPD, il suffit d’anonymiser les données personnelles

Selon le règlement général sur la protection des données (RGPD), une donnée est dite personnelle si, seule ou par recoupement avec d’autres, elle permet d’identifier une personne. Cela signifie que le processus d’anonymisation doit être irréversible et donc qu’aucune table de correspondance ne peut être conservée, par quiconque. Si une telle table existait, on devrait parler d’encodage plutôt que d’anonymisation (Conrad, 2020).

D’un point de vue technique, différentes méthodes automatiques ou semi-automatiques peuvent rendre les données plus anonymes. Mais à quel point et à quel prix ?

 

Les techniques d’anonymisation face à la masse des données à traiter

Reprenons d’abord l’exemple des x-MOOC pour lesquels chaque apprenant « consomme » les ressources (essentiellement vidéos et quiz). Chacune de leurs actions dans le système peut être tracée dans des fichiers de journalisation (incluant en particulier leur identifiant dans le système, la date et l’heure de l’action, l’action et d’éventuelles données comme la réponse à une question par exemple) et ce, pour permettre aux différents acteurs du dispositif d’analyser les traces : l’apprenant lui-même a besoin de connaître l’avancée de son travail, le tuteur peut vouloir analyser certains parcours pour comprendre où en est l’apprenant qui le sollicite, l’enseignant ou le concepteur peut chercher dans ces traces la récurrence des impasses ou des réussites en vue d’améliorer le dispositif. Tant que les réponses aux tests n’incluent aucune donnée personnelle, il suffit (presque), pour anonymiser ces traces, de rompre leur lien vers le profil de l’utilisateur qui les a produites en remplaçant l’identifiant de la trace par un pseudonyme. Mais la réglementation impose de détruire toute archive de traces non anonymisées et toute table de correspondance entre les traces anonymes et les profils utilisateurs pour que l’identification reste impossible. Cette partie système est relativement aisée à mettre en place pour qui le souhaite car il ne s’agit que de traitements automatiques très simples sur des bases de données.

 

Si nous entrons dans la trace…

Dès que les apprenants ont la possibilité de déposer du texte ou des images sur la plateforme : réponses ouvertes à des quiz, dissertations, documents rendus, etc., on peut s’attendre à recueillir toutes sortes de données y compris des informations personnelles (même si elles ne sont pas explicitement demandées par l’enseignant). Dans le cas particulier des interactions textuelles synchrones ou asynchrones comme le clavardage (chat) ou les forums de discussions, l’expérience montre que les informations personnelles y sont fréquentes : chacun s’interpelle par son prénom (et même parfois le nom), parle de son lieu de travail ou de résidence, accompagné de photos (parfois des portraits) ou échange des numéros de téléphone ou identifiants de réseaux sociaux : autant de données qui permettent en général d’identifier directement les personnes concernées. Ces échanges sont pourtant la part souvent nécessaire pour établir la confiance envers un dispositif d’apprentissage collaboratif.

Des techniques d’anonymisation de texte de plus en plus performantes ont été développées depuis 2004, en particulier pour permettre le partage de données pour la recherche. D’abord semi-automatiques (Reffay et al., 2012) dans des corpus plurilingues d’apprentissage en ligne, puis de plus en plus automatiques pour faire face au big data dans le domaine médical (Kayaalp, 2018, p. 13). Ces dernières sont ensuite passées au crible de méthodes statistiques pour évaluer les risques de fuite d’informations personnelles résiduelles ou de destruction d’informations essentielles aux usages des produits concernés. Les algorithmes utilisés font souvent appel à des dictionnaires ou corpus annexes pour repérer les noms de personnes, de lieux, d’institutions, etc. Ces techniques sont efficaces pour le domaine considéré (médecine), dans la langue (unique) et la culture de la région concernée. Une bonne marge de progrès subsiste pour que l’anonymisation automatique soit efficiente dans les dispositifs de formation à distance.

 

… il faut que chacun s’en sorte par le haut

Au-delà des considérations légales et techniques, il est essentiel de mesurer à quel point les traces laissées par les apprenants dans nos plateformes sont accessibles, de savoir qui y a accès et d’anticiper l’impact d’une éventuelle diffusion. Cette question n’est pas à traiter à la légère puisque tout acteur du dispositif est en droit de demander réparation en cas de préjudice subséquent à une diffusion de données personnelles le concernant.

L’éthique invite par exemple les chercheurs « à regarder au-delà des objectifs de recherche, [pour prévoir] les conséquences pour quiconque et l’impact possible sur la société dans son ensemble » (European Commission & Directorate General for Research, 2013, p. 26).

Nous ne pouvons donc que recommander aux techniciens et pédagogues de concevoir de tels dispositifs en veillant à ce que chaque utilisateur puisse être conscient des risques encourus du fait de ses interactions avec le système. Selon le quatrième des 7 principes proposés par Ann Cavoukian (2010, p. 248), les systèmes ainsi produits auront une plus-value certaine sans réduire les fonctionnalités du système de base. Aux chercheurs, nous suggérons d’expliciter ces risques dans un formulaire de consentement éclairé dument rempli par chacun des participants pour ces mêmes raisons.

Enseignant à l’INSPÉ (Institut national supérieur du professorat et de l’éducation), Université de Franche-Comté
Chercheur en Informatique dans le pôle CCM (Conception Création Média) du laboratoire ELLIADDUniversité de Franche-Comté

Christophe Reffay

Christophe.Reffay@univ-fcomte.fr

Références

Cavoukian, A. (2010). Privacy by design : The definitive workshop. A foreword by Ann Cavoukian, Ph.D. Identity in the Information Society, 3(2), 247‑251. lien vers l’article

Conrad, V. (2020, mars 23). Aucune donnée n’est anonyme. L’urgence de l’essentiel. lien vers l’article

European Commission, & Directorate General for Research. (2013). Ethics for researchers : Facilitating research excellence in FP7. Publications Office. http://bookshop.europa.eu/uri?target=EUB:NOTICE:KI3213114:EN:HTML

Kayaalp, M. (2018). Patient Privacy in the Era of Big Data. Balkan Medical Journal, 35(1), 8‑17. Lien vers l’article

Reffay, C., Blondel, F.-M., Allaire, S., & Giguet, E. (2012, septembre 6). Anonymisation semi-automatique de corpus d’interactions éléments pour une méthode interactive. JOurnées Communication et Apprentissage Instrumentés en Réseau. Lien vers l’article