Algoritmo permite identificar al 99,98% de estadounidenses a partir de datos públicos

Algoritmo permite identificar al 99,98% de estadounidenses a partir de datos públicos

Un grupo de científicos del Imperial College London y de la Université Catholique de Louvain de Bélgica han desarrollado un algoritmo capaz de identificar a prácticamente cualquier estadounidense a partir de bases de datos públicas teóricamente despojadas de información personal que permite una identificación.

El estudio, publicado en la revista científica Nature Communications, explica cómo tomando datos médicos, conductuales y sociodemográficos públicos supuestamente anonimizados puede identificarse con un acierto 99,98 % a las personas a las cuales les pertenecen al cruzarlos.

El autor principal, Yves-Alexandre de Montjoye, pone de relieve en una nota que “los datos utilizados para el estudio son ‘información estándar’ que las empresas suelen solicitar a sus clientes. Esos datos pueden venderse libremente a data brokers, a agencias de publicidad o a gobiernos en cualquier parte del mundo, una vez ‘desvinculados’ de la identidad de sus dueños. La investigación muestra con qué facilidad y con qué precisión se puede rastrear a los individuos”.
Más concretamente, el modelo informático desarrollado es capaz de identificar a casi la totalidad de los estadounidenses de casi cualquier conjunto de datos disponibles empleando solamente 15 atributos como puedan ser el estado civil, el sexo o el código postal de su domicilio. El margen de error casi no existe.

Datos públicos no tan anónimos

Los datos públicos empleados por este algoritmo son, como decíamos, información médica, conductual y sociodemográfica que, en principio, carece de detalles que permitan una identificación. Son resultado de 120 millones pruebas médicas, encuestas o censos poblacionales que suelen pedir permiso a los usuarios para difundir la información eliminando los datos que permitirían una identificación.

En esta información podemos encontrar desde el estado de salud de las personas a inclinaciones políticas, situación sentimental, productos favoritos, fechas de nacimiento, sexo y un sinfín de indicadores.

A partir de todo ello, el algoritmo informático de los investigadores del Imperial College London y de la Université Catholique de Louvain puede relacionar datos e información consiguiendo identificar al 99,98 % de los propietarios de esos datos, aseguran los investigadores en el estudio publicado.

Lo que resulta ciertamente llamativo es que este grupo de científicos ha publicado el código que compone la herramienta desarrollada y cualquiera podría usarla. La razón, recoge The New York Times, es la dificultad de advertir del problema a una compañía u organización concreta, porque los datos de este tipo se extienden por todas partes, y la posibilidad de que la información ya se haya explotado como permite su método. Confían que con la publicación del código se asegura en un futuro la publicación de este tipo de datos.

Para enseñar cómo funciona dicho modelo, han lanzado una herramienta online que aplica de manera ficticia lo aprendido para medir la probabilidad de ser ‘reidentificado’ simplemente introduciendo un código postal (sólo de EE.UU. y Reino Unido), la fecha de nacimiento y el género.

Romper el vínculo entre el dato y la identidad

Para el ingeniero y abogado especializado en tecnología Sergio Carrasco, que no ha participado en ese estudio, sería interesante comprobar si hablan de datos ‘anonimizados’ (datos totalmente aislados de la identidad del sujeto) o ‘pseudoanonimizados’, es decir, que pertenezcan a un perfil de alguien a quien se le asigna un valor numérico en lugar del nombre. “Al final, detrás de ese identificador hay una identidad”, apunta.

“Sin embargo, los datos ‘anonimizados’ serían aquellos en los que se ha roto el vínculo entre el dato y la identidad de la persona en cuestión”, recuerda Carrasco, que apunta que “si realmente se ha procedido a una anonimización completa, es decir, que el dato no lleva ningún identificador agregado, ese dato tiene poco valor”. Para este experto, el dato debería tener un grado mayor o menor de agregación para que sea interesante.

 

 

Fuente: Genbeta / Público