Investigadores del IFCA crean una herramienta para saber el nivel de anonimato de los datos
Judith Sáinz-Pardo y Álvaro López, investigadores del grupo de Computación Avanzada y e-Ciencia del Instituto de Física de Cantabria (IFCA, CSIC-UC), han desarrollado ‘pyCANON’, una librería de lenguaje Python que permite al usuario conocer el nivel de anonimato de sus datos y con ello los posibles riesgos de privacidad que pueden sufrir. El trabajo ha sido publicado en la revista Nature Scientific Data.
Como explica la UC en nota de prensa, el avance de la tecnología ha supuesto el manejo de grandes volúmenes de datos, lo que se conoce como ‘big data’, cuyo principal reto a la hora de gestionarlos es mantener el equilibrio entre la privacidad y la preservación de la mayor cantidad de información posible.
La inteligencia artificial, el ‘machine learning’ (aprendizaje automático) y el ‘deep learning’ (aprendizaje profundo) permiten aplicaciones que van desde la visión artificial, el procesamiento del lenguaje natural o el reconocimiento de la voz. Sin embargo, para producir estos sistemas se necesitan grandes cantidades de datos y entrenar modelos con un buen nivel de precisión.
Por ello, los investigadores del IFCA han creado pyCANON, una herramienta que puede utilizar cualquier usuario sin necesidad de amplios conocimientos de técnicas de privacidad ni de programación y que garantiza conocer el nivel privacidad en los datos de cara a operar con ellos de forma segura.
Judith Sáinz-Pardo explica que pyCANON se ha creado para proporcionar al equipo investigador, y en general a cualquiera que quiera publicar un conjunto de datos en acceso abierto o compartirlo con otros, un conocimiento del nivel de anonimización de sus datos, es decir, «cómo de anónimos son sus datos». «La herramienta ofrece información sobre los posibles riesgos a los que se expondría esta información, y su resistencia a diferentes ataques», matiza.
En el caso de una base de datos con información clínica de pacientes «tendríamos un conjunto muy grande de datos, y entre ellos estarían los quasi identificadores, que son, por ejemplo, el lugar de residencia del paciente, edad, género, etc. Luego los atributos sensibles, es decir, información que no deberíamos conocer del paciente, a la que un atacante, por tanto, no debería poder acceder», afirma la investigadora.
Lo que haría PyCANON en este caso es «comparar la distribución de estos dos grupos de datos de la base para saber cómo de anónimos son, de acuerdo a nueve técnicas distintas muy útiles, que previenen un tipo distinto de ataque», explica.
La librería, que ya está disponible online, se ha creado para que su uso sea «muy intuitivo y muy sencillo».