Skip to content

seppo0010/data-privacy-talk

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

16 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Data Privacy talk

Creative Commons Attribution-ShareAlike 4.0 International

The goal of this repository is to help me build a talk about data privacy.

Subject, cases

Order

Netflix privacy policy:

We use information to provide, analyze, administer, enhance and personalize our services and marketing efforts, to manage member referrals, to process your registration, your orders and your payments, and to communicate with you on these and other topics. For example, we use such information to: ... analyze and understand our audience, improve our service (including our user interface experiences) and optimize content selection, recommendation algorithms and delivery

Netflix Prize: open competition for the best collaborative filtering algorithm to predict user ratings for films, based on previous ratings without any other information about the users or films.

How To Break Anonymity of the Netflix Prize Dataset, De-anonimization

Doe v Netflix

Habeas data, Protección de los datos personales, GDPR, CCPA, BIPA.

Patel v Facebook, Rivera et al v Google.

Broken Promises of Privacy, The Tracker.

Differential privacy

Algorithms for differential privacy

Randomized response

Privacy Preserving Face Recognition

Privacy in Closed ML Systems

Script (Spanish)

La gente que se crea una cuenta en Netflix accede a sus políticas de privacidad, la mayoría de las veces sin leerlas creo, pero resulta que tiene algo de información que vale la pena conocer.

Las políticas de privacidad, en general, tienen que brindar qué información cede el usuario, qué recolecta la empresa, y cómo se va a usar. Si se usa de otra forma la empresa estaría en falta. A todos nos parecería mal, por ejemplo, que Netflix averigüe nuestra orientación sexual y la publique.

En sus términos Netflix incluye la posibilidad de usar los datos para entender al público y mejorar sus algoritmos de recomendación. Un objetivo razonable y, por qué no, noble.

De hecho Netflix estaba conforme con su algoritmo, pero se le ocurrió que podía ser mejorado e hizo un concurso con premios a quienes lo mejores. Publicaron un data set con un identificador de usuario, identificador de película, puntaje y fecha en que se puso el puntaje. Sólo con esa información hubieron investigadores capaces de de-anonimizar usuarios cruzandolos contra la base de datos de IMDb. En IMDb uno puede también rankear películas que vio pero públicamente, y de esta forma se puede cruzar contra el dataset publicado que puede tener además de películas públicamente punteadas unas que se deseen que se mantenga en privado.

La pregunta que queda por hacerse es si existe alguna información privada que pueda ser obtenida de estos datos, una vez de-anonimizados. Y la respuesta, según el caso Doe v. Netflix, es que sí. El interés de esta mujer en películas del género "Gay y lesbianas" pretendía mantenerse en secreto.

Las políticas de privacidad de Netflix le permitían mejorar su algoritmo de recomendación, sí, pero no publicar la orientación sexual de sus clientes.

Las políticas de privacidad son un requerimiento legal. Cada página debe publicar qué datos guarda y cómo los va a usar, y no puede usarlos de otra forma. En Argentina esto está impuesto por la Ley 25.326, Protección de Datos Personales. De hecho también le da acceso a las personas reflejadas en la base de datos a presentar un Habeas Data para obtener toda la información que una empresa tiene de una, y de pedir una rectificación si hay algún error.

Para los ciudadanos de la Unión Europea el GDPR en su artículo 15 también garantiza este derecho. En Estados Unidos no existe una ley federal para esto, pero sí está en varios estados, por ejemplo la California Consumer Privacy Act. En Illinois además tienen una ley que defiende la privacidad de los datos biométricos. Facebook y Google sufrieron juicios bajo esta ley con resultados mezclados.

Ahora si queremos cumplir con las leyes y liberar datos anonimizados, ¿cómo hacemos? La respuesta corta es que no se puede. En el caso de Netflix se ve como se puede cruzar la información contra una base de datos pública para obtener información que debía mantenerse privada. Con la abundancia de datos públicos cada vez parece más fácil esto.

En Estados Unidos 87% de las personas pueden ser identificadas sólo con código postal, fecha de nacimiento (incluído año) y género. En 1997 el estado de Massachusetts liberó los registros médicos de los empleados públicos y una persona usó estas tres columnas para encontrar el correspondiente al gobernador y demostrar así la poca seguridad de publicar información anonimizada.

Una alternativa para ofrecer acceso a información recolectada es permitir hacer consultas agregadas de resultados, por ejemplo contar la cantidad de personas que vieron una película, o el promedio de puntaje que le dieron. Cuando se hace eso, para no revelar información sobre gente, se suele excluir las respuestas que incluyen un grupo muy reducido. Pero con algo de creatividad se puede hacer un programa que se dedique a hacer consultas y computar la diferencia entre distintos grupos y de esa forma sacar los registros individuales. Y con los registros individuales cruzarlo contra otras bases de datos nuevamente.

Pero no todo está perdido. Existe un concepto que se llama privacidad diferencial. La idea es que la publicación de un dataset debería ser igual con la participación o no de un individuo. Es decir que nadie por sí mismo no debe afectar los resultados, de esa forma no debe poder averiguarse información de alguien en particular. Un ejemplo de cómo se puede lograr esto es con un conjunto de consultas agregadas limitado.

Una forma intuitiva de lograr privacidad diferencial es que algunas de las respuestas sean aleatorias. Suponiendo que queremos saber algo sensible, por ejemplo si la persona cometió adulterio o consume drogas. Le preguntamos a la persona una pregunta binaria y en vez de pedir que responda correctamente, le pedimos que tire una moneda, si sale cara responda honestamente pero si sale seca que tire la moneda de nuevo y responda aleatoriamente según su resultado. Así toda persona puede desconocer su respuesta si es de-anonimizada de alguna forma. Tiene un costo, por supuesto, que es que la mitad de las respuestas no nos sirven pero sabemos la distribución de ellas y podemos considerarlo en nuestro análisis.

Alternativamente podemos agregarle ruido a los resultados agregados de las consultas que se realizan, en cuyo caso la de-anonimización ya no es más posible. Esto no es fácil de hacer tampoco porque hay que asegurarse que las respuestas sean consistentes y repetibles. También tiene el problema de que quien recibe las respuestas las recibe no modificadas. Esto es lo que va a hacer Estados Unidos con los resultados de su Censo 2020.

Se puede diseñar un sistema en el cual la información que recibe el servidor está preprocesada de forma tal que puede efectuar la tarea que es necesaria sin poder hacer otras cosas. Por ejemplo un uso que se está estudiando es el diagnóstico del trastorno de espectro autista, para eso se pone a une niñe a ver un video y se mide su respuesta, como para qué lado mira o cuánto tarda en reaccionar. Una primera forma de hacer esto es con la información biométrica del infante, pero estos datos son sensibles y no queremos que sean revelados, entonces podemos simplemente enviar la información ya "masticada", como justamente para dónde mira en cada cuadro.

Y se puede ir más allá y se pueden usar redes neuronales adversarias para generar esta función de sanitización. Una red intenta obtener el resultado positivo con esta representación intermedia mientras que otra busca sacar la información biométrica, por ejemplo establecer el sexo del bebé, y lo que se busca es maximizar la primera y minimizar la segunda al mismo tiempo.

Otra posibilidad es agregarle ruido a los datos antes de enviarlos, con cierta distribución conocida. En un problema de reconocimiento facial se puede agregar ruido gaussiano a las imágenes, y contrastarlas contra otras imágenes con ruido gaussiano para lograr la identificación. La persona en la imagen con ruido no es identificable al ojo humano, pero sí puede usarse para la identificación con sorprendentemente buenos resultados.

En conclusión la privacidad es un derecho importante para muchas personas, y no es fácil de garantizar por las empresas. La publicación de información que parece no sensible puede lograr filtrar información sensible. La privacidad diferencial nos ofrece una forma de pensar el problema. Agregando ruido aleatorio con una distribución predecible a la recolección y publicación de datos se puede aumentar su privacidad.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published