# Anonimización de Datos

En la lección anterior explicamos el problema de la **privacidad de los datos**. En esta lección práctica y en la siguiente, vamos a hablar sobre cómo abordar ese problema a través de dos técnicas cruciales para la protección de la información personal: la **anonimización** y la **pseudonimización**. Vamos a ver qué son, por qué son importantes y cómo podemos implementarlas en Python con ejemplos prácticos. Comencemos.

La **anonimización** y la **pseudonimización** son dos métodos utilizados para proteger la privacidad de los datos, y son fundamentales para cumplir con regulaciones como la *GDPR* y para asegurar que los datos personales no sean expuestos durante el análisis de datos. Al utilizar la anonimización y la pseudonimización, vamos a poder utilizar datos sensibles de forma más segura para la investigación y el desarrollo.

En esta lección conoceremos en profundidad la anonimización, y en la siguiente lección le toca el turno a la pseudonimización.

La **anonimización** es la más drástica de ambas, porque directamente elimina permanentemente cualquier información que pueda identificar a una persona, preservando solamente aquellos datos que son necesarios para la investigación pero que no implican ninguna clase de identificación personal. Esto en general es perfectamente válido ya que casi nunca la información que brinda identidad es necesaria para obtener conocimientos generalizables. Datos como el nombre, el número de documento, o de teléfono no suelen ser relevantes para asuntos estadísticos.

Vamos a ver algunos ejemplos prácticos de cómo anonimizar un conjunto de datos utilizando Python. Supongamos que tenemos este dataframe que contiene nombres, direcciones de correo electrónico y ubicaciones.

In [1]:
import pandas as pd
import numpy as np

In [2]:
data = pd.DataFrame({
    'nombre': ['Ana', 'Juan', 'Luis', 'Pedro', 'Silvina'],
    'email': ['ana@ejemplo.com', 'juan@ejemplo.com', 'luis@ejemplo.com', 'pedro@ejemplo.com', 'silvina@ejemplo.com'],
    'edad': [22, 37, 15, 49, 63],
    'ubicacion': ['Ciudad A', 'Ciudad B', 'Ciudad C', 'Ciudad D', 'Ciudad E'],
    'salario': [55000, 34000, 76000, 51000, 62000],
    'banco': ['Banco 1', 'Banco 3', 'Banco 1', 'Banco 2', 'Banco 3']
})

data

Unnamed: 0,nombre,email,edad,ubicacion,salario,banco
0,Ana,ana@ejemplo.com,22,Ciudad A,55000,Banco 1
1,Juan,juan@ejemplo.com,37,Ciudad B,34000,Banco 3
2,Luis,luis@ejemplo.com,15,Ciudad C,76000,Banco 1
3,Pedro,pedro@ejemplo.com,49,Ciudad D,51000,Banco 2
4,Silvina,silvina@ejemplo.com,63,Ciudad E,62000,Banco 3


A través de **pandas** podemos usar la función `drop()` para quitar todas aquellas columnas que afecten la privacidad de los individuos.

In [3]:
data.drop(['nombre', 'email'], axis=1, inplace=True)
data

Unnamed: 0,edad,ubicacion,salario,banco
0,22,Ciudad A,55000,Banco 1
1,37,Ciudad B,34000,Banco 3
2,15,Ciudad C,76000,Banco 1
3,49,Ciudad D,51000,Banco 2
4,63,Ciudad E,62000,Banco 3


Otro aspecto que se puede anonimizar si se considera necesario, es **redondear números** como edades, fechas o números de documentos.

Al redondearlos podemos seguir investigando aspectos generales de la información sin tener información demasiado específica.

In [4]:
data['edad'] = (data['edad'] // 10) * 10
data

Unnamed: 0,edad,ubicacion,salario,banco
0,20,Ciudad A,55000,Banco 1
1,30,Ciudad B,34000,Banco 3
2,10,Ciudad C,76000,Banco 1
3,40,Ciudad D,51000,Banco 2
4,60,Ciudad E,62000,Banco 3


Otra estrategia de anonimización muy interesante, es la que se conoce como **ruido aleatorio**. Este procedimiento lo que hace es añadir ruido aleatorio a los datos numéricos para desvincularlos de su valor real, lo cual puede ser útil para ocultar patrones específicos o valores exactos en un conjunto de datos.

Básicamente el ruido aleatorio **distorsiona los valores numéricos**, pero de una forma tal que permite que el conjunto de datos **preserve la utilidad estadística**, ya que cambia los datos individuales, pero mantiene las propiedades generales de los datos como *medias*, las *varianzas*, la *desviación estándar*, etc.

Primero vamos a generar el ruido:

In [5]:
ruido = np.random.normal(0, 100, size=data['salario'].shape)
ruido

array([-107.94001007,  -47.77111386,   71.78247857,   49.47439302,
         80.65009401])

En esa línea código hemos implementado `np.random.normal()` que es una función de NumPy que genera números aleatorios manteniendo una distribución normal. Aquí describo los parámetros que hemos configurado:
+ `0` - Este es el parámetro `mean` (media) de la distribución normal. En este caso, la media está configurada en `0`, lo que indica que el promedio de los valores generados por esta distribución será `0`.
+ `100` - Este es el parámetro `std` (desviación estándar) de la distribución normal. Aquí, se especifica una desviación estándar de `100`, que define cuánto se espera que se dispersen los valores alrededor de la media. Una desviación estándar de `100` significa que la mayoría de los valores estará dentro de un rango de 100 unidades de la media en ambas direcciones (positiva y negativa).
+ `size=data['salario'].shape` - Este parámetro especifica que forma va a tener el array que se va a generar. Al decir `data['salario'].shape` le está pidiendo que tenga la forma de la columna `salario` de nuestro dataframe, por lo que se va a generar un **array** de números aleatorios con la misma cantidad de elementos que la columna `salario`. Esto asegura que cada entrada en la columna `salario` luego tenga un número aleatorio correspondiente para añadirle ruido.

Y luego vamos a agregar ese ruido a nuestros valores:

In [6]:
data['salario'] += ruido
data

Unnamed: 0,edad,ubicacion,salario,banco
0,20,Ciudad A,54892.05999,Banco 1
1,30,Ciudad B,33952.228886,Banco 3
2,10,Ciudad C,76071.782479,Banco 1
3,40,Ciudad D,51049.474393,Banco 2
4,60,Ciudad E,62080.650094,Banco 3


Por último vamos a conocer otra estrategia, que se llama **permutación**, o ***shuffling***, y que consiste en cambiar el orden se ciertos datos, de modo que se pierda la relación entre sus valores y otros campos del dataset. 

In [7]:
data['banco'] = np.random.permutation(data['banco'])
data

Unnamed: 0,edad,ubicacion,salario,banco
0,20,Ciudad A,54892.05999,Banco 3
1,30,Ciudad B,33952.228886,Banco 2
2,10,Ciudad C,76071.782479,Banco 1
3,40,Ciudad D,51049.474393,Banco 3
4,60,Ciudad E,62080.650094,Banco 1


Esto permite que sea imposible individualizar esa información en los sujetos, pero hay que tener en cuenta que solo puede implementarse cuando esa relación no sea importante. 
	
Estas han sido las diferentes **técnicas de anonimización** de la información, y en la siguiente lección veremos otro conjunto de técnicas que sirven para la **pseudonimización**. No te las pierdas.