# Anonimizaci√≥n de Datos en Data Science

M√©todo que, a diferencia de la pseudonimizaci√≥n, **elimina permanentemente cualquier informaci√≥n que pudiera identificar a una persona**, preservando s√≥lo aquellos datos que son necesarios para la investigaci√≥n. Es la opci√≥n por defecto para estudios que buscan resultados generalizables. Datos como nombre, apellido, c√≥digo de documento ID, o n√∫mero de tel√©fono, etc. **no son relevantes** para asuntos estad√≠sticos reales.

In [1]:
from typing import Any

import numpy as np
import pandas as pd

## Caso de ejemplo

**NOTA PERSONAL:** Los datos aqu√≠ trabajados (proporcionados por Federico) son obviamente de tipo _dummy_ (no reales). Sin embargo, para complementar la informaci√≥n dada en este curso, debe considerarse que, en el mundo real, los datos pueden ser prove√≠dos directamente desde fuentes tales como archivos locales (CSV, XLSX, etc.) o una **base de datos** local; o bien, indirectamente desde servicios online a trav√©s de una **API**. Sobre esto √∫ltimo, es conveniente tomar algunas precauciones tales como asegurarse de usar siempre **conexiones seguras**, y de tener un manejo estrictamente cuidadoso de los datos sensibles como las credenciales de autenticaci√≥n, las claves de las API, y otras **variables de entorno**, a fin de evitar cualquier fuga de datos. üö®

In [2]:
names: list[str] = ['Ana', 'Juan', 'Luis', 'Pedro', 'Silvina']
emails: list[str] = [
    'ana@ejemplo.com',
    'juan@ejemplo.com',
    'luis@ejemplo.com',
    'pedro@ejemplo.com',
    'silvina@ejemplo.com'
]
ages: list[int] = [22, 37, 15, 49, 63]
cities: list[str] = [
    'Ciudad A',
    'Ciudad B',
    'Ciudad C',
    'Ciudad D',
    'Ciudad E'
]
salaries: list[int] = [55000, 34000, 76000, 51000, 62000]
banks: list[str] = ['Banco 1', 'Banco 3', 'Banco 1', 'Banco 2', 'Banco 3']

data: dict[str, Any] = {
    'Nombre': names,
    'Email': emails,
    'Edad': ages,
    'Ubicaci√≥n': cities,
    'Salario': salaries,
    'Banco': banks
}

df: pd.DataFrame = pd.DataFrame(data)
df

Unnamed: 0,Nombre,Email,Edad,Ubicaci√≥n,Salario,Banco
0,Ana,ana@ejemplo.com,22,Ciudad A,55000,Banco 1
1,Juan,juan@ejemplo.com,37,Ciudad B,34000,Banco 3
2,Luis,luis@ejemplo.com,15,Ciudad C,76000,Banco 1
3,Pedro,pedro@ejemplo.com,49,Ciudad D,51000,Banco 2
4,Silvina,silvina@ejemplo.com,63,Ciudad E,62000,Banco 3


Primero, eliminemos nombres y correos electr√≥nicos:

In [3]:
df.drop(['Nombre', 'Email'], axis=1, inplace=True)
df

Unnamed: 0,Edad,Ubicaci√≥n,Salario,Banco
0,22,Ciudad A,55000,Banco 1
1,37,Ciudad B,34000,Banco 3
2,15,Ciudad C,76000,Banco 1
3,49,Ciudad D,51000,Banco 2
4,63,Ciudad E,62000,Banco 3


Con esto, ya se ha logrado anonimizar las instancias en gran medida, pero no es la √∫nica medida y se puede proceder a√∫n m√°s para garantizar la anonimizaci√≥n al m√°ximo.

**NOTA DE FEDERICO:** Una estrategia de anonimizaci√≥n es el **redondeo** o **truncado** de datos num√©ricos tales como edades, fechas, n√∫meros de documentos, etc., ya que podemos seguir investigando aspectos generales de la informaci√≥n, pero sin tener la informaci√≥n demasiado espec√≠fica.

In [4]:
# Transformar edades a sus respectivas d√©cadas
df['Edad'] = (df['Edad'] // 10) * 10
df

Unnamed: 0,Edad,Ubicaci√≥n,Salario,Banco
0,20,Ciudad A,55000,Banco 1
1,30,Ciudad B,34000,Banco 3
2,10,Ciudad C,76000,Banco 1
3,40,Ciudad D,51000,Banco 2
4,60,Ciudad E,62000,Banco 3


En el ejemplo, ya no es que la persona en el √≠ndice `0` tenga `22` a√±os (dato espec√≠fico), sino que "est√° en sus veintes" (dato inespec√≠fico, pero √∫til para efectos de investigaci√≥n y que, dicho sea de paso, facilita enormemente el an√°lisis por rangos et√°reos).

**NOTA DE FEDERICO:** Otra estrategia de anonimizaci√≥n de datos num√©ricos es a√±adir **ruido aleatorio** para desvincularlos de su valor real, √∫til para ofuscar valores exactos o patrones espec√≠ficos en el conjunto de datos, aunque preservando la utilidad estad√≠stica. Es decir, **modifica los datos individuales, pero mantiene las propiedades generales** del conjunto (tales como la media, la desviaci√≥n est√°ndar, la varianza, etc.).


**NOTA PERSONAL:** En el habla cotidiana, "ruido" es pr√°cticamente sin√≥nimo de cualquier cosa "aleatoria" (como en el caso del [ruido blanco](https://es.wikipedia.org/wiki/Ruido_blanco)), pero debemos recordar que, en la jerga t√©cnica, s√≠ hay una distinci√≥n muy importante entre lo "aleatorio" y lo "pseudoaleatorio", en donde el √∫ltimo implica cierto determinismo (y, por ende, probabilidades de trazabilidad).

In [5]:
# Generar ruido, manteniendo distribuci√≥n normal
noise: np.ndarray = np.random.normal(0, 10000, size=df['Salario'].shape)
noise

array([ -1398.150668  , -18640.42613047,  10925.14896557,  12413.93708749,
       -15703.3832971 ])

In [6]:
# Ofuscar con ruido
df['Salario'] += noise
df

Unnamed: 0,Edad,Ubicaci√≥n,Salario,Banco
0,20,Ciudad A,53601.849332,Banco 1
1,30,Ciudad B,15359.57387,Banco 3
2,10,Ciudad C,86925.148966,Banco 1
3,40,Ciudad D,63413.937087,Banco 2
4,60,Ciudad E,46296.616703,Banco 3


**NOTA DE FEDERICO:** Otra estrategia de anonimizaci√≥n para datos de tipo cadena es la de **permutaci√≥n** o **shuffling** y consiste en cambiar de orden ciertos datos, de modo que se pierda la relaci√≥n que hay entre esos valores con otros campos del dataset.

Supongamos que no queremos que se sepa en qu√© banco cada uno de sus usuarios cobra su sueldo:

In [7]:
df['Banco'] = np.random.permutation(df['Banco'])
df

Unnamed: 0,Edad,Ubicaci√≥n,Salario,Banco
0,20,Ciudad A,53601.849332,Banco 1
1,30,Ciudad B,15359.57387,Banco 3
2,10,Ciudad C,86925.148966,Banco 3
3,40,Ciudad D,63413.937087,Banco 1
4,60,Ciudad E,46296.616703,Banco 2


**NOTA DE FEDERICO:** ¬°La permutaci√≥n s√≥lo puede implementarse cuando la relaci√≥n entre la columna objetivo y otras NO sea relevante para los objetivos del estudio! ‚òù