# Pseudonimización de los Datos

En la lección anterior aprendimos a poner en práctica algunas técnicas de **anonimización de datos**, que si bien te serán muy útiles, **no cubren todas las necesidades**.

En muchas ocasiones no podrás darte el lujo de perder o distorsionar información relevante para los fines de la investigación, por más sensible que sean esos datos.

En esos casos podrás aplicar otro conjunto de técnicas que hacen un proceso parecido pero diferente, llamado **pseudonimización**, que en lugar de hacer que los datos sean anónimos, hace que podamos referirnos a ellos a través de seudónimos, y eso también es efectivo para el objetivo de cuidar la privacidad de los datos.

La pseudonimización lo que hace es **reemplazar los datos reales por datos de fantasía** que enmascaran a los datos que debemos proteger. De esa manera podemos seguir usando esos datos, procesando cálculos y relaciones, pero sin revelar la verdadera identidad de esa información.

Veamos cómo hacer esto en la práctica. Vamos a utilizar una técnica para reemplazar el nombre de la persona con un identificador único generado de manera aleatoria. Esto nos va a permitir mantener una forma de rastreo sin exponer la identidad real

Para facilitar esto, he importado una biblioteca llamada `uuid`, que sirve para crear identificadores únicos. 

In [1]:
import pandas as pd
import uuid
import hashlib

In [2]:
data = pd.DataFrame({
    'nombre': ['Ana', 'Juan', 'Luis'],
    'email': ['ana@example.com', 'juan@example.com', 'luis@example.com'],
    'ubicacion': ['Ciudad A', 'Ciudad B', 'Ciudad C']
})

data

Unnamed: 0,nombre,email,ubicacion
0,Ana,ana@example.com,Ciudad A
1,Juan,juan@example.com,Ciudad B
2,Luis,luis@example.com,Ciudad C


Primero voy a generar una **lista** que contenga un identificador para cada elemento de mi dataframe.

In [3]:
id_pseudo = []

Y voy a llenar esa lista con valores generados aleatoriamente por `uuid` en un loop for.

In [4]:
for n in range(len(data)):
    id_pseudo.append(str(uuid.uuid4()))

In [5]:
id_pseudo

['c1c7ae39-d6c7-4cad-931f-796f5a1ef9b4',
 'ce943dd5-2f46-4e32-8c25-de792838c041',
 '59a7bb18-143f-4480-b160-47570db9abde']

Como último paso voy a incorporar esta nueva información a mi dataframe, y voy a eliminar a la columna de `nombres`, ya que no la voy a necesitar más.

In [6]:
data['id_pseudo'] = id_pseudo
data.drop('nombre', axis=1, inplace=True)
data

Unnamed: 0,email,ubicacion,id_pseudo
0,ana@example.com,Ciudad A,c1c7ae39-d6c7-4cad-931f-796f5a1ef9b4
1,juan@example.com,Ciudad B,ce943dd5-2f46-4e32-8c25-de792838c041
2,luis@example.com,Ciudad C,59a7bb18-143f-4480-b160-47570db9abde


Otra estrategia de pseudonimización es el **hashing**, que es una técnica bastante similar, que consiste en usar una función para convertir los valores de datos en una **cadena de caracteres fija** que reemplace a los valores originales.

In [7]:
def hash_data(data):
    return hashlib.sha256(data.encode()).hexdigest()

In [8]:
hash_emails = []

In [9]:
for email in data['email']:
    h_email = hash_data(email)
    hash_emails.append(h_email)
data['email'] = hash_emails

data

Unnamed: 0,email,ubicacion,id_pseudo
0,8e43ca37701228e74983efdbd0cff5c16b3b1e5d4e29a7...,Ciudad A,c1c7ae39-d6c7-4cad-931f-796f5a1ef9b4
1,81b562a0fe2aecc8831e2d7c9942f319736afc2a99415e...,Ciudad B,ce943dd5-2f46-4e32-8c25-de792838c041
2,861d62c5b964e71b42e61aeb4e876f86908a86300b15b2...,Ciudad C,59a7bb18-143f-4480-b160-47570db9abde


Estos dos mecanismos (la **uuid** y el **hashing**) son bastante similares, y en realidad la principal diferencia radica en que **uuid** genera un valor completamente **al azar**, mientras que el **hashing** genera ese valor **a partir del valor original**, distorsionándolo hasta que se hace irreconocible, pero tiene una raíz en él.

De todos modos, ambas transformaciones son **irreversibles**, es decir que una vez eliminada la información original, no puedes volver a obtenerla a partir de los valores de reemplazo.

Finalmente vamos a ver una técnica de pseudonimización muy importante, que se llama **tokenización**. Digo que es importante, porque en muchas ocasiones la información privada no puede ser eliminado. Supongamos que tu base de datos corresponde a un centro médico, y que por lo tanto posees mucha información que a pesar de ser privada, es relevante y por lo tanto no solo que no puede ser eliminada, sino que va a ser necesario manipular esa información con frecuencia.

En estas situaciones entra en juego la tokenización, que es una técnica que también reemplaza los valores sensibles por valores de fantasía irreconocibles, pero con la diferencia que la tokenización preserva los valores originales, y permite que el usuario manipule los valores falsos, mientras que el programa haga sus cálculos y sus procesos con la información verdadera.

In [10]:
mis_tokens = {}

In [11]:
def tokenizar(dato):
    token = str(uuid.uuid4())
    mis_tokens[token] = dato
    return token

In [12]:
def recuperar_dato(token):
    return mis_tokens.get(token, "Token no válido")

In [13]:
dato_original = "123-456-789"
token = tokenizar(dato_original)

In [14]:
print(f'Token gerado: {token}')
print(f'Dato recuperado: {recuperar_dato(token)}')

Token gerado: d7cb5e96-4708-4c74-9f15-a7eb18d5be39
Dato recuperado: 123-456-789


Esto ha sido lo más importante sobre **pseudonimización**, y junto con la **anonimización** ahora ya sabes que sin importar cuán relevante sea la información que posees, siempre contarás con estrategias para que tu trabajo no ponga en riesgo la privacidad de las personas, ni que te ponga a ti mismo en riesgo de transgredir la ley.

Sigamos avanzando con los conceptos fundamentales de la ética en data Science.