## Pseudonimización

- En lugar de que los datos sean anónimos, nos podemos referir a ellos como pseudónimos.
- Reemplazar los datos reales por datos de fantasía que enmascarn los reales.

In [1]:
import pandas as pd
import uuid
import hashlib

In [2]:
data = pd.DataFrame({
    'nombre': ['Ana', 'Juan', 'Luis'],
    'email': ['ana@example.com', 'juan@example.com', 'luis@example.com'],
    'ubicacion': ['Ciudad A', 'Ciudad B', 'Ciudad C']
})

data

Unnamed: 0,nombre,email,ubicacion
0,Ana,ana@example.com,Ciudad A
1,Juan,juan@example.com,Ciudad B
2,Luis,luis@example.com,Ciudad C


### uuid
- Reemplazar el nombre de la persona por un identificador único

In [3]:
id_psuedo = []

In [4]:
for n in range(len(data)):
    id_psuedo.append(str(uuid.uuid4()))
id_psuedo

['2be8efbd-d113-4f34-92c9-6b08b61021a3',
 'b9967dbd-f910-474d-ae91-1ef1d0becb87',
 'caea5673-318a-4aaf-8a09-aab46ce38493']

In [10]:
data.drop("nombre", axis= 1, inplace=True)
data["id_psuedo"] = id_psuedo
data

Unnamed: 0,email,ubicacion,id_psuedo
0,ana@example.com,Ciudad A,2be8efbd-d113-4f34-92c9-6b08b61021a3
1,juan@example.com,Ciudad B,b9967dbd-f910-474d-ae91-1ef1d0becb87
2,luis@example.com,Ciudad C,caea5673-318a-4aaf-8a09-aab46ce38493


### hashlib
- Otra manera de realizar

In [13]:
def hash_data(data):
    return hashlib.sha256(data.encode()).hexdigest()

hash_emails = []

In [14]:
for email in data["email"]:
    hash_emails.append(hash_data(email))
hash_emails

['8e43ca37701228e74983efdbd0cff5c16b3b1e5d4e29a7c05626d4d25a018e11',
 '81b562a0fe2aecc8831e2d7c9942f319736afc2a99415e5144712f25a888dd82',
 '861d62c5b964e71b42e61aeb4e876f86908a86300b15b2c26fe4f33ab88e03ad']

In [15]:
data["email_hash"] = hash_emails
data.drop("email", axis= 1, inplace=True)
data

Unnamed: 0,ubicacion,id_psuedo,email_hash
0,Ciudad A,2be8efbd-d113-4f34-92c9-6b08b61021a3,8e43ca37701228e74983efdbd0cff5c16b3b1e5d4e29a7...
1,Ciudad B,b9967dbd-f910-474d-ae91-1ef1d0becb87,81b562a0fe2aecc8831e2d7c9942f319736afc2a99415e...
2,Ciudad C,caea5673-318a-4aaf-8a09-aab46ce38493,861d62c5b964e71b42e61aeb4e876f86908a86300b15b2...


- NO se pueden decodificar los datos en infunno de los dos métodos

### Tokenization

In [30]:
mis_tokens = {}

In [31]:
def tokenizar(dato):
    token = str(uuid.uuid4())
    mis_tokens[token] = dato
    return token

In [32]:
def recuperar_dato(token):
    return mis_tokens.get(token, "Token no encontrado")

In [33]:
dato_original = "2875-755"

token = tokenizar(dato_original)
print(f"Token generado: {token}")

recuperado = recuperar_dato(token)
print(f"Dato recuperado: {recuperado}")

Token generado: bf685ac5-77a7-4f15-9b3f-8ae305da57a4
Dato recuperado: 2875-755


### Ejercicios

In [42]:
import uuid
import pandas as pd

df = pd.DataFrame({
    'nombre': ['Ana', 'Juan', 'Luis'],
    'email': ['ana@example.com', 'juan@example.com', 'luis@example.com'],
    'ubicacion': ['Ciudad A', 'Ciudad B', 'Ciudad C']
})

id_psuedo=[]

for n in range(len(df)):
    id_psuedo.append(str(uuid.uuid4()))


df.drop("nombre", axis= 1, inplace=True)
df["id_pseudo"] = id_psuedo

df

Unnamed: 0,email,ubicacion,id_pseudo
0,ana@example.com,Ciudad A,b88d389d-a589-409d-9758-6da841dd1ade
1,juan@example.com,Ciudad B,fa23f465-7ff7-494c-b2e4-9993e17f3e4b
2,luis@example.com,Ciudad C,7c57cbbe-1ed1-4b7e-8098-2e88b1510e28


In [43]:
import pandas as pd
import hashlib
    
df = pd.DataFrame({
    'nombre': ['Ana', 'Juan', 'Luis'],
    'email': ['ana@example.com', 'juan@example.com', 'luis@example.com'],
    'ubicacion': ['Ciudad A', 'Ciudad B', 'Ciudad C']
})

def hash_data(data):
    return hashlib.sha256(data.encode()).hexdigest()

hash_emails = []

for email in df["email"]:
    hash_emails.append(hash_data(email))

df["email_pseudo"] = hash_emails
df.drop("email", axis= 1, inplace=True)
df


Unnamed: 0,nombre,ubicacion,email_pseudo
0,Ana,Ciudad A,8e43ca37701228e74983efdbd0cff5c16b3b1e5d4e29a7...
1,Juan,Ciudad B,81b562a0fe2aecc8831e2d7c9942f319736afc2a99415e...
2,Luis,Ciudad C,861d62c5b964e71b42e61aeb4e876f86908a86300b15b2...


In [44]:
import pandas as pd
import uuid
    
mis_tokens = {}
    
# Función para generar token y guardar el nombre original
def tokenizar(nombre):
    token = str(uuid.uuid4())
    mis_tokens[token] = nombre
    return token
    
# Función para recuperar el nombre a partir de un token
def recuperar_dato(token):
    return mis_tokens.get(token, "Token no encontrado")
    
dato_original = "Ana"
token = tokenizar(dato_original)