# Pseudonimización de Datos en Data Science (Ética y Privacidad) 

In [7]:
import pandas as pd
import uuid #Sirve para crear identificadores únicos
import hashlib

## Uso la biblioteta uuid

In [2]:
data = pd.DataFrame({
    'nombre' : ['Ana', 'Juan', 'Luis'],
    'email' : ['ana@exp.com', 'juan@exp.com', 'luis@exp.com'],
    'ubicacion' : ['Ciudad A', 'Ciudad B', 'Ciudad C']
})

data

Unnamed: 0,nombre,email,ubicacion
0,Ana,ana@exp.com,Ciudad A
1,Juan,juan@exp.com,Ciudad B
2,Luis,luis@exp.com,Ciudad C


In [3]:
id_pseudo = [ ]

In [4]:
for n in range(len(data)):
    id_pseudo.append(str(uuid.uuid4()))

In [5]:
id_pseudo

['a39ab8e3-0e2b-4a0e-85bd-e72b6421ea20',
 '222e397d-3b25-4cfc-8bb2-4f38ed4224f0',
 '11c34361-2faa-4283-9baf-f390f39d9148']

In [6]:
#Reemplazo los valores de id_pseudo por la columna nombre 
data['id_pseudo'] = id_pseudo
data.drop('nombre', axis=1, inplace=True)
data

Unnamed: 0,email,ubicacion,id_pseudo
0,ana@exp.com,Ciudad A,a39ab8e3-0e2b-4a0e-85bd-e72b6421ea20
1,juan@exp.com,Ciudad B,222e397d-3b25-4cfc-8bb2-4f38ed4224f0
2,luis@exp.com,Ciudad C,11c34361-2faa-4283-9baf-f390f39d9148


## Uso la biblioteca hashlib

In [12]:
def hash_data(data):
    return hashlib.sha256(data.encode()).hexdigest()

In [13]:
hash_emails = [ ]

In [14]:
for email in data['email']:
    h_email = hash_data(email)
    hash_emails.append(h_email)
data['email'] = hash_emails

data

Unnamed: 0,email,ubicacion,id_pseudo
0,f3fa852de0a2b77afa2da81812f56885ee3c346c840e33...,Ciudad A,a39ab8e3-0e2b-4a0e-85bd-e72b6421ea20
1,fe9442eb214891bbf75950c1bf766b65ca1fb1b30f6444...,Ciudad B,222e397d-3b25-4cfc-8bb2-4f38ed4224f0
2,aa0176498e48b1f150304b2b83291f2342c3a912b05ba7...,Ciudad C,11c34361-2faa-4283-9baf-f390f39d9148


## Tokenización 

In [15]:
mis_tokens = { }

In [16]:
def tokenizar(dato):
    token = str(uuid.uuid4())
    mis_tokens[token] = dato
    return token

In [17]:
def recuperar_dato(token): 
    return mis_tokens.get(token, 'Token no válido')

In [19]:
dato_original = '123-456-789'
token = tokenizar(dato_original)

In [20]:
print(f'Token generado: {token}')
print(f'Dato recuperado: {recuperar_dato(token)}')

Token generado: fb539ff1-aa20-4a9f-bd53-5be955c01463
Dato recuperado: 123-456-789
