In [89]:
import pandas as pd
import numpy as np
import uuid
import hashlib

In [90]:
data = {
    'nombre': ['Oscar', 'Alberto', 'Allan', 'Mauricio', 'Angel'],
    'email': ['Oscar@mail.com', 'Alberto@mail.com', 'Allan@mail.com', 'Mauricio@mail.com', 'Angel@mail.com'],
    'edad': [22, 34, 17, 48, 61],
    'ubicacion': ['Ciudad A', 'Ciudad B', 'Ciudad C', 'Ciudad D', 'Ciudad E'],
    'salario': [54892.06, 33952.23, 76071.78, 51049.47, 62080.65],
    'banco': ['Banco 1', 'Banco 2', 'Banco 1', 'Banco 3', 'Banco 3']
}


In [91]:
datos = pd.DataFrame(data)
datos

Unnamed: 0,nombre,email,edad,ubicacion,salario,banco
0,Oscar,Oscar@mail.com,22,Ciudad A,54892.06,Banco 1
1,Alberto,Alberto@mail.com,34,Ciudad B,33952.23,Banco 2
2,Allan,Allan@mail.com,17,Ciudad C,76071.78,Banco 1
3,Mauricio,Mauricio@mail.com,48,Ciudad D,51049.47,Banco 3
4,Angel,Angel@mail.com,61,Ciudad E,62080.65,Banco 3


In [92]:
datos.drop(['nombre', 'email'], axis=1, inplace=True)
datos

Unnamed: 0,edad,ubicacion,salario,banco
0,22,Ciudad A,54892.06,Banco 1
1,34,Ciudad B,33952.23,Banco 2
2,17,Ciudad C,76071.78,Banco 1
3,48,Ciudad D,51049.47,Banco 3
4,61,Ciudad E,62080.65,Banco 3


In [93]:
datos['edad'] = (datos['edad'] // 10 ) * 10
datos

Unnamed: 0,edad,ubicacion,salario,banco
0,20,Ciudad A,54892.06,Banco 1
1,30,Ciudad B,33952.23,Banco 2
2,10,Ciudad C,76071.78,Banco 1
3,40,Ciudad D,51049.47,Banco 3
4,60,Ciudad E,62080.65,Banco 3


In [94]:
ruido = np.random.normal(0, 100, size=datos['salario'].shape  )
ruido

array([  65.56546522, -100.89706545,   35.35249898,  -50.55108908,
        -83.09114641])

In [95]:
datos['salario'] += ruido
datos

Unnamed: 0,edad,ubicacion,salario,banco
0,20,Ciudad A,54957.625465,Banco 1
1,30,Ciudad B,33851.332935,Banco 2
2,10,Ciudad C,76107.132499,Banco 1
3,40,Ciudad D,50998.918911,Banco 3
4,60,Ciudad E,61997.558854,Banco 3


In [96]:
datos['banco'] = np.random.permutation(datos['banco'] )
datos

Unnamed: 0,edad,ubicacion,salario,banco
0,20,Ciudad A,54957.625465,Banco 1
1,30,Ciudad B,33851.332935,Banco 3
2,10,Ciudad C,76107.132499,Banco 1
3,40,Ciudad D,50998.918911,Banco 2
4,60,Ciudad E,61997.558854,Banco 3


In [97]:
# Datos iniciales
data = {
    'nombre': ['Juan Pérez', 'Ana López', 'María García', 'Luis Martínez', 'Carmen Rodríguez'],
    'correo': ['juan@example.com', 'ana@example.com', 'maria@example.com', 'luis@example.com', 'carmen@example.com'],
    'ubicacion': ['Ciudad A', 'Ciudad B', 'Ciudad C', 'Ciudad D', 'Ciudad E']
}

# Creación del DataFrame
df = pd.DataFrame(data)


df['correo'] = 'anon@example.com'
df

Unnamed: 0,nombre,correo,ubicacion
0,Juan Pérez,anon@example.com,Ciudad A
1,Ana López,anon@example.com,Ciudad B
2,María García,anon@example.com,Ciudad C
3,Luis Martínez,anon@example.com,Ciudad D
4,Carmen Rodríguez,anon@example.com,Ciudad E


In [98]:
data = {
    'nombre': ['Juan Pérez', 'Ana López', 'María García', 'Luis Martínez', 'Carmen Rodríguez'],
    'correo': ['juan@example.com', 'ana@example.com', 'maria@example.com', 'luis@example.com', 'carmen@example.com'],
    'ubicacion': ['Ciudad A', 'Ciudad B', 'Ciudad C', 'Ciudad D', 'Ciudad E']
}


df = pd.DataFrame(data)

In [99]:
df

Unnamed: 0,nombre,correo,ubicacion
0,Juan Pérez,juan@example.com,Ciudad A
1,Ana López,ana@example.com,Ciudad B
2,María García,maria@example.com,Ciudad C
3,Luis Martínez,luis@example.com,Ciudad D
4,Carmen Rodríguez,carmen@example.com,Ciudad E


In [100]:
id_psuedo = []

In [101]:
for n in range( len(df) ):
    id_psuedo.append( uuid.uuid4() )
id_psuedo

[UUID('38dd36d5-337b-44c6-9f8e-14519e366131'),
 UUID('6d640c63-d7c8-4bac-ae06-225a6cad044f'),
 UUID('c3c45db4-4c61-40d1-8e4f-6f4e655bf564'),
 UUID('c60c8a4f-47a1-4d1b-85b3-62aba91749e3'),
 UUID('036705b2-59f0-4bb7-82b4-48e7bae164dd')]

In [102]:
df['id_pseudo'] = id_psuedo
df.drop( 'nombre', axis=1, inplace=True )
df

Unnamed: 0,correo,ubicacion,id_pseudo
0,juan@example.com,Ciudad A,38dd36d5-337b-44c6-9f8e-14519e366131
1,ana@example.com,Ciudad B,6d640c63-d7c8-4bac-ae06-225a6cad044f
2,maria@example.com,Ciudad C,c3c45db4-4c61-40d1-8e4f-6f4e655bf564
3,luis@example.com,Ciudad D,c60c8a4f-47a1-4d1b-85b3-62aba91749e3
4,carmen@example.com,Ciudad E,036705b2-59f0-4bb7-82b4-48e7bae164dd


In [103]:
def hash_data(data):
    return hashlib.sha256(data.encode()).hexdigest()

In [104]:
hash_emails = []

In [105]:
for email in df['correo']:
    h_email = hash_data(email)
    hash_emails.append(h_email)
df['correo'] =  hash_emails

In [106]:
df

Unnamed: 0,correo,ubicacion,id_pseudo
0,81b562a0fe2aecc8831e2d7c9942f319736afc2a99415e...,Ciudad A,38dd36d5-337b-44c6-9f8e-14519e366131
1,8e43ca37701228e74983efdbd0cff5c16b3b1e5d4e29a7...,Ciudad B,6d640c63-d7c8-4bac-ae06-225a6cad044f
2,10ef04a5a1acd81d18a0c61fdd354a063da07223720a1d...,Ciudad C,c3c45db4-4c61-40d1-8e4f-6f4e655bf564
3,861d62c5b964e71b42e61aeb4e876f86908a86300b15b2...,Ciudad D,c60c8a4f-47a1-4d1b-85b3-62aba91749e3
4,5a67f04050bd4d08b6b2be561ab424b9e5f04d9a2058db...,Ciudad E,036705b2-59f0-4bb7-82b4-48e7bae164dd


In [61]:
mis_tokens = {}


In [62]:
def crear_token(dato):
    token = str( uuid.uuid4() )
    mis_tokens[token] = dato
    return token

In [63]:
def recuperar_dato( token ):
    return mis_tokens.get(token, 'Token invalido')

In [65]:
dato_original = '123-456-789'
nuevo_token = crear_token(dato_original)
nuevo_token

'85a2acb5-f148-41f4-91f5-f6d7be99bb86'

In [66]:
dato_recuperado = recuperar_dato(nuevo_token)
dato_recuperado

'123-456-789'