In [1]:
import pandas as pd
import uuid
import hashlib

In [2]:
data = pd.DataFrame({
    'nombre': ['Ana', 'Juan', 'Luis'],
    'email': ['ana@example.com', 'juan@example.com', 'luis@example.com'],
    'ubicacion': ['Ciudad A', 'Ciudad B', 'Ciudad C']
})

data

Unnamed: 0,nombre,email,ubicacion
0,Ana,ana@example.com,Ciudad A
1,Juan,juan@example.com,Ciudad B
2,Luis,luis@example.com,Ciudad C


La pseudonimización reemplaza los datos reales por datos de fantasía, que enmascaran a los datos que debemos proteger.

In [3]:
id_pseudo = []

In [4]:
for n in range(len(data)):
    id_pseudo.append(str(uuid.uuid4()))

In [5]:
id_pseudo

['79015ce6-3fa6-44ab-8dd3-35476844cc2c',
 '03673660-57ef-44a5-8950-3db262971de2',
 '0fd8a6ff-b7da-4469-bca3-05cc3d92534b']

In [6]:
data['id_pseudo'] = id_pseudo
data.drop('nombre', axis=1, inplace=True)
data

Unnamed: 0,email,ubicacion,id_pseudo
0,ana@example.com,Ciudad A,79015ce6-3fa6-44ab-8dd3-35476844cc2c
1,juan@example.com,Ciudad B,03673660-57ef-44a5-8950-3db262971de2
2,luis@example.com,Ciudad C,0fd8a6ff-b7da-4469-bca3-05cc3d92534b


Otra técnica de pseudonimización es el hashing que también consiste en usar una función para reemplazar los datos originales

In [13]:
def hash_data(data):
    return hashlib.sha256(data.encode()).hexdigest()

In [14]:
hash_emails = []

In [15]:
for email in data['email']:
    h_email = hash_data(email)
    hash_emails.append(h_email)

data['email'] = hash_emails

data

Unnamed: 0,email,ubicacion,id_pseudo
0,8e43ca37701228e74983efdbd0cff5c16b3b1e5d4e29a7...,Ciudad A,79015ce6-3fa6-44ab-8dd3-35476844cc2c
1,81b562a0fe2aecc8831e2d7c9942f319736afc2a99415e...,Ciudad B,03673660-57ef-44a5-8950-3db262971de2
2,861d62c5b964e71b42e61aeb4e876f86908a86300b15b2...,Ciudad C,0fd8a6ff-b7da-4469-bca3-05cc3d92534b


In [16]:
mis_tokens = {}

In [17]:
def tokenizar(dato):
    token = str(uuid.uuid4())
    mis_tokens[token] = dato
    return token

In [18]:
def recuperar_dato(token):
    return mis_tokens.get(token, 'Token no valido')

In [19]:
dato_original = '123-456-789'
token = tokenizar(dato_original)

In [20]:
print(f'Token generado: {token}')

Token generado: e9c7d91c-5af7-4094-8e02-11b5fb1cdd3a


In [22]:
dato_recuperado = recuperar_dato(token)
print(f'Dato recuperado: {dato_recuperado}')

Dato recuperado: 123-456-789
