# Pseudonimización de Datos en Data Science 1
Dado el DataFrame `df`:
```
df = pd.DataFrame({
    'nombre': ['Ana', 'Juan', 'Luis'],
    'email': ['ana@example.com', 'juan@example.com', 'luis@example.com'],
    'ubicacion': ['Ciudad A', 'Ciudad B', 'Ciudad C']
})
```
Utiliza la biblioteca `uuid` para generar identificadores únicos para cada persona y añádelos al DataFrame.

**Instrucciones:**

1. Genera una lista de identificadores únicos utilizando la biblioteca `uuid`.

2. Añade esta lista al DataFrame como una nueva columna llamada `'id_pseudo'`.

3. Elimina la columna `'nombre'` del DataFrame.

In [1]:
import uuid
import pandas as pd


df = pd.DataFrame({
    'nombre': ['Ana', 'Juan', 'Luis'],
    'email': ['ana@example.com', 'juan@example.com', 'luis@example.com'],
    'ubicacion': ['Ciudad A', 'Ciudad B', 'Ciudad C']
})

uuid_container: list[str] = []

for _ in range(len(df)):
    uuid_container.append(str(uuid.uuid4()))

df['id_pseudo'] = uuid_container
df.drop(['nombre'], axis=1, inplace=True)
df

Unnamed: 0,email,ubicacion,id_pseudo
0,ana@example.com,Ciudad A,3c7bfbe0-e3b3-4dea-9843-0bd03e014778
1,juan@example.com,Ciudad B,b1638c29-85f7-450d-b587-a45bf28bbcdc
2,luis@example.com,Ciudad C,4a887469-1e66-428e-88e5-1e4c0deb346a


# Pseudonimización de Datos en Data Science 2
Dado el DataFrame `df`:
```
import pandas as pd
 
df = pd.DataFrame({
    'nombre': ['Ana', 'Juan', 'Luis'],
    'email': ['ana@example.com', 'juan@example.com', 'luis@example.com'],
    'ubicacion': ['Ciudad A', 'Ciudad B', 'Ciudad C']
})
```
Utiliza la biblioteca `hashlib` para pseudonimizar la columna de correos electrónicos en el DataFrame. La pseudonimización debe realizarse generando un hash SHA-256 para cada correo electrónico.

**Instrucciones:**

1. Utiliza la biblioteca `hashlib` para generar un hash SHA-256 para cada valor en la columna `'email'`.

2. Añade esta información pseudonimizada al DataFrame como una nueva columna llamada `'email_pseudo'`.

3. Elimina la columna `'email'` del DataFrame.

In [3]:
import hashlib
from typing import Any

import pandas as pd


def hash_data(data: Any) -> str:
    """
    Return the SHA256 hash of the input data.
    """
    return hashlib.sha256(data.encode('utf-8')).hexdigest()


df = pd.DataFrame({
    'nombre': ['Ana', 'Juan', 'Luis'],
    'email': ['ana@example.com', 'juan@example.com', 'luis@example.com'],
    'ubicacion': ['Ciudad A', 'Ciudad B', 'Ciudad C']
})

hashed_emails: list[str] = [hash_data(email) for email in df['email']]
df['email_pseudo'] = hashed_emails
df.drop(['email'], axis=1, inplace=True)
df

Unnamed: 0,nombre,ubicacion,email_pseudo
0,Ana,Ciudad A,8e43ca37701228e74983efdbd0cff5c16b3b1e5d4e29a7...
1,Juan,Ciudad B,81b562a0fe2aecc8831e2d7c9942f319736afc2a99415e...
2,Luis,Ciudad C,861d62c5b964e71b42e61aeb4e876f86908a86300b15b2...


# Pseudonimización de Datos en Data Science 3

**Tokenización de Nombres**

1. Crea un diccionario vacio llamado `mis_tokens`

2. Crea una función llamada `tokenizar` para generar un token y guardar el nombre original. Esta función debe recibir un `nombre` como parámetro.

3. Crea una función llamada `recuperar_dato` a la cual le pases como parámetro un `token`.  Esta función debe ser capaz de nombre a partir de un token.

4. Crea la variable `dato_original` y almacena el nombre: `"Ana"` No debes almacenar un nombre distinto de "Ana".

In [5]:
import uuid


mis_tokens = {}


# Función para generar token y guardar el nombre original
def tokenizar(nombre):
    token: str = str(uuid.uuid4())
    mis_tokens[token] = nombre
    return token


# Función para recuperar el nombre a partir de un token
def recuperar_dato(token):
    return mis_tokens.get(token, 'Invalid token!')


dato_original = "Ana"

token: str = tokenizar(dato_original)
recuperado: str = recuperar_dato(token)

print(f'{token=}')
print(f'{recuperado=}')

token='4766f073-6de8-4450-9acb-61d1c3de06e1'
recuperado='Ana'
