## Anonimización

- Más drástica, elimina permanentemente la información que puede identificar a una persona.

In [8]:
import pandas as pd
import numpy as np

In [9]:
data = pd.DataFrame({
    'nombre': ['Ana', 'Juan', 'Luis', 'Pedro', 'Silvina'],
    'email': ['ana@ejemplo.com', 'juan@ejemplo.com', 'luis@ejemplo.com', 'pedro@ejemplo.com', 'silvina@ejemplo.com'],
    'edad': [22, 37, 15, 49, 63],
    'ubicacion': ['Ciudad A', 'Ciudad B', 'Ciudad C', 'Ciudad D', 'Ciudad E'],
    'salario': [55000, 34000, 76000, 51000, 62000],
    'banco': ['Banco 1', 'Banco 3', 'Banco 1', 'Banco 2', 'Banco 3']
})

data

Unnamed: 0,nombre,email,edad,ubicacion,salario,banco
0,Ana,ana@ejemplo.com,22,Ciudad A,55000,Banco 1
1,Juan,juan@ejemplo.com,37,Ciudad B,34000,Banco 3
2,Luis,luis@ejemplo.com,15,Ciudad C,76000,Banco 1
3,Pedro,pedro@ejemplo.com,49,Ciudad D,51000,Banco 2
4,Silvina,silvina@ejemplo.com,63,Ciudad E,62000,Banco 3


- Eliminar totalmente columnas con información personal

In [10]:
data.drop(["nombre", "email"], axis=1, inplace=True)
data

Unnamed: 0,edad,ubicacion,salario,banco
0,22,Ciudad A,55000,Banco 1
1,37,Ciudad B,34000,Banco 3
2,15,Ciudad C,76000,Banco 1
3,49,Ciudad D,51000,Banco 2
4,63,Ciudad E,62000,Banco 3


- Redondear valores

In [11]:
data["edad"] = ( data["edad"] // 10 ) * 10
data

Unnamed: 0,edad,ubicacion,salario,banco
0,20,Ciudad A,55000,Banco 1
1,30,Ciudad B,34000,Banco 3
2,10,Ciudad C,76000,Banco 1
3,40,Ciudad D,51000,Banco 2
4,60,Ciudad E,62000,Banco 3


- Ruido aleatorio para desvincularlos de su valor real, de una forma que mantenga las propiedades generales

In [12]:
ruido = np.random.normal(
    0,  # Media
    100, # Desviación estandard
   size=data["salario"].shape
)
   

In [13]:
data["salario"] = data["salario"] + ruido
data

Unnamed: 0,edad,ubicacion,salario,banco
0,20,Ciudad A,55037.314759,Banco 1
1,30,Ciudad B,33882.359098,Banco 3
2,10,Ciudad C,76053.303377,Banco 1
3,40,Ciudad D,50904.169654,Banco 2
4,60,Ciudad E,61922.642039,Banco 3


- Permitación, cambiar el orden de ciertos datos (Solo aplicar cuando la columna a desordenar no sea relevante)

In [57]:
data["banco"] = np.random.permutation(data["banco"])
data

Unnamed: 0,edad,ubicacion,salario,banco
0,20,Ciudad A,55037.314759,Banco 2
1,30,Ciudad B,33882.359098,Banco 3
2,10,Ciudad C,76053.303377,Banco 1
3,40,Ciudad D,50904.169654,Banco 3
4,60,Ciudad E,61922.642039,Banco 1


### Ejercicios

In [60]:
import pandas as pd

# Datos iniciales
data = {
    'nombre': ['Juan Pérez', 'Ana López', 'María García', 'Luis Martínez', 'Carmen Rodríguez'],
    'correo': ['juan@example.com', 'ana@example.com', 'maria@example.com', 'luis@example.com', 'carmen@example.com'],
    'ubicacion': ['Ciudad A', 'Ciudad B', 'Ciudad C', 'Ciudad D', 'Ciudad E']
}

# Creación del DataFrame
df = pd.DataFrame(data)

df["correo"] = "anon@example.com"

df

Unnamed: 0,nombre,correo,ubicacion
0,Juan Pérez,anon@example.com,Ciudad A
1,Ana López,anon@example.com,Ciudad B
2,María García,anon@example.com,Ciudad C
3,Luis Martínez,anon@example.com,Ciudad D
4,Carmen Rodríguez,anon@example.com,Ciudad E
