In [1]:
import pandas as pd
import numpy as np

In [2]:
data = pd.DataFrame(
    {
        "nombre": ["Ana", "Juan", "Luis", "Pedro", "Silvina"],
        "email": [
            "ana@ejemplo.com",
            "juan@ejemplo.com",
            "luis@ejemplo.com",
            "pedro@ejemplo.com",
            "silvina@ejemplo.com",
        ],
        "edad": [22, 37, 15, 49, 63],
        "ubicacion": ["Ciudad A", "Ciudad B", "Ciudad C", "Ciudad D", "Ciudad E"],
        "salario": [55000, 34000, 76000, 51000, 62000],
        "banco": ["Banco 1", "Banco 2", "Banco 3", "Banco 4", "Banco 5"],
    }
)

data

Unnamed: 0,nombre,email,edad,ubicacion,salario,banco
0,Ana,ana@ejemplo.com,22,Ciudad A,55000,Banco 1
1,Juan,juan@ejemplo.com,37,Ciudad B,34000,Banco 2
2,Luis,luis@ejemplo.com,15,Ciudad C,76000,Banco 3
3,Pedro,pedro@ejemplo.com,49,Ciudad D,51000,Banco 4
4,Silvina,silvina@ejemplo.com,63,Ciudad E,62000,Banco 5


# Anonimizacion


In [None]:
data.drop(["nombre", "email"], axis=1, inplace=True)

In [4]:
data

Unnamed: 0,edad,ubicacion,salario,banco
0,22,Ciudad A,55000,Banco 1
1,37,Ciudad B,34000,Banco 2
2,15,Ciudad C,76000,Banco 3
3,49,Ciudad D,51000,Banco 4
4,63,Ciudad E,62000,Banco 5


In [None]:
data["edad"] = (data["edad"] // 10) * 10
data

Unnamed: 0,edad,ubicacion,salario,banco
0,20,Ciudad A,55000,Banco 1
1,30,Ciudad B,34000,Banco 2
2,10,Ciudad C,76000,Banco 3
3,40,Ciudad D,51000,Banco 4
4,60,Ciudad E,62000,Banco 5


In [None]:
ruido = np.random.normal(0, 100, size=data["salario"].shape)
ruido

array([ 87.19523411,   6.95941869, -45.12166282, 140.36947614,
       -93.30954378])

In [None]:
data["salario"] += ruido
data

Unnamed: 0,edad,ubicacion,salario,banco
0,20,Ciudad A,55087.195234,Banco 1
1,30,Ciudad B,34006.959419,Banco 2
2,10,Ciudad C,75954.878337,Banco 3
3,40,Ciudad D,51140.369476,Banco 4
4,60,Ciudad E,61906.690456,Banco 5


In [None]:
data["banco"] = np.random.permutation(data["banco"])
data

Unnamed: 0,edad,ubicacion,salario,banco
0,20,Ciudad A,55087.195234,Banco 2
1,30,Ciudad B,34006.959419,Banco 1
2,10,Ciudad C,75954.878337,Banco 4
3,40,Ciudad D,51140.369476,Banco 3
4,60,Ciudad E,61906.690456,Banco 5


# Pseudo-anonimizacion


In [9]:
import uuid
import hashlib

In [10]:
df = pd.DataFrame(
    {
        "nombre": ["Ana", "Juan", "Luis"],
        "email": ["ana@ejemplo.com", "juan@ejemplo.com", "luis@ejemplo.com"],
        "ubicacion": ["Ciudad A", "Ciudad B", "Ciudad C"],
    }
)

df

Unnamed: 0,nombre,email,ubicacion
0,Ana,ana@ejemplo.com,Ciudad A
1,Juan,juan@ejemplo.com,Ciudad B
2,Luis,luis@ejemplo.com,Ciudad C


In [11]:
id_pseduo = []

In [12]:
for n in range(len(df)):
    id_pseduo.append(str(uuid.uuid4()))

In [13]:
id_pseduo

['722cccdc-53c0-4ca4-9949-a7e3e72f3a16',
 '8d0ea2ac-551e-435e-a5b0-f99089c7f8da',
 'c0a56ff8-eb22-45df-b0e2-3ad4983649e0']

In [None]:
df["id_pseudo"] = id_pseduo
df.drop("nombre", axis=1, inplace=True)
df

Unnamed: 0,email,ubicacion,id_pseudo
0,ana@ejemplo.com,Ciudad A,722cccdc-53c0-4ca4-9949-a7e3e72f3a16
1,juan@ejemplo.com,Ciudad B,8d0ea2ac-551e-435e-a5b0-f99089c7f8da
2,luis@ejemplo.com,Ciudad C,c0a56ff8-eb22-45df-b0e2-3ad4983649e0


In [15]:
def hash_data(data):
    return hashlib.sha256(data.encode()).hexdigest()

In [16]:
hash_email = []

In [None]:
for email in df["email"]:
    h_email = hash_data(email)
    hash_email.append(h_email)
df["email"] = hash_email
df

Unnamed: 0,email,ubicacion,id_pseudo
0,52f5655387a4bdcb850a93ce7223979b4a360fa146c89c...,Ciudad A,722cccdc-53c0-4ca4-9949-a7e3e72f3a16
1,37d52dabac00945d10d0879cad2564b4985b1a3303e4b5...,Ciudad B,8d0ea2ac-551e-435e-a5b0-f99089c7f8da
2,59f7ac6c8ec549f037cd7188ca36e499099f041159cfd9...,Ciudad C,c0a56ff8-eb22-45df-b0e2-3ad4983649e0


In [18]:
mis_tokens = {}

In [19]:
def tokenizar(dato):
    token = str(uuid.uuid4())
    mis_tokens[token] = dato
    return token

In [20]:
def recuperar_dato(token):
    return mis_tokens.get(token, "Token no encontrado")

In [None]:
dato_original = "123-456-789"
token = tokenizar(dato_original)

In [None]:
print(f"Token: {token}")
print(f"dato_original: {recuperar_dato(token)}")

Token: 832917ae-dd6d-475b-b4cb-5cf0b9b5af19
dato_original: 123-456-789


## Sesgos en Data Science


1.- Seleccion
2.- Confirmacion
3.- Medicion


Revision por Pares
Validacion cruzada


In [23]:
from sklearn.model_selection import train_test_split
from sklearn.utils import resample

In [24]:
data = pd.DataFrame(
    {
        "edad": [22, 45, 36, 29, 58],
        "genero": ["F", "M", "M", "F", "M"],
        "contratado": [1, 0, 1, 0, 1],
    }
)
data

Unnamed: 0,edad,genero,contratado
0,22,F,1
1,45,M,0
2,36,M,1
3,29,F,0
4,58,M,1


# Balanceo


In [None]:
agrupado = data.groupby("genero")
agrupado

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x700174ccd7f0>

In [None]:
for nombre, grupo in agrupado:
    print(nombre, grupo)

F    edad genero  contratado
0    22      F           1
3    29      F           0
M    edad genero  contratado
1    45      M           0
2    36      M           1
4    58      M           1


In [27]:
data_balanceada = pd.DataFrame()

In [28]:
for nombre, grupo in agrupado:
    grupo_balanceado = resample(grupo, replace=True, n_samples=10, random_state=123)
    data_balanceada = pd.concat([data_balanceada, grupo_balanceado])

In [29]:
data_balanceada

Unnamed: 0,edad,genero,contratado
0,22,F,1
3,29,F,0
0,22,F,1
0,22,F,1
0,22,F,1
0,22,F,1
0,22,F,1
3,29,F,0
3,29,F,0
0,22,F,1
