In [1]:
import pandas as pd
import numpy as np

In [2]:
data = pd.DataFrame({
    'nombre': ['Ana', 'Juan', 'Luis', 'Pedro', 'Silvina'],
    'email': ['ana@ejemplo.com', 'juan@ejemplo.com', 'luis@ejemplo.com', 'pedro@ejemplo.com', 'silvina@ejemplo.com'],
    'edad': [22, 37, 15, 49, 63],
    'ubicacion': ['Ciudad A', 'Ciudad B', 'Ciudad C', 'Ciudad D', 'Ciudad E'],
    'salario': [55000, 34000, 76000, 51000, 62000],
    'banco': ['Banco 1', 'Banco 3', 'Banco 1', 'Banco 2', 'Banco 3']
})

data

Unnamed: 0,nombre,email,edad,ubicacion,salario,banco
0,Ana,ana@ejemplo.com,22,Ciudad A,55000,Banco 1
1,Juan,juan@ejemplo.com,37,Ciudad B,34000,Banco 3
2,Luis,luis@ejemplo.com,15,Ciudad C,76000,Banco 1
3,Pedro,pedro@ejemplo.com,49,Ciudad D,51000,Banco 2
4,Silvina,silvina@ejemplo.com,63,Ciudad E,62000,Banco 3


Entre anonimización y pseudonimización, la anonimización es la más drástica, ya que se elimina cualquier tipo de información privada y solo se deja la que se requiere tratar.

In [3]:
data.drop(['nombre', 'email'], axis=1, inplace=True)
data

Unnamed: 0,edad,ubicacion,salario,banco
0,22,Ciudad A,55000,Banco 1
1,37,Ciudad B,34000,Banco 3
2,15,Ciudad C,76000,Banco 1
3,49,Ciudad D,51000,Banco 2
4,63,Ciudad E,62000,Banco 3


También puede redondearse la información como la edad, ya que al redondear los datos aún podemos trabajar con ellos, pero ya no se ve el dato exacto de cada persona.

In [4]:
data['edad'] = data['edad'] // 10 * 10
data

Unnamed: 0,edad,ubicacion,salario,banco
0,20,Ciudad A,55000,Banco 1
1,30,Ciudad B,34000,Banco 3
2,10,Ciudad C,76000,Banco 1
3,40,Ciudad D,51000,Banco 2
4,60,Ciudad E,62000,Banco 3


Otro método es el ruido aleatorio, lo que hace esta técnica de anonimización es meter ruido aleatorio a los datos  numéricos para desvincularlos de su valor real, lo cual es útil para ocultar patrones específicos o valores exactos.

In [5]:
ruido = np.random.normal(0, 100, size=data['salario'].shape) # media, desviacion estandar, tamaño
ruido

array([ 46.33126517, 123.26449469, -54.23155808,  -8.66940126,
       -23.2232184 ])

In [6]:
data['salario'] += ruido
data

Unnamed: 0,edad,ubicacion,salario,banco
0,20,Ciudad A,55046.331265,Banco 1
1,30,Ciudad B,34123.264495,Banco 3
2,10,Ciudad C,75945.768442,Banco 1
3,40,Ciudad D,50991.330599,Banco 2
4,60,Ciudad E,61976.776782,Banco 3


Por último, existe la permutación o shuffling que consiste en cambiar el orden de ciertos datos, para que se pierda la relación con otros datos, por eso mismo solo puede utilizarse cuando la relación entre los datos que se planea hacer la permutación y los demás no sea relevante

In [7]:
data['banco'] = np.random.permutation(data['banco'])
data

Unnamed: 0,edad,ubicacion,salario,banco
0,20,Ciudad A,55046.331265,Banco 3
1,30,Ciudad B,34123.264495,Banco 2
2,10,Ciudad C,75945.768442,Banco 1
3,40,Ciudad D,50991.330599,Banco 1
4,60,Ciudad E,61976.776782,Banco 3
