# Proyecto del Día 14 - Gestión Segura de Datos de Clientes

Este notebook implementa un sistema básico de gestión y análisis de datos de clientes, aplicando técnicas de pseudonimización, anonimización y balanceo de datos.


## Objetivo
El proyecto consiste en desarrollar un sistema de gestión y análisis de datos de clientes que implemente técnicas de pseudonimización, anonimización y balanceo de datos para proteger la privacidad de los usuarios y asegurar un análisis equitativo.


## Consignas del Proyecto
1. Cargar los datos de clientes provistos en un archivo CSV.
2. Aplicar técnicas de anonimización al campo `direccion`, `edad` y `salario` para proteger la identidad de los clientes.
3. Aplicar técnicas de pseudonimización al campo `nombre`.
4. Implementar una función de balanceo de datos para asegurar la representación equitativa de diversas categorías en el análisis posterior.
5. Realizar un análisis simple de los datos para identificar tendencias o patrones que podrían ser útiles para decisiones de negocios o marketing.


Este proyecto te permitirá aplicar prácticas esenciales de privacidad de datos y técnicas de manipulación de datos en un entorno práctico, preparándote para desafíos similares en entornos profesionales.

¡Mucha suerte y que te diviertas!

# Preparación de datos

In [64]:
import pandas as pd
import numpy as np
import uuid
from sklearn.utils import resample

In [42]:
data = pd.DataFrame({
    'nombre': ['Ana', 'Juan', 'Luis', 'Pedro', 'Silvina'],
    'email': ['ana@ejemplo.com', 'juan@ejemplo.com', 'luis@ejemplo.com', 'pedro@ejemplo.com', 'silvina@ejemplo.com'],
    'edad': [22, 37, 15, 49, 63],
    'direccion': ['Ciudad A', 'Ciudad B', 'Ciudad C', 'Ciudad D', 'Ciudad E'],
    'salario': [55000, 34000, 76000, 51000, 62000],
    'banco': ['Banco 1', 'Banco 3', 'Banco 1', 'Banco 2', 'Banco 3']
})

# Anonimización y pseudoanonimización

In [45]:
ruido = np.random.normal(0, 100, size=data['salario'].shape)
data['salario']+=ruido 

In [47]:
data['edad'] = (data['edad'] // 10) * 10

In [49]:
data['direccion']=np.random.permutation(data['direccion'])

In [51]:
id_pseudo = []
for n in range(len(data)):
    id_pseudo.append(str(uuid.uuid4()))

In [53]:
data['id_pseudo']=id_pseudo

In [59]:
data = data.drop(columns=['nombre'])

In [61]:
data

Unnamed: 0,email,edad,direccion,salario,banco,id_pseudo
0,ana@ejemplo.com,20,Ciudad B,55064.046151,Banco 1,dcfe005c-9bb8-4752-8b00-5b0fcd1b1779
1,juan@ejemplo.com,30,Ciudad D,33939.696732,Banco 3,d66ac25f-1705-4127-bb02-c63f822e9424
2,luis@ejemplo.com,10,Ciudad E,75902.386948,Banco 1,2c17bcdf-8c9e-4756-a80b-b8076c70448d
3,pedro@ejemplo.com,40,Ciudad A,51077.659767,Banco 2,777605e5-2754-4e3d-ab41-0e66ef763e1c
4,silvina@ejemplo.com,60,Ciudad C,62017.550031,Banco 3,d65d123f-0541-4eaa-b55b-0ef357826e8c


# Balanceo 

In [66]:
data = pd.DataFrame({
    'edad': [22, 45, 36, 29, 58],
    'género': ['F', 'M', 'M', 'F', 'M'],
    'contratado': [1, 0, 1, 0, 1]
})

In [68]:
agrupado = data.groupby('género')

In [72]:
for nombre, grupo in agrupado:
    grupo_balanceado = resample(grupo, 
                               replace=True,
                               n_samples=10,
                               random_state=123)
    data_balanceada = pd.concat([data_balanceada, grupo_balanceado])

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000020545F9AB10>