In [1]:
import pandas as pd
import numpy as np

def add_differential_privacy(df, column, epsilon):
    if column not in df.columns:
        raise ValueError(f"La columna '{column}' no existe en el DataFrame.")
    
    # Manejar valores NaN reemplazándolos por 0
    df[column] = df[column].fillna(0)

    # Calcular sensibilidad como rango de los valores
    sensitivity = df[column].max() - df[column].min()

    # Escala del ruido basado en epsilon
    scale = sensitivity / epsilon

    # Generar ruido Laplaciano
    noise = np.random.laplace(0, scale, size=len(df[column]))

    # Añadir ruido a la columna
    df[column] += noise
    return df

# Cargar el archivo CSV
input_file = "archivos/combined_dataset.csv"
output_file = "archivos/combined_dataset_protected.csv"

# Leer el DataFrame original
df = pd.read_csv(input_file)

# Aplicar privacidad diferencial a columnas sensibles
epsilon = 1.0  # Ajusta este valor según el nivel de privacidad deseado
df = add_differential_privacy(df, 'TransactionAmount (INR)', epsilon)
df = add_differential_privacy(df, 'CustAccountBalance', epsilon)

# Guardar el DataFrame modificado en un nuevo archivo
df.to_csv(output_file, index=False)

print(f"Archivo con privacidad diferencial guardado como: {output_file}")


  df = pd.read_csv(input_file)


Archivo con privacidad diferencial guardado como: archivos/combined_dataset_protected.csv


In [2]:
print("Antes de aplicar privacidad diferencial:")
print(df[['TransactionAmount (INR)', 'CustAccountBalance']].head())

# Aplicar privacidad diferencial
df = add_differential_privacy(df, 'TransactionAmount (INR)', epsilon)
df = add_differential_privacy(df, 'CustAccountBalance', epsilon)

print("Después de aplicar privacidad diferencial:")
print(df[['TransactionAmount (INR)', 'CustAccountBalance']].head())


Antes de aplicar privacidad diferencial:
   TransactionAmount (INR)  CustAccountBalance
0             6.292018e+05        3.421609e+08
1            -7.002905e+05       -4.375013e+07
2             7.983064e+05       -4.373255e+07
3            -2.925213e+06       -2.716014e+07
4            -1.989053e+05       -3.490942e+07
Después de aplicar privacidad diferencial:
   TransactionAmount (INR)  CustAccountBalance
0             1.089256e+07       -2.068460e+08
1             1.900408e+07        9.561487e+08
2             9.453330e+07       -1.725666e+09
3             2.874008e+07        7.778667e+09
4             2.170200e+07        2.125510e+09


Consideraciones Finales

Epsilon Ajustable:
Se puede ajustar el valor de epsilon en apply_noise_to_dataset.py según la cantidad de ruido deseada. Recuerda que un epsilon más bajo significa mayor privacidad, pero más ruido.

Integridad del Proceso:
Informa en la documentación del proyecto que este paso debe realizarse siempre antes de desplegar la aplicación para asegurar que los datos estén protegidos adecuadamente.