# Metodología de privatización

## Manipulación de datos

Primero se carga la base que nos suministro el ministerio de salud

In [2]:
import pickle
import pandas as pd

archivo_pickle = 'Entrenamiento_cronicas_N.pkl'


with open(archivo_pickle, 'rb') as file:
    df = pickle.load(file)


In [3]:
df.head(2)

Unnamed: 0_level_0,EPS,NUM_IDE,FECHA_NACI,SEXO,DPTO,MUNI,DIAS_COMP,V8,id,Valor_Neto_Chunk,...,ARTROSIS,RENAL_OTRA,RENAL_RENALDELARGADURACION,TRANSPLANTE,RENAL_INSUFICIENCIARENALOTRA,RENAL_INSUFICIENCIARENALCRONICA,ANOMALIASGENETICASYCONGENITAS,CANCER_TERAPIACANCER,Grupo_Edad,Zona
rownames,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1184873,EPS002,7B7119A8-7D83-4DAF-ABC9-D33642AF26FD,1999-05-14 00:00:00.000,F,50,1,360,B,EPS002-7B7119A8-7D83-4DAF-ABC9-D33642AF26FD,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,3,N
1587467,EPS013,D36643BD-6CCC-4608-94D8-6B167B226CB5,1988-08-12 00:00:00.000,M,76,1,336,C,EPS013-D36643BD-6CCC-4608-94D8-6B167B226CB5,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,5,C


Se eliminan los datos donde todas las entradas son ceros para tener mayor efectividad en la privatización

In [5]:
# Eliminar columnas donde todas las entradas son cero
data_non_zero = df.loc[:, (df != 0).any(axis=0)]

Para mayor facilidad a la hora de manipular los datos de las enfermedades ya que vienen como binarias se concatenan separandolas por coma, facilitando la privatización

In [6]:

# Lista de todas las posibles columnas de enfermedades
columns_enfermedades = [
    'SIDA_VIH', 'TUBERCULOSIS', 'CANCER_OTROSCANCER', 'CANCER_ORGANOSDIGESTIVOS',
    'CANCER_ORGANOSRESPIRATORIOS', 'CANCER_MELANOMAYDELAPIEL', 'CANCER_MAMA',
    'CANCER_OTROSGENITALESFEMENINOS', 'CANCER_CERVIXINVASIVO', 'CANCER_GENITALESMASCULINOS',
    'CANCER_TEJIDOLINFATICOYAFINES', 'CANCER_CERVIXINSITU', 'AUTOINMUNE', 'DIABETES',
    'SINDROMESCONVULSIVOS(EPILEPSIA)', 'ENFERMEDADCARDIOVASCULAR_OTRA', 'ENFERMEDADCARDIOVASCULAR_HIPERTENSION',
    'ENFERMEDADPULMONARDELARGADURACION', 'ASMA', 'ARTRITISPIOGENASYREACTIVAS',
    'ARTRITIS', 'ARTROSIS', 'RENAL_OTRA', 'RENAL_RENALDELARGADURACION', 'TRANSPLANTE',
    'RENAL_INSUFICIENCIARENALOTRA', 'RENAL_INSUFICIENCIARENALCRONICA', 'ANOMALIASGENETICASYCONGENITAS',
    'CANCER_TERAPIACANCER'
]

# Crear la columna 'Enfermedad' que concatena los nombres de las enfermedades presentes, separadas por comas
data_non_zero['Enfermedad'] = (data_non_zero[columns_present] > 0).apply(lambda x: ', '.join(x.index[x]), axis=1)

# Mostrar las primeras filas para verificar la nueva columna 'Enfermedad'
data_non_zero[['Enfermedad']].head()


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_non_zero['Enfermedad'] = (data_non_zero[columns_present] > 0).apply(lambda x: ', '.join(x.index[x]), axis=1)


Unnamed: 0_level_0,Enfermedad
rownames,Unnamed: 1_level_1
1184873,
1587467,ENFERMEDADCARDIOVASCULAR_OTRA
753062,
1802563,
1190692,


Para mejorar el entendimiento se debe reemplazar los 0 con Sin enfermedad 

In [7]:
data_non_zero.drop(columns=columns_enfermedades, inplace=True)

# Reemplazar valores vacíos o NaN en la columna 'Enfermedad' con 'Sin Enfermedad'
data_non_zero['Enfermedad'] = data_non_zero['Enfermedad'].apply(lambda x: 'Sin Enfermedad' if not x else x)


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_non_zero.drop(columns=columns_enfermedades, inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_non_zero['Enfermedad'] = data_non_zero['Enfermedad'].apply(lambda x: 'Sin Enfermedad' if not x else x)


finalmente se eliminan las variables que no nos brindaran información a futuro, notando que eliminamos fecha de nacimiento ya que tenemos la edad calculada.

In [8]:
df = data_non_zero
df.drop(columns='NUM_IDE', inplace=True)
df.drop(columns='FECHA_NACI', inplace=True)
df.drop(columns='id', inplace=True)
df.head()

Unnamed: 0_level_0,EPS,SEXO,DPTO,MUNI,DIAS_COMP,V8,Valor_Neto,DIAS_ESTAN_Neto,Edad,Grupo_Edad,Zona,Enfermedad
rownames,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1184873,EPS002,F,50,1,360,B,39054.0,0.0,12.0,3,N,Sin Enfermedad
1587467,EPS013,M,76,1,336,C,312012.0,277.0,23.0,5,C,ENFERMEDADCARDIOVASCULAR_OTRA
753062,EPS017,F,11,1,333,B,14313.0,0.0,15.0,4,C,Sin Enfermedad
1802563,EPS002,M,76,1,84,B,0.0,0.0,13.0,3,C,Sin Enfermedad
1190692,EPS037,F,15,776,180,B,0.0,0.0,21.0,5,N,Sin Enfermedad


## Privatización

Para la privatización diferencial de los datos, es crucial adoptar enfoques distintos según el tipo de variable:

* **Variables Numéricas:** Utilizamos la mecánica de Laplace para agregar ruido a los datos. Este método introduce una perturbación aleatoria, distribuida según la función de Laplace, a cada valor numérico. La escala del ruido depende del parámetro epsilon, que determina el nivel de privacidad: un epsilon más pequeño aumenta la privacidad pero reduce la utilidad de los datos.

* **Variables Categóricas:** Aplicamos el método de Optimized Unary Encoding (OUE). Este enfoque convierte cada valor categórico en un vector binario y luego introduce ruido a cada bit del vector. Al igual que con Laplace, el nivel de ruido depende de epsilon, equilibrando la privacidad con la precisión de los datos.

In [None]:
import pickle

# Definir las funciones de mecanismo de privacidad
def laplace_mechanism(value, epsilon):
    """Añade ruido laplaciano a un valor numérico."""
    scale = 1 / epsilon
    return value + np.random.laplace(0, scale)

def oue(data, column_name, epsilon):
    """Aplica Optimized Unary Encoding a una columna categórica."""
    categories = data[column_name].unique()
    def encode(category):
        p = 1 / (np.exp(epsilon) + 1)
        q = 1 - p
        encoded = [1 if np.random.rand() < p else 0 if cat == category else 1 if np.random.rand() < q else 0 for cat in categories]
        max_index = np.argmax(encoded)
        return categories[max_index]
    return data[column_name].apply(encode)

# Listas de columnas categóricas y numéricas
categorical_columns = ['EPS', 'SEXO', 'DPTO', 'MUNI', 'V8', 'Grupo_Edad', 'Zona', 'Enfermedad']
numeric_columns = ['Valor_Neto', 'DIAS_ESTAN_Neto', 'Edad']

# Valores de epsilon a usar
epsilons = [1.0]

# Aplicar mecanismos de privacidad y guardar DataFrames
for epsilon in epsilons:
    df_epsilon = df.copy()
    
    # Aplicar Laplace a columnas numéricas
    for col in numeric_columns:
        df_epsilon[col] = df_epsilon[col].apply(lambda x: laplace_mechanism(x, epsilon))
    
    # Aplicar OUE a columnas categóricas
    for col in categorical_columns:
        df_epsilon[col] = oue(df_epsilon, col, epsilon)
    
    # Guardar el DataFrame resultante como un archivo pickle
    pickle_filename = f'base_epsilon_{epsilon}.pkl'
    with open(pickle_filename, 'wb') as f:
        pickle.dump(df_epsilon, f)

    print(f'DataFrame para epsilon={epsilon} guardado como {pickle_filename}.')


Finalmente, privatizamos la base de datos usando un epsilon de 1. Sin embargo la función esta cosntruida para ejecutarse con cualquier epsilon