# Mecanismo de Laplace

## Importações e definições de variáveis/funções globais

In [1]:
import numpy as np
import pandas as pd
import sympy
from datetime import datetime, date
from dateutil.relativedelta import relativedelta

filename        = "Dataset_Covid_CE.csv"
filename_out    = "Dataset_Covid_CE_Laplace.csv"

epsilons = [0.1, 0.5, 1.0, 10]

# df_municipios = pd.read_csv('ce-cities-lat-lon-format.csv')

## Leitura e limpeza do dataset inicial
Fazemos apenas uma limpeza básica para não modificar muito os resultados do algoritmo.

In [2]:
# definição dos semi-identificadores
semi_ids = [
    "municipioCaso",
    "resultadoFinalExame",
    "dataNascimento",
]

# definição dos atributos sensíveis
sensitive = [
    "comorbidadeCardiovascularSivep",
    "comorbidadeDiabetesSivep",
]

# definição dos tipos
dtype = {
    "municipioCaso"                  : "str",
    "resultadoFinalExame"            : "str",
    "dataNascimento"                 : "str",
    "comorbidadeCardiovascularSivep" : "str",
    "comorbidadeDiabetesSivep"       : "str",
}

# definição das colunas de data
dates = [
    "dataNascimento",
]
date_parser = lambda x: pd.to_datetime(x, format="%Y-%m-%d", errors = 'coerce')

# pegar apenas os atributos desejados do dataset
df = pd.read_csv(filename, usecols=semi_ids, dtype=dtype, parse_dates=dates, date_parser=date_parser)
df = df.dropna(how="any", subset=semi_ids) # remover registros com semi_ids nulo
df = df.drop(df.loc[df['dataNascimento'].dt.year < 1901].index) # remover registros antes do século 20 e 21
df['municipioCaso'] = df['municipioCaso'].str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8') # remove acentuação

# add campo de idade
now = pd.to_datetime('now')
def cal_age(birth):
    r = relativedelta(now, birth)
    return r.years

df['idade'] = df['dataNascimento'].apply(cal_age)
# df['idade'] = now.year - df['dataNascimento'].dt.year # mais rápido, porém contem margem de erro devido aos anos bissextos

df

Unnamed: 0,municipioCaso,dataNascimento,resultadoFinalExame,idade
19,SOBRAL,2003-08-14,Negativo,18
20,PACAJUS,1983-11-07,Negativo,37
21,HORIZONTE,1982-01-14,Negativo,39
25,FORTALEZA,1992-03-12,Negativo,29
28,CAUCAIA,1970-03-06,Negativo,51
...,...,...,...,...
1266272,FORTALEZA,1982-12-08,Positivo,38
1266273,FORTALEZA,1980-12-02,Negativo,40
1266274,FORTALEZA,1988-05-17,Provável,33
1266275,CRATEUS,1970-09-28,Negativo,50


## Consultas


### Q1

In [3]:
def Q1(df, epsilon, verbose=False):
    original_mean = df['idade'].mean()

    dfmax = df.drop(df['idade'].idxmax())
    dfmin = df.drop(df['idade'].idxmin())

    dfmax_mean = dfmax['idade'].mean()
    dfmin_mean = dfmin['idade'].mean()
    
    dfmax_sensitivity = abs(dfmax_mean - original_mean)
    dfmin_sensitivity = abs(dfmin_mean - original_mean)

    local_sensitivity = max(dfmax_sensitivity, dfmin_sensitivity)

    if verbose:
        print(f"max_age: {df['idade'].max()}")
        print(f"min_age: {df['idade'].min()}")
        print(f"original_mean: {original_mean}")
        print(f"dfmax_mean: {dfmax_mean}")
        print(f"dfmin_mean: {dfmin_mean}")
        print(f"dfmax_sensitivity: {dfmax_sensitivity}")
        print(f"dfmin_sensitivity: {dfmin_sensitivity}")
        print(f"local_sensitivity: {local_sensitivity}")

    # return original_mean + np.random.laplace(scale=local_sensitivity/epsilon)
    return (df['idade'].sum() + np.random.laplace(scale=(122 - 0)/epsilon)) / (df['idade'].shape[0] + np.random.laplace(scale=1/epsilon))

Q1(df, 1, verbose=True)

max_age: 119
min_age: 0
original_mean: 40.390692057193384
dfmax_mean: 40.39060283084187
dfmin_mean: 40.3907379030885
dfmax_sensitivity: 8.922635151265013e-05
dfmin_sensitivity: 4.5845895115803614e-05
local_sensitivity: 8.922635151265013e-05


40.39090700998271

In [4]:
# média de 10 execuções para cada valor de epsilon
q1_epsilon_results = {'original': df['idade'].mean()}
for epsilon in epsilons:
    q1_epsilon_results[epsilon] = np.mean([Q1(df, epsilon) for _ in range(10)])
q1_epsilon_results

{'original': 40.390692057193384,
 0.1: 40.391762858956085,
 0.5: 40.390842391061916,
 1.0: 40.3906125418013,
 10: 40.39069858675246}

### Q2

In [5]:
def Q2(df, epsilon, verbose=False):
    original_count = df[df['resultadoFinalExame'] == 'Positivo'].shape[0]

    # operação count sempre tem sensibilidade local 1
    local_sensitivity = 1

    if verbose:
        print(f"original_count: {original_count}")
        print(f"local_sensitivity: {local_sensitivity}")

    return original_count + np.random.laplace(scale=local_sensitivity/epsilon)

Q2(df, 1, verbose=True)

original_count: 266235
local_sensitivity: 1


266236.5300467745

In [6]:
# média de 10 execuções para cada valor de epsilon
q2_epsilon_results = {'original': df[df['resultadoFinalExame'] == 'Positivo'].shape[0]}
for epsilon in epsilons:
    q2_epsilon_results[epsilon] = np.mean([Q2(df, epsilon) for _ in range(10)]) 
q2_epsilon_results

{'original': 266235,
 0.1: 266237.90540621977,
 0.5: 266234.2396612222,
 1.0: 266235.5329898936,
 10: 266235.01255174493}

### Q3

In [7]:
def Q3(df, epsilon, verbose=False):
    # pega contagem de exames agrupada por municipio
    original_counts = df.groupby('municipioCaso').size()

    # operação count sempre tem sensibilidade local 1
    local_sensitivity = 1

    if verbose:
        print(f"original_counts: {original_counts}")
        print(f"local_sensitivity: {local_sensitivity}")

    # retorna contagem com ruído. um ruído é gerado para cada município
    return original_counts + [np.random.laplace(scale=local_sensitivity/epsilon) for _ in range(len(original_counts))]

Q3(df, 1, verbose=True)

original_counts: municipioCaso
ABAIARA             617
ACARAPE            2910
ACARAU             6844
ACOPIARA           3069
AIUABA              391
                   ... 
URUBURETAMA        1500
URUOCA             1926
VARJOTA            2679
VARZEA ALEGRE      3245
VICOSA DO CEARA    4180
Length: 184, dtype: int64
local_sensitivity: 1


municipioCaso
ABAIARA             619.393119
ACARAPE            2909.551061
ACARAU             6842.651382
ACOPIARA           3066.901916
AIUABA              391.577759
                      ...     
URUBURETAMA        1499.124826
URUOCA             1927.391101
VARJOTA            2678.673961
VARZEA ALEGRE      3247.027287
VICOSA DO CEARA    4179.248722
Length: 184, dtype: float64

In [8]:
# média de 10 execuções para cada valor de epsilon
q3_epsilon_results = {'original': df.groupby('municipioCaso').size()}
n = 10
for epsilon in epsilons:
    q3_epsilon_results[epsilon] = 0
    for _ in range(n):
        q3_epsilon_results[epsilon] = q3_epsilon_results[epsilon] + Q3(df, epsilon)
    q3_epsilon_results[epsilon] = q3_epsilon_results[epsilon] / n
q3_epsilon_results

{'original': municipioCaso
 ABAIARA             617
 ACARAPE            2910
 ACARAU             6844
 ACOPIARA           3069
 AIUABA              391
                    ... 
 URUBURETAMA        1500
 URUOCA             1926
 VARJOTA            2679
 VARZEA ALEGRE      3245
 VICOSA DO CEARA    4180
 Length: 184, dtype: int64,
 0.1: municipioCaso
 ABAIARA             621.848130
 ACARAPE            2909.677597
 ACARAU             6844.190748
 ACOPIARA           3069.110317
 AIUABA              392.933914
                       ...     
 URUBURETAMA        1504.757049
 URUOCA             1928.788195
 VARJOTA            2676.003052
 VARZEA ALEGRE      3244.994832
 VICOSA DO CEARA    4178.482088
 Length: 184, dtype: float64,
 0.5: municipioCaso
 ABAIARA             616.191797
 ACARAPE            2909.263493
 ACARAU             6843.464571
 ACOPIARA           3067.852996
 AIUABA              392.850209
                       ...     
 URUBURETAMA        1499.236676
 URUOCA             1926

## Gerar CSVs

In [9]:
dfq1q2 = pd.DataFrame({
    'q1': q1_epsilon_results,
    'q2': q2_epsilon_results,
})
dfq1q2

Unnamed: 0,q1,q2
original,40.390692,266235.0
0.1,40.391763,266237.905406
0.5,40.390842,266234.239661
1.0,40.390613,266235.53299
10,40.390699,266235.012552


In [10]:
dfq3 = pd.DataFrame(q3_epsilon_results)
dfq3

Unnamed: 0_level_0,original,0.1,0.5,1.0,10
municipioCaso,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
ABAIARA,617,621.848130,616.191797,616.419619,616.960705
ACARAPE,2910,2909.677597,2909.263493,2909.961665,2910.059323
ACARAU,6844,6844.190748,6843.464571,6844.013099,6843.983457
ACOPIARA,3069,3069.110317,3067.852996,3068.727704,3069.005381
AIUABA,391,392.933914,392.850209,390.651102,391.019227
...,...,...,...,...,...
URUBURETAMA,1500,1504.757049,1499.236676,1499.626450,1500.009644
URUOCA,1926,1928.788195,1926.841143,1925.662166,1925.986684
VARJOTA,2679,2676.003052,2679.239042,2679.030268,2679.013259
VARZEA ALEGRE,3245,3244.994832,3243.772226,3244.937004,3244.987989


In [11]:
df.to_csv(filename[:-4] + '_Clean.csv', index=False)
dfq1q2.to_csv(filename_out[:-4] + '_Q1_Q2.csv')
dfq3.to_csv(filename_out[:-4] + '_Q3.csv')