# K-Anonimato com Generalização

## Importações e definições de variáveis/funções globais

In [1]:
import numpy as np
import pandas as pd
import itertools as it
from IPython.display import clear_output

filename        = "Dataset_Covid_CE.csv"
k_values        = [2, 4, 8, 16]

def get_filename_out(k):
    return f"Dataset_Covid_CE_Anon_Sup_k{k}.csv"

def generate_csv(df, k):
    return df.to_csv(get_filename_out(k))


def is_k_anon(df, semi_ids, k=2):
    """
    para a tabela ser considerada k-anonima, todo elemento da tabela deve possuir pelo menos k outros elementos com a mesma combinaçao de semi-identificadores. ou seja, para k = 2 e semi_ids = {Atr1, Atr2}, todo registro da tabela deve aparecer pelo menos 2 vezes com mesmo valor nos atributos "Atr1" e "Atr2".

    essa função agrupa os elementos da tabela pelos atributos semi-identificadores em semi_ids e retorna False se algum grupo ocorre menos que k vezes, True se todo grupo ocorre ao menos k vezes.
    """

    groups = df.groupby(by=semi_ids).size()
    for n_of_groups in groups:
        if n_of_groups < k: 
            return False
    return True


## Leitura e limpeza do dataset inicial
Fazemos apenas uma limpeza básica para não modificar muito os resultados do algoritmo.

In [2]:
# definição dos semi-identificadores
semi_id = [
    "municipioCaso",
    "sexoCaso",
    "dataNascimento",
    "resultadoFinalExame",
    "racaCor",
]

# definição dos atributos sensíveis
sensitive = [
    "comorbidadeCardiovascularSivep",
    "comorbidadeDiabetesSivep",
]

# definição dos tipos
dtype = {
    "municipioCaso"                  : "str",
    "sexoCaso"                       : "str",
    "dataNascimento"                 : "str",
    "resultadoFinalExame"            : "str",
    "comorbidadeCardiovascularSivep" : "str",
    "comorbidadeDiabetesSivep"       : "str",
    "racaCor"                        : "str",
}

# definição das colunas de data
date_columns = [
    "dataNascimento",
]

# pegar apenas os atributos desejados do dataset
df = pd.read_csv(filename, usecols=semi_id + sensitive, dtype=dtype, parse_dates=date_columns, infer_datetime_format=True)
# df = pd.read_csv(filename, usecols=semi_id + sensitive, dtype=dtype)
df = df.dropna(how="all") # remover registros com todos os valores nulo
df = df.fillna("*") # padroniza valores nulos
df

Unnamed: 0,municipioCaso,sexoCaso,dataNascimento,resultadoFinalExame,comorbidadeCardiovascularSivep,comorbidadeDiabetesSivep,racaCor
19,SOBRAL,MASCULINO,2003-08-14,Negativo,*,*,Parda
20,PACAJUS,MASCULINO,1983-11-07,Negativo,*,*,Parda
21,HORIZONTE,FEMININO,1982-01-14,Negativo,*,*,*
25,FORTALEZA,MASCULINO,1992-03-12,Negativo,*,*,Parda
28,CAUCAIA,MASCULINO,1970-03-06,Negativo,*,*,Sem Informacao
...,...,...,...,...,...,...,...
1266272,FORTALEZA,FEMININO,1982-12-08,Positivo,*,*,Branca
1266273,FORTALEZA,FEMININO,1980-12-02,Negativo,*,*,Parda
1266274,FORTALEZA,FEMININO,1988-05-17,Provável,*,*,Branca
1266275,CRATEUS,FEMININO,1970-09-28,Negativo,*,*,Parda


In [3]:
# generate_csv(df, k=1)

In [4]:
df.describe()

Unnamed: 0,municipioCaso,sexoCaso,dataNascimento,resultadoFinalExame,comorbidadeCardiovascularSivep,comorbidadeDiabetesSivep,racaCor
count,911921,911921,911921,911921,911921,911921,911921
unique,184,3,35436,6,4,4,8
top,FORTALEZA,FEMININO,*,Negativo,*,*,Parda
freq,238374,517751,206,543568,902505,903015,482975


In [5]:
df.nunique()

municipioCaso                       184
sexoCaso                              3
dataNascimento                    35436
resultadoFinalExame                   6
comorbidadeCardiovascularSivep        4
comorbidadeDiabetesSivep              4
racaCor                               8
dtype: int64

In [8]:
df.resultadoFinalExame.value_counts()

Negativo        543568
Positivo        266325
Provável         71038
*                30655
Inconclusivo       314
Em Análise          21
Name: resultadoFinalExame, dtype: int64

In [9]:
df.sexoCaso.value_counts()

FEMININO     517751
MASCULINO    392647
*              1523
Name: sexoCaso, dtype: int64

In [11]:
df.municipioCaso.value_counts()

FORTALEZA            238374
JUAZEIRO DO NORTE     39522
CRATO                 28433
SOBRAL                27890
MARACANAU             22987
                      ...  
PENAFORTE               319
MULUNGU                 318
TARRAFAS                278
ANTONINA DO NORTE       249
ARNEIROZ                152
Name: municipioCaso, Length: 184, dtype: int64

## Aplicação do algoritmo

In [12]:
def generalize_municipio(slice):
    slice = 'Cearense'
    return slice

def generalize_sexo(slice):
    slice = 'Binário'
    return slice

def generalize_raca(slice):
    slice = 'Humano'
    return slice

def generalize_resultado(slice):
    slice = 'Pessoa'
    return slice

def generalize_datetime(slice, format):
    return slice.apply(lambda row: pd.to_datetime(row, format=format, errors='coerce'))

def k_anon_general(df, semi_ids, k):
    """
    algoritmo de generalização
    """
    
    # forma grupos com combinações de valores dos semi-ids
    semi_ids_combination_groups = df.groupby(semi_ids)

    anon = []

    # para cada grupo formado, se o grupo já respeita regra do k-anonimato, considera os seus registros como anonimados
    n = 1
    for name, group in semi_ids_combination_groups:
        if group.shape[0] >= k:
            anon.append(group)

    anon = [pd.concat(anon).sort_index()]
    not_anon = df.drop(anon[0].index)

    # return  pd.concat(anon).sort_index()
    return  semi_ids_combination_groups.count()

    # for n in [4, 3, 2, 1]:
    #     semi_ids_combinations = it.combinations(semi_ids, n)
    #     trows = []

    #     for s in semi_ids_combinations:
    #         groups = not_anon.groupby(list(s))
    #         rows = []

    #         for name, group in groups:
    #             if group.shape[0] >= k:
    #                 rm = list(set(semi_ids) - set(s))
    #                 for col in rm:
    #                     group[col] = "*"
    #                 rows.append(group)

    #         if rows:
    #             rows = pd.concat(rows).sort_index()
    #             trows.append(rows)
    #             not_anon = not_anon.drop(rows.index)

    #     if trows:
    #         trows = pd.concat(trows).sort_index()
    #         anon.append(trows)

    # not_anon.dataNascimento = "*"
    # not_anon.racaCor = "*"
    # anon.append(not_anon)

    # return pd.concat(anon).sort_index()

# 2. gerar tabela k = 2
k = 2

df2 = k_anon_general(df, semi_id, k)
df2

SyntaxError: invalid syntax (<ipython-input-12-5a28b752e367>, line 2)

In [7]:
# generate_csv(df2, k)
is_k_anon(df2, semi_id, k)

True

# Gráficos