In [None]:
import pandas as pd
import os
import json
import calendar
class Hierarchy:
    def __init__(self, dataframe: pd.DataFrame, ni: int, nd: int) -> None:
        """
        Inicializa a classe Hierarchy.

        Args:
            dataframe (pd.DataFrame): O DataFrame original para ser processado.
            ni (int): O nível de hierarquia desejado para o atributo numérico (idade).
            nd (int): O nível de hierarquia desejado para o atributo de data.
        """
        self.df = dataframe.copy()
        self.ni = ni
        self.nd = nd
        self.root = r'data'
        self.json_file = 'levels.json'

    def construct_hierarchy_attr(self, definitions_levels: list, column_name: str) -> None:
        """
        Constrói a hierarquia para um atributo (coluna) e a salva em um arquivo JSON.

        Args:
            definitions_levels (list): Uma lista que define como cada nível será dividido.
                                       Ex: [1, 5, 10, 'all'] significa 4 níveis de generalização.
            column_name (str): O nome da coluna para a qual a hierarquia será criada.
        """
        self.set_quantity_levels = len(definitions_levels)

        try:
            os.makedirs(self.root, exist_ok=True)
        except Exception as e:
            print(f"Ocorreu um erro ao criar a pasta: {e}")
            return

        column_values = sorted(self.df[column_name].dropna().unique())

        # Estrutura inicial do JSON
        json_level = {f'nivel_{level}': None for level in range(self.set_quantity_levels)}

        # Gera os intervalos para cada nível de definição
        interval_map_level = []
        for steps in definitions_levels:
            interval_map_level.append(self.compute_pivot(column_values, steps))

        # Preenche a estrutura do JSON com os intervalos criados
        for h, intervals in enumerate(interval_map_level):
            json_values = {str(index + 1): interval for index, interval in enumerate(intervals)}
            json_level[f'nivel_{h}'] = json_values

        # Salva o dicionário completo no arquivo JSON
        try:
            with open(self.json_file, 'w', encoding='utf-8') as f:
                json.dump(json_level, f, ensure_ascii=False, indent=4)
        except Exception as e:
            print(f"Erro ao salvar o arquivo JSON: {e}")

    def compute_pivot(self, array: list, num_intervals: int | str):
        """
        Calcula os intervalos (pivots) para um array de valores. (LÓGICA CORRIGIDA)

        Args:
            array (list): Lista de valores únicos e ordenados.
            num_intervals (int | str): O número de intervalos a serem criados ou 'all' para um único intervalo.

        Returns:
            list: Uma lista de tuplas, onde cada tupla é um intervalo (min, max).
        """
        if not array:
            return []

        if num_intervals == 'all':
            return [(min(array), max(array))]

        if num_intervals == 1:
            return [(val, val) for val in array]

        pivots = []
        length = len(array)

        num_intervals = min(num_intervals, length)

        step = length // num_intervals
        remainder = length % num_intervals

        start_index = 0
        for i in range(num_intervals):
            end_index = start_index + step + (1 if i < remainder else 0)

            # Garante que o índice final não ultrapasse o limite do array
            # O -1 é porque o índice é baseado em zero
            pivots.append((array[start_index], array[end_index - 1]))

            start_index = end_index

        return pivots

    def apply_age_hierarchy(self) -> pd.Series:
        """
        Aplica a hierarquia de idade definida no arquivo JSON.

        Returns:
            pd.Series: Uma série do Pandas com os valores de idade generalizados.
        """
        column_name = 'idadeCaso'
        level = self.ni

        if level == 0:
           # Nível 0 significa sem generalização, retorna os valores originais
           return self.df[column_name]

        if not (0 < level < self.set_quantity_levels):
            print(f'Nível {level} inválido. Escolha um nível entre 1 e {self.set_quantity_levels - 1}.')
            return None

        try:
            with open(self.json_file, 'r', encoding='utf-8') as fr:
                levels_data = json.load(fr)
        except FileNotFoundError:
            print(f"Erro: Arquivo '{self.json_file}' não encontrado. Execute 'construct_hierarchy_attr' primeiro.")
            return None

        intervals = list(levels_data.get(f'nivel_{level}', {}).values())
        if not intervals:
            print(f"Nenhum intervalo encontrado para o nível {level} no JSON.")
            return None

        generalized_column = []

        for value in self.df[column_name]:
            if pd.isna(value):
                generalized_column.append(None)
                continue

            found = False
            for interval in intervals:
                if interval[0] <= float(value) <= interval[1]:
                    generalized_column.append(f"{interval[0]}-{interval[1]}")
                    found = True
                    break

            if not found:
                generalized_column.append('Fora do intervalo')

        return pd.Series(generalized_column, name=f"{column_name}_gen_n{level}")

    def apply_date_hierarchy(self) -> pd.Series:
        """
        Aplica a generalização na coluna de data de nascimento.
        """
        level = self.nd
        column_name = 'dataNascimento'

        date_series = pd.to_datetime(self.df[column_name], errors='coerce')

        generalized_dates = None
        if level == 0:
            generalized_dates = date_series.dt.strftime('%d/%m/%Y')
        elif level == 1:
            generalized_dates = date_series.dt.strftime('%m/%Y')
        elif level == 2:
            generalized_dates = date_series.dt.strftime('%Y')
        else:
            print('Nível de data inválido. Escolha entre 0, 1 ou 2.')
            return None

        print(f"\n✅ Generalização de data (Nível {level}) aplicada com sucesso!")
        return generalized_dates.rename(f"{column_name}_gen_n{level}")
    def calculate_precision(self, generalized_df: pd.DataFrame) -> float:
        """
        Calcula a métrica de Precisão (Perda de Informação) para o DataFrame generalizado.

        Args:
            generalized_df (pd.DataFrame): O DataFrame contendo as colunas generalizadas.

        Returns:
            float: O valor da precisão, onde 1.0 é nenhuma perda de informação.
        """
        attributes = {'idadeCaso': 'idadeCaso_gen_n', 'dataNascimento': 'dataNascimento_gen_n'}
        total_information_loss = 0.0

        num_records = len(self.df)
        num_attributes = len(attributes)

        for original_attr, generalized_attr_prefix in attributes.items():
            # Encontra o nome completo da coluna generalizada
            try:
                gen_col_name = [c for c in generalized_df.columns if c.startswith(generalized_attr_prefix)][0]
            except IndexError:
                print(f"Aviso: Coluna generalizada para '{original_attr}' não encontrada.")
                continue

            # |HGV_Ai|: Tamanho do domínio original (número de valores únicos)
            hgv_size = self.df[original_attr].dropna().nunique()
            if hgv_size == 0:
                continue

            for value in generalized_df[gen_col_name]:
                h = 1.0  # O padrão é 1 (nenhuma generalização ou valor nulo)

                if pd.notna(value):
                    if original_attr == 'idadeCaso':
                        # Se for um intervalo como "20-29"
                        if isinstance(value, str) and '-' in value:
                            try:
                                parts = value.split('-')
                                h = float(parts[1]) - float(parts[0]) + 1
                            except (ValueError, IndexError):
                                h = 1.0 # Caso a string não seja um intervalo válido

                    elif original_attr == 'dataNascimento':
                        value_str = str(value)
                        # Nível 2 (ano): h = número de dias no ano
                        if len(value_str) == 4 and value_str.isdigit():
                            year = int(value_str)
                            h = 366 if calendar.isleap(year) else 365
                        # Nível 1 (mês/ano): h = número de dias no mês
                        elif len(value_str) == 7 and '/' in value_str:
                            try:
                                month, year = map(int, value_str.split('/'))
                                h = calendar.monthrange(year, month)[1]
                            except ValueError:
                                h = 1.0

                # Soma a perda normalizada para esta célula
                total_information_loss += (h / hgv_size)

        # Calcula a perda média e a precisão final
        average_loss = total_information_loss / (num_records * num_attributes)
        precision = 1 - average_loss

        return precision


In [40]:

import numpy as np
import random
import matplotlib.pyplot as plt
import calendar
import pandas as pd
import os
import json
from sklearn.preprocessing import MinMaxScaler

class Anonymizer(Hierarchy):

    def __init__(self, dataframe: pd.DataFrame):

        #Passando para o init pai o dataframe e ni,nd igual a 0 para fazer generalização grupo a grupo e não globalmente
        super().__init__(dataframe, ni=0, nd=0)

        # 'self.df_anon' é uma variável de instância que guardará o DataFrame
        self.df_anon = None

    # Método para preparar os dados
    def preprocess_data(self, sample_frac=0.01):
        #Faz a seleção de colunas
        columns_of_interest = ['idadeCaso', 'dataNascimento', 'racaCor']
        #Dropa nulos das 3 colunas e faz uma copia
        temp_df = self.df[columns_of_interest].copy()

        # Converte a coluna 'idadeCaso' para um formato numérico e se não conseguir converter coloca 'NaN'
        temp_df['idadeCaso'] = pd.to_numeric(temp_df['idadeCaso'], errors='coerce')

        # Converte a coluna 'dataNascimento' para o formato de data e hora e se não conseguir converter coloca 'NaN'
        temp_df['dataNascimento'] = pd.to_datetime(temp_df['dataNascimento'], errors='coerce')

        # Ela remove as linhas que se tornaram 'NaN'
        temp_df = temp_df.dropna()

        #Verifica se a pessoa digitou que queria todo o dataset ou apenas uma fração dele
        if sample_frac < 1.0:
            print(f"Reduzindo dataset de {len(temp_df)} para {sample_frac*100}%...")
            #Pega uma fração aleatoria das linhas
            self.df_anon = temp_df.sample(frac=sample_frac, random_state=42)

        #Caso tiver digitado 1 é por que quer o dataset completo logo vem para o else
        else:
            self.df_anon = temp_df

        #Após usar usar o dropna e o sample os indices ficam bagunçados, dando reset_index reordena os indices
        self.df_anon.reset_index(drop=True, inplace=True)

        print(f"Pré-processamento concluído. Registros finais para uso: {len(self.df_anon)}")

        #Retorna o dataset tratado
        return self.df_anon

    #Normalizar os dados para o knn.
    def _get_normalized_data(self):

        # 1. Prepara os dados para o scaler.
        # Cria uma copia para auxiliar e não mexer no data set
        data_to_scale = self.df_anon[['idadeCaso', 'dataNascimento']].copy()

        # Converter Data para numero
        data_to_scale['dataNascimento'] = data_to_scale['dataNascimento'].astype('int64')

        #Normalizando
        scaler = MinMaxScaler()
        scaled_matrix = scaler.fit_transform(data_to_scale)

        # Converte a matriz NumPy de volta para um DataFrame do Pandas.
        df_norm = pd.DataFrame(scaled_matrix, columns=['age_norm', 'date_norm'])

        #Retorna o DataFrame normalizado.
        return df_norm

    #Algoritmo k-NN para criar os grupos.
    def create_clusters_knn(self, k: int):
        """
        Agrupa todos os registros em "clusters" (grupos) de tamanho 'k' ou mais.
        Ele faz isso pegando um registro, encontrando seus 'k-1' vizinhos
        mais próximos e colocando todos no mesmo grupo.
        """
        print(f"Agrupamento k-NN para k={k}...")

        # 'df_calc': Pega o DataFrame normalizado do método anterior.
        df_calc = self._get_normalized_data()

        # Cria index hash para facilitar a exclusão após agrupar
        available_indices = set(df_calc.index)

        # A lista que irá armazenar todos os grupos
        clusters = []

        # Troca o dataframe por uma matriz numpy para agilizar os calculos
        data_matrix = df_calc.values

        # Uma lista que mapeia a posição na matriz NumPy
        index_map = list(df_calc.index)

        # Realiza o agrupamento até o ultimo grupo de tamanho k
        while len(available_indices) >= k:

            #Pega o primeiro indice que achar dentro do available_indices
            pivot_idx_original = next(iter(available_indices))

            #Encontra a posição dentro da matriz
            pivot_pos = index_map.index(pivot_idx_original)

            # Pega as coordenadas de idade e data normalizadas do pivô.
            pivot_coords = data_matrix[pivot_pos]

            #Calula a distância Euclidiana para toda a matriz
            dists = np.sqrt(((data_matrix - pivot_coords) ** 2).sum(axis=1))

            # Uma lista temporária para guardar os vizinhos.
            candidates = []

            # 'for pos, dist in enumerate(dists)': Este loop itera sobre
            # todas as distâncias que acabamos de calcular.
            for pos, dist in enumerate(dists):

                #Converte a posição da matriz de volta para o indice do data frame
                idx_orig = index_map[pos]

                #Faz a verificação se o vizinho já está na lista dos indices disponiveis,
                #Caso estiver adiciona a lista para agrupar
                if idx_orig in available_indices:
                    candidates.append((dist, idx_orig))

            #Ordena a lista de vizinhos atraves da distancia, os mais proximos ficam no topo
            candidates.sort(key=lambda x: x[0])

            # Seleciona os k vizinhos mais próximos
            best_k = candidates[:k]

            #Extrai apenas os índices dos k melhores vizinhos.
            group_indices = [c[1] for c in best_k]

            #Adiciona o grupo a lista de agrupamentos
            clusters.append(group_indices)


            #Exluí os indices que já foram usados
            for idx in group_indices:
                available_indices.remove(idx)

        #O If é execcutado após o while terminar, ele cuida das linhas que sobraram.
        if available_indices:
            #Se o dataset inteiro tiver menos que k linhas cria apenas um agrupamento
            if not clusters:
                clusters.append(list(available_indices))

            else:
                #Pega o ultimo agrupamento e adiciona as sobras a ele
                clusters[-1].extend(list(available_indices))

        print(f"Agrupamento concluído. Total de clusters: {len(clusters)}")

        # Retorna a lista de grupos
        return clusters


    # Método para aplicar a generalização nos grupos.
    def apply_k_anonymity(self, clusters):
        """
        Recebe os 'clusters' (listas de índices) e o DataFrame original.
        Para cada cluster, ele olha os valores de idade e data e os
        generaliza para que sejam IDÊNTICOS para todo o grupo.

        Retorna: 'df_k_anonymized' (um novo DataFrame com os valores
                 de idade/data generalizados).
        """
        print("Aplicando generalização (k-anonimato)...")

        #Uma lista vazia que vai guardar as novas linhas antes de virarem um dataframe
        anonymized_rows = []

        # 'for cluster_indices in clusters': O loop principal.
        # Ele itera sobre cada grupo de índices (ex: [0, 5, 8])
        # que o 'create_clusters_knn' gerou.
        for cluster_indices in clusters:

            # 'subset = self.df_anon.loc[cluster_indices]': Pega o
            # sub-DataFrame (as linhas de dados reais) para os índices
            # deste grupo específico.
            subset = self.df_anon.loc[cluster_indices]

            # --- 1. Generalização de IDADE ---

            # 'ages = subset['idadeCaso']': Pega todas as idades deste grupo.
            ages = subset['idadeCaso']

            # 'if ages.min() == ages.max()': Este 'if' checa se
            # todas as idades no grupo são idênticas.
            if ages.min() == ages.max():
                # 'age_gen': A idade generalizada. Se forem idênticas,
                # apenas converte o número para string (ex: "65").
                age_gen = str(int(ages.min()))

            # 'else': Se as idades forem diferentes (ex: 65, 66, 68).
            else:
                # 'age_gen': Cria um intervalo usando o mínimo e o máximo
                # (ex: "[65-68]").
                age_gen = f"[{int(ages.min())}-{int(ages.max())}]"

            # --- 2. Generalização de DATA ---

            # 'dates = subset['dataNascimento']': Pega todas as datas deste grupo.
            dates = subset['dataNascimento']

            # 'if dates.nunique() == 1': Este 'if' checa se todas as datas
            # são *exatamente* iguais (mesmo dia, mês e ano).
            if dates.nunique() == 1:
                # 'date_gen': Formata a data como "AAAA-MM-DD".
                date_gen = dates.iloc[0].strftime('%Y-%m-%d')

            # 'elif dates.dt.to_period('M').nunique() == 1': Se não, checa
            # se todas as datas caem no *mesmo mês e ano*.
            elif dates.dt.to_period('M').nunique() == 1:
                # 'date_gen': Generaliza, mantendo apenas o mês/ano (ex: "02/1955").
                date_gen = dates.iloc[0].strftime('%m/%Y')

            # 'elif dates.dt.to_period('Y').nunique() == 1': Se não, checa
            # se todas as datas caem no *mesmo ano*.
            elif dates.dt.to_period('Y').nunique() == 1:
                # 'date_gen': Generaliza, mantendo apenas o ano (ex: "1955").
                date_gen = dates.iloc[0].strftime('%Y')

            # 'else': Se até os anos forem diferentes.
            else:
                # 'date_gen': Cria um intervalo de anos (ex: "1955-1957").
                min_y = dates.dt.year.min()
                max_y = dates.dt.year.max()
                date_gen = f"{min_y}-{max_y}"

            # --- 3. Construção das linhas anonimizadas ---

            # 'for idx in cluster_indices': Este loop itera sobre
            # cada índice *original* do grupo.
            for idx in cluster_indices:

                # 'original_row = self.df_anon.loc[idx]': Pega a linha
                # original para recuperar o atributo sensível.
                original_row = self.df_anon.loc[idx]

                # 'anonymized_rows.append(...)': Adiciona um novo dicionário
                # (que será uma linha no novo DataFrame).
                # Note: 'idadeCaso' e 'dataNascimento' são os valores
                # GENERALIZADOS, mas 'racaCor' é o valor ORIGINAL.
                anonymized_rows.append({
                    'idadeCaso': age_gen,           # Valor generalizado
                    'dataNascimento': date_gen,     # Valor generalizado
                    'racaCor': original_row['racaCor'] # Valor original
                })

        # 'df_k_anonymized = pd.DataFrame(anonymized_rows)': Converte a
        # lista de dicionários em um DataFrame completo.
        df_k_anonymized = pd.DataFrame(anonymized_rows)

        print(f"Generalização concluída. Dataset anonimizado gerado com {len(df_k_anonymized)} linhas.")

        # 'return df_k_anonymized': Retorna o DataFrame k-anonimizado.
        return df_k_anonymized


    # Método para aplicar a l-Diversidade.
    def apply_l_diversity(self, df_k_anon: pd.DataFrame, l_val: int):
        """
        Recebe o DataFrame k-anonimizado e o valor 'l'.
        Ele garante que, para cada classe de equivalência (grupo),
        existam pelo menos 'l' valores distintos para 'racaCor'.

        Retorna: 'df_l_div' (o DataFrame final, agora k-anônimo E l-diverso).
        """
        print(f"\nAplicando l-diversidade para l={l_val}...")

        # 'VALID_RACES': A lista de raças permitidas, conforme
        # a especificação do trabalho.
        VALID_RACES = ["Branca", "Preta", "Parda", "Indígena", "Asiática"]

        # 'df_l_div': Cria uma cópia do DataFrame k-anonimizado para
        # podermos modificá-lo sem alterar o original.
        df_l_div = df_k_anon.copy()

        # 'df_l_div['racaCor'] = ...': Este é um passo de limpeza global.
        # Ele substitui 'Amarela' por 'Asiática' em TODO o DataFrame
        # ANTES de começar a processar os grupos.
        df_l_div['racaCor'] = df_l_div['racaCor'].replace('Amarela', 'Asiática')

        # 'groups = df_l_div.groupby(...)': Esta é a parte chave.
        # Ele agrupa o DataFrame pelas colunas generalizadas.
        # 'groups' agora é um objeto que contém todas as "classes de equivalência".
        groups = df_l_div.groupby(['idadeCaso', 'dataNascimento'])

        # 'for name, group_df in groups': Este loop itera sobre cada
        # classe de equivalência. 'name' é a tupla (ex: ("[65-68]", "02/1955"))
        # e 'group_df' é o sub-DataFrame com todas as linhas desse grupo.
        for name, group_df in groups:

            # 'group_indices': Pega os índices das linhas deste grupo.
            group_indices = group_df.index

            # 1. 'current_races': Pega a série de 'racaCor' para este grupo.
            current_races = df_l_div.loc[group_indices, 'racaCor']

            # 2. 'valid_races_in_group': Filtra, mantendo apenas as raças
            # que estão na nossa lista 'VALID_RACES'. "Ignorado" é descartado.
            valid_races_in_group = current_races[current_races.isin(VALID_RACES)]

            # 'distinct_set': Encontra as raças *únicas* válidas
            # (ex: {"Parda", "Branca"}).
            distinct_set = set(valid_races_in_group)

            # 'num_distinct': Conta quantas raças únicas válidas existem (ex: 2).
            num_distinct = len(distinct_set)

            # 3. 'if num_distinct >= l_val': Este é o "caminho feliz".
            # O grupo JÁ satisfaz a l-diversidade (ex: l=2 e num_distinct=2).
            if num_distinct >= l_val:

                # 'invalid_mask = ...': Mesmo que o grupo seja diverso,
                # ele pode conter valores "sujos" (ex: "Ignorado").
                # Esta máscara encontra esses valores.
                invalid_mask = ~current_races.isin(VALID_RACES)

                # 'for idx in group_indices[invalid_mask]': Um loop
                # para limpar esses valores "sujos".
                for idx in group_indices[invalid_mask]:

                    # 'df_l_div.loc[idx, 'racaCor'] = ...': Substitui
                    # o valor "sujo" (ex: "Ignorado") por uma raça aleatória
                    # que JÁ EXISTE no grupo (ex: "Parda" ou "Branca").
                    df_l_div.loc[idx, 'racaCor'] = random.choice(list(distinct_set))

                # 'continue': Pula para a próxima classe de equivalência.
                # O trabalho com este grupo terminou.
                continue

            # 4. 'needed = l_val - num_distinct': Este é o "caminho difícil".
            # O grupo NÃO é diverso. Calculamos quantas raças *novas*
            # precisamos adicionar (ex: l=3, num_distinct=1 -> needed=2).
            needed = l_val - num_distinct

            # 'available_new_races': Lista de raças que podemos inserir.
            # É a lista de 'VALID_RACES' MENOS as raças que já estão no grupo.
            available_new_races = list(set(VALID_RACES) - distinct_set)

            # 'random.shuffle(...)': Embaralha a lista para que a inserção
            # seja aleatória (ex: não inserir "Branca" sempre).
            random.shuffle(available_new_races)

            # 'races_to_add': Pega o número 'needed' de raças da lista
            # embaralhada (ex: ["Branca", "Preta"]).
            races_to_add = available_new_races[:needed]

            # 5. 'is_invalid', 'is_duplicate': Encontra as linhas que
            # são "candidatas" a serem sobrescritas.
            # Prioridade 1: 'is_invalid' (linhas com "Ignorado", etc.)
            # Prioridade 2: 'is_duplicate' (ex: a 2ª, 3ª, 4ª "Parda" do grupo)
            is_invalid = ~current_races.isin(VALID_RACES)
            is_duplicate = current_races.duplicated()

            # 'replaceable_mask': Combina as duas máscaras.
            replaceable_mask = is_invalid | is_duplicate

            # 'replaceable_indices': A lista de índices que podemos sobrescrever.
            replaceable_indices = list(group_indices[replaceable_mask])

            # 'if len(replaceable_indices) < needed': Este 'if' trata
            # um caso difícil: E se 'needed=2', mas só temos 1 linha
            # "substituível"? (ex: grupo [Parda, Branca] com k=4, l=3).
            if len(replaceable_indices) < needed:
                # 'other_indices': Pega os índices que *não* eram
                # substituíveis (ex: a *primeira* "Parda" e a *primeira* "Branca").
                other_indices = list(group_indices[~replaceable_mask])
                random.shuffle(other_indices)
                # Adiciona esses índices "difíceis" à lista de candidatos.
                replaceable_indices.extend(other_indices)

            # 'if not replaceable_indices': Verificação de segurança.
            # Se não houver linhas para substituir (caso muito raro), avisa e pula.
            if not replaceable_indices:
                print(f"Aviso: Grupo {name} não tem linhas substituíveis. Impossível garantir l={l_val}.")
                continue

            # 'if not races_to_add': Verificação de segurança.
            # Se não houver raças novas para adicionar (ex: k=4, l=5), avisa e pula.
            if not races_to_add:
                print(f"Aviso: Grupo {name} (r={distinct_set}) não tem raças novas disponíveis. Máximo de {len(VALID_RACES)} atingido.")
                continue

            # 6. 'for i in range(needed)': O loop de substituição.
            # Ele roda 'needed' vezes (ex: 2 vezes).
            for i in range(needed):

                # 'if i >= len(...)': Verificação de segurança para
                # não dar erro de índice (ex: se l > k).
                if i >= len(races_to_add) or i >= len(replaceable_indices):
                    break

                # 'row_idx_to_change': Pega o índice da linha a ser mudada.
                row_idx_to_change = replaceable_indices[i]
                # 'new_race': Pega a raça nova a ser inserida.
                new_race = races_to_add[i]

                # 'df_l_div.loc[...] = new_race': A substituição!
                # Troca o valor antigo (ex: "Parda") pelo novo (ex: "Branca").
                df_l_div.loc[row_idx_to_change, 'racaCor'] = new_race

            # 7. 'final_races = ...': Esta é a limpeza final.
            # Após as substituições, pode ter sobrado algum "Ignorado".
            final_races = df_l_div.loc[group_indices, 'racaCor']
            final_invalid_mask = ~final_races.isin(VALID_RACES)

            # 'final_valid_set': Pega o *novo* conjunto de raças válidas
            # do grupo (que agora é diverso).
            final_valid_set = list(set(final_races[~final_invalid_mask]))

            # 'if not final_valid_set': Verificação de segurança. Se o
            # grupo só tinha "Ignorado", usa a lista mestre.
            if not final_valid_set: final_valid_set = VALID_RACES # Failsafe

            # 'for idx in group_indices[final_invalid_mask]': Loop final
            # para limpar qualquer "Ignorado" restante.
            for idx in group_indices[final_invalid_mask]:
                # Substitui por uma raça aleatória do *novo* conjunto diverso.
                df_l_div.loc[idx, 'racaCor'] = random.choice(final_valid_set)

        print("Aplicação de l-diversidade concluída.")

        # 'return df_l_div': Retorna o DataFrame final, k-anônimo e l-diverso.
        return df_l_div

    # Método para calcular a métrica de precisão (perda de informação).
    def calculate_precision(self, generalized_df: pd.DataFrame) -> float:
        """
        Calcula a Perda de Informação (ILoss) e retorna a Precisão (1 - ILoss).
        Compara os valores generalizados (ex: "[20-29]") com o domínio
        original (ex: 85 idades únicas) para medir quanta informação foi perdida.

        Retorna: 'precision' (um float, ex: 0.9875). 1.0 é perfeito (sem perda).
        """

        # 'attributes': As colunas que são generalizadas (QIs).
        # 'racaCor' não entra, pois é atributo sensível.
        attributes = ['idadeCaso', 'dataNascimento']

        # 'total_information_loss': Uma variável para acumular a
        # perda de informação normalizada de CADA CÉLULA no DataFrame.
        total_information_loss = 0.0

        # 'num_records': O número total de linhas que estamos processando.
        num_records = len(self.df_anon)

        # 'if num_records == 0': Verificação de segurança para evitar divisão por zero.
        if num_records == 0:
            return 0.0

        # 'num_attributes': O número de colunas que estamos medindo (neste caso, 2).
        num_attributes = len(attributes)

        # 'for attr_name in attributes': Loop externo.
        # Primeiro calcula a perda para 'idadeCaso', depois para 'dataNascimento'.
        for attr_name in attributes:

            # 'hgv_size': O tamanho do "domínio" original.
            # Conta quantos valores ÚNICOS existiam para 'idadeCaso'
            # no DataFrame *antes* da generalização (ex: 85 idades únicas).
            hgv_size = self.df_anon[attr_name].dropna().nunique()

            # 'if hgv_size <= 1': Verificação de segurança. Se só havia 1 valor
            # único, a perda é impossível (é 0). Pula para o próximo atributo.
            if hgv_size <= 1:
                continue

            # 'for value in generalized_df[attr_name]': Loop interno.
            # Itera sobre CADA CÉLULA na coluna *generalizada*
            # (ex: "[20-29]", "[20-29]", "65", "[30-35]", ...).
            for value in generalized_df[attr_name]:

                # 'h = 1.0': A "perda" padrão para uma célula.
                # Se o valor for "65" (não generalizado), h=1.
                h = 1.0

                # 'if pd.notna(value)': Só calcula a perda se o valor
                # não for Nulo (NaN).
                if pd.notna(value):

                    # 'if attr_name == 'idadeCaso'': Lógica de perda para Idade.
                    if attr_name == 'idadeCaso':
                        value_str = str(value)

                        # 'if value_str.startswith('[') ...': Checa se é
                        # um intervalo (ex: "[20-29]").
                        if value_str.startswith('[') and '-' in value_str:
                            try:
                                # Extrai os números do intervalo.
                                parts = value_str.strip('[]').split('-')
                                # 'h = ...': A perda é o tamanho do intervalo.
                                # Ex: 29 - 20 + 1 = 10.
                                h = float(parts[1]) - float(parts[0]) + 1
                            except (ValueError, IndexError):
                                h = 1.0 # F-allback

                    # 'elif attr_name == 'dataNascimento'': Lógica de perda para Data.
                    elif attr_name == 'dataNascimento':
                        value_str = str(value)

                        # 'if len(value_str) == 4 ...': Se for um ano (ex: "1973").
                        if len(value_str) == 4 and value_str.isdigit(): # "1973"
                            year = int(value_str)
                            # 'h = ...': A perda é o número de dias naquele ano.
                            h = 366 if calendar.isleap(year) else 365

                        # 'elif len(value_str) == 9 ...': Se for um intervalo de anos (ex: "1970-1973").
                        elif len(value_str) == 9 and '-' in value_str: # "1970-1973"
                            try:
                                y_min, y_max = map(int, value_str.split('-'))
                                h = 0 # Acumula os dias
                                # 'for y in range(...)': Soma os dias de
                                # *todos* os anos no intervalo.
                                for y in range(y_min, y_max + 1):
                                    h += 366 if calendar.isleap(y) else 365
                            except ValueError:
                                h = hgv_size # Pior caso

                        # 'elif len(value_str) == 7 ...': Se for mês/ano (ex: "02/1955").
                        elif len(value_str) == 7 and '/' in value_str:
                            try:
                                month, year = map(int, value_str.split('/'))
                                # 'h = ...': A perda é o número de dias
                                # naquele mês específico.
                                h = calendar.monthrange(year, month)[1]
                            except ValueError:
                                h = 1.0
                        # Se for "AAAA-MM-DD", a perda é 1.0 (o 'h' padrão).

                # 'total_information_loss += (h / hgv_size)': A fórmula principal.
                # A perda *desta célula* é 'h' (seu tamanho) dividido pelo
                # 'hgv_size' (tamanho total do domínio).
                # Acumula isso ao total.
                total_information_loss += (h / hgv_size)

        # 'if (num_records * num_attributes) == 0': Verificação de segurança
        # para evitar divisão por zero.
        if (num_records * num_attributes) == 0:
            return 0.0

        # 'average_loss = ...': Calcula a perda média por célula.
        # É a perda total dividida pelo número total de células (linhas * colunas).
        average_loss = total_information_loss / (num_records * num_attributes)

        # 'precision = 1 - average_loss': Inverte a perda para obter a precisão.
        precision = 1 - average_loss

        # 'return precision': Retorna o valor final da métrica.
        return precision


    # Método final para gerar os relatórios (métricas e gráficos).
    def generate_metrics_and_plots(self, df_final: pd.DataFrame, k: int, l: int):
        """
        Calcula as métricas finais (Precisão, Tamanho Médio) e gera os
        dois histogramas exigidos pelo trabalho (tamanho das classes k
        e diversidade das classes l). Salva os gráficos como .png.
        """
        print("\n--- Métricas Finais ---")

        # 1. 'precision_score = ...': Chama o método que acabamos de ver
        # para calcular a precisão do DataFrame final.
        precision_score = self.calculate_precision(df_final)
        print(f"Precisão (1 - Perda de Informação): {precision_score:.4f}")

        # 2. 'eq_classes = ...': Re-agrupa o DataFrame final
        # para encontrar as classes de equivalência.
        eq_classes = df_final.groupby(['idadeCaso', 'dataNascimento'])

        # 'num_classes': O número total de grupos distintos.
        num_classes = len(eq_classes)
        print(f"Total de Classes de Equivalência: {num_classes}")

        # 3. 'if num_classes > 0': Verificação de segurança.
        if num_classes > 0:
            # 'avg_size': Tamanho médio de uma classe (Total de linhas / Total de classes).
            avg_size = len(df_final) / num_classes
            print(f"Tamanho Médio das Classes: {avg_size:.2f}")

        # 4. Histograma de Tamanhos (k-anonimato)

        # 'class_sizes = eq_classes.size()': Obtém uma Série (lista)
        # contendo o tamanho de *cada* classe (ex: [4, 4, 6, 8, 4, ...]).
        class_sizes = eq_classes.size()

        # 'plt.figure(...)': Cria uma nova figura (um gráfico) em branco.
        plt.figure(figsize=(10, 6))

        # 'bins = range(...)': Define as "caixas" do histograma.
        # Elas começam em 'k' e vão até o tamanho máximo de classe encontrado.
        bins = range(k, class_sizes.max() + 2)

        # 'plt.hist(...)': Cria o histograma. Ele conta quantas classes
        # caem em cada "caixa" (bin).
        plt.hist(class_sizes, bins=bins, align='left', edgecolor='black')

        # Define os rótulos do gráfico.
        plt.title(f'Histograma: Tamanho das Classes de Equivalência (k={k})')
        plt.xlabel('Tamanho da Classe (>= k)')
        plt.ylabel('Frequência (Nº de Classes)')

        # 'plt.xticks(...)': Ajusta os números no eixo X para
        # não ficarem sobrepostos e ilegíveis.
        plt.xticks(range(k, class_sizes.max() + 1, max(1, (class_sizes.max() - k + 1)//15)))

        # 'plot_filename_k': Define o nome do arquivo de saída.
        plot_filename_k = rf'data\hist_k_anon_k{k}.png'

        # 'plt.savefig(...)': Salva o gráfico como um arquivo .png.
        plt.savefig(plot_filename_k)
        print(f"Gráfico de k-anonimato salvo em: {plot_filename_k}")

        # 'plt.close()': Fecha a figura para liberar memória.
        plt.close()

        # 5. Histograma de Diversidade (l-diversidade)

        # 'class_diversity = ...': Obtém uma Série (lista) contendo
        # a contagem de raças *únicas* de cada classe (ex: [2, 3, 2, 4, 2, ...]).
        class_diversity = eq_classes['racaCor'].nunique()

        # 'plt.figure(...)': Cria o segundo gráfico em branco.
        plt.figure(figsize=(10, 6))

        # 'diversity_counts = ...': Conta as contagens.
        # Ex: "100 classes têm 2 raças, 50 classes têm 3 raças...".
        diversity_counts = class_diversity.value_counts().sort_index()

        # 'plt.bar(...)': Cria um gráfico de *barras* (não histograma)
        # para mostrar essas contagens.
        plt.bar(diversity_counts.index, diversity_counts.values, edgecolor='black', width=0.8)

        # Define os rótulos do gráfico.
        plt.title(f'Histograma: Diversidade de Raça (k={k}, l={l})')
        plt.xlabel('Nº de Raças Distintas por Classe')
        plt.ylabel('Frequência (Nº de Classes)')

        # 'plt.xticks(...)': Ajusta os números no eixo X.
        plt.xticks(range(min(l, diversity_counts.index.min()), diversity_counts.index.max() + 2))

        # 'plot_filename_l': Define o nome do arquivo de saída.
        plot_filename_l = rf'data\hist_l_div_k{k}_l{l}.png'

        # 'plt.savefig(...)': Salva o segundo gráfico.
        plt.savefig(plot_filename_l)
        print(f"Gráfico de l-diversidade salvo em: {plot_filename_l}")

        # 'plt.close()': Fecha a segunda figura.
        plt.close()

In [39]:
def create_readme():
  #Inicializar o content como vazio
  content = ""
  try:
      with open("Readme.txt", "w", encoding="utf-8") as f:
          f.write(content)
      print("\nReadme.txt criado com sucesso.")
  except Exception as e:
      print(f"Erro ao criar Readme.txt: {e}")

def main():
    print("##### Início do Processo de Anonimização #####")

    # Parâmetros do Trabalho
    #k_values = [2, 4, 8, 16]
    #l_values = [2, 3, 4]
    k_values = [4]
    l_values = [3]
    #diminuir o tamanho do dataset
    SAMPLE_SIZE = 0.01

    try:
        df_raw = pd.read_csv('dados_covid-ce_trab02.csv', encoding='latin-1', low_memory=False)
    except FileNotFoundError:
        print("Erro: Arquivo 'dados_covid-ce_trab02.csv' não encontrado.")
        return
    except Exception as e:
        print(f"Erro ao ler CSV: {e}")
        return

    # Garante que a pasta /data exista (onde os CSVs e PNGs serão salvos)
    os.makedirs('data', exist_ok=True)

    # 1. Instancia e Prepara os dados UMA VEZ
    anon = Anonymizer(df_raw)
    print(f"Processando com {SAMPLE_SIZE*100}% dos dados...")
    anon.preprocess_data(sample_frac=SAMPLE_SIZE)

    if anon.df_anon is None or anon.df_anon.empty:
        print("Pré-processamento falhou ou resultou em dados vazios.")
        return

    # Guarda os clusters de cada K para não recalcular
    # Nota: A geração do histograma K foi movida para dentro do loop de L
    # para garantir que ele seja gerado para cada k/l

    # 2. Loop principal
    for k in k_values:
        print(f"\n#################################################")
        print(f"### Processando para K = {k}")
        print(f"#################################################")

        # 2.1. k-Anonimato
        # Gera os clusters e o dataframe k-anonimizado
        clusters = anon.create_clusters_knn(k)
        df_k_anon = anon.apply_k_anonymity(clusters)

        # 2.2. Loop de l-Diversidade
        for l in l_values:
            # Regra: l deve ser <= k
            if l > k:
                print(f"\n--- Pulando (k={k}, l={l}) pois l > k.")
                continue

            print(f"\n--- Aplicando L = {l} (para K = {k}) ---")

            # Aplica l-diversidade (partindo do df_k_anon limpo)
            df_final = anon.apply_l_diversity(df_k_anon.copy(), l)

            # Salva o arquivo CSV
            output_filename = rf'data\dados covid {k} {l}.csv'
            try:
                df_final.to_csv(output_filename, index=False, encoding='utf-8')
                print(f"\nArquivo salvo com sucesso em: {output_filename}")
            except Exception as e:
                print(f"Erro ao salvar CSV '{output_filename}': {e}")

            # Gera Métricas e Plots
            anon.generate_metrics_and_plots(df_final, k, l)

    # 3. Gerar Readme
    create_readme()

    print("\n##### Processo de Anonimização Concluído #####")


if __name__ == "__main__":
    main()

##### Início do Processo de Anonimização #####
Processando com 1.0% dos dados...
Reduzindo dataset de 855709 para 1.0%...
Pré-processamento concluído. Registros finais para uso: 8557

#################################################
### Processando para K = 4
#################################################
Iniciando agrupamento k-NN para k=4...
Agrupamento concluído. Total de clusters: 2139
Aplicando generalização (k-anonimato)...
Generalização concluída. Dataset anonimizado gerado com 8557 linhas.

--- Aplicando L = 3 (para K = 4) ---

Aplicando l-diversidade para l=3...
Aplicação de l-diversidade concluída.

Arquivo salvo com sucesso em: data\dados covid 4 3.csv

--- Métricas Finais ---
Precisão (1 - Perda de Informação): 0.9776
Total de Classes de Equivalência: 961
Tamanho Médio das Classes: 8.90
Gráfico de k-anonimato salvo em: data\hist_k_anon_k4.png
Gráfico de l-diversidade salvo em: data\hist_l_div_k4_l3.png

Readme.txt criado com sucesso.

##### Processo de Anonimização Conc