<a href="https://colab.research.google.com/github/Feranie/Hierarchical-Classification-Project/blob/main/hierarchical_global_model_naives_bayes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# Importa√ß√£o das bibliotecas necess√°rias
import numpy as np  # Biblioteca para opera√ß√µes num√©ricas e arrays
import os  # Biblioteca para opera√ß√µes do sistema operacional
from sklearn.datasets import load_iris  # Importa dataset iris do sklearn (n√£o usado no c√≥digo)
from collections import defaultdict  # Importa defaultdict para criar dicion√°rios com valores padr√£o

class ArffReader:
    """Classe para ler arquivos no formato ARFF (Attribute-Relation File Format)"""

    def __init__(self):
        """Construtor da classe - inicializa listas vazias para atributos e dados"""
        self.attributes = []  # Lista para armazenar os nomes dos atributos
        self.data = []  # Lista para armazenar os dados/inst√¢ncias

    def read_arff(self, input_file):
        """M√©todo para ler um arquivo ARFF e extrair atributos e dados"""
        reading_data = False  # Flag para indicar se estamos lendo a se√ß√£o de dados
        try:
            # Abre o arquivo em modo leitura com codifica√ß√£o UTF-8
            with open(input_file, 'r', encoding='utf-8') as file:
                # Itera sobre cada linha do arquivo
                for line in file:
                    line = line.strip()  # Remove espa√ßos em branco no in√≠cio e fim da linha
                    # Pula linhas vazias ou coment√°rios (que come√ßam com %)
                    if not line or line.startswith('%'):
                        continue
                    # Se a linha cont√©m '@attribute', extrai o nome do atributo
                    if '@attribute' in line.lower():
                        attr_name = line.split()[1]  # Pega o segundo elemento (nome do atributo)
                        self.attributes.append(attr_name)  # Adiciona √† lista de atributos
                        continue
                    # Se encontrou '@data', marca que come√ßamos a ler os dados
                    if '@data' in line.lower():
                        reading_data = True
                        continue
                    # Se estamos na se√ß√£o de dados, processa a linha
                    if reading_data:
                        self.data.append(line.split(','))  # Divide a linha por v√≠rgulas e adiciona aos dados
            # Imprime informa√ß√µes sobre o arquivo lido
            print(f"Total d'attributs : {len(self.attributes)}")
            print(f"Total d'instances : {len(self.data)}")
        except Exception as e:
            # Se houver erro, imprime a mensagem e relan√ßa a exce√ß√£o
            print(f"Erreur lors de la lecture du fichier : {str(e)}")
            raise


def build_ancestors(labels):
    """Fun√ß√£o para construir um dicion√°rio de ancestrais para cada label na hierarquia"""
    ancestors = defaultdict(list)  # Cria dicion√°rio com lista vazia como valor padr√£o
    # Para cada par de labels, verifica se um √© ancestral do outro
    for label1 in labels:
        for label2 in labels:
            # Se label2 est√° contido em label1, ent√£o label2 √© ancestral de label1
            if label2 in label1:
                ancestors[label1].append(label2)  # Adiciona label2 como ancestral de label1
    return dict(ancestors)  # Converte defaultdict para dict normal

class HierarchicalGlobalNaivesBayes:
    """Classe que implementa o algoritmo Naive Bayes Hier√°rquico Global"""

    def __init__(self, hierarchy, alpha=1):
        """Construtor da classe"""
        # Constr√≥i a hierarquia completa a partir da hierarquia fornecida
        self.labels = self.build_complet_hierarchy(hierarchy)
        self.alpha = alpha  # Par√¢metro de suaviza√ß√£o de Laplace
        self.descendants = {}  # Dicion√°rio para armazenar descendentes de cada classe
        self.ancestors = {}  # Dicion√°rio para armazenar ancestrais de cada classe


    def build_complet_hierarchy(self, hierarchy):
        """M√©todo para construir a hierarquia completa incluindo todos os n√≠veis"""
        complet_hierarchy = []  # Lista para armazenar a hierarquia completa
        # Para cada classe na hierarquia original
        for classe in hierarchy:
            # Para cada n√≠vel da classe (separado por pontos)
            for _ in range(len(classe.split('.'))):
                # Se a classe ainda n√£o est√° na hierarquia completa, adiciona
                if classe not in complet_hierarchy:
                    complet_hierarchy.append(classe)
                    # Remove o √∫ltimo n√≠vel da classe (vai subindo na hierarquia)
                    classe = classe.split('.')[:-1]
                    # Se sobrou apenas um elemento (raiz), para o loop
                    if len(classe) == 1: # Sobrou so o R
                        break
                    # Reconstr√≥i a string da classe
                    classe = '.'.join(classe)
        return complet_hierarchy


    def build_descendants(self, labels):
        """M√©todo para construir um dicion√°rio de descendentes para cada label"""
        descendants = defaultdict(list)  # Cria dicion√°rio com lista vazia como valor padr√£o
        # Para cada par de labels, verifica rela√ß√£o de descend√™ncia
        for label1 in labels:
            for label2 in labels:
                # Se label2 est√° contido em label1, ent√£o label1 √© descendente de label2
                if label2 in label1:
                    descendants[label2].append(label1)  # Adiciona label1 como descendente de label2
        return dict(descendants)  # Converte para dict normal

    def fit(self, X, y):
        """M√©todo para treinar o modelo com os dados de treino"""
        n_samples, n_features = X.shape  # Obt√©m n√∫mero de amostras e caracter√≠sticas
        # Constr√≥i dicion√°rios de descendentes e ancestrais
        self.descendants = self.build_descendants(self.labels)
        self.ancestors = build_ancestors(self.labels)

        # Lista com um dicion√°rio para cada feature para armazenar probabilidades
        self.feature_probs = [{} for _ in range(n_features)]
        # Dicion√°rio para armazenar probabilidades a priori de cada classe
        self.prior_prob = {classe: 0 for classe in self.labels}

        # N√∫mero de valores √∫nicos por atributo, usado na suaviza√ß√£o de Laplace
        self.n_values_per_att = {}
        for feature_idx in range(n_features):
            self.n_values_per_att[feature_idx] = len(np.unique(X[:, feature_idx]))

        # N√∫mero de ocorr√™ncias de cada classe, usado na suaviza√ß√£o de Laplace
        self.n_class_occurances = {}
        classe, counts = np.unique(y, return_counts=True)  # Conta ocorr√™ncias de cada classe
        for c, count in zip(classe, counts):
            self.n_class_occurances[c] = count  # Armazena contagem para cada classe

        # Para cada classe nos labels
        for idx, c in enumerate(self.labels):
            # Seleciona as inst√¢ncias que pertencem √† classe atual
            X_c = X[y == c]
            n_instancias_classe_c = X_c.shape[0]  # N√∫mero de inst√¢ncias da classe c

            # Para cada feature, calcula as probabilidades condicionais
            for feature_idx in range(n_features):
                # Obt√©m valores √∫nicos e suas contagens para esta feature
                feature_vals, counts = np.unique(X_c[:, feature_idx], return_counts=True)
                n_valores_unicos_feat = len(np.unique(X_c[:, feature_idx]))

                # Calcula probabilidade P(feature_val|classe) usando suaviza√ß√£o de Laplace
                # Armazena em um dicion√°rio pares (valor do atributo, probabilidade)
                feature_prob = {val: (count + self.alpha) / (n_instancias_classe_c + self.alpha * n_valores_unicos_feat) for val, count in zip(feature_vals, counts)}

                # Armazena as probabilidades desta feature para esta classe
                self.feature_probs[feature_idx][c] = feature_prob

            # Soma a contagem da classe atual em todos os seus ancestrais
            for classe in self.ancestors[c]:
                self.prior_prob[classe] += n_instancias_classe_c + self.alpha

        # Normaliza as probabilidades a priori usando a f√≥rmula de Laplace
        for classe in self.prior_prob:
            self.prior_prob[classe] /= (n_samples + (self.alpha * len(self.labels)))

    def calculate_usefullness(self):
        """M√©todo para calcular a utilidade de cada classe baseada no tamanho da √°rvore"""
        # Encontra o tamanho m√°ximo da √°rvore (maior n√∫mero de descendentes)
        max_tree_size = max([len(value) for key, value in self.descendants.items()])
        usefullness = []  # Lista para armazenar utilidades
        # Para cada classe, calcula sua utilidade
        for c in self.labels:
            tree_size_i = len(self.descendants[c])  # Tamanho da √°rvore para esta classe
            # F√≥rmula da utilidade: 1 - (log2(tamanho_arvore) / tamanho_max_arvore)
            usefullness_i = 1 - (np.log2(tree_size_i) / max_tree_size)
            usefullness.append(usefullness_i)  # Adiciona √† lista
        return usefullness

    def predict(self, X_test, usefullness=False):
        """M√©todo para fazer predi√ß√µes em dados de teste"""
        # Se deve usar fator de utilidade, calcula as utilidades
        if usefullness:
            usefullness_list = self.calculate_usefullness()
        X_test = X_test.astype(np.float64)  # Converte dados de teste para float64
        predictions = []  # Lista para armazenar predi√ß√µes

        # Para cada inst√¢ncia que se deseja predizer
        for x in X_test:
            posteriors = []  # Lista para armazenar probabilidades posteriores
            # Para cada classe poss√≠vel
            for idx, c in enumerate(self.labels):
                # Calcula log(P(c)) + log(P(x1|c)) + log(P(x2|c)) + ... + log(P(xn|c))
                # Obt√©m a probabilidade a priori da classe (em log)
                prior = np.log(self.prior_prob[c])

                likelihood = 0  # Inicializa likelihood
                # Para cada feature da inst√¢ncia
                for feature_idx, feature_val in enumerate(x):
                    feature_val = int(feature_val)  # Converte para inteiro
                    # Verifica se este valor da feature existe para esta classe
                    if feature_val in self.feature_probs[feature_idx][c]:
                        # Soma o log da probabilidade P(feature_val|classe)
                        likelihood += np.log(self.feature_probs[feature_idx][c][feature_val])
                    else:
                        # Se n√£o existe, usa suaviza√ß√£o de Laplace para estimar
                        nvals = float(self.n_values_per_att[feature_idx])
                        likelihood += np.log(self.alpha / (self.n_class_occurances.get(c, 0) + nvals*self.alpha))

                # Calcula probabilidade posterior: prior + likelihood
                posterior = prior + likelihood
                # Se deve usar utilidade, adiciona o log da utilidade
                if usefullness:
                    posterior += np.log(usefullness_list[idx])
                posteriors.append(posterior)  # Adiciona √† lista de posteriores

            # Escolhe a classe com maior probabilidade posterior
            # np.argmax retorna o √≠ndice que maximiza o array "posteriors"
            predictions.append(self.labels[np.argmax(posteriors)])

        return np.array(predictions)  # Retorna array numpy com as predi√ß√µes

def metrics_hierarquica(predictions, y_true, labels):
    """Fun√ß√£o para calcular m√©tricas hier√°rquicas (precis√£o, recall e F1)"""
    ancestors = build_ancestors(labels)  # Constr√≥i dicion√°rio de ancestrais
    numerador = 0  # Numerador para precis√£o e recall
    denominador_precision = 0  # Denominador para precis√£o
    denominador_recall = 0  # Denominador para recall

    # Para cada par (predi√ß√£o, valor verdadeiro)
    for classe_predita, classe_verdadeira in zip(predictions, y_true):
        # Obt√©m ancestrais da classe predita e verdadeira
        ancestrais_classe_predita = ancestors.get(classe_predita, [])
        ancestrais_classe_verdadeira = ancestors.get(classe_verdadeira, [])
        classes_comum = 0  # Conta classes em comum

        # Conta quantas classes ancestrais s√£o comuns
        for c1 in ancestrais_classe_predita:
            for c2 in ancestrais_classe_verdadeira:
                if c1 == c2:
                    classes_comum += 1

        # Acumula valores para c√°lculo das m√©tricas
        numerador += classes_comum
        denominador_precision += len(ancestrais_classe_predita)
        denominador_recall += len(ancestrais_classe_verdadeira)

    # Calcula precis√£o hier√°rquica
    hierarchical_precision = numerador / denominador_precision if denominador_precision != 0 else 0
    # Calcula recall hier√°rquico
    hierarchical_recall = numerador / denominador_recall if denominador_recall != 0 else 0

    # Calcula F1-score hier√°rquico
    if hierarchical_precision + hierarchical_recall == 0:
        f_measure = 0
    else:
        f_measure = (2 * hierarchical_precision * hierarchical_recall) / (hierarchical_precision + hierarchical_recall)

    return hierarchical_precision, hierarchical_recall, f_measure


def main(train_file_path, test_file_path, alpha):
    """Fun√ß√£o principal que executa todo o pipeline de treinamento e teste"""
    print("üìñ Lecture du fichier d'entra√Ænement...")
    # Cria leitor para arquivo de treino
    train_reader = ArffReader()
    train_reader.read_arff(train_file_path)  # L√™ arquivo de treino

    # Converte dados de treino para array numpy
    # Remove √∫ltima coluna (r√≥tulo) e converte para float, substituindo '?' por 0.0
    X_train = np.array([
        list(map(lambda x: float(x) if x and x != '?' else 0.0, row[:-1]))
        for row in train_reader.data
    ])
    # Extrai r√≥tulos (√∫ltima coluna) como array numpy
    y_train = np.array([row[-1] for row in train_reader.data])

    print("üìñ Lecture du fichier de test...")
    # Cria leitor para arquivo de teste
    test_reader = ArffReader()
    test_reader.read_arff(test_file_path)  # L√™ arquivo de teste

    # Converte dados de teste para array numpy (mesmo processo que treino)
    X_test = np.array([
        list(map(lambda x: float(x) if x and x != '?' else 0.0, row[:-1]))
        for row in test_reader.data
    ])
    # Extrai r√≥tulos de teste
    y_test = np.array([row[-1] for row in test_reader.data])

    # Imprime informa√ß√µes sobre os dados
    print(f"\n=== Test avec alpha = {alpha} ===")
    print(f"üìä Donn√©es d'entra√Ænement: {len(X_train)} instances")
    print(f"üìä Donn√©es de test: {len(X_test)} instances")

    # Obt√©m hierarquia √∫nica dos r√≥tulos de treino
    hierarchy = np.unique(y_train)
    print(f"Hi√©rarchie d√©tect√©e: {len(hierarchy)} classes")

    # Cria e treina o modelo
    model = HierarchicalGlobalNaivesBayes(hierarchy, alpha=alpha)
    print("Entra√Ænement du mod√®le...")
    model.fit(X_train, y_train)  # Treina o modelo

    # Faz predi√ß√µes sem fator de utilidade
    print("\nüîç R√©sultats sans facteur d'utilit√©:")
    y_pred = model.predict(X_test, usefullness=False)

    # Calcula m√©tricas hier√°rquicas
    hierarchical_precision, hierarchical_recall, f1 = metrics_hierarquica(y_pred, y_test, model.labels)

    # Imprime resultados
    #print(f"hierarchical_precision (hp): {hierarchical_precision * 100:.2f}%")
    #print(f"hierarchical_recall (hR): {hierarchical_recall * 100:.2f}%")
    print(f"F1-score hi√©rarchique (hF): {f1 * 100:.2f}%")


# Bloco principal - executa apenas se o script for executado diretamente
if __name__ == "__main__":
    # Define caminhos dos arquivos de treino e teste
    train_file_path = "/content/GPCR-PfamTRA0.arff"
    test_file_path = "/content/GPCR-PfamTES0.arff"
    # Testa com alpha = 1.0
    for alpha in [1.0,0.01,0.1]:
        main(train_file_path, test_file_path, alpha)

üìñ Lecture du fichier d'entra√Ænement...
Erreur lors de la lecture du fichier : [Errno 2] No such file or directory: '/content/GPCR-PfamTRA0.arff'


FileNotFoundError: [Errno 2] No such file or directory: '/content/GPCR-PfamTRA0.arff'