In [None]:
############################################################################################################################
### Projeto da Disciplina de PO-233                                                                                        #
### T√≠tulo: Identifica√ß√£o de dados biom√©tricos utilizando redes Wireless e aprendizado de m√°quina                          #
### Alunos:                                                                                                                #
###         √Ågney Lopes Roth Ferraz                                                                                        #
###	        Alexandre Bellargus Silva da Costa                                                                             #
###	        Carlos Renato de Andrade Figueiredo                                                                            #
###	        Gioliano de Oliveira Braga                                                                                     #
###	        Paulo Ricardo Sousa Fonteles de Castro                                                                         #
###	        Wagner Comin Sonaglio                                                                                          #
############################################################################################################################

## -------------------- 01. Importa√ß√£o de Bibliotecas -------------------- 

Nesta c√©lula s√£o importadas todas as bibliotecas necess√°rias para o projeto. As bibliotecas est√£o organizadas por funcionalidade:

- **Manipula√ß√£o de dados**: `numpy` e `pandas` para tratamento num√©rico e tabular.
- **Visualiza√ß√£o**: `matplotlib` e `seaborn` para cria√ß√£o de gr√°ficos e an√°lises visuais.
- **Machine Learning**: modelos (como √°rvore de decis√£o), avalia√ß√£o (acur√°cia, F1, ROC), e redu√ß√£o de dimensionalidade com `PCA`.
- **Valida√ß√£o e experimentos**: `cross_val_score` e `clone` para valida√ß√£o cruzada e replica√ß√£o de modelos.
- **Visualiza√ß√£o de √°rvores**: `graphviz` para exportar e renderizar a estrutura da √°rvore de decis√£o.
- **Utilit√°rios**: `pathlib`, `timeit` e `importlib` para controle de caminhos, tempo de execu√ß√£o e recarregamento de m√≥dulos.

Essas importa√ß√µes preparam o ambiente para todas as etapas do aprendizado de m√°quina: pr√©-processamento, treino, avalia√ß√£o e visualiza√ß√£o.


In [None]:
# -----------------------------
# üì¶ Bibliotecas b√°sicas
# -----------------------------
import os  # manipula√ß√£o de arquivos e diret√≥rios
import numpy as np  # opera√ß√µes vetoriais e matriciais
import pandas as pd  # manipula√ß√£o de tabelas (DataFrames)

# -----------------------------
# üß™ Visualiza√ß√£o de dados
# -----------------------------
import seaborn as sns  # gr√°ficos estat√≠sticos
import matplotlib.pyplot as plt  # gr√°ficos gerais
from graphviz import Source  # renderiza√ß√£o de √°rvores .dot
import importlib
importlib.reload(plt)  # for√ßa recarregamento do matplotlib

# -----------------------------
# ‚öôÔ∏è Manipula√ß√£o de caminhos
# -----------------------------
from pathlib import Path  # caminhos multiplataforma (Windows/Linux)

# -----------------------------
# ‚ö†Ô∏è Tratamento de avisos
# -----------------------------
import warnings  # controle de warnings no console
from sklearn.exceptions import ConvergenceWarning  # suprimir avisos do MLPClassifier

# -----------------------------
# üìÅ Configura√ß√µes do projeto
# -----------------------------
from config import (    
    results_dir,     # diret√≥rio de sa√≠da dos resultados
    algorithms,      # dicion√°rio de classificadores
    cv               # estrat√©gia de valida√ß√£o cruzada
)

# -----------------------------
# ‚è±Ô∏è Medi√ß√£o de tempo
# -----------------------------
from timeit import default_timer as timer  # cron√¥metro

# -----------------------------
# ü§ñ Classificadores e Modelos
# -----------------------------
from sklearn.tree import DecisionTreeClassifier, export_graphviz  # √°rvore de decis√£o
from sklearn.neighbors import KNeighborsClassifier  # kNN
from sklearn.svm import SVC  # m√°quinas de vetor de suporte
from sklearn.naive_bayes import GaussianNB  # Naive Bayes
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier  # ensembles
from sklearn.neural_network import MLPClassifier  # rede neural
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis  # QDA
from sklearn.base import clone  # duplica√ß√£o de modelos

# -----------------------------
# üîÄ Pr√©-processamento e valida√ß√£o
# -----------------------------
from sklearn.preprocessing import StandardScaler  # normaliza√ß√£o
from sklearn.model_selection import (
    train_test_split,  # divis√£o treino/teste
    cross_val_score    # valida√ß√£o cruzada
)

# -----------------------------
# üìà Avalia√ß√£o de desempenho
# -----------------------------
from sklearn.metrics import (
    accuracy_score, precision_score, recall_score, f1_score,  # m√©tricas principais
    confusion_matrix, classification_report,  # matriz e relat√≥rio de classifica√ß√£o
    roc_curve, auc  # curva e √°rea sob a curva ROC
)

# -----------------------------
# üìâ Redu√ß√£o de dimensionalidade
# -----------------------------
from sklearn.decomposition import PCA  # an√°lise de componentes principais

# -----------------------------
# üß™ Gera√ß√£o de dados sint√©ticos
# -----------------------------
from sklearn.datasets import make_moons, make_circles, make_classification  # datasets de brinquedo

# -----------------------------
# üîç Visualiza√ß√£o de fronteiras
# -----------------------------
from sklearn.inspection import DecisionBoundaryDisplay  # visualiza√ß√£o de fronteiras de decis√£o

## -------------------- 02. Carregamento do Dataset -------------------- 

Esta etapa realiza o carregamento do conjunto de dados a partir de um arquivo `.csv`. Essa √© a primeira etapa pr√°tica do pipeline de machine learning, preparando os dados para o pr√©-processamento e an√°lise.

In [None]:
# Define o diret√≥rio onde est√° o arquivo .csv
db_dir = './db'

# Define o nome do arquivo .csv com os dados (pode ser alterado)
db_file = 'db.csv' 

# L√™ o arquivo CSV e armazena em um DataFrame
df = pd.read_csv(f"{db_dir}/{db_file}")

# Exibe as primeiras linhas do DataFrame
df.head()

## -------------------- 03. Convers√£o de G√™nero para Valores Num√©ricos --------------------

Essa fun√ß√£o executa o pr√©-processamento da vari√°vel alvo `gender`, convertendo os valores categ√≥ricos ('f' e 'm') para valores num√©ricos (0 e 1), que s√£o aceitos pelos algoritmos de aprendizado de m√°quina.

In [None]:
# Converte coluna 'gender' de 'f'/'m' para 0/1
def convert_gender_to_numeric(df):
    df['gender'] = df['gender'].replace({'f': 0, 'm': 1})  # troca 'f' por 0 e 'm' por 1
    return df  # retorna o DataFrame com a coluna modificada

## -------------------- 04. Visualiza√ß√£o da Dispers√£o entre Portadoras (Pairplot) -------------------- 

Esta etapa realiza uma an√°lise visual dos dados usando pairplot para verificar a separabilidade entre os g√™neros com base nas portadoras. Essa visualiza√ß√£o auxilia na etapa de explora√ß√£o de dados (EDA), ajudando a entender como as vari√°veis se distribuem e se h√° padr√µes visuais √∫teis para o modelo.

In [None]:
# Importa bibliotecas para visualiza√ß√£o e manipula√ß√£o de arquivos
import seaborn as sns
import matplotlib.pyplot as plt
from pathlib import Path

# Cria o diret√≥rio 'results' se ainda n√£o existir
Path("results").mkdir(exist_ok=True)

# Define as colunas das portadoras
portadoras = ['rpi1_sc-118', 'rpi1_sc-111', 'rpi1_sc2', 'rpi1_sc32',
              'rpi1_sc67', 'rpi1_sc106', 'rpi1_sc120', 'rpi1_sc121']

# Cria uma c√≥pia do DataFrame com apenas as portadoras e o g√™nero
df_plot = df[portadoras + ['gender']].copy()

# Converte os valores 0 e 1 para 'Men' e 'Women' (para legenda)
df_plot['gender'] = df_plot['gender'].map({0: 'Women', 1: 'Men'})

# Cria o gr√°fico de dispers√£o m√∫ltipla (pairplot)
plot = sns.pairplot(df_plot, hue='gender', palette='Set1', corner=True)

# Define o t√≠tulo da figura
plt.suptitle("Carrier Dispersion by Gender", y=1.02)

# Salva o gr√°fico como imagem
plot.savefig("results/pair_plot.png", dpi=300)
plt.close()

# Mensagem de confirma√ß√£o
print("Pairplot saved in: results/pair_plot.png")

## -------------------- 05. Avalia√ß√£o com Valida√ß√£o Cruzada para Todos os Algoritmos -------------------- 

Esta fun√ß√£o realiza a avalia√ß√£o de todos os algoritmos definidos na configura√ß√£o utilizando valida√ß√£o cruzada estratificada. Essa etapa pertence √† fase de avalia√ß√£o de modelos no pipeline de aprendizado de m√°quina e permite comparar o desempenho dos classificadores de forma consistente.

In [None]:
# Roda cross_val_score para todos os algoritmos
def generate_cross_val_score_all_alg(df, ycla):
    print("Starting Assessment.")  # mensagem de in√≠cio

    result = {}  # dicion√°rio para armazenar os resultados

    # percorre todos os algoritmos definidos no dicion√°rio algorithms
    for alg, clf in algorithms.items():
        print(f"Processing {alg}...")  # exibe o nome do algoritmo atual

        try:
            # executa a valida√ß√£o cruzada e armazena os resultados
            result[alg] = cross_val_score(clf, df, ycla, cv=cv)
        except Exception as error:
            # trata e exibe erros que ocorrerem durante a valida√ß√£o
            print(f'Erro in cross validation. \nErro: {error}')

        print("Done.")  # indica que finalizou o algoritmo atual

    print("Assessment Completed")  # mensagem final

    # retorna os resultados como DataFrame
    return pd.DataFrame.from_dict(result)

## -------------------- 06. Gera√ß√£o e Armazenamento dos Resultados com Valida√ß√£o Cruzada -------------------- 

Esta fun√ß√£o realiza o pr√©-processamento do dataset, executa a avalia√ß√£o dos algoritmos com valida√ß√£o cruzada e salva os resultados estat√≠sticos (m√©dia ¬± desvio padr√£o) e o gr√°fico boxplot no diret√≥rio especificado. Ela faz parte da fase de avalia√ß√£o e documenta√ß√£o dos resultados do pipeline de aprendizado de m√°quina.

In [None]:
# Gera boxplot e salva resultados do cross_val_score
def generate_results(name, df, results_dir=results_dir):
    print(f"Generating Results for the Base {name}.\n")  # in√≠cio da avalia√ß√£o

    df = convert_gender_to_numeric(df)  # converte 'gender' para valores num√©ricos
    ycla = df.gender  # separa vari√°vel alvo
    df = df.drop("gender", axis=1)  # remove a coluna 'gender' dos atributos

    start = timer()  # inicia a contagem de tempo
    result = generate_cross_val_score_all_alg(df, ycla)  # roda a avalia√ß√£o
    time = timer() - start  # calcula tempo de execu√ß√£o

    db_result_dir = results_dir / name  # define o diret√≥rio de sa√≠da
    db_result_dir.mkdir(parents=True, exist_ok=True)  # cria o diret√≥rio se n√£o existir

    txt_dir = db_result_dir / f"{name}.txt"  # define o caminho do arquivo de texto
    with open(txt_dir, 'w') as file:
        # escreve m√©dia ¬± desvio padr√£o por algoritmo
        file.write(result.apply(lambda x: "{:.2f} ¬± {:.2f}".format(x.mean(), x.std())).to_string())
        file.write(f"\nExecution time: {time:.2f} seconds")  # escreve o tempo total

    # cria o gr√°fico boxplot com os resultados
    plt.boxplot([scores for scores in result.values()])
    plt.xticks(1 + np.arange(result.shape[1]), result.columns)
    plot_file = db_result_dir / f"{name}_boxplot.png"  # define o nome do arquivo da imagem
    plt.savefig(plot_file, dpi=300)  # salva a imagem
    plt.close()  # fecha a figura

    print(f"Saved Information - Fit Time: {time:.2f}.\n")  # fim da execu√ß√£o

## -------------------- 07. Fun√ß√µes Auxiliares de Avalia√ß√£o e Visualiza√ß√£o --------------------

Este bloco define tr√™s fun√ß√µes auxiliares utilizadas durante a avalia√ß√£o dos modelos: o c√°lculo das m√©tricas (acur√°cia, precis√£o, recall e F1-score), a gera√ß√£o de gr√°ficos boxplot dos resultados de valida√ß√£o cruzada e a visualiza√ß√£o da matriz de confus√£o para cada experimento. Essas fun√ß√µes fazem parte da etapa de avalia√ß√£o quantitativa e visual no pipeline de aprendizado de m√°quina.

In [None]:
# Calcula m√©tricas de avalia√ß√£o
def generate_scores(y_test, y_pred):
    return [
        accuracy_score(y_test, y_pred),  # calcula acur√°cia
        precision_score(y_test, y_pred, zero_division=0),  # calcula precis√£o
        recall_score(y_test, y_pred, zero_division=0),  # calcula recall
        f1_score(y_test, y_pred, zero_division=0)  # calcula f1-score
    ]

# Plota boxplot com os resultados de acur√°cia
def plot_boxplot(result: dict, alg_name, boxplot_file, y_label_text="Score"):
    df_result = pd.DataFrame.from_dict(result)  # transforma o dicion√°rio em DataFrame

    # Garante que o r√≥tulo do eixo Y seja uma string
    if not isinstance(y_label_text, str):
        print(f"Warning: y_label_text era {type(y_label_text)}. Convertendo.")
        y_label_text = str(y_label_text)

    plt.style.use('default')  # aplica o estilo padr√£o do matplotlib
    plt.figure(figsize=(8, 5))  # define o tamanho da figura
    plt.boxplot([scores for scores in df_result.values.T])  # plota os boxplots
    plt.title("Leave-One-Experiment-Out Boxplot")  # t√≠tulo do gr√°fico
    plt.ylabel(y_label_text)  # r√≥tulo do eixo Y
    plt.xticks(1 + np.arange(df_result.shape[1]), df_result.columns)  # define os r√≥tulos no eixo X
    plt.savefig(boxplot_file, dpi=300)  # salva a imagem no caminho especificado
    plt.close()  # fecha o gr√°fico
    print(f"Boxplot salvo em: {boxplot_file}")  # mensagem de confirma√ß√£o

# Plota a matriz de confus√£o para um experimento
def plot_heatmap(Y_test, Y_pred, alg_name, db_result_dir, index):
    cm = confusion_matrix(Y_test, Y_pred, labels=[0, 1])  # gera matriz de confus√£o 2x2

    plt.figure(figsize=(10, 8))  # define o tamanho da figura
    sns.heatmap(cm, xticklabels=["Female", "Male"], yticklabels=["Female", "Male"],
                cmap="YlGnBu", annot=True, fmt="d")  # plota a matriz com cores e valores
    sns.set(font_scale=1.1)  # ajusta o tamanho da fonte
    plt.xlabel("Predicted Classes")  # r√≥tulo eixo X
    plt.ylabel("True Classes")  # r√≥tulo eixo Y
    plt.title(f"Confusion Matrix - {alg_name}")  # t√≠tulo do gr√°fico
    plot_file = db_result_dir / f"{alg_name}_confusion_matrix_experiment{index+1}.png"  # caminho de sa√≠da
    plt.savefig(plot_file, dpi=300)  # salva a imagem
    plt.close()  # fecha o gr√°fico

## -------------------- 08. Fun√ß√£o para Formata√ß√£o de Resultados Estat√≠sticos --------------------

Esta fun√ß√£o auxilia na apresenta√ß√£o dos resultados, formatando a m√©dia e o desvio padr√£o de uma m√©trica de avalia√ß√£o (como acur√°cia, precis√£o, etc.) em uma string padronizada. √â utilizada na gera√ß√£o dos arquivos de sa√≠da para facilitar a leitura dos resultados.

In [None]:
# Formata string de m√©dia ¬± desvio padr√£o
def format_string(valor, scores):
    return f"\Mean {valor}: {np.mean(scores):.4f} +- {np.std(scores):.4f}\n"  # retorna string formatada com m√©dia e desvio padr√£o

## -------------------- 09. Avalia√ß√£o Leave-One-Experiment-Out (LOEO) para um Modelo -------------------- 

Esta fun√ß√£o realiza a avalia√ß√£o de um modelo usando a t√©cnica Leave-One-Experiment-Out (LOEO), onde o conjunto de dados √© dividido em 10 blocos (experimentos). Em cada itera√ß√£o, um bloco √© usado como teste e os demais como treino. Para cada rodada, o modelo √© treinado, testado e suas m√©tricas armazenadas. Ao final, gera gr√°ficos, salva as m√©tricas em arquivo e retorna os resultados consolidados. Esta etapa pertence √† fase de avalia√ß√£o robusta no pipeline de aprendizado de m√°quina.

In [None]:
# Avalia√ß√£o leave-one-experiment-out para um modelo
def leave_one_experiment_out_evaluation(df, best_alg_name, results_dir, name):
    print(f"\nStarting leave-one-experiment-out evaluation with the best model: {best_alg_name}")  # in√≠cio da avalia√ß√£o

    n_experimentos = 10  # total de blocos de experimentos
    tamanho_exp = 400  # tamanho de cada bloco
    scores = {"Accuracy": [], "Precision": [], "Recall": [], "F1-Score": []}  # dicion√°rio para guardar m√©tricas
    y_true_all, y_pred_all = [], []  # listas para acumular r√≥tulos reais e preditos

    db_result_dir = results_dir / name  # define pasta de sa√≠da
    db_result_dir.mkdir(parents=True, exist_ok=True)  # cria pasta se n√£o existir
    boxplot_file = db_result_dir / f"{name}_leave_one_exp_boxplot.png"  # caminho do gr√°fico final

    # loop sobre os 10 experimentos
    for i in range(n_experimentos):
        ini, fim = i * tamanho_exp, (i + 1) * tamanho_exp  # define √≠ndice do bloco de teste
        test = df.iloc[ini:fim].copy()  # extrai bloco de teste
        train = pd.concat([df.iloc[:ini], df.iloc[fim:]]).copy()  # junta os blocos de treino

        train = convert_gender_to_numeric(train)  # converte 'gender' em treino
        test = convert_gender_to_numeric(test)  # converte 'gender' em teste

        y_train = train.gender  # separa vari√°vel alvo de treino
        X_train = train.drop("gender", axis=1)  # separa atributos de treino
        y_test = test.gender  # vari√°vel alvo de teste
        X_test = test.drop("gender", axis=1)  # atributos de teste

        model = clone(algorithms[best_alg_name])  # clona o melhor modelo
        model.fit(X_train, y_train)  # treina o modelo
        y_pred = model.predict(X_test)  # realiza a predi√ß√£o

        acc, precision, recall, f1 = generate_scores(y_test, y_pred)  # calcula m√©tricas
        scores["Accuracy"].append(acc)  # armazena acur√°cia
        scores["Precision"].append(precision)  # armazena precis√£o
        scores["Recall"].append(recall)  # armazena recall
        scores["F1-Score"].append(f1)  # armazena f1-score

        y_true_all.extend(y_test)  # acumula r√≥tulos reais
        y_pred_all.extend(y_pred)  # acumula predi√ß√µes

        print(f"Experment {i+1}: Accuracy = {acc:.4f}")  # exibe acur√°cia do experimento
        plot_heatmap(y_test, y_pred, best_alg_name, db_result_dir, i)  # plota matriz de confus√£o

    # Plota boxplot com as acur√°cias dos 10 experimentos
    plot_boxplot({"Accuracy": scores["Accuracy"]}, best_alg_name, boxplot_file, "Accuracy")

    # Salva os resultados em arquivo de texto
    txt_file = db_result_dir / f"{name}_leave_one_exp_scores.txt"
    with open(txt_file, 'w') as f:
        f.write("Accuracies leave-one-experiment-out:\n")
        for i, score in enumerate(scores["Accuracy"]):
            f.write(f"Experiment {i+1}: {score:.4f}\n")
        for key, score in scores.items():
            f.write(format_string(key, score))

    print(f"Scores saved in: {txt_file}\n")  # confirma√ß√£o
    return scores  # retorna o dicion√°rio de m√©tricas

## -------------------- 10. Avalia√ß√£o Completa para o Melhor Modelo --------------------

Esta fun√ß√£o executa o processo completo de avalia√ß√£o para o melhor modelo encontrado via valida√ß√£o cruzada. Ela carrega os dados, realiza a convers√£o da vari√°vel alvo, identifica o melhor classificador com base na m√©dia de desempenho e executa a avalia√ß√£o Leave-One-Experiment-Out (LOEO) com esse modelo. Esta etapa fecha o ciclo de avalia√ß√£o automatizada do pipeline de aprendizado de m√°quina.

In [None]:
# Gera avalia√ß√£o completa para o melhor modelo
def generate_one_result(db_name):
    df = pd.read_csv(db_name)  # carrega o dataset do arquivo CSV
    df = convert_gender_to_numeric(df)  # converte 'gender' para 0/1
    ycla = df.gender  # vari√°vel alvo
    X = df.drop("gender", axis=1)  # atributos de entrada

    result = generate_cross_val_score_all_alg(X, ycla)  # avalia todos os modelos com cross_val
    best_alg_name = result.mean().idxmax()  # identifica o modelo com maior m√©dia de desempenho

    print(f"\nBest Model: {best_alg_name}")  # exibe o nome do melhor modelo

    # executa a avalia√ß√£o LOEO com o melhor modelo
    leave_one_experiment_out_evaluation(
        pd.read_csv(db_name),  # carrega novamente o CSV original
        best_alg_name,  # nome do melhor modelo
        results_dir,  # pasta de sa√≠da
        f"{db_name}_{best_alg_name}"  # nome do diret√≥rio de sa√≠da
    )

    # mensagem final com caminho de onde os resultados foram salvos
    print(f"Best Model: {best_alg_name} saved in: {results_dir / f'{db_name}_{best_alg_name}'}")

## -------------------- 11. Avalia√ß√£o Leave-One-Experiment-Out para Todos os Modelos --------------------

Esta fun√ß√£o executa a avalia√ß√£o LOEO para todos os algoritmos definidos na configura√ß√£o. Cada modelo √© avaliado separadamente, e as acur√°cias de cada experimento s√£o armazenadas. Ao final, um gr√°fico boxplot √© gerado comparando os desempenhos entre os modelos. Esta etapa pertence √† fase de compara√ß√£o e an√°lise de desempenho entre os classificadores no pipeline de aprendizado de m√°quina.

In [None]:
from pathlib import Path  # biblioteca para manipula√ß√£o de caminhos

# Executa avalia√ß√£o leave-one-out para todos os modelos dispon√≠veis
def leave_one_experiment_out_evaluation_all_models(db_name):
    print("Leave-one-experiment-out evaluation completed for all models.")  # in√≠cio do processo

    acc_results = {}  # dicion√°rio para guardar resultados de acur√°cia por modelo

    # percorre todos os algoritmos definidos
    for alg_name in algorithms.keys():
        # Gera nome de pasta/arquivo sem extens√µes estranhas (ex: .csv ou ./)
        name = Path(db_name).stem.replace(".", "_") + f"_{alg_name}"

        df = pd.read_csv(db_name)  # carrega o dataset

        # Executa avalia√ß√£o LOEO para o modelo atual
        scores = leave_one_experiment_out_evaluation(df, alg_name, results_dir, name)

        # Armazena apenas as acur√°cias
        acc_results[alg_name] = scores["Accuracy"]

    # Gera gr√°fico comparativo das acur√°cias entre os modelos
    boxplot_file = results_dir / "acc_boxplot.png"
    plot_boxplot(acc_results, "Modelos", boxplot_file, "Accuracy")

    print("Leave-one-experiment-out evaluation completed for all models.")  # fim

## -------------------- 12. Execu√ß√£o Final da Avalia√ß√£o para Todos os Modelos --------------------

Este bloco define o caminho do dataset `.csv` e executa a fun√ß√£o de avalia√ß√£o Leave-One-Experiment-Out para todos os modelos dispon√≠veis. Ao final, imprime os arquivos gerados na pasta `results/`, encerrando a fase principal de avalia√ß√£o do pipeline de aprendizado de m√°quina.

In [None]:

# Caminho completo para o dataset
db_name = f"{db_dir}/{db_file}"

# Executa a avalia√ß√£o LOEO para todos os modelos
leave_one_experiment_out_evaluation_all_models(db_name)

# Lista os arquivos gerados na pasta de resultados
print("Results generated in:", os.listdir('./results'))


## -------------------- 13. Relat√≥rio Final com Todos os Dados Usando o Melhor Modelo --------------------

Esta etapa realiza a avalia√ß√£o final do melhor modelo identificado pela m√©dia de acur√°cia na valida√ß√£o cruzada. O modelo √© treinado com todos os dados dispon√≠veis e, em seguida, avaliado no mesmo conjunto para fins descritivos. S√£o geradas as m√©tricas detalhadas (precis√£o, recall, f1-score e suporte) e a matriz de confus√£o final, que mostram como o modelo se comporta globalmente. A matriz √© salva em `results/melhor_modelo_confusion_matrix_FINAL.png`.

In [None]:
# Garante que os dados estejam prontos
df_full = convert_gender_to_numeric(df.copy())  # Converte coluna 'gender' de string para n√∫mero
X = df_full.drop("gender", axis=1)              # Separa atributos preditores
y = df_full["gender"]                           # Separa r√≥tulo

# Gera cross_val_score para todos os modelos e identifica o melhor
avaliacoes = generate_cross_val_score_all_alg(X, y)        # Avalia√ß√£o cruzada
melhor_algoritmo = avaliacoes.mean().idxmax()              # Seleciona o melhor classificador
print(f"Melhor modelo geral com base na m√©dia do cross_val_score: {melhor_algoritmo}")

# Clona e treina o melhor modelo com todos os dados
melhor_modelo = clone(algorithms[melhor_algoritmo])        # Clona pipeline
melhor_modelo.fit(X, y)                                    # Treina com todos os dados

# Realiza predi√ß√£o nos mesmos dados (avalia√ß√£o descritiva)
y_pred = melhor_modelo.predict(X)

# Gera e imprime relat√≥rio de classifica√ß√£o
relatorio = classification_report(y, y_pred, target_names=["Women", "Men"], digits=4)
print("\nClassification Report (all datas):")
print(relatorio)

# Salva o relat√≥rio em um arquivo TXT
Path("results").mkdir(exist_ok=True)
with open("results/relatorio_final.txt", "w") as f:
    f.write("Classification Report (all datas):\n\n")
    f.write(relatorio)

# Matriz de confus√£o final
cm = confusion_matrix(y, y_pred, labels=[0, 1])
plt.figure(figsize=(8, 6))
sns.heatmap(cm,
            annot=True,
            fmt="d",
            cmap="Blues",
            xticklabels=["Women", "Men"],
            yticklabels=["Women", "Men"])
plt.xlabel("Predicted Class")
plt.ylabel("True Class")
plt.title(f"Final Confusion Matrix - {melhor_algoritmo}")

# Salva a imagem da matriz de confus√£o
plt.savefig("results/melhor_modelo_confusion_matrix_FINAL.png", dpi=300)
plt.close()
print("Final COnfusion Matrix saved in: results/melhor_modelo_confusion_matrix_FINAL.png")


## -------------------- 14. Compara√ß√£o Visual entre Classificadores --------------------

Adicionalmente, √© gerado um gr√°fico com a compara√ß√£o visual dos limites de decis√£o de v√°rios algoritmos de classifica√ß√£o em datasets sint√©ticos. Esse gr√°fico ilustra a capacidade de generaliza√ß√£o e a forma como cada modelo segmenta o espa√ßo de decis√£o. Faz parte da etapa de an√°lise comparativa/visualiza√ß√£o.

In [None]:
# Classificadores utilizados no projeto
names = [
    "kNN", "Decision Tree", "Big Tree", "Naive Bayes", "SVM Linear", "SVM RBF"
]

classifiers = [
    KNeighborsClassifier(3),  # kNN
    DecisionTreeClassifier(max_depth=5),  # √Årvore pequena
    DecisionTreeClassifier(),  # √Årvore grande
    GaussianNB(),  # Naive Bayes
    SVC(kernel="linear", C=0.025, probability=True),  # SVM Linear
    SVC(gamma=2, C=1, probability=True),  # SVM RBF
]

# Datasets sint√©ticos para visualiza√ß√£o
datasets = [
    make_moons(noise=0.3, random_state=0),
    make_circles(noise=0.2, factor=0.5, random_state=1),
    make_classification(
        n_features=2, n_redundant=0, n_informative=2,
        random_state=42, n_clusters_per_class=1
    )
]

# Ignora avisos de converg√™ncia (MLP, etc)
with warnings.catch_warnings():
    warnings.filterwarnings("ignore", category=ConvergenceWarning)

    # Cria figura com v√°rias subplots
    figure = plt.figure(figsize=(20, 6))
    i = 1

    for ds in datasets:
        X, y = ds
        X = StandardScaler().fit_transform(X)
        X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.4, random_state=42)

        # Primeira coluna: dados originais
        ax = plt.subplot(len(datasets), len(classifiers) + 1, i)
        ax.set_title("Input data")
        ax.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.coolwarm, edgecolors='k')
        i += 1

        # Colunas seguintes: classificadores
        for name, clf in zip(names, classifiers):
            ax = plt.subplot(len(datasets), len(classifiers) + 1, i)
            clf.fit(X_train, y_train)
            score = clf.score(X_test, y_test)

            # Exibe fronteira de decis√£o
            display = DecisionBoundaryDisplay.from_estimator(
                clf, X, response_method="predict", cmap=plt.cm.coolwarm, alpha=0.8, ax=ax
            )
            ax.scatter(X_test[:, 0], X_test[:, 1], c=y_test, cmap=plt.cm.coolwarm, edgecolors='k')
            ax.set_title(f"{name}\nAccuracy: {score:.2f}")
            i += 1

    plt.tight_layout()
    plt.savefig("results/classifier_comparison.png", dpi=300)
    plt.close()
    print("Comparison Graph saved in: results/classifier_comparison.png")

## -------------------- 15. Gera√ß√£o da √Årvore de Decis√£o Geral com Todos os Dados --------------------

Este bloco treina uma √°rvore de decis√£o com todos os dados dispon√≠veis e gera uma representa√ß√£o visual completa da estrutura da √°rvore. Esta etapa complementa a avalia√ß√£o, permitindo uma interpreta√ß√£o visual do modelo final e das vari√°veis mais relevantes, sendo parte da explica√ß√£o e apresenta√ß√£o de resultados do projeto.

In [None]:
# Garante que os dados estejam prontos
df_full = convert_gender_to_numeric(df.copy())  # converte g√™nero para 0 e 1
X = df_full.drop("gender", axis=1)  # separa atributos
y = df_full["gender"]  # vari√°vel alvo

# Treina o modelo completo com todos os dados
modelo_geral = DecisionTreeClassifier(
    max_depth=5,  # profundidade m√°xima da √°rvore
    criterion='entropy',  # crit√©rio de divis√£o
    random_state=42  # semente para reprodutibilidade
)
modelo_geral.fit(X, y)  # treina a √°rvore com todos os dados

# Garante que a pasta 'results' exista
Path("results").mkdir(exist_ok=True)  # cria a pasta se n√£o existir

# Exporta a √°rvore para um arquivo .dot
export_graphviz(
    modelo_geral,
    out_file="results/credit_tree_geral.dot",  # caminho do arquivo de sa√≠da
    feature_names=X.columns,  # nomes das vari√°veis
    class_names=["Women", "Men"],  # nomes das classes
    rounded=True,  # cantos arredondados
    filled=True  # cores nas folhas
)

# Renderiza o arquivo .dot e salva como .png
graph = Source.from_file("results/credit_tree_geral.dot")  # carrega o arquivo .dot
graph.render("results/credit_tree_geral", format="png", cleanup=True)  # salva como imagem

# Mensagem final de confirma√ß√£o
print("General Tree saved in: results/credit_tree_geral.png")

## -------------------- 16. Curva ROC e Visualiza√ß√£o PCA dos Dados --------------------

Este bloco complementa a an√°lise dos resultados com dois gr√°ficos. Primeiro, a Curva ROC (Receiver Operating Characteristic), que mostra a performance do modelo ao variar o limiar de decis√£o, junto com o valor da AUC (√Årea sob a curva). Em seguida, um gr√°fico de dispers√£o usando PCA (An√°lise de Componentes Principais), reduzindo os dados para 2 dimens√µes e colorindo por g√™nero, permitindo visualizar poss√≠veis separa√ß√µes entre as classes.

In [None]:
# Fun√ß√£o para plotar a curva ROC com AUC
def plot_roc_curve(model, X_test, y_test, label="Modelo"):
    # Verifica se o modelo possui m√©todo predict_proba ou decision_function
    if hasattr(model, "predict_proba"):
        probs = model.predict_proba(X_test)[:, 1]  # usa probabilidade da classe positiva
    else:
        probs = model.decision_function(X_test)  # usa fun√ß√£o de decis√£o (ex: SVM)

    # Calcula os valores de FPR (falsos positivos) e TPR (verdadeiros positivos)
    fpr, tpr, _ = roc_curve(y_test, probs)

    # Calcula a √°rea sob a curva (AUC)
    roc_auc = auc(fpr, tpr)

    # Cria o gr√°fico
    plt.figure()
    plt.plot(fpr, tpr, color='darkorange', lw=2, label=f'{label} (AUC = {roc_auc:.2f})')  # curva principal
    plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')  # linha de refer√™ncia (aleat√≥rio)
    plt.xlabel('FPR (False Positives)')  # eixo X
    plt.ylabel('TPR (True Positives)')  # eixo Y
    plt.title('ROC Curve')  # t√≠tulo
    plt.legend(loc="lower right")  # legenda
    plt.grid()  # adiciona grade
    plt.savefig("results/roc_curve.png", dpi=300)  # salva o gr√°fico
    print("ROC Curve saved in: results/roc_curve.png") 
    plt.close()  # fecha figura

# Plota a curva ROC para o modelo geral
plot_roc_curve(modelo_geral, X, y, label="General Tree")

# Reduz os dados para 2D com PCA
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)  # aplica a transforma√ß√£o PCA

# Converte r√≥tulos num√©ricos para texto
labels = y.map({0: 'Women', 1: 'Men'})

# Cria gr√°fico de dispers√£o por g√™nero
plt.figure(figsize=(8, 6))
for label in labels.unique():
    idx = labels == label
    plt.scatter(X_pca[idx, 0], X_pca[idx, 1], label=label, alpha=0.7)  # plota cada grupo

plt.title("PCA Dispersion by Gender - 8 subcarriers")  # t√≠tulo do gr√°fico
plt.xlabel("Principal Component 1")  # eixo X
plt.ylabel("Principal Component 2")  # eixo Y
plt.legend()  # exibe legenda
plt.savefig("results/pca_2d_scatter.png", dpi=300)  # salva o gr√°fico
print("PCA 2D Scatter saved in: results/pca_2d_scatter.png") 
plt.close()  # fecha a figura

## -------------------- 17. PCA com Visualiza√ß√£o Bidimensional (8 e 271 subportadoras) --------------------

Essa etapa realiza uma redu√ß√£o de dimensionalidade via PCA para facilitar a visualiza√ß√£o dos dados em 2D. S√£o usados dois conjuntos diferentes (um com 271 subportadoras e outro com 8), permitindo compara√ß√£o visual entre os g√™neros ap√≥s a transforma√ß√£o.

In [None]:
# === PCA - Visualiza√ß√£o com 271 subportadoras ===

file_path = './db/db_400.csv'  # caminho do CSV com 271 subportadoras
df = pd.read_csv(file_path)  # carrega o CSV como DataFrame

y = df.iloc[:, 0]  # separa a vari√°vel alvo (0 = mulher, 1 = homem)
X = df.iloc[:, 1:]  # separa os atributos (colunas de subportadoras)

scaler = StandardScaler()  # instancia normalizador (zero m√©dia, vari√¢ncia 1)
X_scaled = scaler.fit_transform(X)  # aplica normaliza√ß√£o aos dados

labels = y.map({0: 'Men', 1: 'Women'})  # converte r√≥tulos num√©ricos em texto

pca = PCA(n_components=2)  # define PCA com 2 componentes principais
X_pca = pca.fit_transform(X_scaled)  # reduz os dados para 2D

plt.figure(figsize=(8, 6))  # define tamanho da figura
sns.scatterplot(x=X_pca[:, 0], y=X_pca[:, 1],
                hue=y.map({0: 'Women', 1: 'Men'}), palette='Set1')  # cria gr√°fico colorido por g√™nero
plt.title('PCA Dispersion by Gender - 271 subcarriers')  # t√≠tulo do gr√°fico
plt.xlabel("Principal Component 1")  # legenda eixo X
plt.ylabel("Principal Component 2")  # legenda eixo Y
plt.legend()  # exibe legenda
plt.grid(True)  # exibe grade no gr√°fico
plt.tight_layout()  # ajusta margens
plt.savefig("results/pca_271p.png", dpi=300)  # salva a imagem no diret√≥rio
print("PCA 271p: results/pca_271p.png")
plt.close()  # fecha a figura para liberar mem√≥ria


# === PCA - Visualiza√ß√£o com 8 subportadoras ===

file_path = './db/db.csv'  # caminho do CSV com 8 subportadoras
df = pd.read_csv(file_path)  # carrega o CSV como DataFrame

y = df.iloc[:, 0]  # vari√°vel alvo (0 = mulher, 1 = homem)
X = df.iloc[:, 1:]  # atributos

scaler = StandardScaler()  # normalizador padr√£o
X_scaled = scaler.fit_transform(X)  # aplica normaliza√ß√£o

labels = y.map({0: 'Men', 1: 'Women'})  # transforma 0/1 em texto

pca = PCA(n_components=2)  # PCA para 2 dimens√µes
X_pca = pca.fit_transform(X_scaled)  # aplica a transforma√ß√£o PCA

plt.figure(figsize=(8, 6))  # tamanho da figura
sns.scatterplot(x=X_pca[:, 0], y=X_pca[:, 1],
                hue=y.map({0: 'Women', 1: 'Men'}), palette='Set1')  # gr√°fico com cores por g√™nero
plt.title('PCA Dispersion by Gender - 8 subcarriers')  # t√≠tulo do gr√°fico
plt.xlabel("Principal Component 1")  # eixo X
plt.ylabel("Principal Component 2")  # eixo Y
plt.legend()  # legenda
plt.grid(True)  # exibe grade
plt.tight_layout()  # ajusta layout
plt.savefig("results/pca_8p.png", dpi=300)  # salva imagem no diret√≥rio results
print("PCA 8p: results/pca_8p.png")
plt.close()  # fecha a figura

## -------------------- Fim do c√≥digo --------------------