# 1.0 - Importando bibliotecas

In [1]:
import pandas as pd

# 2.0 - Funções

In [2]:
def tabela_metricas_classificacao():
    """
    Cria um DataFrame com as métricas de diferentes algoritmos de classificação para cada etapa do pipeline.

    **Retorna:**
    Uma lista de DataFrames, onde cada DataFrame contém as métricas de todos os algoritmos para uma determinada 
    etapa (treinamento, validação e teste).

    **Funcionamento:**
    1. **Define etapas:** Cria uma lista com as etapas do pipeline: 'train', 'validation' e 'test'.
    2. **Define algoritmos:** Cria uma lista com os nomes dos algoritmos de classificação utilizados.
    3. **Carrega métricas:** Para cada etapa e algoritmo:
        - Concatena os DataFrames de métricas de cada algoritmo em um único DataFrame.
        - Ignora os índices originais para evitar duplicatas.
    4. **Retorna lista:** Retorna uma lista com os DataFrames concatenados, um para cada etapa.

    **Observações:**
    - Assume que os arquivos de métricas estão em uma estrutura de diretórios específica.
    - Os nomes dos arquivos de métricas seguem um padrão definido.

    """
    etapas = ['train', 'validation', 'test']
    lista_algoritmo = ['K_Nearest_Neighbors', 'Decision_Tree', 'Random_Forest', 'Logistic_Regression']

    # Gera um DataFrame para cada etapa e algoritmo, lendo os arquivos em uma única linha
    lista_df = [
        pd.concat(
            [pd.read_excel(f'{etapa}/{nome_algoritmo}_{etapa}.xlsx') for nome_algoritmo in lista_algoritmo],
            ignore_index=True
        ) for etapa in etapas
    ]

    return lista_df

def exporta_tabelas_para_md(lista_df):
    """
    Gera tabelas de métricas para as etapas de treino, validação e teste,
    e as exporta em formato Markdown para inclusão no README do GitHub.
    
    Parâmetros:
    -----------
    lista_df : list
               lista armazenando os três dataframes com as performances.
    
    Retorno:
    -----------
    Arquivo markdown com as três tabelas concatenadas em UTF-8.
    """
    etapas = ['treino', 'validação', 'teste']

    # Cria um arquivo markdown para salvar as tabelas, com encoding UTF-8
    with open('tabelas_métricas.md', 'w', encoding='utf-8') as f:
        for etapa, df in zip(etapas, lista_df):
            f.write(f"### Métricas - {etapa.capitalize()}\n")
            f.write(df.drop(columns = ['Step']).to_markdown(index=False))  # Exporta a tabela como markdown
            f.write("\n\n\n")  # Linhas em branco entre as tabelas

# 3.0 - Tabelas com as métricas

In [3]:
lista_df = tabela_metricas_classificacao()
performance_treino, performance_val, performance_teste = lista_df

In [4]:
# Treino
performance_treino

Unnamed: 0,Algorithm,Step,Accuracy,Precision,Recall,F1-Score
0,K-Nearest Neighbors,Train,0.9476,0.9323,0.9786,0.9549
1,Decision Tree,Train,1.0,1.0,1.0,1.0
2,Random Forest,Train,1.0,1.0,1.0,1.0
3,Logistic Regression,Train,0.8753,0.8785,0.905,0.8916


In [5]:
# Validação
performance_val

Unnamed: 0,Algorithm,Step,Accuracy,Precision,Recall,F1-Score
0,K-Nearest Neighbors,Validation,0.9252,0.9096,0.9638,0.9359
1,Decision Tree,Validation,0.9444,0.9536,0.948,0.9508
2,Random Forest,Validation,0.9622,0.9561,0.9783,0.967
3,Logistic Regression,Validation,0.8742,0.8777,0.9039,0.8906


In [6]:
# Teste
performance_teste

Unnamed: 0,Algorithm,Step,Accuracy,Precision,Recall,F1-Score
0,K-Nearest Neighbors,Test,0.9263,0.9058,0.9694,0.9366
1,Decision Tree,Test,0.9528,0.9471,0.9702,0.9585
2,Random Forest,Test,0.9631,0.9567,0.9785,0.9675
3,Logistic Regression,Test,0.8711,0.873,0.9014,0.887


In [7]:
# Exporta as três tabelas acima para formato Markdown
exporta_tabelas_para_md(lista_df)