# 1.0 - Importando bibliotecas

In [1]:
import pandas as pd

# 2.0 - Funções

In [2]:
def tabela_metricas_regressao():
    """
    Cria um DataFrame com as métricas de diferentes algoritmos de regressão para cada etapa do pipeline.

    **Retorna:**
    Uma lista de DataFrames, onde cada DataFrame contém as métricas de todos os algoritmos para uma determinada 
    etapa (treinamento, validação e teste).

    **Funcionamento:**
    1. **Define etapas:** Cria uma lista com as etapas do pipeline: 'train', 'validation' e 'test'.
    2. **Define algoritmos:** Cria uma lista com os nomes dos algoritmos de regressão utilizados.
    3. **Carrega métricas:** Para cada etapa e algoritmo:
        - Concatena os DataFrames de métricas de cada algoritmo em um único DataFrame.
        - Ignora os índices originais para evitar duplicatas.
    4. **Retorna lista:** Retorna uma lista com os DataFrames concatenados, um para cada etapa.

    **Observações:**
    - Assume que os arquivos de métricas estão em uma estrutura de diretórios específica.
    - Os nomes dos arquivos de métricas seguem um padrão definido.

    """
    etapas = ['train', 'validation', 'test']
    lista_algoritmo = ['linear_lasso_regression', 
                       'linear_ridge_regression', 
                       'elastic_net_regression', 
                       'decision_tree', 
                       'random_forest', 
                       'polynomial_regression']

    # Gera um DataFrame para cada etapa e algoritmo, lendo os arquivos em uma única linha com list comprehension
    lista_df = [
        pd.concat(
            [pd.read_excel(f'{etapa}/metrics/metrics_{etapa}_{nome_algoritmo}.xlsx') for nome_algoritmo in lista_algoritmo],
            ignore_index=True
        ) for etapa in etapas
    ]

    return lista_df

def exporta_tabelas_para_md(lista_df):
    """
    Gera tabelas de métricas para as etapas de treino, validação e teste,
    e as exporta em formato Markdown para inclusão no README do GitHub.
    
    Parâmetros:
    -----------
    lista_df : list
               lista armazenando os três dataframes com as performances.
    
    Retorno:
    -----------
    Arquivo markdown com as três tabelas concatenadas em UTF-8.
    """
    etapas = ['treino', 'validação', 'teste']

    # Cria um arquivo markdown para salvar as tabelas, com encoding UTF-8
    with open('tabelas_métricas.md', 'w', encoding='utf-8') as f:
        for etapa, df in zip(etapas, lista_df):
            f.write(f"### Métricas - {etapa.capitalize()}\n")
            f.write(df.drop(columns = ['Step']).to_markdown(index=False))  # Exporta a tabela como markdown
            f.write("\n\n\n")  # Linhas em branco entre as tabelas

# 3.0 - Tabelas com as métricas

In [4]:
lista_df = tabela_metricas_regressao()
performance_treino, performance_val, performance_teste = lista_df

In [5]:
# Treino
performance_treino

Unnamed: 0,Algorithm,Step,R2,MSE,RMSE,MAE,MAPE
0,Lasso Linear Regression,Train,0.0074,474.4748,21.7824,17.3055,8.7367
1,Ridge Linear Regression,Train,0.0461,455.9964,21.3541,16.9983,8.6534
2,Elastic Net Linear Regression,Train,0.0078,474.2689,21.7777,17.2995,8.7323
3,Decision Tree Regressor,Train,0.9918,3.9404,1.985,0.2141,0.0826
4,Random Forest Regressor,Train,0.9028,46.4547,6.8158,4.8608,2.578
5,Polynomial Regression,Train,0.0942,432.9862,20.8083,16.458,8.3505


In [6]:
# Validação
performance_val

Unnamed: 0,Algorithm,Step,R2,MSE,RMSE,MAE,MAPE
0,Lasso Linear Regression,Validation,0.0079,473.7471,21.7657,17.2649,8.6958
1,Ridge Linear Regression,Validation,0.0399,458.4455,21.4113,17.0395,8.6824
2,Elastic Net Linear Regression,Validation,0.0081,473.6356,21.7632,17.2629,8.694
3,Decision Tree Regressor,Validation,-0.2971,619.3815,24.8874,17.0926,7.1058
4,Random Forest Regressor,Validation,0.3351,317.4782,17.8179,13.0022,7.0309
5,Polynomial Regression,Validation,0.0665,445.7682,21.1132,16.7499,8.5479


In [7]:
# Teste
performance_teste

Unnamed: 0,Algorithm,Step,R2,MSE,RMSE,MAE,MAPE
0,Lasso Linear Regression,Test,0.0101,482.0063,21.9546,17.4522,8.7614
1,Ridge Linear Regression,Test,0.0511,461.9991,21.4942,17.1427,8.5366
2,Elastic Net Linear Regression,Test,0.0141,480.0462,21.91,17.4165,8.7361
3,Decision Tree Regressor,Test,0.0905,442.8484,21.044,16.8298,7.8832
4,Random Forest Regressor,Test,0.3972,293.492,17.1316,12.638,6.3788
5,Polynomial Regression,Test,0.0909,442.6414,21.039,16.7364,8.277


In [8]:
# Exporta as três tabelas acima para formato Markdown
exporta_tabelas_para_md(lista_df)