# Compara todas as abordagens e coloca num arquivo txt de forma ordenada ascendente

In [1]:
import pandas as pd
import os
from glob import glob

# Diretório base (modifique conforme necessário)
base_directory = r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\compara-abordagem\saida'
output_txt_file = os.path.join(base_directory, 'resultado_ordenado_mae.txt')

# Lista para armazenar os dados
all_data = []

# Busca recursiva por TODOS os arquivos .xlsx nas subpastas
for excel_file in glob(os.path.join(base_directory, '**/*.xlsx'), recursive=True):
    try:
        # Lê o arquivo Excel
        df = pd.read_excel(excel_file)
        
        # Verifica se a métrica MAE está presente no arquivo
        if 'mae' in df.columns:
            # Captura apenas a coluna MAE e anexa o caminho do arquivo
            mae_value = df['mae'].mean()  # Caso haja múltiplas linhas, pega a média
            all_data.append((mae_value, excel_file))
        else:
            print(f"Arquivo ignorado (MAE não encontrado): {excel_file}")
    
    except Exception as e:
        print(f"Erro ao processar {excel_file}: {str(e)}")

# Ordena os dados capturados pelo valor de MAE (ordem ascendente)
all_data_sorted = sorted(all_data, key=lambda x: x[0])

# Salva o relatório em um arquivo TXT
with open(output_txt_file, 'w') as report:
    report.write("Relatório de Métrica MAE (Ordenado em Ordem Ascendente)\n")
    report.write("=" * 50 + "\n")
    report.write(f"Total de arquivos processados: {len(all_data_sorted)}\n\n")
    
    for rank, (mae, file_path) in enumerate(all_data_sorted, start=1):
        relative_path = os.path.relpath(file_path, base_directory)  # Caminho relativo
        report.write(f"{rank}. MAE: {mae:.4f} - Arquivo: {relative_path}\n")

print("Processamento concluído! Relatório salvo em:", output_txt_file)


Processamento concluído! Relatório salvo em: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\compara-abordagem\saida\resultado_ordenado_mae.txt


# ordena de acordo com o dataset

In [2]:
import pandas as pd
import os
from glob import glob

# Diretório base (modifique conforme necessário)
base_directory = r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\compara-abordagem\saida'
output_directory = os.path.join(base_directory, 'relatorios')  # Diretório para os relatórios

# Cria o diretório de saída, se não existir
os.makedirs(output_directory, exist_ok=True)

# Lista de datasets esperados
datasets = ['maxwell', 'cocomo81', 'desharnais', 'china', 'outro']

# Dicionário para armazenar os dados de cada dataset
dataset_data = {dataset: [] for dataset in datasets}

# Busca recursiva por TODOS os arquivos .xlsx nas subpastas
for excel_file in glob(os.path.join(base_directory, '**/*.xlsx'), recursive=True):
    try:
        # Lê o arquivo Excel
        df = pd.read_excel(excel_file)
        
        # Verifica se a métrica MAE está presente no arquivo
        if 'mae' in df.columns:
            # Captura a média do MAE (ou valor único se só há uma linha)
            mae_value = df['mae'].mean()  
            
            # Identifica o dataset com base no nome do arquivo
            dataset = next((d for d in datasets if d in excel_file.lower()), 'outro')
            
            # Adiciona os dados ao dataset correspondente
            dataset_data[dataset].append((mae_value, excel_file))
        else:
            print(f"Arquivo ignorado (MAE não encontrado): {excel_file}")
    
    except Exception as e:
        print(f"Erro ao processar {excel_file}: {str(e)}")

# Gera relatórios separados para cada dataset
for dataset, data in dataset_data.items():
    if data:  # Processa apenas se houver dados no dataset
        # Ordena os dados do dataset pelo valor de MAE (ordem ascendente)
        data_sorted = sorted(data, key=lambda x: x[0])

        # Nome do arquivo de relatório
        output_txt_file = os.path.join(output_directory, f'{dataset}_resultado_ordenado_mae.txt')

        # Salva o relatório
        with open(output_txt_file, 'w') as report:
            report.write(f"Relatório de Métrica MAE para o Dataset: {dataset.upper()} (Ordenado em Ordem Ascendente)\n")
            report.write("=" * 50 + "\n")
            report.write(f"Total de arquivos processados: {len(data_sorted)}\n\n")
            
            for rank, (mae, file_path) in enumerate(data_sorted, start=1):
                relative_path = os.path.relpath(file_path, base_directory)  # Caminho relativo
                report.write(f"{rank}. MAE: {mae:.4f} - Arquivo: {relative_path}\n")

        print(f"Relatório salvo para o dataset {dataset}: {output_txt_file}")

print("Processamento concluído!")


Relatório salvo para o dataset maxwell: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\compara-abordagem\saida\relatorios\maxwell_resultado_ordenado_mae.txt
Relatório salvo para o dataset cocomo81: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\compara-abordagem\saida\relatorios\cocomo81_resultado_ordenado_mae.txt
Relatório salvo para o dataset desharnais: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\compara-abordagem\saida\relatorios\desharnais_resultado_ordenado_mae.txt
Relatório salvo para o dataset china: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\compara-abordagem\saida\relatorios\china_resultado_ordenado_mae.txt
Relatório salvo para o dataset outro: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\compara-abordagem\saida\relatorios\outro_resultado_ordenado_mae.txt
Processamento concluído!


# ordena de acordo com com a abordagem

In [3]:
import pandas as pd
import os
from glob import glob

# Diretório base (modifique conforme necessário)
base_directory = r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\compara-abordagem\saida'
output_directory = os.path.join(base_directory, 'relatorios')  # Diretório para os relatórios

# Cria o diretório de saída, se não existir
os.makedirs(output_directory, exist_ok=True)

# Lista de abordagens esperadas
abordagens = ['1-tratamento-target-encoding-normalizado', 
              '2-geracao-variaveis', 
              '3-simulacao', 
              '4-escolha/pca', 
              '4-escolha/correlacao', 
              '4-escolha/selectkbest']

# Dicionário para armazenar os dados de cada abordagem
abordagem_data = {abordagem: [] for abordagem in abordagens}

# Busca recursiva por TODOS os arquivos .xlsx nas subpastas
for excel_file in glob(os.path.join(base_directory, '**/*.xlsx'), recursive=True):
    try:
        # Lê o arquivo Excel
        df = pd.read_excel(excel_file)
        
        # Verifica se a métrica MAE está presente no arquivo
        if 'mae' in df.columns:
            # Captura a média do MAE (ou valor único se só há uma linha)
            mae_value = df['mae'].mean()
            
            # Identifica a abordagem com base no caminho do arquivo
            abordagem = next((a for a in abordagens if a in excel_file.lower()), 'outra')
            
            # Adiciona os dados à abordagem correspondente
            abordagem_data[abordagem].append((mae_value, excel_file))
        else:
            print(f"Arquivo ignorado (MAE não encontrado): {excel_file}")
    
    except Exception as e:
        print(f"Erro ao processar {excel_file}: {str(e)}")

# Gera relatórios separados para cada abordagem
for abordagem, data in abordagem_data.items():
    if data:  # Processa apenas se houver dados na abordagem
        # Ordena os dados da abordagem pelo valor de MAE (ordem ascendente)
        data_sorted = sorted(data, key=lambda x: x[0])

        # Nome do arquivo de relatório
        abordagem_nome = abordagem.replace('/', '_')  # Substitui "/" para compatibilidade
        output_txt_file = os.path.join(output_directory, f'{abordagem_nome}_resultado_ordenado_mae.txt')

        # Salva o relatório
        with open(output_txt_file, 'w') as report:
            report.write(f"Relatório de Métrica MAE para a Abordagem: {abordagem.upper()} (Ordenado em Ordem Ascendente)\n")
            report.write("=" * 50 + "\n")
            report.write(f"Total de arquivos processados: {len(data_sorted)}\n\n")
            
            for rank, (mae, file_path) in enumerate(data_sorted, start=1):
                relative_path = os.path.relpath(file_path, base_directory)  # Caminho relativo
                report.write(f"{rank}. MAE: {mae:.4f} - Arquivo: {relative_path}\n")

        print(f"Relatório salvo para a abordagem {abordagem}: {output_txt_file}")

print("Processamento concluído!")


Erro ao processar C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\compara-abordagem\saida\4-escolha\correlacao\1-tratamento\tratamento_china_resultados_processamento_simples.xlsx: 'outra'
Erro ao processar C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\compara-abordagem\saida\4-escolha\correlacao\1-tratamento\tratamento_cocomo81_resultados_processamento_simples.xlsx: 'outra'
Erro ao processar C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\compara-abordagem\saida\4-escolha\correlacao\1-tratamento\tratamento_desharnais_resultados_processamento_simples.xlsx: 'outra'
Erro ao processar C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\compara-abordagem\saida\4-escolha\correlacao\1-tratamento\tratamento_maxwell_resultados_processamento_simples.xlsx: 'outra'
Erro ao processar C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\compara-abordagem\said