In [None]:
import os
import pandas as pd

def normalize_dataset(data):
    """
    Aplica normalização Min-Max em colunas numéricas do dataset usando a fórmula manual.

    Fórmula: X_norm = (X - X_min) / (X_max - X_min)

    Args:
        data (pd.DataFrame): DataFrame a ser normalizado.

    Returns:
        pd.DataFrame: DataFrame com colunas numéricas normalizadas e valores booleanos convertidos para 0 e 1.
    """
    # Converter valores booleanos para 0 e 1
    boolean_columns = data.select_dtypes(include=['bool']).columns
    for col in boolean_columns:
        data[col] = data[col].astype(int)

    # Normalizar colunas numéricas
    numeric_columns = data.select_dtypes(include=['number']).columns
    for col in numeric_columns:
        col_min = data[col].min()
        col_max = data[col].max()
        if col_max != col_min:  # Evitar divisão por zero
            data[col] = (data[col] - col_min) / (col_max - col_min)
        else:
            data[col] = 0  # Se todos os valores são iguais, normaliza para 0
    return data

def process_datasets(input_directory, output_directory):
    """
    Normaliza os datasets e salva os arquivos processados.

    Args:
        input_directory (str): Diretório contendo os arquivos .txt de entrada.
        output_directory (str): Diretório onde os arquivos transformados serão salvos.
    """
    if not os.path.exists(output_directory):
        os.makedirs(output_directory)

    for filename in os.listdir(input_directory):
        if filename.endswith('.txt'):
            file_path = os.path.join(input_directory, filename)
            try:
                # Carregar o dataset
                data = pd.read_csv(file_path, delimiter=',')

                # Aplicar normalização
                data_normalized = normalize_dataset(data)

                # Salvar o dataset transformado
                output_file_path = os.path.join(output_directory, f"2-saida_{filename}")
                data_normalized.to_csv(output_file_path, index=False, sep=',')

                print(f"Arquivo normalizado salvo em: {output_file_path}")

            except Exception as e:
                print(f"Erro ao processar o arquivo {filename}: {e}")

# Caminhos de entrada e saída
input_directory = r"C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\algorithms\abordagens\datasets-usaveis"
output_directory = r"C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\algorithms\abordagens\output"

# Processar os datasets
process_datasets(input_directory, output_directory)


Arquivo normalizado salvo em: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\algorithms\abordagens\output\1-saida\2-saida_cocomo81.txt
Arquivo normalizado salvo em: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\algorithms\abordagens\output\1-saida\2-saida_encoded_china.txt
Arquivo normalizado salvo em: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\algorithms\abordagens\output\1-saida\2-saida_encoded_desharnais.txt
Arquivo normalizado salvo em: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\algorithms\abordagens\output\1-saida\2-saida_encoded_maxwell.txt
