# Aplica correlação para excluir variáveis correlacionadas (90%)


Aplica correlação na saída de tratamento de variáveis com target encoding.

In [4]:
import os
import pandas as pd
import numpy as np

def calculate_correlation_matrix(data, target_column, correlation_threshold=0.9):
    """
    Calcula a matriz de correlação e identifica variáveis altamente correlacionadas.

    Args:
        data (pd.DataFrame): Dataset contendo as variáveis.
        target_column (str): Nome da coluna alvo.
        correlation_threshold (float): Limite de correlação para exclusão de variáveis.

    Returns:
        list: Lista de variáveis a serem removidas.
    """
    correlation_matrix = data.drop(columns=[target_column]).corr()
    columns_to_remove = set()

    for i in range(len(correlation_matrix.columns)):
        for j in range(i):
            if abs(correlation_matrix.iloc[i, j]) > correlation_threshold:
                col_to_remove = correlation_matrix.columns[i]
                columns_to_remove.add(col_to_remove)
    
    return list(columns_to_remove)

def remove_highly_correlated_features(data, target_column, correlation_threshold=0.9):
    """
    Remove variáveis altamente correlacionadas com base em um limite.

    Args:
        data (pd.DataFrame): Dataset original.
        target_column (str): Nome da coluna alvo.
        correlation_threshold (float): Limite de correlação para exclusão de variáveis.

    Returns:
        pd.DataFrame: Dataset com variáveis correlacionadas removidas.
    """
    columns_to_remove = calculate_correlation_matrix(data, target_column, correlation_threshold)
    print(f"Variáveis removidas devido à alta correlação: {columns_to_remove}")
    return data.drop(columns=columns_to_remove)

def process_datasets(input_dir, output_dir, correlation_threshold=0.9):
    """
    Processa os datasets em uma pasta, remove variáveis correlacionadas e salva os resultados.

    Args:
        input_dir (str): Caminho do diretório de entrada.
        output_dir (str): Caminho do diretório de saída.
        correlation_threshold (float): Limite de correlação para exclusão de variáveis.
    """
    # Garante que o diretório de saída existe
    os.makedirs(output_dir, exist_ok=True)

    for filename in os.listdir(input_dir):
        if filename.endswith(".txt"):
            input_path = os.path.join(input_dir, filename)
            output_path = os.path.join(output_dir, filename)

            print(f"Processando arquivo: {input_path}")
            try:
                data = pd.read_csv(input_path, delimiter=",", skipinitialspace=True)
                target_column = data.columns[-1]

                # Remover variáveis altamente correlacionadas
                data_cleaned = remove_highly_correlated_features(data, target_column, correlation_threshold)

                # Reorganizar as colunas para manter a coluna alvo no final
                columns = [col for col in data_cleaned.columns if col != target_column] + [target_column]
                data_cleaned = data_cleaned[columns]

                data_cleaned.to_csv(output_path, sep=",", index=False)
                print(f"Arquivo processado e salvo em: {output_path}")

            except Exception as e:
                print(f"Erro ao processar {filename}: {e}")

# Diretórios de entrada e saída
input_directory = r"C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\1-tratamento-target-encoding-normalizado"
output_directory = r"C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\correlacao\1-tratamento"

# Processar arquivos removendo variáveis correlacionadas
process_datasets(input_directory, output_directory, correlation_threshold=0.9)


Processando arquivo: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\1-tratamento-target-encoding-normalizado\tratamento_china.txt
Variáveis removidas devido à alta correlação: ['Input', 'Added', 'PDR_UFP', 'NPDR_AFP', 'NPDU_UFP', 'File']
Arquivo processado e salvo em: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\correlacao\1-tratamento\tratamento_china.txt
Processando arquivo: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\1-tratamento-target-encoding-normalizado\tratamento_cocomo81.txt
Variáveis removidas devido à alta correlação: []
Arquivo processado e salvo em: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\correlacao\1-tratamento\tratamento_cocomo81.txt
Processando arquivo: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_ef

# Aplica correlação em todas as pastas em "2-geracao-variaveis"

In [5]:
import os
import pandas as pd
import numpy as np

def calculate_correlation_matrix(data, target_column, correlation_threshold=0.9):
    """
    Calcula a matriz de correlação e identifica variáveis altamente correlacionadas.

    Args:
        data (pd.DataFrame): Dataset contendo as variáveis.
        target_column (str): Nome da coluna alvo.
        correlation_threshold (float): Limite de correlação para exclusão de variáveis.

    Returns:
        list: Lista de variáveis a serem removidas.
    """
    correlation_matrix = data.drop(columns=[target_column]).corr()
    columns_to_remove = set()

    for i in range(len(correlation_matrix.columns)):
        for j in range(i):
            if abs(correlation_matrix.iloc[i, j]) > correlation_threshold:
                col_to_remove = correlation_matrix.columns[i]
                columns_to_remove.add(col_to_remove)
    
    return list(columns_to_remove)

def remove_highly_correlated_features(data, target_column, correlation_threshold=0.9):
    """
    Remove variáveis altamente correlacionadas com base em um limite.

    Args:
        data (pd.DataFrame): Dataset original.
        target_column (str): Nome da coluna alvo.
        correlation_threshold (float): Limite de correlação para exclusão de variáveis.

    Returns:
        pd.DataFrame: Dataset com variáveis correlacionadas removidas.
    """
    columns_to_remove = calculate_correlation_matrix(data, target_column, correlation_threshold)
    print(f"Variáveis removidas devido à alta correlação: {columns_to_remove}")
    return data.drop(columns=columns_to_remove)

def process_datasets(input_dir, output_dir, correlation_threshold=0.9):
    """
    Processa os datasets em uma pasta, remove variáveis correlacionadas e salva os resultados.

    Args:
        input_dir (str): Caminho do diretório de entrada.
        output_dir (str): Caminho do diretório de saída.
        correlation_threshold (float): Limite de correlação para exclusão de variáveis.
    """
    # Percorre todas as subpastas
    for root, dirs, files in os.walk(input_dir):
        for filename in files:
            if filename.endswith(".txt"):
                input_path = os.path.join(root, filename)
                
                # Recria a estrutura de subpastas na saída
                relative_path = os.path.relpath(input_path, input_dir)
                output_path = os.path.join(output_dir, relative_path)

                # Cria a pasta de saída, se necessário
                os.makedirs(os.path.dirname(output_path), exist_ok=True)

                print(f"Processando arquivo: {input_path}")
                try:
                    data = pd.read_csv(input_path, delimiter=",", skipinitialspace=True)
                    target_column = data.columns[-1]

                    # Remover variáveis altamente correlacionadas
                    data_cleaned = remove_highly_correlated_features(data, target_column, correlation_threshold)

                    # Reorganizar as colunas para manter a coluna alvo no final
                    columns = [col for col in data_cleaned.columns if col != target_column] + [target_column]
                    data_cleaned = data_cleaned[columns]

                    data_cleaned.to_csv(output_path, sep=",", index=False)
                    print(f"Arquivo processado e salvo em: {output_path}")

                except Exception as e:
                    print(f"Erro ao processar {filename}: {e}")

# Diretórios de entrada e saída
input_directory = r"C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\2-geracao-variaveis"
output_directory = r"C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\correlacao\2-geracao"

# Processar arquivos removendo variáveis correlacionadas
process_datasets(input_directory, output_directory, correlation_threshold=0.9)


Processando arquivo: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\2-geracao-variaveis\GAN-25\tratamento_china.txt
Variáveis removidas devido à alta correlação: ['Input', 'Added', 'PDR_UFP', 'NPDR_AFP', 'NPDU_UFP', 'File']
Arquivo processado e salvo em: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\correlacao\2-geracao\GAN-25\tratamento_china.txt
Processando arquivo: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\2-geracao-variaveis\GAN-25\tratamento_cocomo81.txt
Variáveis removidas devido à alta correlação: ['Generated_Var_2', 'Generated_Var_4', 'Generated_Var_3']
Arquivo processado e salvo em: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\correlacao\2-geracao\GAN-25\tratamento_cocomo81.txt
Processando arquivo: C:\Users\CALEO\OneDrive - H

# Aplica a correlação na simulação

In [6]:
import os
import pandas as pd
import numpy as np

def calculate_correlation_matrix(data, target_column, correlation_threshold=0.9):
    """
    Calcula a matriz de correlação e identifica variáveis altamente correlacionadas.

    Args:
        data (pd.DataFrame): Dataset contendo as variáveis.
        target_column (str): Nome da coluna alvo.
        correlation_threshold (float): Limite de correlação para exclusão de variáveis.

    Returns:
        list: Lista de variáveis a serem removidas.
    """
    correlation_matrix = data.drop(columns=[target_column]).corr()
    columns_to_remove = set()

    for i in range(len(correlation_matrix.columns)):
        for j in range(i):
            if abs(correlation_matrix.iloc[i, j]) > correlation_threshold:
                col_to_remove = correlation_matrix.columns[i]
                columns_to_remove.add(col_to_remove)
    
    return list(columns_to_remove)

def remove_highly_correlated_features(data, target_column, correlation_threshold=0.9):
    """
    Remove variáveis altamente correlacionadas com base em um limite.

    Args:
        data (pd.DataFrame): Dataset original.
        target_column (str): Nome da coluna alvo.
        correlation_threshold (float): Limite de correlação para exclusão de variáveis.

    Returns:
        pd.DataFrame: Dataset com variáveis correlacionadas removidas.
    """
    columns_to_remove = calculate_correlation_matrix(data, target_column, correlation_threshold)
    print(f"Variáveis removidas devido à alta correlação: {columns_to_remove}")
    return data.drop(columns=columns_to_remove)

def process_all_datasets(input_root_dir, output_root_dir, correlation_threshold=0.9):
    """
    Processa todos os datasets dentro de um diretório raiz, removendo variáveis correlacionadas.

    Args:
        input_root_dir (str): Diretório raiz de entrada contendo subpastas e arquivos.
        output_root_dir (str): Diretório raiz de saída para salvar os arquivos processados.
        correlation_threshold (float): Limite de correlação para exclusão de variáveis.
    """
    excluded_path = os.path.join(input_root_dir, "4-escolha")
    
    for root, dirs, files in os.walk(input_root_dir):
        # Pular o diretório excluído
        if excluded_path in root:
            continue
        
        for filename in files:
            if filename.endswith(".txt"):
                input_path = os.path.join(root, filename)
                
                # Recria a estrutura de subpastas na saída
                relative_path = os.path.relpath(input_path, input_root_dir)
                output_path = os.path.join(output_root_dir, relative_path)

                # Cria a pasta de saída, se necessário
                os.makedirs(os.path.dirname(output_path), exist_ok=True)

                print(f"Processando arquivo: {input_path}")
                try:
                    data = pd.read_csv(input_path, delimiter=",", skipinitialspace=True)
                    target_column = data.columns[-1]

                    # Remover variáveis altamente correlacionadas
                    data_cleaned = remove_highly_correlated_features(data, target_column, correlation_threshold)

                    # Reorganizar as colunas para manter a coluna alvo no final
                    columns = [col for col in data_cleaned.columns if col != target_column] + [target_column]
                    data_cleaned = data_cleaned[columns]

                    data_cleaned.to_csv(output_path, sep=",", index=False)
                    print(f"Arquivo processado e salvo em: {output_path}")

                except Exception as e:
                    print(f"Erro ao processar {filename}: {e}")
# Diretórios de entrada e saída
input_directory = r"C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\3-simulacao"
output_directory = r"C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\correlacao\3-simulacao"

# Processar arquivos removendo variáveis correlacionadas
process_all_datasets(input_directory, output_directory, correlation_threshold=0.9)


Processando arquivo: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\3-simulacao\1-tratamento\tratamento_china.txt
Variáveis removidas devido à alta correlação: ['Input', 'Added', 'NPDR_AFP', 'Effort', 'NPDU_UFP', 'PDR_UFP']
Arquivo processado e salvo em: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\correlacao\3-simulacao\1-tratamento\tratamento_china.txt
Processando arquivo: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\3-simulacao\1-tratamento\tratamento_cocomo81.txt
Variáveis removidas devido à alta correlação: ['loc', 'stor', 'turn', 'tool']
Arquivo processado e salvo em: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\correlacao\3-simulacao\1-tratamento\tratamento_cocomo81.txt
Processando arquivo: C:\Users\CALEO\OneDrive - Hexagon\Docum