# PCA 95% variância 

1° é aplicado ao diretório de tratamento e depois a todos os diretórios de geração de variáveis.

In [3]:
import os
import pandas as pd
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler, MinMaxScaler

def apply_pca(data, target_column, variance_ratio):
    """
    Aplica PCA para reduzir a dimensionalidade dos dados preservando uma porcentagem da variância.

    Args:
        data (pd.DataFrame): Dataset original.
        target_column (str): Nome da coluna alvo.
        variance_ratio (float): Percentual da variância a ser preservada (0-1).

    Returns:
        pd.DataFrame: Dataset com os componentes principais selecionados e a coluna alvo.
    """
    X = data.drop(columns=[target_column])
    y = data[target_column]

    # Padronizar apenas as variáveis numéricas
    numeric_columns = X.select_dtypes(include=['number']).columns
    scaler = StandardScaler()
    X_scaled = X.copy()
    X_scaled[numeric_columns] = scaler.fit_transform(X[numeric_columns])

    # Aplicar PCA para preservar a variância desejada
    pca = PCA(n_components=variance_ratio)
    X_pca = pca.fit_transform(X_scaled[numeric_columns])

    print(f"Preservando {variance_ratio * 100}% da variância: {pca.n_components_} componentes principais selecionados")

    # Criar novo DataFrame com os componentes principais
    pca_columns = [f"PCA_{i+1}" for i in range(X_pca.shape[1])]
    new_data = pd.DataFrame(X_pca, columns=pca_columns)

    # Aplicar normalização Min-Max nos componentes principais
    min_max_scaler = MinMaxScaler()
    new_data[pca_columns] = min_max_scaler.fit_transform(new_data[pca_columns])

    # Adicionar de volta colunas não numéricas e a variável alvo
    non_numeric_columns = X.select_dtypes(exclude=['number']).reset_index(drop=True)
    new_data = pd.concat([new_data, non_numeric_columns], axis=1)
    new_data[target_column] = y.values

    return new_data

def process_datasets(input_dir, output_dir, variance_ratio):
    """
    Processa os datasets em uma pasta, aplica PCA e salva os resultados.

    Args:
        input_dir (str): Caminho do diretório de entrada.
        output_dir (str): Caminho do diretório de saída.
        variance_ratio (float): Percentual da variância a ser preservada (0-1).
    """
    os.makedirs(output_dir, exist_ok=True)

    for filename in os.listdir(input_dir):
        if filename.endswith(".txt"):
            input_path = os.path.join(input_dir, filename)
            output_path = os.path.join(output_dir, filename)

            print(f"Processando arquivo: {input_path}")
            try:
                data = pd.read_csv(input_path, delimiter=",", skipinitialspace=True)
                target_column = data.columns[-1]  # Assume que a última coluna é a variável alvo

                # Aplicar PCA
                new_data = apply_pca(data, target_column, variance_ratio)

                # Salvar o novo dataset
                new_data.to_csv(output_path, sep=",", index=False)
                print(f"Arquivo processado e salvo em: {output_path}")
            except Exception as e:
                print(f"Erro ao processar {filename}: {e}")

# Diretórios de entrada e saída
input_directory = r"C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem\saida\1-tratamento-target-encoding-normalizado"
output_directory = r"C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem\saida\3-escolha-variaveis\pca\1-tratamento"

# Aplicar PCA nos arquivos
variance_ratio = 0.95  # 95% da variância
process_datasets(input_directory, output_directory, variance_ratio=variance_ratio)


Processando arquivo: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem\saida\1-tratamento-target-encoding-normalizado\tratamento_china.txt
Preservando 95.0% da variância: 9 componentes principais selecionados
Arquivo processado e salvo em: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem\saida\3-escolha-variaveis\pca\1-tratamento\tratamento_china.txt
Processando arquivo: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem\saida\1-tratamento-target-encoding-normalizado\tratamento_cocomo81.txt
Preservando 95.0% da variância: 12 componentes principais selecionados
Arquivo processado e salvo em: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem\saida\3-escolha-variaveis\pca\1-tratamento\tratamento_cocomo81.txt
Processando arquivo: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimatio

In [4]:
import os
import pandas as pd
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler, MinMaxScaler

def apply_pca(data, target_column, variance_ratio):
    """
    Aplica PCA para reduzir a dimensionalidade dos dados preservando uma porcentagem da variância.

    Args:
        data (pd.DataFrame): Dataset original.
        target_column (str): Nome da coluna alvo.
        variance_ratio (float): Percentual da variância a ser preservada (0-1).

    Returns:
        pd.DataFrame: Dataset com os componentes principais selecionados e a coluna alvo.
    """
    X = data.drop(columns=[target_column])
    y = data[target_column]

    # Padronizar apenas as variáveis numéricas
    numeric_columns = X.select_dtypes(include=['number']).columns
    scaler = StandardScaler()
    X_scaled = X.copy()
    X_scaled[numeric_columns] = scaler.fit_transform(X[numeric_columns])

    # Aplicar PCA para preservar a variância desejada
    pca = PCA(n_components=variance_ratio)
    X_pca = pca.fit_transform(X_scaled[numeric_columns])

    print(f"Preservando {variance_ratio * 100}% da variância: {pca.n_components_} componentes principais selecionados")

    # Criar novo DataFrame com os componentes principais
    pca_columns = [f"PCA_{i+1}" for i in range(X_pca.shape[1])]
    new_data = pd.DataFrame(X_pca, columns=pca_columns)

    # Aplicar normalização Min-Max nos componentes principais
    min_max_scaler = MinMaxScaler()
    new_data[pca_columns] = min_max_scaler.fit_transform(new_data[pca_columns])

    # Adicionar de volta colunas não numéricas e a variável alvo
    non_numeric_columns = X.select_dtypes(exclude=['number']).reset_index(drop=True)
    new_data = pd.concat([new_data, non_numeric_columns], axis=1)
    new_data[target_column] = y.values

    return new_data

def process_all_subfolders(input_root, output_root, variance_ratio):
    """
    Percorre todas as subpastas do diretório de entrada, aplica PCA nos arquivos e salva na mesma estrutura de subpastas.

    Args:
        input_root (str): Caminho do diretório raiz de entrada.
        output_root (str): Caminho do diretório raiz de saída.
        variance_ratio (float): Percentual da variância a ser preservada (0-1).
    """
    # Percorre todas as subpastas
    for subdir, _, files in os.walk(input_root):
        relative_path = os.path.relpath(subdir, input_root)
        output_subdir = os.path.join(output_root, relative_path)
        os.makedirs(output_subdir, exist_ok=True)

        for filename in files:
            if filename.endswith(".txt"):
                input_path = os.path.join(subdir, filename)
                output_path = os.path.join(output_subdir, filename)

                print(f"Processando arquivo: {input_path}")
                try:
                    data = pd.read_csv(input_path, delimiter=",", skipinitialspace=True)
                    target_column = data.columns[-1]  # Assume que a última coluna é a variável alvo

                    # Aplicar PCA
                    new_data = apply_pca(data, target_column, variance_ratio)

                    # Salvar o novo dataset
                    new_data.to_csv(output_path, sep=",", index=False)
                    print(f"Arquivo processado e salvo em: {output_path}")
                except Exception as e:
                    print(f"Erro ao processar {filename}: {e}")

# Diretórios de entrada e saída
input_root_directory = r"C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem\saida\2-geracao-variaveis"
output_root_directory = r"C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem\saida\3-escolha-variaveis\pca\2-geracao"

# Aplicar PCA nos arquivos
variance_ratio = 0.95  # 95% da variância
process_all_subfolders(input_root_directory, output_root_directory, variance_ratio=variance_ratio)


Processando arquivo: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem\saida\2-geracao-variaveis\2-GAN-25\tratamento_china.txt
Preservando 95.0% da variância: 10 componentes principais selecionados
Arquivo processado e salvo em: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem\saida\3-escolha-variaveis\pca\1-tratamento\2-GAN-25\tratamento_china.txt
Processando arquivo: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem\saida\2-geracao-variaveis\2-GAN-25\tratamento_cocomo81.txt
Preservando 95.0% da variância: 11 componentes principais selecionados
Arquivo processado e salvo em: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem\saida\3-escolha-variaveis\pca\1-tratamento\2-GAN-25\tratamento_cocomo81.txt
Processando arquivo: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\pro