# 25

In [1]:
import os
import pandas as pd
import math
from sklearn.feature_selection import SelectKBest, f_classif, f_regression
from sklearn.preprocessing import LabelEncoder


def apply_selectkbest(data, target_column, k):
    """
    Aplica SelectKBest para selecionar as melhores variáveis em relação à coluna alvo.

    Args:
        data (pd.DataFrame): Dataset original.
        target_column (str): Nome da coluna alvo.
        k (float or int): Porcentagem (0-1) ou número de variáveis a selecionar.

    Returns:
        pd.DataFrame: Dataset com as variáveis selecionadas e a coluna alvo.
    """
    # Se a coluna alvo for categórica, usa f_classif; caso contrário, usa f_regression
    if data[target_column].dtype == 'object':
        data[target_column] = LabelEncoder().fit_transform(data[target_column])
        score_func = f_classif
    else:
        score_func = f_regression

    # Separar variáveis independentes e dependente
    X = data.drop(columns=[target_column])
    y = data[target_column]

    # Calcular o valor de k com base na porcentagem
    if isinstance(k, float) and 0 < k <= 1:
        k = max(1, math.floor(k * X.shape[1]))

    print(f"Selecionando as top {k} variáveis...")

    # Aplicar SelectKBest
    selector = SelectKBest(score_func=score_func, k=k)
    X_new = selector.fit_transform(X, y)

    # Identificar colunas selecionadas
    selected_columns = X.columns[selector.get_support()]

    print(f"Variáveis selecionadas: {list(selected_columns)}")

    # Reconstruir o DataFrame com as variáveis selecionadas e a coluna alvo
    new_data = pd.DataFrame(X_new, columns=selected_columns)
    new_data[target_column] = y.values

    return new_data


def process_all_subfolders(input_root, output_root, k):
    """
    Processa todas as subpastas do diretório de entrada, aplica SelectKBest nos arquivos
    e salva a saída na estrutura correspondente do diretório de saída.

    Args:
        input_root (str): Caminho do diretório raiz de entrada.
        output_root (str): Caminho do diretório raiz de saída.
        k (float or int): Porcentagem ou número de variáveis a serem selecionadas.
    """
    excluded_dir = os.path.join(input_root, "4-escolha")

    for subdir, _, files in os.walk(input_root):
        # Ignorar o diretório excluído
        if excluded_dir in subdir:
            continue

        # Mantém a mesma estrutura de subpastas
        relative_path = os.path.relpath(subdir, input_root)
        output_subdir = os.path.join(output_root, relative_path)
        os.makedirs(output_subdir, exist_ok=True)

        for filename in files:
            if filename.endswith(".txt"):
                input_path = os.path.join(subdir, filename)
                output_path = os.path.join(output_subdir, filename)

                print(f"Processando arquivo: {input_path}")
                try:
                    data = pd.read_csv(input_path, delimiter=",", skipinitialspace=True)
                    target_column = data.columns[-1]  # Assume que a última coluna é a coluna alvo

                    # Aplicar SelectKBest
                    new_data = apply_selectkbest(data, target_column, k)

                    # Salvar o novo dataset
                    new_data.to_csv(output_path, sep=",", index=False)
                    print(f"Arquivo processado e salvo em: {output_path}")
                except Exception as e:
                    print(f"Erro ao processar {filename}: {e}")


# Diretórios de entrada e saída
input_root_directory = r"C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida"
output_root_directory = r"C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\selectKbest\25"

# Aplicar SelectKBest nos arquivos
top_percentage = 0.25  # 25% das variáveis
process_all_subfolders(input_root_directory, output_root_directory, k=top_percentage)


Processando arquivo: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\1-tratamento-target-encoding-normalizado\tratamento_china.txt
Selecionando as top 4 variáveis...
Variáveis selecionadas: ['AFP', 'File', 'Added', 'N_effort']
Arquivo processado e salvo em: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\selectKbest\25\1-tratamento-target-encoding-normalizado\tratamento_china.txt
Processando arquivo: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\1-tratamento-target-encoding-normalizado\tratamento_cocomo81.txt
Selecionando as top 4 variáveis...
Variáveis selecionadas: ['rely', 'data', 'modp', 'loc']
Arquivo processado e salvo em: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\selectKbest\25\1-tratamento-target-encoding-normalizado\tratamento_co

# 50

In [2]:
import os
import pandas as pd
import math
from sklearn.feature_selection import SelectKBest, f_classif, f_regression
from sklearn.preprocessing import LabelEncoder


def apply_selectkbest(data, target_column, k):
    """
    Aplica SelectKBest para selecionar as melhores variáveis em relação à coluna alvo.

    Args:
        data (pd.DataFrame): Dataset original.
        target_column (str): Nome da coluna alvo.
        k (float or int): Porcentagem (0-1) ou número de variáveis a selecionar.

    Returns:
        pd.DataFrame: Dataset com as variáveis selecionadas e a coluna alvo.
    """
    # Se a coluna alvo for categórica, usa f_classif; caso contrário, usa f_regression
    if data[target_column].dtype == 'object':
        data[target_column] = LabelEncoder().fit_transform(data[target_column])
        score_func = f_classif
    else:
        score_func = f_regression

    # Separar variáveis independentes e dependente
    X = data.drop(columns=[target_column])
    y = data[target_column]

    # Calcular o valor de k com base na porcentagem
    if isinstance(k, float) and 0 < k <= 1:
        k = max(1, math.floor(k * X.shape[1]))

    print(f"Selecionando as top {k} variáveis...")

    # Aplicar SelectKBest
    selector = SelectKBest(score_func=score_func, k=k)
    X_new = selector.fit_transform(X, y)

    # Identificar colunas selecionadas
    selected_columns = X.columns[selector.get_support()]

    print(f"Variáveis selecionadas: {list(selected_columns)}")

    # Reconstruir o DataFrame com as variáveis selecionadas e a coluna alvo
    new_data = pd.DataFrame(X_new, columns=selected_columns)
    new_data[target_column] = y.values

    return new_data


def process_all_subfolders(input_root, output_root, k):
    """
    Processa todas as subpastas do diretório de entrada, aplica SelectKBest nos arquivos
    e salva a saída na estrutura correspondente do diretório de saída.

    Args:
        input_root (str): Caminho do diretório raiz de entrada.
        output_root (str): Caminho do diretório raiz de saída.
        k (float or int): Porcentagem ou número de variáveis a serem selecionadas.
    """
    excluded_dir = os.path.join(input_root, "4-escolha")

    for subdir, _, files in os.walk(input_root):
        # Ignorar o diretório excluído
        if excluded_dir in subdir:
            continue

        # Mantém a mesma estrutura de subpastas
        relative_path = os.path.relpath(subdir, input_root)
        output_subdir = os.path.join(output_root, relative_path)
        os.makedirs(output_subdir, exist_ok=True)

        for filename in files:
            if filename.endswith(".txt"):
                input_path = os.path.join(subdir, filename)
                output_path = os.path.join(output_subdir, filename)

                print(f"Processando arquivo: {input_path}")
                try:
                    data = pd.read_csv(input_path, delimiter=",", skipinitialspace=True)
                    target_column = data.columns[-1]  # Assume que a última coluna é a coluna alvo

                    # Aplicar SelectKBest
                    new_data = apply_selectkbest(data, target_column, k)

                    # Salvar o novo dataset
                    new_data.to_csv(output_path, sep=",", index=False)
                    print(f"Arquivo processado e salvo em: {output_path}")
                except Exception as e:
                    print(f"Erro ao processar {filename}: {e}")


# Diretórios de entrada e saída
input_root_directory = r"C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida"
output_root_directory = r"C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\selectKbest\50"

# Aplicar SelectKBest nos arquivos
top_percentage = 0.50  # 50% das variáveis
process_all_subfolders(input_root_directory, output_root_directory, k=top_percentage)


Processando arquivo: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\1-tratamento-target-encoding-normalizado\tratamento_china.txt
Selecionando as top 9 variáveis...
Variáveis selecionadas: ['AFP', 'Input', 'Output', 'Enquiry', 'File', 'Interface', 'Added', 'Duration', 'N_effort']
Arquivo processado e salvo em: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\selectKbest\50\1-tratamento-target-encoding-normalizado\tratamento_china.txt
Processando arquivo: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\1-tratamento-target-encoding-normalizado\tratamento_cocomo81.txt
Selecionando as top 8 variáveis...
Variáveis selecionadas: ['rely', 'data', 'time', 'turn', 'acap', 'pcap', 'modp', 'loc']
Arquivo processado e salvo em: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem

# 70

In [None]:
import os
import pandas as pd
import math
from sklearn.feature_selection import SelectKBest, f_classif, f_regression
from sklearn.preprocessing import LabelEncoder


def apply_selectkbest(data, target_column, k):
    """
    Aplica SelectKBest para selecionar as melhores variáveis em relação à coluna alvo.

    Args:
        data (pd.DataFrame): Dataset original.
        target_column (str): Nome da coluna alvo.
        k (float or int): Porcentagem (0-1) ou número de variáveis a selecionar.

    Returns:
        pd.DataFrame: Dataset com as variáveis selecionadas e a coluna alvo.
    """
    # Se a coluna alvo for categórica, usa f_classif; caso contrário, usa f_regression
    if data[target_column].dtype == 'object':
        data[target_column] = LabelEncoder().fit_transform(data[target_column])
        score_func = f_classif
    else:
        score_func = f_regression

    # Separar variáveis independentes e dependente
    X = data.drop(columns=[target_column])
    y = data[target_column]

    # Calcular o valor de k com base na porcentagem
    if isinstance(k, float) and 0 < k <= 1:
        k = max(1, math.floor(k * X.shape[1]))

    print(f"Selecionando as top {k} variáveis...")

    # Aplicar SelectKBest
    selector = SelectKBest(score_func=score_func, k=k)
    X_new = selector.fit_transform(X, y)

    # Identificar colunas selecionadas
    selected_columns = X.columns[selector.get_support()]

    print(f"Variáveis selecionadas: {list(selected_columns)}")

    # Reconstruir o DataFrame com as variáveis selecionadas e a coluna alvo
    new_data = pd.DataFrame(X_new, columns=selected_columns)
    new_data[target_column] = y.values

    return new_data


def process_all_subfolders(input_root, output_root, k):
    """
    Processa todas as subpastas do diretório de entrada, aplica SelectKBest nos arquivos
    e salva a saída na estrutura correspondente do diretório de saída.

    Args:
        input_root (str): Caminho do diretório raiz de entrada.
        output_root (str): Caminho do diretório raiz de saída.
        k (float or int): Porcentagem ou número de variáveis a serem selecionadas.
    """
    excluded_dir = os.path.join(input_root, "4-escolha")

    for subdir, _, files in os.walk(input_root):
        # Ignorar o diretório excluído
        if excluded_dir in subdir:
            continue

        # Mantém a mesma estrutura de subpastas
        relative_path = os.path.relpath(subdir, input_root)
        output_subdir = os.path.join(output_root, relative_path)
        os.makedirs(output_subdir, exist_ok=True)

        for filename in files:
            if filename.endswith(".txt"):
                input_path = os.path.join(subdir, filename)
                output_path = os.path.join(output_subdir, filename)

                print(f"Processando arquivo: {input_path}")
                try:
                    data = pd.read_csv(input_path, delimiter=",", skipinitialspace=True)
                    target_column = data.columns[-1]  # Assume que a última coluna é a coluna alvo

                    # Aplicar SelectKBest
                    new_data = apply_selectkbest(data, target_column, k)

                    # Salvar o novo dataset
                    new_data.to_csv(output_path, sep=",", index=False)
                    print(f"Arquivo processado e salvo em: {output_path}")
                except Exception as e:
                    print(f"Erro ao processar {filename}: {e}")


# Diretórios de entrada e saída
input_root_directory = r"C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida"
output_root_directory = r"C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\selectKbest\75"

# Aplicar SelectKBest nos arquivos
top_percentage = 0.75  # 75% das variáveis
process_all_subfolders(input_root_directory, output_root_directory, k=top_percentage)


# -=========================================================

In [6]:
import os
import pandas as pd
import math
from sklearn.feature_selection import SelectKBest, f_classif, f_regression
from sklearn.preprocessing import LabelEncoder


def apply_selectkbest(data, target_column, k):
    """
    Aplica SelectKBest para selecionar as melhores variáveis em relação à coluna alvo.

    Args:
        data (pd.DataFrame): Dataset original.
        target_column (str): Nome da coluna alvo.
        k (float or int): Porcentagem (0-1) ou número de variáveis a selecionar.

    Returns:
        pd.DataFrame: Dataset com as variáveis selecionadas e a coluna alvo.
    """
    # Se a coluna alvo for categórica, usa f_classif; caso contrário, usa f_regression
    if data[target_column].dtype == 'object':
        data[target_column] = LabelEncoder().fit_transform(data[target_column])
        score_func = f_classif
    else:
        score_func = f_regression

    # Separar variáveis independentes e dependente
    X = data.drop(columns=[target_column])
    y = data[target_column]

    # Calcular o valor de k com base na porcentagem
    if isinstance(k, float) and 0 < k <= 1:
        k = max(1, math.floor(k * X.shape[1]))

    print(f"Selecionando as top {k} variáveis...")

    # Aplicar SelectKBest
    selector = SelectKBest(score_func=score_func, k=k)
    X_new = selector.fit_transform(X, y)

    # Identificar colunas selecionadas
    selected_columns = X.columns[selector.get_support()]

    print(f"Variáveis selecionadas: {list(selected_columns)}")

    # Reconstruir o DataFrame com as variáveis selecionadas e a coluna alvo
    new_data = pd.DataFrame(X_new, columns=selected_columns)
    new_data[target_column] = y.values

    return new_data


def process_all_subfolders(input_root, output_root, k):
    """
    Processa todas as subpastas do diretório de entrada, aplica SelectKBest nos arquivos
    e salva a saída na estrutura correspondente do diretório de saída.

    Args:
        input_root (str): Caminho do diretório raiz de entrada.
        output_root (str): Caminho do diretório raiz de saída.
        k (float or int): Porcentagem ou número de variáveis a serem selecionadas.
    """
    for subdir, _, files in os.walk(input_root):
        # Mantém a mesma estrutura de subpastas
        relative_path = os.path.relpath(subdir, input_root)
        output_subdir = os.path.join(output_root, relative_path)
        os.makedirs(output_subdir, exist_ok=True)

        for filename in files:
            if filename.endswith(".txt"):
                input_path = os.path.join(subdir, filename)
                output_path = os.path.join(output_subdir, filename)

                print(f"Processando arquivo: {input_path}")
                try:
                    data = pd.read_csv(input_path, delimiter=",", skipinitialspace=True)
                    target_column = data.columns[-1]  # Assume que a última coluna é a coluna alvo

                    # Aplicar SelectKBest
                    new_data = apply_selectkbest(data, target_column, k)

                    # Salvar o novo dataset
                    new_data.to_csv(output_path, sep=",", index=False)
                    print(f"Arquivo processado e salvo em: {output_path}")
                except Exception as e:
                    print(f"Erro ao processar {filename}: {e}")


# Diretórios de entrada e saída
input_root_directory = r"C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem\saida\2-geracao-variaveis"
output_root_directory = r"C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem\saida\3-escolha-variaveis\selectKbest\2-geracao\25"

# Aplicar SelectKBest nos arquivos
top_percentage = 0.25  # 25% das variáveis
process_all_subfolders(input_root_directory, output_root_directory, k=top_percentage)


Processando arquivo: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem\saida\2-geracao-variaveis\2-GAN-25\tratamento_china.txt
Selecionando as top 5 variáveis...
Variáveis selecionadas: ['AFP', 'Input', 'File', 'Added', 'N_effort']
Arquivo processado e salvo em: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem\saida\3-escolha-variaveis\selectKbest\2-geracao\25\2-GAN-25\tratamento_china.txt
Processando arquivo: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem\saida\2-geracao-variaveis\2-GAN-25\tratamento_cocomo81.txt
Selecionando as top 5 variáveis...
Variáveis selecionadas: ['data', 'loc', 'Generated_Var_1', 'Generated_Var_2', 'Generated_Var_3']
Arquivo processado e salvo em: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem\saida\3-escolha-variaveis\selectKbest\2-geracao\25\2-GAN-25\tratamento_coco

In [7]:
import os
import pandas as pd
import math
from sklearn.feature_selection import SelectKBest, f_classif, f_regression
from sklearn.preprocessing import LabelEncoder


def apply_selectkbest(data, target_column, k):
    """
    Aplica SelectKBest para selecionar as melhores variáveis em relação à coluna alvo.

    Args:
        data (pd.DataFrame): Dataset original.
        target_column (str): Nome da coluna alvo.
        k (float or int): Porcentagem (0-1) ou número de variáveis a selecionar.

    Returns:
        pd.DataFrame: Dataset com as variáveis selecionadas e a coluna alvo.
    """
    # Se a coluna alvo for categórica, usa f_classif; caso contrário, usa f_regression
    if data[target_column].dtype == 'object':
        data[target_column] = LabelEncoder().fit_transform(data[target_column])
        score_func = f_classif
    else:
        score_func = f_regression

    # Separar variáveis independentes e dependente
    X = data.drop(columns=[target_column])
    y = data[target_column]

    # Calcular o valor de k com base na porcentagem
    if isinstance(k, float) and 0 < k <= 1:
        k = max(1, math.floor(k * X.shape[1]))

    print(f"Selecionando as top {k} variáveis...")

    # Aplicar SelectKBest
    selector = SelectKBest(score_func=score_func, k=k)
    X_new = selector.fit_transform(X, y)

    # Identificar colunas selecionadas
    selected_columns = X.columns[selector.get_support()]

    print(f"Variáveis selecionadas: {list(selected_columns)}")

    # Reconstruir o DataFrame com as variáveis selecionadas e a coluna alvo
    new_data = pd.DataFrame(X_new, columns=selected_columns)
    new_data[target_column] = y.values

    return new_data


def process_all_subfolders(input_root, output_root, k):
    """
    Processa todas as subpastas do diretório de entrada, aplica SelectKBest nos arquivos
    e salva a saída na estrutura correspondente do diretório de saída.

    Args:
        input_root (str): Caminho do diretório raiz de entrada.
        output_root (str): Caminho do diretório raiz de saída.
        k (float or int): Porcentagem ou número de variáveis a serem selecionadas.
    """
    for subdir, _, files in os.walk(input_root):
        # Mantém a mesma estrutura de subpastas
        relative_path = os.path.relpath(subdir, input_root)
        output_subdir = os.path.join(output_root, relative_path)
        os.makedirs(output_subdir, exist_ok=True)

        for filename in files:
            if filename.endswith(".txt"):
                input_path = os.path.join(subdir, filename)
                output_path = os.path.join(output_subdir, filename)

                print(f"Processando arquivo: {input_path}")
                try:
                    data = pd.read_csv(input_path, delimiter=",", skipinitialspace=True)
                    target_column = data.columns[-1]  # Assume que a última coluna é a coluna alvo

                    # Aplicar SelectKBest
                    new_data = apply_selectkbest(data, target_column, k)

                    # Salvar o novo dataset
                    new_data.to_csv(output_path, sep=",", index=False)
                    print(f"Arquivo processado e salvo em: {output_path}")
                except Exception as e:
                    print(f"Erro ao processar {filename}: {e}")


# Diretórios de entrada e saída
input_root_directory = r"C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem\saida\2-geracao-variaveis"
output_root_directory = r"C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem\saida\3-escolha-variaveis\selectKbest\2-geracao\50"

# Aplicar SelectKBest nos arquivos
top_percentage = 0.50  # 50% das variáveis
process_all_subfolders(input_root_directory, output_root_directory, k=top_percentage)


Processando arquivo: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem\saida\2-geracao-variaveis\2-GAN-25\tratamento_china.txt
Selecionando as top 11 variáveis...
Variáveis selecionadas: ['AFP', 'Input', 'Output', 'Enquiry', 'File', 'Interface', 'Added', 'PDR_UFP', 'Duration', 'N_effort', 'Generated_Var_3']
Arquivo processado e salvo em: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem\saida\3-escolha-variaveis\selectKbest\2-geracao\50\2-GAN-25\tratamento_china.txt
Processando arquivo: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem\saida\2-geracao-variaveis\2-GAN-25\tratamento_cocomo81.txt
Selecionando as top 10 variáveis...
Variáveis selecionadas: ['rely', 'data', 'turn', 'pcap', 'modp', 'loc', 'Generated_Var_1', 'Generated_Var_2', 'Generated_Var_3', 'Generated_Var_4']
Arquivo processado e salvo em: C:\Users\CALEO\OneDrive - Hexagon\Documents

In [8]:
import os
import pandas as pd
import math
from sklearn.feature_selection import SelectKBest, f_classif, f_regression
from sklearn.preprocessing import LabelEncoder


def apply_selectkbest(data, target_column, k):
    """
    Aplica SelectKBest para selecionar as melhores variáveis em relação à coluna alvo.

    Args:
        data (pd.DataFrame): Dataset original.
        target_column (str): Nome da coluna alvo.
        k (float or int): Porcentagem (0-1) ou número de variáveis a selecionar.

    Returns:
        pd.DataFrame: Dataset com as variáveis selecionadas e a coluna alvo.
    """
    # Se a coluna alvo for categórica, usa f_classif; caso contrário, usa f_regression
    if data[target_column].dtype == 'object':
        data[target_column] = LabelEncoder().fit_transform(data[target_column])
        score_func = f_classif
    else:
        score_func = f_regression

    # Separar variáveis independentes e dependente
    X = data.drop(columns=[target_column])
    y = data[target_column]

    # Calcular o valor de k com base na porcentagem
    if isinstance(k, float) and 0 < k <= 1:
        k = max(1, math.floor(k * X.shape[1]))

    print(f"Selecionando as top {k} variáveis...")

    # Aplicar SelectKBest
    selector = SelectKBest(score_func=score_func, k=k)
    X_new = selector.fit_transform(X, y)

    # Identificar colunas selecionadas
    selected_columns = X.columns[selector.get_support()]

    print(f"Variáveis selecionadas: {list(selected_columns)}")

    # Reconstruir o DataFrame com as variáveis selecionadas e a coluna alvo
    new_data = pd.DataFrame(X_new, columns=selected_columns)
    new_data[target_column] = y.values

    return new_data


def process_all_subfolders(input_root, output_root, k):
    """
    Processa todas as subpastas do diretório de entrada, aplica SelectKBest nos arquivos
    e salva a saída na estrutura correspondente do diretório de saída.

    Args:
        input_root (str): Caminho do diretório raiz de entrada.
        output_root (str): Caminho do diretório raiz de saída.
        k (float or int): Porcentagem ou número de variáveis a serem selecionadas.
    """
    for subdir, _, files in os.walk(input_root):
        # Mantém a mesma estrutura de subpastas
        relative_path = os.path.relpath(subdir, input_root)
        output_subdir = os.path.join(output_root, relative_path)
        os.makedirs(output_subdir, exist_ok=True)

        for filename in files:
            if filename.endswith(".txt"):
                input_path = os.path.join(subdir, filename)
                output_path = os.path.join(output_subdir, filename)

                print(f"Processando arquivo: {input_path}")
                try:
                    data = pd.read_csv(input_path, delimiter=",", skipinitialspace=True)
                    target_column = data.columns[-1]  # Assume que a última coluna é a coluna alvo

                    # Aplicar SelectKBest
                    new_data = apply_selectkbest(data, target_column, k)

                    # Salvar o novo dataset
                    new_data.to_csv(output_path, sep=",", index=False)
                    print(f"Arquivo processado e salvo em: {output_path}")
                except Exception as e:
                    print(f"Erro ao processar {filename}: {e}")


# Diretórios de entrada e saída
input_root_directory = r"C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem\saida\2-geracao-variaveis"
output_root_directory = r"C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem\saida\3-escolha-variaveis\selectKbest\2-geracao\75"

# Aplicar SelectKBest nos arquivos
top_percentage = 0.75  # 75% das variáveis
process_all_subfolders(input_root_directory, output_root_directory, k=top_percentage)


Processando arquivo: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem\saida\2-geracao-variaveis\2-GAN-25\tratamento_china.txt
Selecionando as top 16 variáveis...
Variáveis selecionadas: ['AFP', 'Input', 'Output', 'Enquiry', 'File', 'Interface', 'Added', 'PDR_AFP', 'PDR_UFP', 'NPDR_AFP', 'NPDU_UFP', 'Resource', 'Duration', 'N_effort', 'Generated_Var_2', 'Generated_Var_3']
Arquivo processado e salvo em: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem\saida\3-escolha-variaveis\selectKbest\2-geracao\75\2-GAN-25\tratamento_china.txt
Processando arquivo: C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem\saida\2-geracao-variaveis\2-GAN-25\tratamento_cocomo81.txt
Selecionando as top 15 variáveis...
Variáveis selecionadas: ['rely', 'data', 'time', 'stor', 'turn', 'acap', 'pcap', 'vexp', 'lexp', 'modp', 'loc', 'Generated_Var_1', 'Generated_Var_2', 'Gener