In [11]:
import os

def extract_arff_variables_and_data(directory_path, output_directory):
    if not os.path.exists(output_directory):
        os.makedirs(output_directory)

    arff_data = {}

    # Itera sobre todos os arquivos do diretório
    for filename in os.listdir(directory_path):
        if filename.endswith('.arff'):
            file_path = os.path.join(directory_path, filename)
            with open(file_path, 'r') as file:
                lines = file.readlines()

                # Captura as variáveis antes de @data
                variables = []
                for line in lines:
                    line = line.strip()
                    if line.lower().startswith('@attribute'):
                        # Extrai o nome da variável
                        parts = line.split()
                        if len(parts) > 1:
                            variables.append(parts[1])
                    elif line.lower().startswith('@data'):
                        break

                # Encontrar a linha onde começa o @data
                data_index = next((i for i, line in enumerate(lines) if '@data' in line.lower()), None)
                data_content = lines[data_index + 1:] if data_index is not None else []

                # Organiza os dados em uma lista
                organized_data = [",".join(variables)] + [line.strip() for line in data_content if line.strip()]
                arff_data[filename] = organized_data

                # Salva em um arquivo TXT
                output_file_path = os.path.join(output_directory, f"{os.path.splitext(filename)[0]}.txt")
                with open(output_file_path, 'w') as output_file:
                    for line in organized_data:
                        output_file.write(line + "\n")

    return arff_data

# Caminho para o diretório de entrada e saída
input_directory_path = '../datasets'
output_directory_path = './output_pre_processamento/'
arff_data = extract_arff_variables_and_data(input_directory_path, output_directory_path)

# Exibir o conteúdo e a quantidade de arquivos lidos
cont = len(arff_data)
print(f"Quantidade de arquivos lidos e salvos: {cont}")

Quantidade de arquivos lidos e salvos: 5


# China

O dataset fornecido contém 499 registros e 19 variáveis diferentes. Cada registro corresponde a uma observação do sistema, detalhando características relacionadas ao desenvolvimento de software. Abaixo está a descrição das variáveis:

1. **ID**: Um identificador numérico único para cada instância no dataset. Ele é usado para diferenciar as observações.

2. **AFP**: "Adjusted Function Points" – Refere-se aos pontos de função ajustados, que representam uma métrica de complexidade funcional de software, levando em consideração fatores como entradas, saídas, consultas, arquivos internos e interfaces.

3. **Input**: Número de entradas fornecidas para o sistema. Estas entradas podem ser formulários, comandos ou outras formas de dados recebidos.

4. **Output**: Número de saídas geradas pelo sistema, como relatórios, mensagens ou outros dados fornecidos aos usuários.

5. **Enquiry**: Quantidade de consultas ou buscas que o sistema é capaz de realizar. Estas são interações que resultam na recuperação de informações sem modificar o sistema.

6. **File**: Número de arquivos lógicos internos que o sistema gerencia. Isso inclui conjuntos de dados internos ou bancos de dados.

7. **Interface**: Número de interfaces externas, como APIs ou conexões com outros sistemas.

8. **Added**: Número de funcionalidades ou módulos adicionados ao sistema durante o desenvolvimento.

9. **Changed**: Número de funcionalidades ou módulos alterados. Esta variável captura as modificações feitas durante a atualização ou manutenção do sistema.

10. **Deleted**: Número de funcionalidades ou módulos removidos do sistema, indicando a limpeza ou simplificação da funcionalidade.

11. **PDR_AFP**: "Productivity Delivery Rate – Adjusted Function Points" – Refere-se à taxa de produtividade medida em relação aos pontos de função ajustados.

12. **PDR_UFP**: "Productivity Delivery Rate – Unadjusted Function Points" – Taxa de produtividade com base nos pontos de função não ajustados. Isso mede a produtividade sem ajustes de complexidade.

13. **NPDR_AFP**: "Normalized Productivity Delivery Rate – Adjusted Function Points" – Taxa de produtividade normalizada com base nos pontos de função ajustados, levando em consideração fatores de normalização.

14. **NPDU_UFP**: "Normalized Productivity Delivery Rate – Unadjusted Function Points" – Taxa de produtividade normalizada com pontos de função não ajustados.

15. **Resource**: Número de recursos ou pessoas envolvidas no desenvolvimento ou manutenção do sistema.

16. **Dev.Type**: Tipo de desenvolvimento, representado por um valor numérico. Isso pode indicar diferentes categorias, como desenvolvimento de novo software, manutenção ou aprimoramento.

17. **Duration**: Duração do projeto em unidades de tempo, como semanas ou meses. Refere-se ao tempo total gasto na realização do desenvolvimento ou manutenção.

18. **N_effort**: Esforço normalizado requerido para o projeto, representado em unidades de trabalho, como horas ou dias-homem.

19. **Effort**: Esforço total gasto no projeto, em unidades de trabalho, sem normalização.

### Descrição Geral:
Este dataset é útil para estudos de estimativa de esforço em projetos de software, uma vez que oferece uma ampla gama de métricas que podem ser usadas para entender a complexidade do software e os fatores que influenciam o esforço necessário para desenvolvê-lo ou mantê-lo. As variáveis cobrem aspectos tanto do desenvolvimento quanto da manutenção, incluindo a contagem de pontos de função (uma métrica amplamente utilizada na engenharia de software) e a quantidade de esforço e recursos envolvidos.

# Cocomo81

O dataset apresentado é uma versão em formato ARFF do conjunto de dados COCOMO81, que é utilizado para estimativas de esforço em projetos de software. Ele é baseado no modelo COCOMO (Constructive Cost Model), desenvolvido por Barry Boehm em 1981, e utilizado para prever o esforço, o tempo e o custo de desenvolvimento de projetos de software com base no tamanho estimado do projeto em KSLOC (mil linhas de código-fonte) e em vários fatores de esforço.

Aqui está a descrição das variáveis presentes:

1. **rely**: Confiabilidade requerida do software. Este fator mede a importância da confiabilidade do software e quanto ela impacta no esforço necessário. 

2. **data**: Tamanho do banco de dados. Refere-se ao tamanho dos dados a serem manipulados pelo sistema, o que pode influenciar diretamente o esforço de desenvolvimento.

3. **cplx**: Complexidade do processo. Representa a complexidade das funções e dos processos que o sistema precisa realizar. Um sistema com processos mais complexos tende a exigir mais esforço.

4. **time**: Restrição de tempo da CPU. Indica o grau de exigência quanto ao uso da CPU. Uma maior restrição de tempo geralmente aumenta o esforço necessário.

5. **stor**: Restrição de memória principal. Representa limitações na memória principal disponível, o que pode aumentar a complexidade do desenvolvimento e, consequentemente, o esforço necessário.

6. **virt**: Volatilidade da máquina. Mede a frequência de mudanças no ambiente de hardware em que o software será executado, que pode exigir ajustes no desenvolvimento e aumentar o esforço.

7. **turn**: Tempo de resposta. Refere-se ao tempo que o sistema deve demorar para responder. Exigências de menor tempo de resposta aumentam o esforço necessário para desenvolver o sistema.

8. **acap**: Capacidade dos analistas. Representa o nível de competência dos analistas de sistemas envolvidos no projeto. Analistas mais capacitados podem reduzir o esforço necessário.

9. **aexp**: Experiência com a aplicação. Indica o grau de experiência dos desenvolvedores com o tipo de aplicação sendo desenvolvido. Maior experiência com a aplicação tende a reduzir o esforço.

10. **pcap**: Capacidade dos programadores. Representa a habilidade técnica dos programadores, onde uma maior capacidade técnica pode diminuir o esforço.

11. **vexp**: Experiência com máquinas virtuais. Mede a experiência da equipe com o uso de máquinas virtuais, o que pode facilitar o desenvolvimento e reduzir o esforço.

12. **lexp**: Experiência com linguagens. Indica o nível de familiaridade da equipe com a linguagem de programação utilizada. Uma equipe experiente na linguagem utilizada tende a exigir menos esforço.

13. **modp**: Práticas de programação modernas. Refere-se ao uso de práticas de programação modernas, como metodologias ágeis e outras técnicas que podem otimizar o desenvolvimento.

14. **tool**: Uso de ferramentas de software. Mede o grau de utilização de ferramentas de suporte ao desenvolvimento, como IDEs, sistemas de controle de versão e ferramentas de automação, que podem diminuir o esforço necessário.

15. **sced**: Restrições de cronograma. Representa o grau de restrição temporal do projeto, onde prazos mais apertados podem aumentar o esforço de desenvolvimento.

16. **loc**: Linhas de Código (LOC). Representa o tamanho do sistema em termos de quantidade de linhas de código. Geralmente, quanto maior o sistema, maior o esforço necessário.

17. **actual**: Esforço real (em meses-homem). É a variável alvo, que representa o esforço total necessário para desenvolver o software, levando em conta todas as variáveis e fatores acima. 

O modelo COCOMO usa essas variáveis para calcular o esforço total necessário para o desenvolvimento de software, considerando tanto o tamanho do software (loc) quanto as variáveis que influenciam direta ou indiretamente o esforço (como a capacidade da equipe, a complexidade do software, e as restrições técnicas e de prazo).

# Desharnais


O dataset apresentado é utilizado para estimativa de esforço em projetos de desenvolvimento de software, com informações sobre características do projeto e do time de desenvolvimento. Aqui está uma descrição detalhada das variáveis:

1. **TeamExp**: Experiência da equipe, medida em uma escala numérica, representando o nível de experiência do time de desenvolvimento. Valores mais altos indicam uma equipe com mais experiência, o que pode impactar positivamente no tempo e na qualidade do desenvolvimento.

2. **ManagerExp**: Experiência do gerente, também em uma escala numérica. Reflete o nível de experiência do gerente de projeto, o que pode influenciar o gerenciamento do projeto e a eficiência da equipe.

3. **YearEnd**: Ano de finalização do projeto. Indica o ano em que o projeto foi concluído, útil para identificar tendências temporais ou mudanças nas práticas de desenvolvimento ao longo dos anos.

4. **Transactions**: Número de transações do sistema. Representa a quantidade de transações ou operações principais que o sistema precisa realizar. Mais transações geralmente indicam uma maior complexidade do sistema.

5. **Entities**: Número de entidades do sistema. Refere-se à quantidade de entidades (ou elementos de dados principais) que o sistema precisa gerenciar, podendo influenciar a complexidade e o esforço necessário para o desenvolvimento.

6. **PointsAdjust**: Pontos ajustados. Este valor ajusta os pontos de função, levando em consideração características específicas do sistema. Pontos de função ajustados são uma métrica comum para medir o tamanho funcional do software.

7. **Envergure**: Tamanho ou abrangência do sistema. Representa uma métrica geral do tamanho do projeto, que pode influenciar diretamente o esforço necessário para o desenvolvimento.

8. **Language**: Linguagem de programação utilizada. Este atributo é categórico, com três valores possíveis (1, 2 ou 3), representando diferentes linguagens. Diferentes linguagens de programação podem impactar a produtividade da equipe e o esforço necessário.

9. **Effort**: Esforço total do projeto, medido em horas. Este é o valor alvo, representando o esforço real necessário para completar o projeto. É utilizado como referência para prever o esforço em projetos futuros com características semelhantes.

Esse dataset é útil para desenvolver modelos de aprendizado de máquina que busquem prever o esforço (Effort) de desenvolvimento com base nas variáveis de entrada.

# ISBSG

O dataset é uma coleção de projetos de desenvolvimento de software, com informações que podem ser usadas para modelar e prever o esforço necessário para projetos futuros. A seguir, estão descritas todas as variáveis presentes no dataset:

1. **FunctionalSize**: Tamanho funcional do software, medido em pontos de função ou alguma métrica equivalente. Reflete a complexidade funcional do sistema, que pode afetar o esforço necessário.

2. **ValueAdjustmentFactor**: Fator de ajuste de valor, um coeficiente usado para ajustar o tamanho funcional do projeto com base em fatores específicos do ambiente ou do projeto, como complexidade técnica ou requisitos não funcionais.

3. **ProjectElapsedTime**: Tempo decorrido do projeto, medido em algum período (meses, anos, etc.). Refere-se à duração total do projeto, desde o início até a conclusão.

4. **DevelopmentType**: Tipo de desenvolvimento, com valores categóricos como "Enhancement" (melhoria) ou "New_Development" (novo desenvolvimento). Indica se o projeto é uma melhoria de um sistema existente ou o desenvolvimento de um novo sistema.

5. **BusinessAreaType**: Área de negócios em que o software será utilizado, como "Banking" (bancos) ou "Telecommunications" (telecomunicações). Pode influenciar os requisitos do projeto e a complexidade.

6. **ClientServer**: Um valor categórico indicando se o projeto segue uma arquitetura cliente-servidor ("Yes" ou "No"). A arquitetura pode ter um impacto no esforço de desenvolvimento.

7. **DevelopmentPlatform**: Plataforma de desenvolvimento, com valores como "MF" (mainframe), "PC" (computador pessoal), "Multi" (plataforma múltipla) ou "MR" (sistema misto). Indica a tecnologia ou plataforma em que o software está sendo desenvolvido.

8. **LanguageType**: Tipo de linguagem de programação usada no projeto, com valores como "3GL" (terceira geração de linguagens) ou "4GL" (quarta geração de linguagens). A escolha da linguagem pode afetar a produtividade e o esforço necessário.

9. **FirstOS**: Primeiro sistema operacional em que o software será executado, com valores como "Unix", "Mainframe" ou "Windows". O sistema operacional pode influenciar as decisões de design e o esforço de desenvolvimento.

10. **MaxTeamSize**: Tamanho máximo da equipe de desenvolvimento durante o projeto, medido em número de membros. Tamanhos de equipe maiores podem indicar projetos mais complexos ou a necessidade de mais coordenação.

11. **NormalisedWorkEffortLevel1**: Esforço de trabalho normalizado em algum nível (nível 1), medido em horas, dias, ou outro período de tempo. Representa o esforço necessário para concluir o projeto, ajustado para fatores de normalização.

Esse dataset é útil para análise de projetos de software, ajudando na previsão de esforço e planejamento de recursos com base em características específicas do projeto.

# Maxwell

O dataset é uma coleção de projetos de desenvolvimento de software, contendo diversas características técnicas e organizacionais que influenciam o esforço necessário para concluir cada projeto. Aqui estão as descrições das variáveis:

1. **size_D**: Tamanho do software, medido em unidades numéricas, como linhas de código ou pontos de função. Reflete a complexidade e a escala do projeto.

2. **duration_D**: Duração do projeto, em algum período (meses ou anos). Indica quanto tempo levou para completar o projeto.

3. **app**: Tipo de aplicação. Os valores possíveis incluem:
   - **InfServ**: Serviços de informação
   - **TransPro**: Processamento de transações
   - **CustServ**: Serviços ao cliente
   - **ProdCont**: Controle de produção
   - **MIS**: Sistemas de informação gerencial

4. **har**: Tipo de hardware utilizado no projeto. Os valores possíveis incluem:
   - **PC**: Computador pessoal
   - **Mainfrm**: Mainframe
   - **Multi**: Múltiplas plataformas
   - **Mini**: Computador de médio porte
   - **Network**: Rede

5. **dba**: Tipo de banco de dados usado. Os valores possíveis incluem:
   - **Relatnl**: Banco de dados relacional
   - **Sequential**: Banco de dados sequencial
   - **None**: Sem banco de dados
   - **Other**: Outros tipos de banco de dados

6. **ifc**: Tipo de interface de usuário. Os valores possíveis são:
   - **GUI**: Interface gráfica de usuário
   - **TextUI**: Interface de texto

7. **source**: Origem do desenvolvimento. Os valores possíveis incluem:
   - **Outsrced**: Projeto terceirizado
   - **Inhouse**: Desenvolvido internamente

8. **nlan**: Número de linguagens de programação usadas no projeto. Os valores possíveis são: 1, 2, 3 ou 4.

9. **telonuse**: Uso do Telon (uma ferramenta de automação de software). Os valores possíveis são:
   - **No**: Não utilizado
   - **Yes**: Utilizado

10-24. **t01** a **t15**: Fatores técnicos ou de complexidade do projeto, com valores entre 1 e 5. Esses atributos avaliam a complexidade técnica e outros aspectos qualitativos que podem influenciar o esforço de desenvolvimento.

25. **effort_D**: Esforço necessário para completar o projeto, medido em unidades numéricas (como horas de trabalho ou dias-homem). Este é o valor de saída que geralmente se deseja prever.

O dataset pode ser usado para modelar o esforço necessário para diferentes projetos de software com base em características específicas, facilitando a gestão e o planejamento de recursos.

# Remove valores faltantes

In [2]:
import os
import pandas as pd

def handle_missing_values_in_txt(directory_path):
    processed_data = {}

    # Diretório para salvar os arquivos processados
    processed_output_directory = os.path.join(directory_path, '1_handle_missing_values/')
    if not os.path.exists(processed_output_directory):
        os.makedirs(processed_output_directory)

    # Itera sobre todos os arquivos no diretório
    for filename in os.listdir(directory_path):
        if filename.endswith('.txt'):
            file_path = os.path.join(directory_path, filename)

            # Lê o arquivo TXT em um DataFrame, tratando "?" como valores faltantes
            df = pd.read_csv(file_path, delimiter=',', skipinitialspace=True, na_values=['?'])

            # Identifica e trata valores faltantes
            for column in df.columns:
                if df[column].dtype == 'object' or df[column].nunique() < 10:  # Assume valores categóricos
                    # Forward fill para colunas categóricas
                    df[column].fillna(method='ffill', inplace=True)
                else:
                    # Média para colunas numéricas
                    df[column].fillna(df[column].mean(), inplace=True)

            # Salva o DataFrame processado em um novo arquivo TXT
            processed_file_path = os.path.join(processed_output_directory, f"processed_{filename}")
            df.to_csv(processed_file_path, index=False, sep=',')

            # Adiciona os dados processados ao dicionário
            processed_data[filename] = df

    return processed_data

# Caminho para o diretório com os arquivos TXT
directory_path = 'output_pre_processamento'
processed_txt_data = handle_missing_values_in_txt(directory_path)

# Exibir os dados processados
cont = len(processed_txt_data)
for filename, df in processed_txt_data.items():
    print(f"Conteúdo processado de {filename}:")
    print(df.head())
    print("\n" + "="*50 + "\n")

print(f"Quantidade de arquivos processados: {cont}")


Conteúdo processado de isbsg.txt:
   FunctionalSize  ValueAdjustmentFactor  ProjectElapsedTime  DevelopmentType  \
0               3               1.090000            0.000000      Enhancement   
1             620               1.037937            7.000000  New_Development   
2             730               1.140000            6.042686      Enhancement   
3             114               1.180000            6.042686      Enhancement   
4             460               1.000000            4.000000      Enhancement   

  BusinessAreaType ClientServer DevelopmentPlatform LanguageType FirstOS  \
0              NaN          Yes                 NaN          NaN     NaN   
1              NaN          Yes                  MF          3GL    Unix   
2              NaN          Yes                  MF          3GL    Unix   
3              NaN          Yes                  MF          3GL    Unix   
4              NaN          Yes                  MF          3GL    Unix   

   MaxTeamSize  Normal

  df[column].fillna(method='ffill', inplace=True)
  df[column].fillna(method='ffill', inplace=True)
  df[column].fillna(method='ffill', inplace=True)
  df[column].fillna(method='ffill', inplace=True)
  df[column].fillna(method='ffill', inplace=True)


# Transforma valores categóricos em numéricos

In [3]:
import os
from sklearn.preprocessing import LabelEncoder

def load_cleaned_txt_files(directory_path):
    """
    Carrega arquivos TXT limpos e organiza os dados em um dicionário.
    
    Args:
        directory_path (str): Caminho para o diretório com os arquivos TXT.
        
    Returns:
        dict: Um dicionário com os dados carregados, onde as chaves são os nomes dos arquivos 
              e os valores são listas de linhas de dados.
    """
    cleaned_data = {}
    
    for filename in os.listdir(directory_path):
        if filename.endswith('.txt'):
            file_path = os.path.join(directory_path, filename)
            with open(file_path, 'r') as file:
                lines = file.readlines()
                cleaned_data[filename] = [line.strip() for line in lines if line.strip()]
    
    return cleaned_data

def transform_textual_to_numeric(cleaned_arff_data):
    """
    Transforma valores textuais em valores numéricos nos dados, mantendo o cabeçalho.
    
    Args:
        cleaned_arff_data (dict): Um dicionário contendo os dados limpos, onde as chaves são nomes 
                                  dos arquivos e os valores são listas de linhas de dados.
                                  
    Returns:
        dict: Um novo dicionário com valores textuais transformados em numéricos.
    """
    transformed_data = {}
    
    for filename, data in cleaned_arff_data.items():
        # Divide cada linha de dados em valores separados por vírgulas
        split_data = [line.split(",") for line in data[1:]]  # Ignorar a primeira linha (cabeçalho)
        
        # Armazena o cabeçalho separadamente
        header = data[0]
        
        # Transforma os valores textuais em numéricos usando LabelEncoder
        label_encoders = [LabelEncoder() for _ in range(len(split_data[0]))]
        
        for i in range(len(split_data[0])):
            column_values = [row[i] for row in split_data]
            
            # Transforma valores categóricos em numéricos
            if any(not value.replace('.', '', 1).isdigit() for value in column_values):
                column_values = label_encoders[i].fit_transform(column_values)
                for j, value in enumerate(column_values):
                    split_data[j][i] = str(value)
        
        # Junta os valores novamente em linhas de texto
        transformed_data[filename] = [header] + [",".join(row) for row in split_data]
    
    return transformed_data

def save_transformed_data_with_headers(transformed_data, output_directory):
    """
    Salva os dados transformados com cabeçalho em arquivos TXT.
    
    Args:
        transformed_data (dict): Dados transformados para salvar.
        output_directory (str): Caminho para o diretório de saída.
    """
    if not os.path.exists(output_directory):
        os.makedirs(output_directory)

    for filename, data in transformed_data.items():
        file_path = os.path.join(output_directory, filename)
        with open(file_path, 'w') as file:
            for line in data:
                file.write(line + "\n")

# Caminho para o diretório com os arquivos TXT limpos
directory_path = 'output_pre_processamento/1_handle_missing_values'
cleaned_txt_data = load_cleaned_txt_files(directory_path)

# Aplicar a transformação de valores textuais para numéricos
numeric_arff_data = transform_textual_to_numeric(cleaned_txt_data)

# Caminho para o diretório de saída
output_directory = 'output_pre_processamento/2_transform_string_numeric'

# Salvar os dados transformados com os cabeçalhos
save_transformed_data_with_headers(numeric_arff_data, output_directory)

# Mensagem de sucesso
print(f"Arquivos transformados foram salvos em: {output_directory}")


Arquivos transformados foram salvos em: output_pre_processamento/2_transform_string_numeric


# Padroniza valores da coluna EFFORT para pessoas-horas (X)

In [None]:
""" 
import os
from sklearn.preprocessing import LabelEncoder

def load_cnumeric_txt_files(directory_path):
    cleaned_data = {}
    
    for filename in os.listdir(directory_path):
        if filename.endswith('.txt'):
            file_path = os.path.join(directory_path, filename)
            with open(file_path, 'r') as file:
                lines = file.readlines()
                # Mantém o cabeçalho separado dos dados
                header = lines[0].strip()
                data = [line.strip() for line in lines[1:] if line.strip()]
                cleaned_data[filename] = (header, data)
    
    return cleaned_data

def standardize_effort_to_hours(cleaned_txt_data, effort_column_index, conversion_factor=160):
    standardized_data = {}
    
    for filename, (header, data) in cleaned_txt_data.items():
        standardized_lines = [header]  # Adiciona o cabeçalho
        
        for line in data:
            values = line.split(",")
            effort_value_str = values[effort_column_index]

            try:
                effort_value = float(effort_value_str)
                
                # Se o esforço for dado em pessoas-mês, converte para pessoas-horas
                if "mes" in filename.lower():  # Exemplo de como identificar arquivos em pessoas-mês
                    effort_value *= conversion_factor
                
                values[effort_column_index] = str(effort_value)
                standardized_lines.append(",".join(values))
            except ValueError:
                print(f"Valor não numérico encontrado: {effort_value_str} em {filename}. Ignorando essa linha.")
                continue  # Ignora a linha com valor inválido
        
        standardized_data[filename] = standardized_lines
    
    return standardized_data

def save_standardized_data(standardized_data, output_directory):
    if not os.path.exists(output_directory):
        os.makedirs(output_directory)
    
    for filename, data in standardized_data.items():
        output_path = os.path.join(output_directory, filename)
        with open(output_path, 'w') as file:
            for line in data:
                file.write(line + '\n')
        print(f"Arquivo salvo: {output_path}")

# Caminho para o diretório com os arquivos TXT limpos
directory_path = 'output_txt_files/2_transforma_string_booleano'
cleaned_txt_data = load_cnumeric_txt_files(directory_path)

# Padronizar a coluna EFFORT para pessoas-horas
effort_column_index = -1  # Suponha que a coluna EFFORT seja a última
standardized_txt_data = standardize_effort_to_hours(cleaned_txt_data, effort_column_index)

# Salvar os dados padronizados
output_directory = 'output_txt_files/3_padroniza_coluna_effort'
save_standardized_data(standardized_txt_data, output_directory)

print(f"Quantidade de arquivos padronizados: {len(standardized_txt_data)}")
"""

Arquivo salvo: output_txt_files/3_padroniza_coluna_effort/cleaned_cocomo81.txt
Arquivo salvo: output_txt_files/3_padroniza_coluna_effort/cleaned_desharnais.txt
Arquivo salvo: output_txt_files/3_padroniza_coluna_effort/cleaned_isbsg.txt
Arquivo salvo: output_txt_files/3_padroniza_coluna_effort/cleaned_maxwell.txt
Arquivo salvo: output_txt_files/3_padroniza_coluna_effort/cleaned_china.txt
Quantidade de arquivos padronizados: 5


# Criação de novas variáveis com GANs

In [5]:

import os
import pandas as pd
import numpy as np
import torch
import torch.nn as nn
from torch.utils.data import DataLoader, TensorDataset

def apply_gan_to_generate_variables(file_path, num_generated_features=2, num_epochs=100, batch_size=32, learning_rate=0.001):
    print(f"Lendo arquivo de entrada: {file_path}...")
    data = pd.read_csv(file_path, delimiter=",", skipinitialspace=True)
    print("Arquivo carregado com sucesso.")

    #print("Convertendo colunas categóricas ou não numéricas...")
    #for col in data.columns:
    #    if data[col].dtype == 'object' or not np.issubdtype(data[col].dtype, np.number):
    #        data[col] = pd.factorize(data[col])[0]

    #print("Preenchendo valores ausentes com 0...")
    #data = data.fillna(0)

    #print("Normalizando os dados no intervalo [0, 1]...")
    #data = (data - data.min()) / (data.max() - data.min())

    print("Convertendo os dados para tensores do PyTorch...")
    data_tensor = torch.tensor(data.values, dtype=torch.float32)

    input_dim = data.shape[1]
    print(f"A base de dados contém {input_dim} variáveis de entrada.")

    class Generator(nn.Module):
        def __init__(self, input_dim, output_dim):
            super(Generator, self).__init__()
            self.model = nn.Sequential(
                nn.Linear(input_dim, 64),
                nn.ReLU(),
                nn.Linear(64, 64),
                nn.ReLU(),
                nn.Linear(64, output_dim)
            )
        
        def forward(self, x):
            return self.model(x)
    
    class Discriminator(nn.Module):
        def __init__(self, input_dim):
            super(Discriminator, self).__init__()
            self.model = nn.Sequential(
                nn.Linear(input_dim, 64),
                nn.LeakyReLU(0.2),
                nn.Linear(64, 64),
                nn.LeakyReLU(0.2),
                nn.Linear(64, 1),
                nn.Sigmoid()
            )
        
        def forward(self, x):
            return self.model(x)
    
    print("Inicializando modelos Generator e Discriminator...")
    generator = Generator(input_dim, num_generated_features)
    discriminator = Discriminator(input_dim + num_generated_features)

    criterion = nn.BCELoss()
    optimizer_G = torch.optim.Adam(generator.parameters(), lr=learning_rate)
    optimizer_D = torch.optim.Adam(discriminator.parameters(), lr=learning_rate)

    dataset = TensorDataset(data_tensor)
    data_loader = DataLoader(dataset, batch_size=min(batch_size, len(dataset)), shuffle=True)

    print("Iniciando o treinamento da GAN...")
    for epoch in range(num_epochs):
        for batch in data_loader:
            real_data = batch[0]
            batch_size_actual = real_data.size(0)

            # Labels reais e falsas
            real_labels = torch.ones((batch_size_actual, 1))
            fake_labels = torch.zeros((batch_size_actual, 1))

            # Treinar o discriminador
            generated_data = generator(real_data)
            fake_data = torch.cat((real_data, generated_data), dim=1)
            real_data_extended = torch.cat((real_data, torch.zeros((batch_size_actual, num_generated_features))), dim=1)
            
            discriminator_real_loss = criterion(discriminator(real_data_extended), real_labels)
            discriminator_fake_loss = criterion(discriminator(fake_data.detach()), fake_labels)
            discriminator_loss = discriminator_real_loss + discriminator_fake_loss

            optimizer_D.zero_grad()
            discriminator_loss.backward()
            optimizer_D.step()

            # Treinar o gerador
            fake_data = torch.cat((real_data, generator(real_data)), dim=1)
            generator_loss = criterion(discriminator(fake_data), real_labels)

            optimizer_G.zero_grad()
            generator_loss.backward()
            optimizer_G.step()

        if (epoch + 1) % 10 == 0:
            print(f"Época [{epoch+1}/{num_epochs}] - Perda Discriminador: {discriminator_loss.item():.4f}, Perda Gerador: {generator_loss.item():.4f}")

    print("Treinamento concluído. Gerando novas variáveis...")
    with torch.no_grad():
        new_variables = generator(data_tensor).numpy()

    for i in range(num_generated_features):
        data[f"Generated_Var_{i+1}"] = new_variables[:, i]

    # Reorganizar as colunas para garantir que a coluna alvo seja a última
    target_column = data.columns[-(num_generated_features + 1)]  # Identifica a coluna alvo original
    columns = [col for col in data.columns if col != target_column] + [target_column]
    data = data[columns]

    print("Novas variáveis adicionadas e colunas reorganizadas com sucesso.")
    return data

def process_and_save_files(input_dir, output_dir, num_generated_features=2, num_epochs=100, batch_size=32, learning_rate=0.001):
    print(f"Verificando diretório de saída: {output_dir}...")
    os.makedirs(output_dir, exist_ok=True)
    print("Diretório de saída pronto.")

    for filename in os.listdir(input_dir):
        if filename.endswith(".txt"):
            input_path = os.path.join(input_dir, filename)
            output_path = os.path.join(output_dir, filename)
            
            print(f"\nProcessando arquivo: {input_path}")
            try:
                processed_data = apply_gan_to_generate_variables(
                    file_path=input_path,
                    num_generated_features=num_generated_features,
                    num_epochs=num_epochs,
                    batch_size=batch_size,
                    learning_rate=learning_rate
                )
                processed_data.to_csv(output_path, sep=",", index=False)
                print(f"Arquivo processado e salvo em: {output_path}")
            except Exception as e:
                print(f"Erro ao processar {filename}: {e}")

# Diretórios de entrada e saída
input_directory = "output_pre_processamento/2_transform_string_numeric"
output_directory = "output_pre_processamento/3_gan_variaveis"

# Processar arquivos
process_and_save_files(input_directory, output_directory, num_generated_features=3, num_epochs=100)


Verificando diretório de saída: output_pre_processamento/3_gan_variaveis...
Diretório de saída pronto.

Processando arquivo: output_pre_processamento/2_transform_string_numeric/processed_desharnais.txt
Lendo arquivo de entrada: output_pre_processamento/2_transform_string_numeric/processed_desharnais.txt...
Arquivo carregado com sucesso.
Convertendo os dados para tensores do PyTorch...
A base de dados contém 9 variáveis de entrada.
Inicializando modelos Generator e Discriminator...
Iniciando o treinamento da GAN...
Época [10/100] - Perda Discriminador: 100.0000, Perda Gerador: 0.0000
Época [20/100] - Perda Discriminador: 100.0000, Perda Gerador: 0.0000
Época [30/100] - Perda Discriminador: 100.0000, Perda Gerador: 0.0000
Época [40/100] - Perda Discriminador: 100.0000, Perda Gerador: 0.0000
Época [50/100] - Perda Discriminador: 100.0000, Perda Gerador: 0.0000
Época [60/100] - Perda Discriminador: 100.0000, Perda Gerador: 0.0000
Época [70/100] - Perda Discriminador: 100.0000, Perda Gerado

# Normalização

In [6]:
import os
from sklearn.preprocessing import MinMaxScaler
import numpy as np

def load_relevant_features_txt_files(directory_path):
    relevant_features_data = {}
    
    for filename in os.listdir(directory_path):
        if filename.endswith('.txt'):
            file_path = os.path.join(directory_path, filename)
            with open(file_path, 'r') as file:
                lines = file.readlines()
                header = lines[0].strip()  # Mantém o cabeçalho
                data = [line.strip() for line in lines[1:] if line.strip()]
                relevant_features_data[filename] = (header, data)
    
    return relevant_features_data

def normalize_data_with_minmax(relevant_features_data):
    normalized_data = {}
    scaler = MinMaxScaler()
    
    for filename, (header, data) in relevant_features_data.items():
        # Divide os dados em matriz X
        split_data = [line.split(",") for line in data]
        X = np.array([list(map(float, row)) for row in split_data])
        
        # Normaliza os dados para o intervalo [0, 1]
        X_normalized = scaler.fit_transform(X)
        
        # Converte os dados normalizados de volta para o formato de string
        normalized_lines = [header]  # Adiciona o cabeçalho
        normalized_lines += [",".join(map(str, row)) for row in X_normalized]
        normalized_data[filename] = normalized_lines
    
    return normalized_data

def save_normalized_data(normalized_data, output_directory):
    if not os.path.exists(output_directory):
        os.makedirs(output_directory)
    
    for filename, data in normalized_data.items():
        output_path = os.path.join(output_directory, filename)
        with open(output_path, 'w') as file:
            for line in data:
                file.write(line + '\n')
        print(f"Arquivo salvo: {output_path}")

# Caminho para o diretório com os arquivos TXT com variáveis relevantes
directory_path = 'output_pre_processamento/3_gan_variaveis'
relevant_features_data = load_relevant_features_txt_files(directory_path)

# Aplicar a normalização com MinMaxScaler
normalized_data_minmax = normalize_data_with_minmax(relevant_features_data)

# Salvar os dados normalizados
output_directory = 'output_pre_processamento/4_normalization'
save_normalized_data(normalized_data_minmax, output_directory)

print(f"Quantidade de arquivos processados para normalização: {len(normalized_data_minmax)}")


Arquivo salvo: output_pre_processamento/4_normalization/processed_desharnais.txt
Arquivo salvo: output_pre_processamento/4_normalization/processed_cocomo81.txt
Arquivo salvo: output_pre_processamento/4_normalization/processed_isbsg.txt
Arquivo salvo: output_pre_processamento/4_normalization/processed_maxwell.txt
Arquivo salvo: output_pre_processamento/4_normalization/processed_china.txt
Quantidade de arquivos processados para normalização: 5


# Seleção das variáveis mais relevantes

In [None]:
import os
import numpy as np
from sklearn.feature_selection import SelectKBest, f_regression

def load_standardized_txt_files(directory_path):
    standardized_data = {}
    
    for filename in os.listdir(directory_path):
        if filename.endswith('.txt'):
            file_path = os.path.join(directory_path, filename)
            with open(file_path, 'r') as file:
                lines = file.readlines()
                header = lines[0].strip()  # Mantém o cabeçalho
                data = [line.strip() for line in lines[1:] if line.strip()]
                standardized_data[filename] = (header, data)
    
    return standardized_data

def select_relevant_features(standardized_txt_data, target_column_index, k=5):
    relevant_features_data = {}
    
    for filename, (header, data) in standardized_txt_data.items():
        # Divide os dados em matriz X e vetor y
        split_data = [line.split(",") for line in data]
        X = np.array([list(map(float, row[:target_column_index])) for row in split_data])
        y = np.array([float(row[target_column_index]) for row in split_data])
        
        # Use SelectKBest para selecionar k variáveis relevantes
        selector = SelectKBest(score_func=f_regression, k=k)
        X_new = selector.fit_transform(X, y)
        
        # Obtenha os índices das variáveis selecionadas
        selected_indices = selector.get_support(indices=True)
        
        # Atualize o cabeçalho com as variáveis selecionadas e a coluna-alvo
        header_columns = header.split(",")
        selected_header = ",".join([header_columns[i] for i in selected_indices] + [header_columns[target_column_index]])
        
        # Atualize os dados com apenas as variáveis relevantes e a coluna-alvo
        relevant_lines = [selected_header]
        for row, y_value in zip(X_new, y):
            relevant_lines.append(",".join(map(str, row)) + f",{y_value}")
        
        # Adiciona o arquivo processado ao dicionário
        relevant_features_data[filename] = relevant_lines
    
    return relevant_features_data


def save_relevant_features_data(relevant_features_data, output_directory):
    if not os.path.exists(output_directory):
        os.makedirs(output_directory)
    
    for filename, data in relevant_features_data.items():
        output_path = os.path.join(output_directory, filename)
        with open(output_path, 'w') as file:
            for line in data:
                file.write(line + '\n')
        print(f"Arquivo salvo: {output_path}")

# Caminho para o diretório com os arquivos TXT padronizados
directory_path = 'output_pre_processamento/4_normalization'
standardized_txt_data = load_standardized_txt_files(directory_path)

# Selecionar as variáveis mais relevantes
target_column_index = -1  # Suponha que a coluna EFFORT seja a última
relevant_features_data = select_relevant_features(standardized_txt_data, target_column_index)

# Salvar os dados com variáveis relevantes
output_directory = 'output_pre_processamento/5_selection_features'
save_relevant_features_data(relevant_features_data, output_directory)

print(f"Quantidade de arquivos processados para seleção de variáveis: {len(relevant_features_data)}")

Arquivo salvo: output_pre_processamento/6_selecao_variaveis/cleaned_cocomo81.txt
Arquivo salvo: output_pre_processamento/6_selecao_variaveis/cleaned_desharnais.txt
Arquivo salvo: output_pre_processamento/6_selecao_variaveis/cleaned_isbsg.txt
Arquivo salvo: output_pre_processamento/6_selecao_variaveis/cleaned_maxwell.txt
Arquivo salvo: output_pre_processamento/6_selecao_variaveis/cleaned_china.txt
Quantidade de arquivos processados para seleção de variáveis: 5
