# Análise das bases de dados


In [1]:
import os

def extract_arff_variables_and_data(directory_path, output_directory):
    if not os.path.exists(output_directory):
        os.makedirs(output_directory)

    arff_data = {}

    # Itera sobre todos os arquivos do diretório
    for filename in os.listdir(directory_path):
        if filename.endswith('.arff'):
            file_path = os.path.join(directory_path, filename)
            with open(file_path, 'r') as file:
                lines = file.readlines()

                # Captura as variáveis antes de @data
                variables = []
                for line in lines:
                    line = line.strip()
                    if line.lower().startswith('@attribute'):
                        # Extrai o nome da variável
                        parts = line.split()
                        if len(parts) > 1:
                            variables.append(parts[1])
                    elif line.lower().startswith('@data'):
                        break

                # Encontrar a linha onde começa o @data
                data_index = next((i for i, line in enumerate(lines) if '@data' in line.lower()), None)
                data_content = lines[data_index + 1:] if data_index is not None else []

                # Organiza os dados em uma lista
                organized_data = [",".join(variables)] + [line.strip() for line in data_content if line.strip()]
                arff_data[filename] = organized_data

                # Salva em um arquivo TXT
                output_file_path = os.path.join(output_directory, f"{os.path.splitext(filename)[0]}.txt")
                with open(output_file_path, 'w') as output_file:
                    for line in organized_data:
                        output_file.write(line + "\n")

    return arff_data

# Caminho para o diretório de entrada e saída
input_directory_path = '../datasets'
output_directory_path = './analise-das-bases'
arff_data = extract_arff_variables_and_data(input_directory_path, output_directory_path)

# Exibir o conteúdo e a quantidade de arquivos lidos
cont = len(arff_data)
print(f"Quantidade de arquivos lidos e salvos: {cont}")

Quantidade de arquivos lidos e salvos: 5


# China

O dataset fornecido contém 499 registros e 19 variáveis diferentes. Cada registro corresponde a uma observação do sistema, detalhando características relacionadas ao desenvolvimento de software. Abaixo está a descrição das variáveis:

1. **ID**: Um identificador numérico único para cada instância no dataset. Ele é usado para diferenciar as observações.

2. **AFP**: "Adjusted Function Points" – Refere-se aos pontos de função ajustados, que representam uma métrica de complexidade funcional de software, levando em consideração fatores como entradas, saídas, consultas, arquivos internos e interfaces.

3. **Input**: Número de entradas fornecidas para o sistema. Estas entradas podem ser formulários, comandos ou outras formas de dados recebidos.

4. **Output**: Número de saídas geradas pelo sistema, como relatórios, mensagens ou outros dados fornecidos aos usuários.

5. **Enquiry**: Quantidade de consultas ou buscas que o sistema é capaz de realizar. Estas são interações que resultam na recuperação de informações sem modificar o sistema.

6. **File**: Número de arquivos lógicos internos que o sistema gerencia. Isso inclui conjuntos de dados internos ou bancos de dados.

7. **Interface**: Número de interfaces externas, como APIs ou conexões com outros sistemas.

8. **Added**: Número de funcionalidades ou módulos adicionados ao sistema durante o desenvolvimento.

9. **Changed**: Número de funcionalidades ou módulos alterados. Esta variável captura as modificações feitas durante a atualização ou manutenção do sistema.

10. **Deleted**: Número de funcionalidades ou módulos removidos do sistema, indicando a limpeza ou simplificação da funcionalidade.

11. **PDR_AFP**: "Productivity Delivery Rate – Adjusted Function Points" – Refere-se à taxa de produtividade medida em relação aos pontos de função ajustados.

12. **PDR_UFP**: "Productivity Delivery Rate – Unadjusted Function Points" – Taxa de produtividade com base nos pontos de função não ajustados. Isso mede a produtividade sem ajustes de complexidade.

13. **NPDR_AFP**: "Normalized Productivity Delivery Rate – Adjusted Function Points" – Taxa de produtividade normalizada com base nos pontos de função ajustados, levando em consideração fatores de normalização.

14. **NPDU_UFP**: "Normalized Productivity Delivery Rate – Unadjusted Function Points" – Taxa de produtividade normalizada com pontos de função não ajustados.

15. **Resource**: Número de recursos ou pessoas envolvidas no desenvolvimento ou manutenção do sistema.

16. **Dev.Type**: Tipo de desenvolvimento, representado por um valor numérico. Isso pode indicar diferentes categorias, como desenvolvimento de novo software, manutenção ou aprimoramento.

17. **Duration**: Duração do projeto em unidades de tempo, como semanas ou meses. Refere-se ao tempo total gasto na realização do desenvolvimento ou manutenção.

18. **N_effort**: Esforço normalizado requerido para o projeto, representado em unidades de trabalho, como horas ou dias-homem.

19. **Effort**: Esforço total gasto no projeto, em unidades de trabalho, sem normalização.

### Descrição Geral:
Este dataset é útil para estudos de estimativa de esforço em projetos de software, uma vez que oferece uma ampla gama de métricas que podem ser usadas para entender a complexidade do software e os fatores que influenciam o esforço necessário para desenvolvê-lo ou mantê-lo. As variáveis cobrem aspectos tanto do desenvolvimento quanto da manutenção, incluindo a contagem de pontos de função (uma métrica amplamente utilizada na engenharia de software) e a quantidade de esforço e recursos envolvidos.

# Transformar os dados em um DataFrame para facilitar a análise

In [11]:
import os
import pandas as pd

def load_txt_to_dataframe(file_path):
    """
    Carrega um arquivo .txt contendo dados no formato CSV e retorna um DataFrame.
    """
    try:
        # Lê o arquivo como um CSV com separador de vírgulas
        df = pd.read_csv(file_path)
        return df
    except Exception as e:
        raise ValueError(f"Erro ao carregar {file_path}: {e}")

def load_all_txt_files_to_dataframes(directory_path):
    """
    Carrega todos os arquivos .txt em um diretório e retorna um dicionário de DataFrames.
    """
    dataframes = {}

    # Itera sobre os arquivos no diretório
    for filename in os.listdir(directory_path):
        if filename.endswith('.txt'):  # Filtra arquivos com extensão .txt
            file_path = os.path.join(directory_path, filename)
            try:
                df = load_txt_to_dataframe(file_path)
                dataframes[filename] = df
                print(f"Arquivo {filename} carregado com sucesso.")
            except ValueError as e:
                print(e)
            except Exception as e:
                print(f"Erro inesperado ao carregar {filename}: {e}")

    return dataframes

# Exemplo de uso
input_directory_path = './analise-das-bases/'  # Substitua pelo diretório contendo os arquivos TXT
all_dataframes = load_all_txt_files_to_dataframes(input_directory_path)

# Exibir os nomes dos arquivos carregados e o tamanho dos DataFrames
for filename, dataframe in all_dataframes.items():
    print(f"Arquivo: {filename}, Tamanho: {dataframe.shape}")


ValueError: numpy.dtype size changed, may indicate binary incompatibility. Expected 96 from C header, got 88 from PyObject

# Valores categóricos

In [12]:
import os
import pandas as pd

def load_tct_to_dataframe(file_path):
    """
    Carrega um arquivo .tct contendo dados no formato delimitado por tabulação e retorna um DataFrame.
    """
    try:
        # Lê o arquivo como um CSV com separador de tabulação
        df = pd.read_csv(file_path, delimiter='\t')
        return df
    except Exception as e:
        raise ValueError(f"Erro ao carregar {file_path}: {e}")

def load_all_tct_files_to_dataframes(directory_path):
    """
    Carrega todos os arquivos .tct em um diretório e retorna um dicionário de DataFrames.
    """
    dataframes = {}

    # Itera sobre os arquivos no diretório
    for filename in os.listdir(directory_path):
        if filename.endswith('.tct'):  # Filtra arquivos com extensão .tct
            file_path = os.path.join(directory_path, filename)
            try:
                df = load_tct_to_dataframe(file_path)
                dataframes[filename] = df
                print(f"Arquivo {filename} carregado com sucesso.")
            except ValueError as e:
                print(e)
            except Exception as e:
                print(f"Erro inesperado ao carregar {filename}: {e}")

    return dataframes

def get_column_types_from_dataframes(dataframes):
    """
    Recebe um dicionário de DataFrames e retorna os tipos de dados de cada coluna.

    Parameters:
    dataframes (dict): Dicionário onde as chaves são nomes de arquivos e os valores são DataFrames.

    Returns:
    dict: Dicionário onde as chaves são nomes de arquivos e os valores são dicionários
          com os nomes das colunas como chaves e os tipos como valores.
    """
    column_types = {}

    for filename, dataframe in dataframes.items():
        try:
            column_types[filename] = dataframe.dtypes.to_dict()
            print(f"Tipos de dados do arquivo {filename} analisados com sucesso.")
        except Exception as e:
            print(f"Erro ao analisar os tipos de dados do arquivo {filename}: {e}")

    return column_types

# Exemplo de uso
input_directory_path = './analise-das-bases/'  # Substitua pelo diretório contendo os arquivos TCT
all_dataframes = load_all_tct_files_to_dataframes(input_directory_path)

column_types = get_column_types_from_dataframes(all_dataframes)

# Exibir os tipos de dados de cada coluna para cada arquivo
for filename, types in column_types.items():
    print(f"\nArquivo: {filename}")
    for column, dtype in types.items():
        print(f"  Coluna: {column}, Tipo: {dtype}")

ValueError: numpy.dtype size changed, may indicate binary incompatibility. Expected 96 from C header, got 88 from PyObject