## Exploratory Data Analysis

Este ficheiro permite perceber a complexidade do dataset (numeros de classes, amostras, existencia de valores nulos)

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import math
import os

### Overview

In [2]:
# Função para obter as estatísticas de cada dataset
def obter_estatisticas(dataset_path):
    # Carregar o dataset
    df = pd.read_csv(dataset_path)
    
    # Definir a última coluna como coluna alvo
    target_column = df.columns[-1]
    
    # Contar número de linhas e colunas
    num_linhas, num_colunas = df.shape
    
    # Verificar as classes e a classe majoritária
    classes = df[target_column].value_counts()
    num_classes = len(classes)
    classe_majoritaria_percentual = (classes.max() / num_linhas) * 100
    
    # Verificar valores nulos
    nulos = df.isnull().any().any()
    
    return {
        'Dataset': os.path.basename(dataset_path),
        'N amostras': num_linhas,
        'N features': num_colunas - 1,  # Subtrai a coluna alvo
        'N classes': num_classes,
        'Classe majoritária (%)': f"{classe_majoritaria_percentual:.1f}%",
        'Nulos?': 'Sim' if nulos else 'Não'
    }

In [3]:
# Função para gerar gráficos simples da distribuição das classes
def gerar_grafico_distribuicao(df):
    # Definir a última coluna como coluna alvo
    target_column = df.columns[-1]
    
    # Gerar gráfico de barras para a distribuição das classes
    classes = df[target_column].value_counts()
    classes.plot(kind='bar', color='skyblue')
    plt.title(f'Distribuição das classes - {target_column}')
    plt.xlabel('Classe')
    plt.ylabel('Contagem')
    plt.show()

In [4]:
# Função para gerar a matriz de correlação e gráfico de calor
def gerar_matriz_correlacao(df):
    # Calcular a matriz de correlação
    corr_matrix = df.corr()
    
    # Gerar o gráfico de calor (heatmap)
    plt.figure(figsize=(10, 8))
    sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', fmt='.2f', linewidths=0.5)
    plt.title('Matriz de Correlação')
    plt.show()


In [5]:
# Caminho para a pasta de datasets
pasta_datasets = 'class_imbalance/'

In [6]:
estatisticas = []
for filename in os.listdir(pasta_datasets):
    if filename.endswith('.csv'):
        dataset_path = os.path.join(pasta_datasets, filename)
        
        try:
            # Obter as estatísticas do dataset
            stats = obter_estatisticas(dataset_path)
            estatisticas.append(stats)
            
            # Carregar o dataset
            df = pd.read_csv(dataset_path)
            target_column = df.columns[-1]
            X = df.drop(columns=[target_column])
            y = df[target_column]

            # Filtrar apenas colunas numéricas para correlação
            X_numericas = X.select_dtypes(include=[np.number])
            
            # Criar figura com 2 subplots lado a lado
            fig, axes = plt.subplots(1, 2, figsize=(16, 6))

            # Gráfico de distribuição das classes
            class_counts = y.value_counts()
            class_counts.plot(kind='bar', ax=axes[0], color='skyblue')
            axes[0].set_title(f'Distribuição das Classes - {filename}')
            axes[0].set_xlabel('Classe')
            axes[0].set_ylabel('Contagem')

            # Matriz de correlação apenas se houver colunas numéricas
            if not X_numericas.empty:
                corr = X_numericas.corr()
                sns.heatmap(corr, annot=True, cmap='coolwarm', fmt='.2f',
                            linewidths=0.5, ax=axes[1])
                axes[1].set_title('Matriz de Correlação')
            else:
                axes[1].axis('off')
                axes[1].text(0.5, 0.5, 'Sem colunas numéricas',
                             ha='center', va='center', fontsize=12)

            plt.tight_layout()
            plt.show()
        
        except Exception as e:
            print(f"Erro ao processar o dataset {filename}: {e}")


In [None]:
# Criar um DataFrame com as estatísticas coletadas
tabela_overview = pd.DataFrame(estatisticas).drop_duplicates(subset='Dataset')


NameError: name 'pd' is not defined

In [None]:
# Mostrar todas as colunas e linhas
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

# Exibir a tabela completa
tabela_overview


Unnamed: 0,Dataset,N amostras,N features,N classes,Classe majoritária (%),Nulos?
0,dataset_1000_hypothyroid.csv,3772,29,2,92.3%,Sim
1,dataset_1002_ipums_la_98-small.csv,7485,55,2,89.4%,Sim
2,dataset_1004_synthetic_control.csv,600,60,2,83.3%,Não
3,dataset_1013_analcatdata_challenger.csv,138,2,2,93.5%,Não
4,dataset_1014_analcatdata_dmft.csv,797,4,2,80.6%,Não
5,dataset_1016_vowel.csv,990,12,2,90.9%,Não
6,dataset_1018_ipums_la_99-small.csv,8844,56,2,93.6%,Sim
7,dataset_1020_mfeat-karhunen.csv,2000,64,2,90.0%,Não
8,dataset_1021_page-blocks.csv,5473,10,2,89.8%,Não
9,dataset_1022_mfeat-pixel.csv,2000,240,2,90.0%,Não
