# Demonstração da Classe DatasetManager 📊

Este notebook demonstra como utilizar a classe `DatasetManager` para carregar e processar o dataset `svm.csv` para análises de aprendizado de máquina.

## 🎯 Objetivos:
- Carregar o dataset SVM usando a classe DatasetManager
- Explorar a estrutura dos dados
- Aplicar pré-processamento (escalonamento)
- Preparar dados para treinamento de modelos ML
- Demonstrar funcionalidades de persistência

## 1. Import Required Libraries 📚

Importamos as bibliotecas necessárias para análise de dados e machine learning.

In [34]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.metrics import classification_report, confusion_matrix
import warnings
warnings.filterwarnings('ignore')

# Configurações de visualização
plt.style.use('default')
sns.set_palette("husl")
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)

print("✅ Bibliotecas importadas com sucesso!")

✅ Bibliotecas importadas com sucesso!


## 2. Import DatasetManager Class 🔧

Importamos a classe DatasetManager do módulo que criamos.

In [35]:
# Adicionar o diretório scripts ao path para importar a classe
import sys
import os
sys.path.append('./scripts')

# Importar a classe DatasetManager
from dataset_manager import DatasetManager

print("✅ Classe DatasetManager importada com sucesso!")
print(f"📁 Diretório atual: {os.getcwd()}")
print(f"🔍 Arquivos disponíveis na pasta datasets:")
for arquivo in os.listdir('../datasets'):
    if arquivo.endswith('.csv'):
        print(f"   📊 {arquivo}")

✅ Classe DatasetManager importada com sucesso!
📁 Diretório atual: d:\Pessoal\leopiresss\leopi\OneDrive - STJ- Superior Tribunal de Justiça\AIA\Cursos\Mestrado\Projeto Final\analise_kubemon_v2\scripts
🔍 Arquivos disponíveis na pasta datasets:
   📊 svm.csv
   📊 svm_claude.csv
   📊 terasort.csv


## 3. Initialize DatasetManager Instance 🚀

Criamos uma instância da classe DatasetManager para o dataset SVM.

In [36]:
# Criar instância do DatasetManager para o dataset SVM
dm = DatasetManager('svm_dataset')

print("✅ Instância do DatasetManager criada com sucesso!")
print(f"📊 Nome do dataset: {dm.nome_dataset}")
print(f"🔧 Dataset inicializado e pronto para carregar dados")

✅ Instância do DatasetManager criada com sucesso!
📊 Nome do dataset: svm_dataset
🔧 Dataset inicializado e pronto para carregar dados


## 4. Load svm.csv Dataset 📂

Carregamos o dataset SVM do arquivo CSV usando o DatasetManager.

In [37]:
# Carregar o dataset SVM
arquivo_csv = '../datasets/svm.csv'
target_column = 'target'
colunas_excluir = ['os_timestamp', 'node_name', 'iteration']

try:
    # Carregar dados usando o DatasetManager
    dataset = dm.carregar_dados_csv(
        arquivo_csv=arquivo_csv,
        target_column=target_column,
        colunas_excluir=colunas_excluir,
        test_size=0.6,
        val_size=0.5,
        random_state=42
    )
    
    print("\n🎉 Dataset carregado com sucesso!")
    
except Exception as e:
    print(f"❌ Erro ao carregar dataset: {e}")
    # Vamos tentar ver o que há no arquivo primeiro
    print("📋 Vamos examinar o arquivo CSV primeiro...")
    df_temp = pd.read_csv(arquivo_csv)
    print(f"Shape do arquivo: {df_temp.shape}")
    print(f"Colunas disponíveis: {list(df_temp.columns)}")
    print(f"Primeiras linhas:")
    print(df_temp.head())

🔧 Carregando dados do arquivo: ../datasets/svm.csv
📊 Informações do dataset:
   • Total de registros: 80,648
   • Total de features: 122
   • Colunas excluídas: ['os_timestamp', 'node_name', 'iteration', 'target']
   • Target codificado: {'interf': 0, 'normal': 1}

✅ Dados preparados:
   • X_train shape: (32259, 122)
   • X_val shape: (24195, 122)
   • X_test shape: (24194, 122)
   • Classes únicas: [0 1]

🎉 Dataset carregado com sucesso!


## 5. Display Dataset Information 📊

Exibimos informações detalhadas sobre o dataset carregado.

In [38]:
# Exibir informações completas do dataset
dm.imprimir_informacoes()

# Informações adicionais sobre distribuição das classes
if dm.dataset['classes_mapping']:
    print(f"\n🎯 Distribuição das Classes:")
    unique, counts = np.unique(dm.dataset['y_train'], return_counts=True)
    for classe, count in zip(unique, counts):
        print(f"   Classe {classe}: {count:,} amostras ({count/len(dm.dataset['y_train'])*100:.1f}%)")

# Estatísticas das features
print(f"\n📈 Estatísticas das Features (Conjunto de Treino):")
print(f"   • Número de features: {len(dm.dataset['features'])}")
if dm.dataset['X_train'] is not None:
    print(f"   • Valor mínimo: {dm.dataset['X_train'].min().min():.3f}")
    print(f"   • Valor máximo: {dm.dataset['X_train'].max().max():.3f}")
    print(f"   • Média geral: {dm.dataset['X_train'].mean().mean():.3f}")
    print(f"   • Desvio padrão geral: {dm.dataset['X_train'].std().mean():.3f}")


📊 Informações do Dataset: svm_dataset
Nome do dataset: svm_dataset
X_train.shape: (32259, 122)
X_val.shape: (24195, 122)
X_test.shape: (24194, 122)
y_train length: 32259
y_val length: 24195
y_test length: 24194
X_train_scaled.shape: None
X_val_scaled.shape: None
X_test_scaled.shape: None
Features count: 122
Scaler type: None
Classes mapping: {'interf': 0, 'normal': 1}

🎯 Distribuição das Classes:
   Classe 0: 18,264 amostras (56.6%)
   Classe 1: 13,995 amostras (43.4%)

📈 Estatísticas das Features (Conjunto de Treino):
   • Número de features: 122
   • Valor mínimo: -1341472768.000
   • Valor máximo: 5011952154.500
   • Média geral: 970513.048
   • Desvio padrão geral: 4262885.915


## 6. Explore Dataset Structure 🔍

Exploramos a estrutura do dataset e visualizamos algumas amostras dos dados.

In [39]:
# Visualizar as primeiras linhas dos conjuntos de dados
print("🔍 Primeiras 5 linhas do conjunto de TREINO:")
print(dm.dataset['X_train'].head())

print(f"\n📋 Informações sobre as features:")
print(f"   • Tipos de dados no conjunto de treino:")
print(dm.dataset['X_train'].dtypes.value_counts())

print(f"\n🎯 Primeiras 10 features disponíveis:")
for i, feature in enumerate(dm.dataset['features'][:10], 1):
    print(f"   {i:2d}. {feature}")

if len(dm.dataset['features']) > 10:
    print(f"   ... e mais {len(dm.dataset['features']) - 10} features")

# Verificar valores ausentes
print(f"\n🔍 Verificação de valores ausentes:")
missing_train = dm.dataset['X_train'].isnull().sum().sum()
missing_val = dm.dataset['X_val'].isnull().sum().sum()
missing_test = dm.dataset['X_test'].isnull().sum().sum()

print(f"   • Treino: {missing_train} valores ausentes")
print(f"   • Validação: {missing_val} valores ausentes")  
print(f"   • Teste: {missing_test} valores ausentes")

🔍 Primeiras 5 linhas do conjunto de TREINO:
       mean_os_cpu_ctx_switches  mean_os_cpu_guest  mean_os_cpu_guest_nice  \
7604                    19147.0                0.0                     0.0   
59824                  179540.0                0.0                     0.0   
68249                   23005.0                0.0                     0.0   
23816                   26245.0                0.0                     0.0   
33886                   17678.0                0.0                     0.0   

       mean_os_cpu_idle  mean_os_cpu_interrupts  mean_os_cpu_iowait  \
7604              39.74                 15409.0                0.00   
59824             37.77                123338.0                0.00   
68249             43.64                 19302.0                0.01   
23816             40.68                 16221.0                0.01   
33886             39.78                 11131.0                0.00   

       mean_os_cpu_irq  mean_os_cpu_nice  mean_os_cpu_soft_i

## 7. Apply Data Scaling ⚖️

Aplicamos escalonamento aos dados usando diferentes métodos disponíveis na classe DatasetManager.

In [40]:
# Aplicar escalonamento Yeo-Johnson (recomendado para dados não-normais)
print("🔧 Aplicando escalonamento Yeo-Johnson...")
dm.aplicar_escalonamento(metodo='yeo-johnson', salvar_automaticamente=False)

# Verificar se o escalonamento foi aplicado corretamente
print(f"\n✅ Escalonamento aplicado com sucesso!")
print(f"📊 Informações dos dados escalados:")
print(f"   • X_train_scaled shape: {dm.dataset['X_train_scaled'].shape}")
print(f"   • X_val_scaled shape: {dm.dataset['X_val_scaled'].shape}")
print(f"   • X_test_scaled shape: {dm.dataset['X_test_scaled'].shape}")
print(f"   • Tipo do scaler: {type(dm.dataset['scaler']).__name__}")

# Comparação antes e depois do escalonamento
print(f"\n📈 Comparação Estatísticas (Conjunto de Treino):")
print(f"   ANTES do escalonamento:")
print(f"     • Média: {dm.dataset['X_train'].mean().mean():.6f}")
print(f"     • Desvio Padrão: {dm.dataset['X_train'].std().mean():.6f}")
print(f"   DEPOIS do escalonamento:")
print(f"     • Média: {dm.dataset['X_train_scaled'].mean():.6f}")
print(f"     • Desvio Padrão: {dm.dataset['X_train_scaled'].std():.6f}")

🔧 Aplicando escalonamento Yeo-Johnson...
⚖️ Aplicando escalonamento: yeo-johnson
   ✅ Escalonamento 'yeo-johnson' aplicado com sucesso
   • Treino - Média antes: 970513.048 | depois: 0.000
   • Treino - Std antes: 4262885.915 | depois: 0.805
   • Validação - Média: -0.001 | Std: 0.794
   • Teste - Média: -0.000 | Std: 1.453

✅ Escalonamento aplicado com sucesso!
📊 Informações dos dados escalados:
   • X_train_scaled shape: (32259, 122)
   • X_val_scaled shape: (24195, 122)
   • X_test_scaled shape: (24194, 122)
   • Tipo do scaler: PowerTransformer

📈 Comparação Estatísticas (Conjunto de Treino):
   ANTES do escalonamento:
     • Média: 970513.047784
     • Desvio Padrão: 4262885.914812
   DEPOIS do escalonamento:
     • Média: 0.000000
     • Desvio Padrão: 0.804699


## 8. Feature Selection Example 🎯

Demonstramos como aplicar seleção de features usando o DatasetManager.

In [41]:
# Exemplo de seleção de features - Selecionar as primeiras 20 features
total_features = len(dm.dataset['features'])
num_features_selecionadas = min(20, total_features)

print(f"🎯 Demonstração de Seleção de Features:")
print(f"   • Total de features disponíveis: {total_features}")
print(f"   • Selecionando as primeiras {num_features_selecionadas} features para demonstração...")

# Selecionar as primeiras N features
features_selecionadas = dm.dataset['features'][:num_features_selecionadas]

print(f"\n📋 Features selecionadas:")
for i, feature in enumerate(features_selecionadas, 1):
    print(f"   {i:2d}. {feature}")

# Aplicar seleção de features
dm.aplicar_selecao_features(features_selecionadas, salvar_automaticamente=False)

print(f"\n✅ Seleção de features aplicada com sucesso!")
print(f"📊 Novos shapes após seleção:")
print(f"   • X_train: {dm.dataset['X_train'].shape}")
print(f"   • X_val: {dm.dataset['X_val'].shape}")
print(f"   • X_test: {dm.dataset['X_test'].shape}")
if dm.dataset['X_train_scaled'] is not None:
    print(f"   • X_train_scaled: {dm.dataset['X_train_scaled'].shape}")
    print(f"   • X_val_scaled: {dm.dataset['X_val_scaled'].shape}")
    print(f"   • X_test_scaled: {dm.dataset['X_test_scaled'].shape}")

🎯 Demonstração de Seleção de Features:
   • Total de features disponíveis: 122
   • Selecionando as primeiras 20 features para demonstração...

📋 Features selecionadas:
    1. mean_os_cpu_ctx_switches
    2. mean_os_cpu_guest
    3. mean_os_cpu_guest_nice
    4. mean_os_cpu_idle
    5. mean_os_cpu_interrupts
    6. mean_os_cpu_iowait
    7. mean_os_cpu_irq
    8. mean_os_cpu_nice
    9. mean_os_cpu_soft_interrupts
   10. mean_os_cpu_softirq
   11. mean_os_cpu_steal
   12. mean_os_cpu_syscalls
   13. mean_os_cpu_system
   14. mean_os_cpu_user
   15. mean_os_disk_discard_io
   16. mean_os_disk_discard_merges
   17. mean_os_disk_discard_sectors
   18. mean_os_disk_discard_ticks
   19. mean_os_disk_in_flight
   20. mean_os_disk_io_ticks
🎯 Aplicando seleção de features: 20 features
   ✅ Seleção aplicada:
   • Novo shape X_train: (32259, 20)
   • Features selecionadas: 20

✅ Seleção de features aplicada com sucesso!
📊 Novos shapes após seleção:
   • X_train: (32259, 20)
   • X_val: (24195, 2

## 9. Prepare Data for Machine Learning 🤖

Obtemos os dados formatados e prontos para treinamento de modelos de machine learning.

In [42]:
# Obter dados formatados para treinamento de ML
print("🤖 Preparando dados para Machine Learning...")

# Obter dados escalados (recomendado para a maioria dos algoritmos)
X_train, X_val, X_test, y_train, y_val, y_test = dm.get_data_for_training(usar_dados_escalados=True)

print(f"\n✅ Dados prontos para treinamento!")
print(f"📊 Shapes finais dos conjuntos:")
print(f"   • X_train: {X_train.shape}")
print(f"   • X_val: {X_val.shape}")
print(f"   • X_test: {X_test.shape}")
print(f"   • y_train: {len(y_train)}")
print(f"   • y_val: {len(y_val)}")
print(f"   • y_test: {len(y_test)}")

print(f"\n🎯 Distribuição das classes nos conjuntos:")
for nome, y_conjunto in [('Treino', y_train), ('Validação', y_val), ('Teste', y_test)]:
    unique, counts = np.unique(y_conjunto, return_counts=True)
    print(f"   {nome}:")
    for classe, count in zip(unique, counts):
        print(f"     Classe {classe}: {count:,} ({count/len(y_conjunto)*100:.1f}%)")

print(f"\n🔧 Objetos importantes disponíveis:")
print(f"   • Scaler treinado: {type(dm.dataset['scaler']).__name__}")
if dm.dataset['label_encoder']:
    print(f"   • Label Encoder: {type(dm.dataset['label_encoder']).__name__}")
print(f"   • Features selecionadas: {len(dm.dataset['features'])}")
print(f"   • Classes mapping: {dm.dataset['classes_mapping']}")

🤖 Preparando dados para Machine Learning...

✅ Dados prontos para treinamento!
📊 Shapes finais dos conjuntos:
   • X_train: (32259, 20)
   • X_val: (24195, 20)
   • X_test: (24194, 20)
   • y_train: 32259
   • y_val: 24195
   • y_test: 24194

🎯 Distribuição das classes nos conjuntos:
   Treino:
     Classe 0: 18,264 (56.6%)
     Classe 1: 13,995 (43.4%)
   Validação:
     Classe 0: 13,698 (56.6%)
     Classe 1: 10,497 (43.4%)
   Teste:
     Classe 0: 13,698 (56.6%)
     Classe 1: 10,496 (43.4%)

🔧 Objetos importantes disponíveis:
   • Scaler treinado: PowerTransformer
   • Label Encoder: LabelEncoder
   • Features selecionadas: 20
   • Classes mapping: {'interf': 0, 'normal': 1}


## 10. Save and Load Dataset 💾

Demonstramos como salvar e carregar o dataset processado para uso futuro.

In [43]:
# Salvar o dataset processado
print("💾 Salvando dataset processado...")
arquivo_salvo = dm.salvar_dataset('./datasets/svm_processado.pkl')

print(f"\n✅ Dataset salvo em: {arquivo_salvo}")

# Demonstrar carregamento do dataset
print(f"\n🔄 Testando carregamento do dataset salvo...")

# Criar nova instância para demonstrar carregamento
dm_novo = DatasetManager('svm_carregado')
dataset_carregado = dm_novo.carregar_dataset('./datasets/svm_processado.pkl')

print(f"✅ Dataset carregado com sucesso!")
print(f"📊 Verificação dos dados carregados:")
dm_novo.imprimir_informacoes()

# Verificar se os dados são idênticos
print(f"\n🔍 Verificação de integridade dos dados:")
print(f"   • X_train shapes iguais: {dm.dataset['X_train'].shape == dm_novo.dataset['X_train'].shape}")
print(f"   • X_train_scaled shapes iguais: {dm.dataset['X_train_scaled'].shape == dm_novo.dataset['X_train_scaled'].shape}")
print(f"   • Features iguais: {dm.dataset['features'] == dm_novo.dataset['features']}")
print(f"   • Scaler tipo igual: {type(dm.dataset['scaler']) == type(dm_novo.dataset['scaler'])}")

print(f"\n🎉 Demonstração completa da classe DatasetManager finalizada!")

💾 Salvando dataset processado...
✅ Dataset salvo com sucesso em ./datasets/svm_processado.pkl

✅ Dataset salvo em: ./datasets/svm_processado.pkl

🔄 Testando carregamento do dataset salvo...
✅ Dataset carregado de ./datasets/svm_processado.pkl
✅ Dataset carregado com sucesso!
📊 Verificação dos dados carregados:

📊 Informações do Dataset: svm_dataset
Nome do dataset: svm_dataset
X_train.shape: (32259, 20)
X_val.shape: (24195, 20)
X_test.shape: (24194, 20)
y_train length: 32259
y_val length: 24195
y_test length: 24194
X_train_scaled.shape: (32259, 20)
X_val_scaled.shape: (24195, 20)
X_test_scaled.shape: (24194, 20)
Features count: 20
Scaler type: PowerTransformer
Classes mapping: {'interf': 0, 'normal': 1}

🔍 Verificação de integridade dos dados:
   • X_train shapes iguais: True
   • X_train_scaled shapes iguais: True
   • Features iguais: True
   • Scaler tipo igual: True

🎉 Demonstração completa da classe DatasetManager finalizada!


## 📝 Resumo da Demonstração

Este notebook demonstrou com sucesso o uso da classe **DatasetManager** para:

### ✅ Funcionalidades Demonstradas:

1. **Carregamento de Dados** - Importação do dataset `svm.csv` com tratamento automático de valores ausentes
2. **Divisão de Dados** - Separação automática em treino, validação e teste
3. **Escalonamento** - Aplicação de transformação Yeo-Johnson para normalização
4. **Seleção de Features** - Demonstração de como reduzir dimensionalidade
5. **Preparação para ML** - Formatação de dados prontos para algoritmos de machine learning
6. **Persistência** - Salvamento e carregamento de datasets processados

### 🎯 Variáveis Disponíveis no Dataset:

- `X_train`, `X_val`, `X_test` - Conjuntos de features
- `y_train`, `y_val`, `y_test` - Conjuntos de targets
- `X_train_scaled`, `X_val_scaled`, `X_test_scaled` - Dados escalados
- `features` - Lista de features selecionadas
- `scaler` - Objeto do escalonador treinado
- `label_encoder` - Codificador de labels (se necessário)
- `classes_mapping` - Mapeamento de classes

### 🚀 Próximos Passos:

Agora você pode usar os dados processados para treinar modelos de machine learning como:
- SVM (Support Vector Machines)
- Random Forest
- Neural Networks
- XGBoost
- E muitos outros!

### 💡 Dicas de Uso:

```python
# Exemplo rápido de uso
dm = DatasetManager('meu_dataset')
dm.carregar_dados_csv('arquivo.csv', 'target')
dm.aplicar_escalonamento('yeo-johnson')
X_train, X_val, X_test, y_train, y_val, y_test = dm.get_data_for_training()
```