# M√©tricas de Avalia√ß√£o - Dataset SVM KubeMon

Este notebook prepara os dados a serem utilizados para os modelos.


In [45]:
!pip install --upgrade scikit-learn
!pip install pandas
!pip install matplotlib seaborn




In [46]:


import scipy
import sklearn
import numpy as np

print(f"scipy version: {scipy.__version__}")
print(f"sklearn version: {sklearn.__version__}")
print(f"numpy version: {np.__version__}")

scipy version: 1.16.2
sklearn version: 1.7.2
numpy version: 2.3.3


In [47]:
# Importa√ß√µes necess√°rias
import pandas as pd
import pickle
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split, cross_val_score, StratifiedKFold
from sklearn.svm import SVC
from sklearn.preprocessing import StandardScaler, LabelEncoder, PowerTransformer
from sklearn.metrics import (
    confusion_matrix, classification_report, accuracy_score,
    precision_score, recall_score, f1_score, roc_auc_score,
    roc_curve, precision_recall_curve, auc
)
import warnings
warnings.filterwarnings('ignore')

# Configura√ß√µes de visualiza√ß√£o
plt.style.use('default')
sns.set_style("whitegrid")
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 10



In [48]:
#Vari√°veis globais
import pickle
import lib_analise 
info_modelo = lib_analise.get_info_modelo()  # para garantir que a fun√ß√£o est√° carregada da

nome_dataset = info_modelo['nome_dataset']
arq_dataset_csv = info_modelo['parametros']['arq_dataset_csv']
arq_dataset_pkl = info_modelo['parametros']['arq_dataset_pkl']

print("üìö Bibliotecas importadas com sucesso!")
print(f"üéØ Pronto para avaliar m√©tricas do arquivo de dataset {nome_dataset}")
#datasets = lib_analise.get_dataset_analise(analise_ganho_de_informacao=True)


üìö Bibliotecas importadas com sucesso!
üéØ Pronto para avaliar m√©tricas do arquivo de dataset svm


## 1. Carregamento e Prepara√ß√£o dos Dados

In [49]:
# 1) Carregamento e higieniza√ß√£o (por dataset)

# Carregar o dataset
print("üìÇ Carregando dataset svm.csv...")

try:
    df = pd.read_csv(arq_dataset_csv)
    print(f"‚úÖ Dataset carregado com sucesso!")
    print(f"üìä Dimens√µes: {df.shape[0]:,} linhas √ó {df.shape[1]} colunas")
    
except Exception as e:
    print(f"‚ùå Erro ao carregar dataset: {e}")
    print("üîÑ Tentando carregar uma amostra...")
    try:
        df = pd.read_csv(arq_dataset_csv, nrows=10000)
        print(f"‚úÖ Amostra carregada: {df.shape[0]:,} linhas")
    except:
        raise Exception("N√£o foi poss√≠vel carregar o dataset")

# Verificar se a coluna target existe
if 'target' not in df.columns:
    print("‚ùå Coluna 'target' n√£o encontrada!")
    print(f"Colunas dispon√≠veis: {list(df.columns)}")
    raise Exception("Coluna target n√£o encontrada")

print(f"\nüìã Informa√ß√µes do Target:")
target_counts = df['target'].value_counts()
print(f"   ‚Ä¢ Classes: {dict(target_counts)}")
for classe, count in target_counts.items():
    percentage = (count / len(df)) * 100
    print(f"   ‚Ä¢ {classe}: {count:,} ({percentage:.1f}%)")


# Calcular informa√ß√µes de balanceamento
target_counts = df['target'].value_counts()
target_percentages = df['target'].value_counts(normalize=True) * 100
total_samples = len(df)

# Calcular raz√£o de desbalanceamento
min_class = target_counts.min()
max_class = target_counts.max()
balance_ratio = max_class / min_class
reverse_ratio = min_class / max_class  # Para compara√ß√£o com limiar

# Classificar n√≠vel de desbalanceamento
if balance_ratio < 1.5:
    balance_status = "‚úÖ BALANCEADO"
    balance_icon = "‚úÖ"
    recommendation = "Treinar normalmente"
elif balance_ratio < 3:
    balance_status = "‚ö†Ô∏è LEVEMENTE DESBALANCEADO"
    balance_icon = "‚ö†Ô∏è"
    recommendation = "Considere usar class_weight='balanced'"
elif balance_ratio < 9:
    balance_status = "‚ö†Ô∏è‚ö†Ô∏è MODERADAMENTE DESBALANCEADO"
    balance_icon = "‚ö†Ô∏è‚ö†Ô∏è"
    recommendation = "Recomendado: SMOTE ou class_weight"
else:
    balance_status = "‚ùå SEVERAMENTE DESBALANCEADO"
    balance_icon = "‚ùå"
    recommendation = "CR√çTICO! Use t√©cnicas de balanceamento"

# Mostrar informa√ß√µes gerais
print(f"\nüìä Informa√ß√µes Gerais:")
print(f"   ‚Ä¢ Total de amostras: {total_samples:,}")
print(f"   ‚Ä¢ Total de features: {df.shape[1] - 1}")
print(f"   ‚Ä¢ Valores ausentes no target: {df['target'].isnull().sum()}")

print(f"\n{balance_icon} Balanceamento do Dataset:")
print(f"   ‚Ä¢ Status: {balance_status}")
print(f"   ‚Ä¢ Raz√£o: {balance_ratio:.2f}:1")

# Mostrar distribui√ß√£o das classes
print(f"\n   Distribui√ß√£o por classe:")
for classe in sorted(target_counts.index):
    count = target_counts[classe]
    percentage = target_percentages[classe]
    bar_length = int(percentage / 2)  # Barra visual
    bar = "‚ñà" * bar_length
    print(f"   ‚Ä¢ Classe {classe}: {count:5,} ({percentage:5.1f}%) {bar}")

print(f"\n   üí° Recomenda√ß√£o: {recommendation}")

üìÇ Carregando dataset svm.csv...
‚úÖ Dataset carregado com sucesso!
üìä Dimens√µes: 80,648 linhas √ó 126 colunas

üìã Informa√ß√µes do Target:
   ‚Ä¢ Classes: {'interf': np.int64(45660), 'normal': np.int64(34988)}
   ‚Ä¢ interf: 45,660 (56.6%)
   ‚Ä¢ normal: 34,988 (43.4%)

üìä Informa√ß√µes Gerais:
   ‚Ä¢ Total de amostras: 80,648
   ‚Ä¢ Total de features: 125
   ‚Ä¢ Valores ausentes no target: 0

‚úÖ Balanceamento do Dataset:
   ‚Ä¢ Status: ‚úÖ BALANCEADO
   ‚Ä¢ Raz√£o: 1.31:1

   Distribui√ß√£o por classe:
   ‚Ä¢ Classe interf: 45,660 ( 56.6%) ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
   ‚Ä¢ Classe normal: 34,988 ( 43.4%) ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà

   üí° Recomenda√ß√£o: Treinar normalmente


In [50]:
# Prepara√ß√£o dos dados
print("üîß Preparando dados para treinamento...")

# Separar features e target
colunas_excluir = ['os_timestamp', 'node_name', 'iteration', 'target']
colunas_excluir = [col for col in colunas_excluir if col in df.columns]

# Selecionar apenas features num√©ricas
features_numericas = df.select_dtypes(include=[np.number]).columns.tolist()
features_para_modelo = [col for col in features_numericas if col not in colunas_excluir]

print(f"üìä Features para o modelo:")
print(f"   ‚Ä¢ Total de features: {len(features_para_modelo)}")
print(f"   ‚Ä¢ Colunas exclu√≠das: {colunas_excluir}")

# Preparar X e y
X = df[features_para_modelo].copy()
y = df['target'].copy()

# Tratar valores ausentes
valores_ausentes = X.isnull().sum().sum()
if valores_ausentes > 0:
    print(f"   ‚Ä¢ Preenchendo {valores_ausentes:,} valores ausentes com a mediana...")
    X = X.fillna(X.median())


# Codificar target se necess√°rio
le = LabelEncoder()
if y.dtype == 'object':
    y_encoded = le.fit_transform(y)
    classes_mapping = dict(zip(le.classes_, le.transform(le.classes_)))
    print(f"   ‚Ä¢ Target codificado: {classes_mapping}")
else:
    y_encoded = y.values
    classes_mapping = None

print(f"\n‚úÖ Dados preparados:")
print(f"   ‚Ä¢ Shape X: {X.shape}")
print(f"   ‚Ä¢ Shape y: {len(y_encoded)}")
print(f"   ‚Ä¢ Classes √∫nicas: {np.unique(y_encoded)}")

üîß Preparando dados para treinamento...
üìä Features para o modelo:
   ‚Ä¢ Total de features: 122
   ‚Ä¢ Colunas exclu√≠das: ['os_timestamp', 'node_name', 'iteration', 'target']
   ‚Ä¢ Target codificado: {'interf': np.int64(0), 'normal': np.int64(1)}

‚úÖ Dados preparados:
   ‚Ä¢ Shape X: (80648, 122)
   ‚Ä¢ Shape y: 80648
   ‚Ä¢ Classes √∫nicas: [0 1]


## 2. Divis√£o dos Dados


In [51]:
# 3) Particionamento estratificado 40/30/30

# Divis√£o treino/teste
print("üìä Dividindo dados em treino e teste...")

# Dividindo o teste mantendo a propor√ß√£o das classes (stratify) em 40% treino e 60% teste
X_train, X_test, y_train, y_test = train_test_split(
    X, y_encoded, 
    test_size=0.6, 
    random_state=42, 
    stratify=y_encoded
)

# Dividindo o teste em teste e valida√ß√£o (50%/50%)
X_test, X_val, y_test, y_val = train_test_split(
    X_test, y_test, 
    test_size=0.5, 
    random_state=42, 
    stratify=y_test
)

print(f"üìä Divis√£o dos dados:")
print(f"   ‚Ä¢ Treino: {X_train.shape[0]:,} amostras ({X_train.shape[0]/len(X)*100:.1f}%)")
print(f"   ‚Ä¢ Teste:  {X_test.shape[0]:,} amostras ({X_test.shape[0]/len(X)*100:.1f}%)")
print(f"   ‚Ä¢ Valida√ß√£o: {X_val.shape[0]:,} amostras ({X_val.shape[0]/len(X)*100:.1f}%)")

# Verificar distribui√ß√£o das classes
print(f"\nüìã Distribui√ß√£o das classes:")
unique_train, counts_train = np.unique(y_train, return_counts=True)
unique_test, counts_test = np.unique(y_test, return_counts=True)
unique_val, counts_val = np.unique(y_val, return_counts=True)

for classe in unique_train:
    train_pct = (counts_train[unique_train == classe][0] / len(y_train)) * 100
    test_pct = (counts_test[unique_test == classe][0] / len(y_test)) * 100
    val_pct = (counts_val[unique_val == classe][0] / len(y_val)) * 100
    print(f"   ‚Ä¢ Classe {classe}: Treino {train_pct:.1f}% | Teste {test_pct:.1f}% | Valida√ß√£o {val_pct:.1f}%")



üìä Dividindo dados em treino e teste...
üìä Divis√£o dos dados:
   ‚Ä¢ Treino: 32,259 amostras (40.0%)
   ‚Ä¢ Teste:  24,194 amostras (30.0%)
   ‚Ä¢ Valida√ß√£o: 24,195 amostras (30.0%)

üìã Distribui√ß√£o das classes:
   ‚Ä¢ Classe 0: Treino 56.6% | Teste 56.6% | Valida√ß√£o 56.6%
   ‚Ä¢ Classe 1: Treino 43.4% | Teste 43.4% | Valida√ß√£o 43.4%


In [52]:
#carregar os datasets de teste, treino e valida√ß√£o do arquivo pickle
import lib_analise
datasets = {}
datasets['nome_dataset'] = nome_dataset
datasets['X_train'] = X_train
datasets['X_test'] = X_test
datasets['X_val'] = X_val
datasets['y_train'] = y_train
datasets['y_test'] = y_test
datasets['y_val'] = y_val
datasets['classes_mapping'] = classes_mapping
datasets['features_ganho_informacao'] = features_para_modelo
lib_analise.save_informacao_analise(datasets)
lib_analise.print_informacao_analise()

‚úÖ Dataset salvo com sucesso em ../dataset/svm.pkl
X_train.shape (32259, 122)
X_test.shape (24194, 122)
X_val.shape (24195, 122)
X_train_scaled.shape None
X_test_scaled.shape None
X_val_scaled.shape None
classes_mapping {'interf': np.int64(0), 'normal': np.int64(1)}
features_ganho_informacao ['mean_os_cpu_ctx_switches', 'mean_os_cpu_guest', 'mean_os_cpu_guest_nice', 'mean_os_cpu_idle', 'mean_os_cpu_interrupts', 'mean_os_cpu_iowait', 'mean_os_cpu_irq', 'mean_os_cpu_nice', 'mean_os_cpu_soft_interrupts', 'mean_os_cpu_softirq', 'mean_os_cpu_steal', 'mean_os_cpu_syscalls', 'mean_os_cpu_system', 'mean_os_cpu_user', 'mean_os_disk_discard_io', 'mean_os_disk_discard_merges', 'mean_os_disk_discard_sectors', 'mean_os_disk_discard_ticks', 'mean_os_disk_in_flight', 'mean_os_disk_io_ticks', 'mean_os_disk_read_io', 'mean_os_disk_read_merge', 'mean_os_disk_read_sectors', 'mean_os_disk_read_ticks', 'mean_os_disk_time_in_queue', 'mean_os_disk_write_io', 'mean_os_disk_write_merge', 'mean_os_disk_write_s

{'nome_dataset': 'svm',
 'X_train':        mean_os_cpu_ctx_switches  mean_os_cpu_guest  mean_os_cpu_guest_nice  \
 7604                    19147.0                0.0                     0.0   
 59824                  179540.0                0.0                     0.0   
 68249                   23005.0                0.0                     0.0   
 23816                   26245.0                0.0                     0.0   
 33886                   17678.0                0.0                     0.0   
 ...                         ...                ...                     ...   
 40008                   91084.0                0.0                     0.0   
 54639                   23150.0                0.0                     0.0   
 48314                   16879.0                0.0                     0.0   
 10893                   12860.0                0.0                     0.0   
 29578                   13783.0                0.0                     0.0   
 
        mean_os

In [53]:
"""print(f"\n‚öñÔ∏è Aplicando transforma√ß√£o Yeo-Johnson...")
yeo_johnson_transformer = PowerTransformer(method='yeo-johnson', standardize=True)
# O fit √© feito apenas no conjunto de treino para evitar data leakage
X_train_scaled = yeo_johnson_transformer.fit_transform(X_train)
X_test_scaled = yeo_johnson_transformer.transform(X_test)
X_val_scaled = yeo_johnson_transformer.transform(X_val)

print('X_train_scaled.shape', X_train_scaled.shape)
print('X_test_scaled.shape', X_test_scaled.shape)
print('X_val_scaled.shape', X_val_scaled.shape)

print('X_train.shape', X_train.shape)
print('X_test.shape', X_test.shape)
print('X_val.shape', X_val.shape)
print(f"   ‚úÖ Transforma√ß√£o Yeo-Johnson aplicada com StandardScaler integrado")
print(f"   ‚Ä¢ M√©dia treino antes: {X_train.mean().mean():.3f} | depois: {X_train_scaled.mean():.3f}")
print(f"   ‚Ä¢ Std treino antes: {X_train.std().mean():.3f} | depois: {X_train_scaled.std().mean():.3f}")
print(f"   ‚Ä¢ M√©dia teste antes: {X_test.mean().mean():.3f} | depois: {X_test_scaled.mean():.3f}")
print(f"   ‚Ä¢ Std teste antes: {X_test.std().mean():.3f} | depois: {X_test_scaled.std().mean():.3f}")
print(f"   ‚Ä¢ M√©dia valida√ß√£o antes: {X_val.mean().mean():.3f} | depois: {X_val_scaled.mean():.3f}")
print(f"   ‚Ä¢ Std valida√ß√£o antes: {X_val.std().mean():.3f} | depois: {X_val_scaled.std().mean():.3f}")

print(f"   ‚Ä¢ Transforma√ß√£o aplicada: Yeo-Johnson + Padroniza√ß√£o")
"""

'print(f"\n‚öñÔ∏è Aplicando transforma√ß√£o Yeo-Johnson...")\nyeo_johnson_transformer = PowerTransformer(method=\'yeo-johnson\', standardize=True)\n# O fit √© feito apenas no conjunto de treino para evitar data leakage\nX_train_scaled = yeo_johnson_transformer.fit_transform(X_train)\nX_test_scaled = yeo_johnson_transformer.transform(X_test)\nX_val_scaled = yeo_johnson_transformer.transform(X_val)\n\nprint(\'X_train_scaled.shape\', X_train_scaled.shape)\nprint(\'X_test_scaled.shape\', X_test_scaled.shape)\nprint(\'X_val_scaled.shape\', X_val_scaled.shape)\n\nprint(\'X_train.shape\', X_train.shape)\nprint(\'X_test.shape\', X_test.shape)\nprint(\'X_val.shape\', X_val.shape)\nprint(f"   ‚úÖ Transforma√ß√£o Yeo-Johnson aplicada com StandardScaler integrado")\nprint(f"   ‚Ä¢ M√©dia treino antes: {X_train.mean().mean():.3f} | depois: {X_train_scaled.mean():.3f}")\nprint(f"   ‚Ä¢ Std treino antes: {X_train.std().mean():.3f} | depois: {X_train_scaled.std().mean():.3f}")\nprint(f"   ‚Ä¢ M√©dia t

In [54]:
## 3. Gera pickles com os datasets e grava um arquivo
# Salvar datasets em arquivos pickle gera um √∫nico arquivo para todos datasets
import pickle  

lib_analise.get_dataset_analise()
lib_analise.print_informacao_analise()
print(f"‚úÖ Datasets salvos em arquivos pickle com sucesso!")

X_train.shape (32259, 122)
X_test.shape (24194, 122)
X_val.shape (24195, 122)
X_train_scaled.shape None
X_test_scaled.shape None
X_val_scaled.shape None
classes_mapping {'interf': np.int64(0), 'normal': np.int64(1)}
features_ganho_informacao ['mean_os_cpu_ctx_switches', 'mean_os_cpu_guest', 'mean_os_cpu_guest_nice', 'mean_os_cpu_idle', 'mean_os_cpu_interrupts', 'mean_os_cpu_iowait', 'mean_os_cpu_irq', 'mean_os_cpu_nice', 'mean_os_cpu_soft_interrupts', 'mean_os_cpu_softirq', 'mean_os_cpu_steal', 'mean_os_cpu_syscalls', 'mean_os_cpu_system', 'mean_os_cpu_user', 'mean_os_disk_discard_io', 'mean_os_disk_discard_merges', 'mean_os_disk_discard_sectors', 'mean_os_disk_discard_ticks', 'mean_os_disk_in_flight', 'mean_os_disk_io_ticks', 'mean_os_disk_read_io', 'mean_os_disk_read_merge', 'mean_os_disk_read_sectors', 'mean_os_disk_read_ticks', 'mean_os_disk_time_in_queue', 'mean_os_disk_write_io', 'mean_os_disk_write_merge', 'mean_os_disk_write_sectors', 'mean_os_disk_write_ticks', 'mean_os_mem_nr

In [55]:
#carregar os datasets de teste, treino e valida√ß√£o do arquivo pickle
with open(arq_dataset_pkl, 'rb') as f:
    datasets = pickle.load(f)
nome_dataset = datasets['nome_dataset']
X_train = datasets['X_train']
X_test = datasets['X_test']
X_val = datasets['X_val']
y_train = datasets['y_train']
y_test = datasets['y_test']
y_val = datasets['y_val']
classes_mapping = datasets['classes_mapping']
features_ganho_informacao  = datasets['features_ganho_informacao']


