# Experimentos: Baseline com SVM Clássico

Este notebook estabelece baselines de performance com um modelo de Support Vector Machine (SVM) clássico em datasets

# Dataset = Breast Cancer Wisconsin (Diagnostic)

In [None]:
from sklearn.datasets import load_breast_cancer # O Scikit-learn já tem o dataset 'Wisconsin Breast Cancer' pronto para usar.
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC  # Importando o classificador SVM
from sklearn.metrics import classification_report
import numpy as np
import pandas as pd

## Loading data and initial analysis

In [None]:
X, y = load_breast_cancer(return_X_y=True)  # Carregando o dataset

# Verificando as dimensões dos nossos dados
print(f"Dimensões dos dados: {X.shape}")


# Vendo a distribuição das classes (0 e 1)
print("\nDistribuição das classes:")
# Usando numpy para contar as ocorrências de cada classe
unique, counts = np.unique(y, return_counts=True)
for class_label, count in zip(unique, counts):
    print(f"Classe {class_label}: {count} ocorrências")


## Split data into training and testing sets

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42, stratify=y) # Stratify -> mantém a proporção das classes no split

print(f"Dimensões do conjunto de treino: {X_train.shape}")
print(f"Dimensões do conjunto de teste: {X_test.shape}")


## Normalize data

In [None]:
# normalizing the data
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)  # Ajusta o scaler e transforma os dados de treino
X_test = scaler.transform(X_test)  # Transforma os dados de teste com o mesmo scaler

print("\nDados normalizados")





# Training SVM model

In [None]:
# Treinando o modelo SVM
model = SVC(kernel="rbf", gamma="scale", random_state=42)  # Usando o kernel RBF
model.fit(X_train, y_train)

print("\nModelo treinado com SVM (kernel RBF)")

# Predictions

In [None]:
# predicting the test set
predictions = model.predict(X_test) # Prevendo os rótulos do conjunto de teste
print("\nPrevisões feitas no conjunto de teste")
# Avaliando o modelo
print("\nRelatório de Classificação:")
print(classification_report(y_test, predictions))

# Dataset = Student Performance

In [None]:
# Dataset = Student Performance Dataset
from ucimlrepo import fetch_ucirepo

  
# fetching the dataset from UCI Machine Learning Repository
student_performance = fetch_ucirepo(id=320) 
  
# displaying the dataset information
print("\nInformações do Dataset:")
X = student_performance.data.features 
y = student_performance.data.targets 
  
# displaying the dataset metadata
print("\nInformações do Dataset:")
print(student_performance.metadata) 
  
# displaying the dataset variables
print("\nVariáveis do Dataset:")
print(student_performance.variables) 

In [None]:
X.head(5) 

In [None]:
# Dimensões dos dados do Student Performance Dataset
print("\nDimensões do Student Performance Dataset:")
print(f"X: {X.shape}")
print(f"y: {y.shape}")


In [None]:
# Data cleaning
# check for missing values
print("\nVerificando valores ausentes:")
print(X.isnull().sum())