## Módulo 1

### Classificação com **KNeighborsClassifier** (Iris)

#### 1) Importações e carregamento dos dados

In [1]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import pandas as pd

# Carrega o dataset Iris
iris = load_iris()
X = iris.data
y = iris.target

print("Formato de X:", X.shape)
print("Formato de y:", y.shape)
print("Classes:", iris.target_names.tolist())


Formato de X: (150, 4)
Formato de y: (150,)
Classes: ['setosa', 'versicolor', 'virginica']


#### 2) Particionamento (treino/teste) — mesmo *random_state* do notebook original

In [2]:
# Mantém a mesma divisão (30% teste, random_state=30) para ser diretamente comparável
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.30, random_state=30, stratify=y
)

print("Treino:", X_train.shape, "Teste:", X_test.shape)


Treino: (105, 4) Teste: (45, 4)


#### 3) Padronização (opcional, mas recomendado para KNN)

In [3]:
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled  = scaler.transform(X_test)

print("Exemplo (primeiras 3 linhas após normalizar):\n", X_train_scaled[:3])


Exemplo (primeiras 3 linhas após normalizar):
 [[-0.7941891   0.68606612 -1.34012848 -1.32190335]
 [-0.05294594 -0.84663478  0.08582906 -0.01739347]
 [ 0.56475669  0.46710885  0.54213548  0.50441049]]


#### 4) Treinamento com KNN (definindo *k*=5 por padrão)

In [4]:
knn = KNeighborsClassifier(n_neighbors=5, weights="uniform", p=2)  # distância euclidiana
knn.fit(X_train_scaled, y_train)

print("Parâmetros do modelo:", knn.get_params())


Parâmetros do modelo: {'algorithm': 'auto', 'leaf_size': 30, 'metric': 'minkowski', 'metric_params': None, 'n_jobs': None, 'n_neighbors': 5, 'p': 2, 'weights': 'uniform'}


#### 5) Avaliação

In [5]:
y_pred = knn.predict(X_test_scaled)
acc = accuracy_score(y_test, y_pred)
print(f"Acurácia no conjunto de teste: {acc:.4f}\n")

print("Relatório de Classificação:")
print(classification_report(y_test, y_pred, target_names=iris.target_names))

print("Matriz de Confusão:")
print(confusion_matrix(y_test, y_pred))


Acurácia no conjunto de teste: 0.9333

Relatório de Classificação:
              precision    recall  f1-score   support

      setosa       1.00      1.00      1.00        15
  versicolor       0.88      0.93      0.90        15
   virginica       0.93      0.87      0.90        15

    accuracy                           0.93        45
   macro avg       0.93      0.93      0.93        45
weighted avg       0.93      0.93      0.93        45

Matriz de Confusão:
[[15  0  0]
 [ 0 14  1]
 [ 0  2 13]]


#### 6) Ajuste rápido de **k** (valores ímpares 1–15)

In [6]:
from collections import OrderedDict

results = OrderedDict()
for k in range(1, 16, 2):  # 1,3,5,...,15
    model = KNeighborsClassifier(n_neighbors=k)
    model.fit(X_train_scaled, y_train)
    score = model.score(X_test_scaled, y_test)
    results[k] = score

pd.DataFrame({"k": list(results.keys()), "accuracy": list(results.values())})


Unnamed: 0,k,accuracy
0,1,0.911111
1,3,0.911111
2,5,0.933333
3,7,0.933333
4,9,0.933333
5,11,0.911111
6,13,0.911111
7,15,0.911111
