# K-Nearest Neighbors (KNN) - Portfólio Profissional

Neste notebook, implementamos o algoritmo **KNN** para classificação do dataset **Iris**. 
Incluímos visualizações, comparação de diferentes valores de `k` e interpretação dos resultados.

## 1️⃣ Importando Bibliotecas

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, ConfusionMatrixDisplay

## 2️⃣ Carregando o Dataset Iris

In [None]:
iris = load_iris()
X, y = iris.data, iris.target
feature_names = iris.feature_names
target_names = iris.target_names

print(f"Formato dos dados: {X.shape}")
print(f"Classes: {target_names}")

## 3️⃣ Dividindo em Treino e Teste

In [None]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42, stratify=y)
print(f"Treino: {X_train.shape}, Teste: {X_test.shape}")

## 4️⃣ Normalizando os Dados
KNN utiliza distância entre pontos, portanto é importante padronizar as features.

In [None]:
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

## 5️⃣ Testando Diferentes Valores de k
Vamos testar k = 3, 5 e 7 para comparar performance.

In [None]:
k_values = [3, 5, 7]
results = {}

for k in k_values:
    knn = KNeighborsClassifier(n_neighbors=k)
    knn.fit(X_train, y_train)
    y_pred = knn.predict(X_test)
    acc = accuracy_score(y_test, y_pred)
    results[k] = {'accuracy': acc, 'y_pred': y_pred}
    print(f"k={k} -> Acurácia: {acc*100:.2f}%")

## 6️⃣ Matriz de Confusão para k=5 (Escolhido como melhor)
Visualizando onde o modelo acerta e erra.

In [None]:
best_k = 5
y_pred_best = results[best_k]['y_pred']

cm = confusion_matrix(y_test, y_pred_best)
disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=target_names)
disp.plot(cmap=plt.cm.Blues)
plt.title(f'Matriz de Confusão - k={best_k}')
plt.show()

## 7️⃣ Visualização das Classes
Distribuição dos dados de teste e cores por classe.

In [None]:
iris_df = np.column_stack((X_test, y_test))
iris_df = np.array(iris_df)

plt.figure(figsize=(8,6))
for i, color, label in zip(range(3), ['red','green','blue'], target_names):
    plt.scatter(X_test[y_test==i, 0], X_test[y_test==i, 1],
                color=color, label=label)
plt.xlabel(feature_names[0])
plt.ylabel(feature_names[1])
plt.title('Distribuição das Classes no Teste')
plt.legend()
plt.show()

## 8️⃣ Analisando os Vizinhos Mais Próximos
Exemplo de classificação de uma amostra de teste e seus vizinhos.

In [None]:
sample_idx = 0
sample = X_test[sample_idx].reshape(1, -1)
knn_best = KNeighborsClassifier(n_neighbors=best_k)
knn_best.fit(X_train, y_train)
distances, indices = knn_best.kneighbors(sample)

print("Amostra de teste:", sample)
print("Índices dos vizinhos mais próximos:", indices)
print("Distâncias:", distances)
print("Classes dos vizinhos:", y_train[indices].flatten())
print("Classe prevista:", knn_best.predict(sample)[0])

## ✅ Conclusão
- KNN é simples, eficiente e fácil de interpretar.
- Testamos diferentes valores de `k` e escolhemos o melhor para este dataset.
- Visualizações de matriz de confusão e dispersão ajudam a entender a performance.