In [6]:
# Importar as bibliotecas necessárias
import numpy as np # Para manipulação de arrays (dados)
from sklearn.model_selection import train_test_split # Para dividir os dados em treino e teste
from sklearn.preprocessing import StandardScaler # Para escalar os dados
from sklearn.neighbors import KNeighborsClassifier # O algoritmo KNN para classificação
from sklearn.metrics import accuracy_score, classification_report # Para avaliar o modelo

# --- 1. Preparar os Dados (Exemplo Sintético) ---
# Em um cenário real, você carregaria seus dados de um arquivo (CSV, etc.).
# X: Características dos dados (features)
# y: Rótulos/classes dos dados (o que queremos prever)

# Criando 100 amostras com 2 características cada (ex: [Altura, Peso])
# e 2 classes (ex: 0=Não, 1=Sim)
np.random.seed(42) # Para resultados repetíveis
X = np.random.rand(100, 2) * 100 # Valores entre 0 e 100
y = (X[:, 0] + X[:, 1] > 120).astype(int) # Uma regra simples para criar classes

print("--- Dados de Exemplo ---")
print(f"Formato das características (X): {X.shape}") # Ex: (100, 2)
print(f"Formato dos rótulos (y): {y.shape}")         # Ex: (100,)
print(f"Primeiras 5 amostras de X:\n{X[:5]}")
print(f"Primeiros 5 rótulos de y: {y[:5]}\n")

# --- 2. Dividir os Dados em Conjuntos de Treino e Teste ---
# Isso garante que avaliemos o modelo com dados que ele "nunca viu".
# test_size=0.30: 30% dos dados para teste, 70% para treino.
# random_state=42: Garante que a divisão seja a mesma cada vez que você rodar o código.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=42)

print("--- Divisão dos Dados ---")
print(f"Dados de treino: {X_train.shape[0]} amostras")
print(f"Dados de teste: {X_test.shape[0]} amostras\n")

# --- 3. Escalar os Dados (Padronização) ---
# Essencial para o KNN! Garante que nenhuma característica domine o cálculo da distância.
# StandardScaler: Transforma os dados para ter média 0 e desvio padrão 1.
# fit_transform() nos dados de treino: Aprende a escala e aplica.
# transform() nos dados de teste: Aplica A MESMA escala aprendida.
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print("--- Dados Escalonados ---")
print(f"Primeiras 5 amostras de X_train_scaled:\n{X_train_scaled[:5]}\n")

# --- 4. Criar e Treinar o Modelo KNN ---
# n_neighbors (K): Número de vizinhos a considerar. Um K=5 é um bom ponto de partida.
knn_model = KNeighborsClassifier(n_neighbors=5)

# 'Treinar' o KNN significa que ele apenas memoriza os dados de treino escalados e seus rótulos.
knn_model.fit(X_train_scaled, y_train)

print("--- Modelo KNN Treinado ---\n")

# --- 5. Fazer Previsões no Conjunto de Teste ---
# Usamos o modelo treinado para prever os rótulos dos dados de teste.
y_pred = knn_model.predict(X_test_scaled)

print("--- Previsões Realizadas ---")
print(f"Primeiras 10 previsões: {y_pred[:10]}")
print(f"Primeiros 10 rótulos reais: {y_test[:10]}\n")

# --- 6. Avaliar o Desempenho do Modelo ---
# Comparamos as previsões com os rótulos verdadeiros para ver quão bem o modelo performou.

# Acurácia: Proporção de previsões corretas.
accuracy = accuracy_score(y_test, y_pred)
print(f"Acurácia do Modelo: {accuracy:.4f}\n") # Ex: 0.8667 (86.67% de acerto)

# Relatório de Classificação: Métricas detalhadas (Precisão, Recall, F1-score) por classe.
print("--- Relatório de Classificação ---")
print(classification_report(y_test, y_pred))

# --- Exemplo de Previsão de um Novo Ponto de Dados ---
# Digamos que você tem um novo dado que o modelo nunca viu: [75, 50]
novo_dado = np.array([[75, 50]])

# Muito importante: Escalar o novo dado usando o MESMO scaler!
novo_dado_escalado = scaler.transform(novo_dado)

# Prever a classe para o novo dado
previsao_novo_dado = knn_model.predict(novo_dado_escalado)

print("\n--- Previsão para um Novo Ponto de Dados ---")
print(f"Novo dado original: {novo_dado[0]}")
print(f"Classe prevista para o novo dado (0 ou 1): {previsao_novo_dado[0]}")
if previsao_novo_dado[0] == 0:
    print("O novo dado é classificado como: Classe 0")
else:
    print("O novo dado é classificado como: Classe 1")

--- Dados de Exemplo ---
Formato das características (X): (100, 2)
Formato dos rótulos (y): (100,)
Primeiras 5 amostras de X:
[[37.45401188 95.07143064]
 [73.19939418 59.86584842]
 [15.60186404 15.59945203]
 [ 5.80836122 86.61761458]
 [60.11150117 70.80725778]]
Primeiros 5 rótulos de y: [1 1 0 0 1]

--- Divisão dos Dados ---
Dados de treino: 70 amostras
Dados de teste: 30 amostras

--- Dados Escalonados ---
Primeiras 5 amostras de X_train_scaled:
[[-0.55825816 -0.46668148]
 [ 0.93884271 -0.01941778]
 [ 0.64680666 -1.6943093 ]
 [-1.19500306 -1.06467323]
 [ 1.08346504  0.19610066]]

--- Modelo KNN Treinado ---

--- Previsões Realizadas ---
Primeiras 10 previsões: [0 1 0 0 1 0 0 0 0 0]
Primeiros 10 rótulos reais: [0 0 1 0 1 0 0 0 0 1]

Acurácia do Modelo: 0.8333

--- Relatório de Classificação ---
              precision    recall  f1-score   support

           0       0.83      0.95      0.88        20
           1       0.86      0.60      0.71        10

    accuracy                  