In [None]:
# Importar as bibliotecas necessárias
import numpy as np # Biblioteca para trabalhar com arrays numéricos de forma eficiente (ex: seus dados, previsões).
from sklearn.model_selection import train_test_split # Ferramenta para dividir seu dataset em conjuntos de treino e teste.
from sklearn.preprocessing import StandardScaler # Usado para ajustar a escala dos seus dados, o que é vital para o KNN.
from sklearn.neighbors import KNeighborsClassifier # A implementação do algor0itmo KNN de classificação.
from sklearn.metrics import accuracy_score, classification_report # Métricas para avaliar o quão bem seu modelo performou.

# --- 1. Preparar os Dados (Exemplo Sintético) ---
# Esta seção simula ter dados para trabalhar.
# Em um projeto real, você carregaria seus dados de um arquivo (CSV, Excel, banco de dados).

# 'X' são as características (features) dos seus dados. Aqui, criamos 100 amostras,
# cada uma com 2 características (colunas), com valores aleatórios entre 0 e 100.
# Exemplo: 'Altura' e 'Peso' de pessoas.
np.random.seed(42) # Garante que os números aleatórios gerados sejam sempre os mesmos para que seu código seja repetível.
X = np.random.rand(100, 2) * 100 # Cria um array de 100 linhas por 2 colunas com valores aleatórios.

# 'y' são os rótulos ou categorias (classes) que queremos prever.
# Aqui, se a soma da Idade e do Salário for maior que 120, a classe é 1; caso contrário, é 0.
# Exemplo: 0 = 'Cliente Básico', 1 = 'Cliente Premium'.
y = (X[:, 0] + X[:, 1] > 120).astype(int) # Cria um array de 100 rótulos (0 ou 1).

print("--- Dados de Exemplo ---")
print(f"Formato das características (X): {X.shape}") # Mostra as dimensões do array X (linhas, colunas).
print(f"Formato dos rótulos (y): {y.shape}")         # Mostra as dimensões do array y (apenas linhas).
print(f"Primeiras 5 amostras de X:\n{X[:5]}") # Exibe as 5 primeiras linhas das características.
print(f"Primeiros 5 rótulos de y: {y[:5]}\n")   # Exibe os 5 primeiros rótulos.

# --- 2. Dividir os Dados em Conjuntos de Treino e Teste ---
# Esta é uma etapa crucial para garantir que você avalie o modelo de forma justa.
# O modelo APRENDE com os dados de TREINO e é TESTADO com dados que ele NUNCA VIU.

# train_test_split divide X e y em quatro partes:
# - X_train: Características para treinar o modelo (70% dos dados).
# - X_test: Características para testar o modelo (30% dos dados).
# - y_train: Rótulos correspondentes a X_train.
# - y_test: Rótulos correspondentes a X_test.
# test_size=0.30: Define que 30% dos dados serão usados para teste.
# random_state=42: Garante que a divisão seja sempre a mesma cada vez que você rodar o código.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=42)

print("--- Divisão dos Dados ---")
print(f"Dados de treino: {X_train.shape[0]} amostras") # Mostra quantas amostras estão no conjunto de treino.
print(f"Dados de teste: {X_test.shape[0]} amostras\n")   # Mostra quantas amostras estão no conjunto de teste.

# --- 3. Escalar os Dados (Padronização) ---
# **Esta etapa é ESSENCIAL para o KNN!**
# O KNN calcula a distância entre os pontos. Se suas características tiverem escalas muito diferentes
# (ex: 'Idade' de 0 a 100 e 'Salário' de 1000 a 100000), o 'Salário' dominará a distância,
# mesmo que a 'Idade' seja igualmente importante. O escalonamento resolve isso.

# StandardScaler(): Cria um objeto que vai padronizar seus dados (média 0, desvio padrão 1).
scaler = StandardScaler()

# fit_transform(X_train): O scaler APRENDE a escala (média e desvio padrão) dos dados de TREINO
# e, em seguida, TRANSFORMA esses dados para a nova escala.
X_train_scaled = scaler.fit_transform(X_train)

# transform(X_test): O scaler usa as MENSAGEM que aprendeu no TREINO para transformar os dados de TESTE.
# É crucial usar a mesma transformação para evitar vazamento de informações do teste para o treino.
X_test_scaled = scaler.transform(X_test)

print("--- Dados Escalonados ---")
print(f"Primeiras 5 amostras de X_train_scaled:\n{X_train_scaled[:5]}\n") # Exibe os dados de treino após o escalonamento.

# --- 4. Criar e Treinar o Modelo KNN ---
# Aqui configuramos e "preparamos" o algoritmo KNN.

# KNeighborsClassifier(n_neighbors=5): Cria o modelo KNN.
# n_neighbors (K): Define o número de vizinhos a serem considerados para a classificação.
# Um valor comum para K é 5, mas pode ser ajustado.
knn_model = KNeighborsClassifier(n_neighbors=5)

# knn_model.fit(X_train_scaled, y_train): Esta é a etapa de "treinamento".
# Para o KNN, "treinar" significa que o modelo simplesmente memoriza (armazena) os dados de treino escalados
# e seus respectivos rótulos. Ele não cria uma fórmula complexa, apenas "guarda" os exemplos.
knn_model.fit(X_train_scaled, y_train)

print("--- Modelo KNN Treinado ---\n")

# --- 5. Fazer Previsões no Conjunto de Teste ---
# Agora que o modelo "aprendeu", vamos usá-lo para prever os rótulos de dados que ele nunca viu.

# knn_model.predict(X_test_scaled): O modelo usa o conjunto de teste (escalado)
# para fazer suas previsões. Para cada ponto de teste, ele encontra os 5 vizinhos mais próximos
# nos dados de treino e atribui a classe que for mais comum entre esses 5 vizinhos.
y_pred = knn_model.predict(X_test_scaled)

print("--- Previsões Realizadas ---")
print(f"Primeiras 10 previsões: {y_pred[:10]}")     # Exibe as primeiras 10 previsões feitas pelo modelo.
print(f"Primeiros 10 rótulos reais: {y_test[:10]}\n") # Exibe os 10 primeiros rótulos verdadeiros para comparação.

# --- 6. Avaliar o Desempenho do Modelo ---
# É fundamental saber o quão bom (ou ruim) seu modelo está performando.

# accuracy_score(y_test, y_pred): Calcula a acurácia, que é a porcentagem de previsões corretas.
accuracy = accuracy_score(y_test, y_pred)
print(f"Acurácia do Modelo: {accuracy:.4f}\n") # Mostra a acurácia. Um valor de 0.8500 significa 85% de acerto.

# classification_report(y_test, y_pred): Fornece um relatório mais detalhado,
# incluindo Precisão (Precision), Recall e F1-score para cada classe.
# Isso é importante para entender o desempenho em casos de classes desbalanceadas.
print("--- Relatório de Classificação ---")
print(classification_report(y_test, y_pred))

# --- Exemplo de Previsão de um Novo Ponto de Dados ---
# Como usar o modelo para classificar um dado real, único e novo.

# novo_dado: Representa um novo ponto de dados (ex: um novo cliente com Idade=75, Salário=50k).
novo_dado = np.array([[75, 50]])

# Muito importante: Você deve escalar o novo dado usando o MESMO 'scaler'
# que foi ajustado nos dados de treino.
novo_dado_escalado = scaler.transform(novo_dado)

# previsao_novo_dado: O modelo faz a previsão para este novo dado escalado.
previsao_novo_dado = knn_model.predict(novo_dado_escalado)

print("\n--- Previsão para um Novo Ponto de Dados ---")
print(f"Novo dado original: {novo_dado[0]}") # Exibe o dado original.
print(f"Classe prevista para o novo dado (0 ou 1): {previsao_novo_dado[0]}") # Exibe a classe prevista (0 ou 1).

# Uma pequena mensagem para interpretar a previsão.
if previsao_novo_dado[0] == 0:
    print("O novo dado é classificado como: Classe 0")
else:
    print("O novo dado é classificado como: Classe 1")