In [None]:
import pandas as pd
import numpy as np
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

# --- 1. Carregamento dos Dados ---
# Substitua 'treino.csv' pelos caminhos corretos, se necessário.
try:
    train_data = pd.read_csv('/content/train_Sleep_health_and_lifestyle_dataset (1).csv')
    validation_data = pd.read_csv('/content/val_Sleep_health_and_lifestyle_dataset.csv')
    test_data = pd.read_csv('/content/test_Sleep_health_and_lifestyle_dataset.csv') # Corrigido o caminho do arquivo de teste
    print("Arquivos CSV carregados com sucesso!")
except FileNotFoundError as e:
    print(f"Erro ao carregar os arquivos: {e}")
    print("Por favor, verifique se os arquivos 'treino.csv', 'validacao.csv' e 'teste.csv' estão no diretório correto.")
    exit()

# --- 2. Preparação dos Dados ---
# Define a coluna alvo (a variável que queremos prever)
target_column = 'Quality of Sleep'

# Separa as características (features) da variável alvo para cada conjunto de dados
# Conjunto de Treino
X_train = train_data.drop(columns=[target_column])
y_train = train_data[target_column]

# Conjunto de Validação
X_validation = validation_data.drop(columns=[target_column])
y_validation = validation_data[target_column]

# Conjunto de Teste
X_test = test_data.drop(columns=[target_column])
y_test = test_data[target_column]

print(f"\nDados preparados. A variável alvo é '{target_column}'.")


# --- 3. Treinamento do Modelo k-NN ---
# Inicializa o classificador com k=2 e métrica de distância euclidiana
knn_model = KNeighborsClassifier(n_neighbors=2, metric='euclidean')

# Treina o modelo usando os dados de treino
knn_model.fit(X_train, y_train)

print(f"Modelo k-NN treinado com k=2 e distância Euclidiana.")


# --- 4. Avaliação do Modelo ---
# Função para calcular e exibir as métricas de avaliação
def calcular_e_exibir_metricas(nome_conjunto, y_verdadeiro, y_predito):
    """Calcula e imprime as métricas R², MAE, RMSE e MSE."""
    r2 = r2_score(y_verdadeiro, y_predito)
    mae = mean_absolute_error(y_verdadeiro, y_predito)
    mse = mean_squared_error(y_verdadeiro, y_predito)
    rmse = np.sqrt(mse)

    print(f"\n--- Métricas para o Conjunto de {nome_conjunto} ---")
    print(f"R² (R-squared): {r2:.4f}")
    print(f"MAE (Mean Absolute Error): {mae:.4f}")
    print(f"RMSE (Root Mean Squared Error): {rmse:.4f}")
    print(f"MSE (Mean Squared Error): {mse:.4f}")
    print("------------------------------------------")

# Fazendo predições e avaliando no conjunto de VALIDAÇÃO
y_pred_validation = knn_model.predict(X_validation)
calcular_e_exibir_metricas("Validação", y_validation, y_pred_validation)

# Fazendo predições e avaliando no conjunto de TESTE
y_pred_test = knn_model.predict(X_test)
calcular_e_exibir_metricas("Teste", y_test, y_pred_test)


Arquivos CSV carregados com sucesso!

Dados preparados. A variável alvo é 'Quality of Sleep'.
Modelo k-NN treinado com k=2 e distância Euclidiana.

--- Métricas para o Conjunto de Validação ---
R² (R-squared): 1.0000
MAE (Mean Absolute Error): 0.0000
RMSE (Root Mean Squared Error): 0.0000
MSE (Mean Squared Error): 0.0000
------------------------------------------

--- Métricas para o Conjunto de Teste ---
R² (R-squared): 0.9019
MAE (Mean Absolute Error): 0.0702
RMSE (Root Mean Squared Error): 0.3746
MSE (Mean Squared Error): 0.1404
------------------------------------------
