### Machine Learning Model 3 – KNN Regressor (valgfri model)

Som en sidste model har vi valgt at inkludere **KNN Regressor** (K-Nearest Neighbors). Det er en simpel metode, som forudsiger en værdi baseret på gennemsnittet af de nærmeste naboer i datasættet.

Modellen tager ikke højde for underliggende strukturer som beslutningstræer eller lineær sammenhæng, men kan være interessant at sammenligne, da den ofte fungerer godt i små og ikke-lineære datasæt.

Vi anvender samme variable som tidligere:
- `age_encoded`
- `sex_numeric`
- `gdp_per_capita ($)`


In [1]:
import pandas as pd

from sklearn.neighbors import KNeighborsRegressor

from sklearn.model_selection import train_test_split
from sklearn.metrics import (
    r2_score,
    mean_absolute_error,
    mean_squared_error,
    silhouette_score
)

In [2]:
df_no_outliers = pd.read_csv("../cleaned_suicide_data.csv")

In [3]:
# Vi bruger de samme data og split som tidligere
X = df_no_outliers[["age_encoded", "sex_numeric", "gdp_per_capita ($)"]]
y = df_no_outliers["suicides/100k pop"]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

# Vi opretter og træner en KNN-regressionsmodel (k=5)
knn_model = KNeighborsRegressor(n_neighbors=5)
knn_model.fit(X_train, y_train)

# Vi laver forudsigelser på testdatasættet
y_pred_knn = knn_model.predict(X_test)

# Vi evaluerer modellen med R² og MAE (forklaringsevne og gennemsnitlig fejl)
r2_knn = r2_score(y_test, y_pred_knn)
mae_knn = mean_absolute_error(y_test, y_pred_knn)

print(f"KNN Regressor R²-score: {r2_knn:.3f}")
print(f"KNN Regressor MAE: {mae_knn:.2f}")



KNN Regressor R²-score: 0.158
KNN Regressor MAE: 6.71


### Konklusion – KNN Regressor

KNN-modellen opnåede en R²-score på **0.158** og en MAE på **6.71**. Det viser, at modellen kun forklarer ca. **15.8 % af variationen** i selvmordsraten, og den gennemsnitlige fejl er desuden højere end for både beslutningstræet og Random Forest.

Selvom modellen er simpel og nem at forstå, tyder resultaterne på, at KNN ikke er særligt velegnet til dette datasæt. Det skyldes sandsynligvis, at selvmordsraten påvirkes af mere komplekse mønstre, som KNN ikke fanger ved blot at kigge på nærmeste naboer.

Vi inkluderede modellen for at have en simpel baseline til sammenligning, og det har givet os en bedre forståelse af, hvorfor mere avancerede modeller som Random Forest giver bedre resultater i dette projekt.
