## Knn regresija

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score
from sklearn.neighbors import KNeighborsRegressor
from sklearn.preprocessing import StandardScaler, PolynomialFeatures
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np
import matplotlib.pyplot as plt
import joblib

# ƒÆkeliame duomenis i≈° pateikto failo
data = pd.read_csv('data_visi_v2.csv')

# Pasiruo≈°iame duomenis
X = data.drop(columns=['KIEKIS'])
y = data['KIEKIS']

# Padalijame ƒØ treniravimo ir testavimo rinkinius
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Sukuriame polinominius po≈æymius
poly = PolynomialFeatures(degree=2, include_bias=False)
X_train_poly = poly.fit_transform(X_train)
X_test_poly = poly.transform(X_test)

# Normalizuojame duomenis
scaler = StandardScaler()
X_train_poly_scaled = scaler.fit_transform(X_train_poly)
X_test_poly_scaled = scaler.transform(X_test_poly)

# Sukuriame K-nn Regressor
knn = KNeighborsRegressor()

# Nustatome hiperparametr≈≥ tinklƒÖ
param_grid = {
    'n_neighbors': [3, 5, 7, 10],
    'weights': ['uniform', 'distance'],
    'metric': ['euclidean', 'manhattan','minkowski']
}

In [2]:
# Naudojame GridSearchCV geriausiems parametrams rasti
grid_search = GridSearchCV(estimator=knn, param_grid=param_grid, cv=5, scoring='r2', n_jobs=-1)
grid_search.fit(X_train_poly_scaled, y_train)


In [3]:
# Patikrinkime rezultatus ir raskime NaN reik≈°mes
results = grid_search.cv_results_
mean_test_scores = results['mean_test_score']
params_with_nan = [results['params'][i] for i in range(len(mean_test_scores)) if np.isnan(mean_test_scores[i])]

# Spausdiname kombinacijas, kurios sukelia NaN reik≈°mes
print("Parametr≈≥ kombinacijos, kurios sukelia NaN reik≈°mes:")
for params in params_with_nan:
    print(params)

Parametr≈≥ kombinacijos, kurios sukelia NaN reik≈°mes:


In [4]:

# Geriausi parametrai
best_params = grid_search.best_params_

# Geriausias modelis
best_model = grid_search.best_estimator_

# Atliekame prognozes su geriausiu modeliu
y_train_pred = best_model.predict(X_train_poly_scaled)
y_test_pred = best_model.predict(X_test_poly_scaled)

# Vertiname modelƒØ
train_mse = mean_squared_error(y_train, y_train_pred)
test_mse = mean_squared_error(y_test, y_test_pred)
train_r2 = r2_score(y_train, y_train_pred)
test_r2 = r2_score(y_test, y_test_pred)

# Kry≈æminƒó validacija su pilnu duomen≈≥ rinkiniu
X_combined = pd.concat([X_train, X_test])
y_combined = pd.concat([y_train, y_test])
X_combined_poly = poly.fit_transform(X_combined)
X_combined_poly_scaled = scaler.fit_transform(X_combined_poly)

cv_scores_5 = cross_val_score(best_model, X_combined_poly_scaled, y_combined, cv=5, scoring='r2')
cv_scores_10 = cross_val_score(best_model, X_combined_poly_scaled, y_combined, cv=10, scoring='r2')


# I≈°saugome modelƒØ
joblib.dump(best_model, 'knn_model.pkl')
# I≈°saugome PolynomialFeatures ir StandardScaler
joblib.dump(poly, 'knn_poly.pkl')
joblib.dump(scaler, 'knn_scaler.pkl')


# Rezultat≈≥ spausdinimas
print(f'Geriausi parametrai: {best_params}')
print(f'Treniravimo MSE: {train_mse}')
print(f'Testavimo MSE: {test_mse}')
print(f'Treniravimo R2: {train_r2}')
print(f'Testavimo R2: {test_r2}')

print(f'Kry≈æminƒós validacijos (cv=5) MSE reik≈°mƒós: {cv_scores_5}')
print(f'Kry≈æminƒós validacijos (cv=5) vidutinis MSE: {cv_scores_5.mean()}')

print(f'Kry≈æminƒós validacijos (cv=10) MSE reik≈°mƒós: {cv_scores_10}')
print(f'Kry≈æminƒós validacijos (cv=10) vidutinis MSE: {cv_scores_10.mean()}')


Geriausi parametrai: {'metric': 'euclidean', 'n_neighbors': 5, 'weights': 'uniform'}
Treniravimo MSE: 1179824.4180357144
Testavimo MSE: 1655609.1789473684
Treniravimo R2: 0.9574232460729571
Testavimo R2: 0.9381141459500063
Kry≈æminƒós validacijos (cv=5) MSE reik≈°mƒós: [0.96267899 0.91710336 0.96068257 0.95384504 0.93632822]
Kry≈æminƒós validacijos (cv=5) vidutinis MSE: 0.9461276374364201
Kry≈æminƒós validacijos (cv=10) MSE reik≈°mƒós: [0.9712934  0.95091006 0.80813735 0.96734087 0.94249511 0.97162942
 0.96015372 0.95592331 0.95008886 0.93269786]
Kry≈æminƒós validacijos (cv=10) vidutinis MSE: 0.9410669958481966


In [None]:
# Rezultatai rodo, kad modelis veikia gana gerai, 
# taƒçiau yra tam tikr≈≥ skirtum≈≥ tarp treniravimo ir testavimo duomen≈≥, 
# taip pat kry≈æminƒós validacijos rezultat≈≥.

# Geriausi parametrai: {'metric': 'euclidean', 'n_neighbors': 5, 'weights': 'uniform'}
# Naudojama euklido atstumo metrika.
# Kaimyn≈≥ skaiƒçius  k yra 5.
# Svorio funkcija yra "uniform", tai rei≈°kia, kad visi kaimynai turi vienodƒÖ svorƒØ prognozƒóje.

# Treniruotƒós ir Testavimo rezultatai
# Treniravimo MSE: 1179824.4180357144
# Testavimo MSE: 1655609.1789473684
# Treniravimo R2: 0.9574232460729571
# Testavimo R2: 0.9381141459500063

# Treniravimo MSE yra 1179824.418, o Testavimo MSE yra 1655609.179. 
# Nors testavimo klaida yra ≈°iek tiek didesnƒó, jos vertƒó yra artima treniravimo klaidai, 
# kas rodo, kad modelis nƒóra per daug pritaikytas (overfit).

# Treniravimo ùëÖ2 yra 0.957, o Testavimo ùëÖ2 yra 0.938.
# Abu ≈°ie skaiƒçiai yra auk≈°ti ir rodo, kad modelis gerai paai≈°kina duomen≈≥ dispersijƒÖ 
# tiek treniravimo, tiek testavimo rinkiniuose.

# Kry≈æminƒó validacija
# Kry≈æminƒós validacijos (cv=5) MSE reik≈°mƒós: [0.96267899 0.91710336 0.96068257 0.95384504 0.93632822]
# Kry≈æminƒós validacijos (cv=5) vidutinis MSE: 0.9461276374364201
# Kry≈æminƒós validacijos su 5 dalimis (cv=5) MSE reik≈°mƒós svyruoja tarp 0.917 ir 0.962.
# Vidutinis MSE yra 0.946, tai rodo stabil≈≥ modelio veikimƒÖ kry≈æminƒóje validacijoje su 5 dalimis.

# Kry≈æminƒós validacijos (cv=10) MSE reik≈°mƒós: [0.9712934  0.95091006 0.80813735 0.96734087 0.94249511 0.97162942
# 0.96015372 0.95592331 0.95008886 0.93269786]
# Kry≈æminƒós validacijos (cv=10) vidutinis MSE: 0.9410669958481966
# Kry≈æminƒós validacijos su 10 dalimis (cv=10) MSE reik≈°mƒós svyruoja tarp 0.808 ir 0.971.
# Vidutinis MSE yra 0.941, tai rodo stabil≈≥ modelio veikimƒÖ kry≈æminƒóje validacijoje su 10 dalimis.

# I≈°vados
# Modelio veikimas yra geras, kƒÖ rodo auk≈°tas ùëÖ2 tiek treniravimo, tiek testavimo rinkiniuose.
# MSE yra didesnis testavimo rinkinyje nei treniravimo rinkinyje, bet skirtumas nƒóra labai didelis, 
# kas rodo, kad modelis nƒóra per daug pritaikytas (overfit).
# Kry≈æminƒós validacijos rezultatai rodo stabil≈≥ modelio veikimƒÖ ƒØvairiuose duomen≈≥ rinkiniuose.
# Taigi, modelis gali b≈´ti laikomas geru pasirinkimu prognozƒóms, 
# taƒçiau reikia atkreipti dƒómesƒØ ƒØ didesnƒô MSE vertƒô testavimo duomen≈≥ rinkinyje, 
# kuri gali rodyti galimus duomen≈≥ svyravimus ar netikslumus, kuriuos verta toliau analizuoti.
