# Regresja GridSearchCV dla modelu kNN (dla różnych ilości cech(x) i znaleźć najlepsze parametry)


In [1]:
# Załadowanie pakietów
import numpy as np
import pandas as pd
from sklearn.neighbors import KNeighborsRegressor, RadiusNeighborsRegressor
from sklearn.model_selection import GridSearchCV
import matplotlib.pyplot as plt
from sklearn.metrics import r2_score
from sklearn.metrics import accuracy_score
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split, cross_val_score

In [2]:
df = pd.read_csv('/home/pawcio/Desktop/Projekty/insurance_3.csv')

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1338 entries, 0 to 1337
Data columns (total 7 columns):
age         1338 non-null int64
sex         1338 non-null int64
bmi         1338 non-null float64
children    1338 non-null int64
smoker      1338 non-null int64
region      1338 non-null int64
charges     1338 non-null float64
dtypes: float64(2), int64(5)
memory usage: 73.3 KB


In [4]:
df.describe()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
count,1338.0,1338.0,1338.0,1338.0,1338.0,1338.0,1338.0
mean,39.207025,0.494768,30.663397,1.094918,0.204783,1.484305,13270.422265
std,14.04996,0.50016,6.098187,1.205493,0.403694,1.104885,12110.011237
min,18.0,0.0,15.96,0.0,0.0,0.0,1121.8739
25%,27.0,0.0,26.29625,0.0,0.0,1.0,4740.28715
50%,39.0,0.0,30.4,1.0,0.0,1.0,9382.033
75%,51.0,1.0,34.69375,2.0,0.0,2.0,16639.912515
max,64.0,1.0,53.13,5.0,1.0,3.0,63770.42801


In [5]:
df.columns

Index(['age', 'sex', 'bmi', 'children', 'smoker', 'region', 'charges'], dtype='object')

In [6]:
x0 = (df[['age', 'sex', 'bmi', 'children', 'smoker', 'region']])
y = (df['charges'])


In [7]:
def kNN_function(x, y):
    
    print('---------------------\n')
    print('kNN regression: \n')
    
    # Podział dataset
    x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.33, random_state = 42)
    
    # Przedstawienie liczebności zbiorów
    print(' Liczebność zbioru T = ', x_train.count()[0],'\n','Liczebność zbioru V = ', x_test.count()[0])
    print('---------------------\n')
    
    # Standaryzacja wartości x
    scaler = MinMaxScaler()
    scaler.fit(x_train)
    norm_x_train = scaler.transform(x_train)
    norm_x_test = scaler.transform(x_test)
    
    # Wytrenowanie modelu
    model = KNeighborsRegressor()
    model_fit = model.fit(norm_x_train, y_train)
    
    # Obliczenie wartości y_pred
    y_pred = model_fit.predict(norm_x_test)
    r2 = r2_score(y_test, y_pred)
    mse = mean_squared_error(y_test, y_pred)
    
    print(' Wartość współczynnika R^2 = ', r2)
    print(' Wartość współczynnika mse = ', mse)
    print('---------------------\n')
    # Znalezienie najlepszych hiperparametrów

    print(' Najlepszsze parametry modelu: \n')
    
        
    params = {'n_neighbors': range(1,10,1),
              'algorithm': ('ball_tree', 'kd_tree'),
              'leaf_size': range(1,21, 2),
              'p': range(1,3,1)}
    
    # Najlepsze parametry dla modelu
    kNN_regressor_search = GridSearchCV(model, params, cv = 5)
    kNN_regressor_search.fit(x_train,y_train)
    best_params = kNN_regressor_search.best_params_
    print(best_params)
    
    best_model = \
        KNeighborsRegressor(n_neighbors= best_params['n_neighbors'], 
                            algorithm = best_params['algorithm'],
                            leaf_size=best_params['leaf_size'], 
                            p=best_params['p'])
    best_model.fit(x_train, y_train)
    bp_sc = best_model.score(x_test, y_test)
    
    print('---------------------\n')
    print('Score = ', bp_sc)

In [8]:
# Model dla wszystkich cech ('age', 'sex', 'bmi', 'children', 'smoker', 'region')
kNN_function(x0,y)

---------------------

kNN regression: 

 Liczebność zbioru T =  896 
 Liczebność zbioru V =  442
---------------------

 Wartość współczynnika R^2 =  0.784134267698671
 Wartość współczynnika mse =  31633969.463230394
---------------------

 Najlepszsze parametry modelu: 

{'algorithm': 'ball_tree', 'leaf_size': 1, 'n_neighbors': 8, 'p': 1}
---------------------

Score =  0.32573747675912224


In [9]:
# modele bez jednej cechy
x11 = (df[['sex', 'bmi', 'children', 'smoker', 'region']])
x12 = (df[['age', 'bmi', 'children', 'smoker', 'region']])
x13 = (df[['age', 'sex', 'children', 'smoker', 'region']])
x14 = (df[['age', 'sex', 'bmi', 'smoker', 'region']])
x15 = (df[['age', 'sex', 'bmi', 'children', 'region']])
x16 = (df[['age', 'sex', 'bmi', 'children', 'smoker']])

In [17]:
# model x11
kNN_function(x11,y)

---------------------

kNN regression: 

 Liczebność zbioru T =  896 
 Liczebność zbioru V =  442
---------------------

 Wartość współczynnika R^2 =  0.6918733541906055
 Wartość współczynnika mse =  45154313.28737111
---------------------

 Najlepszsze parametry modelu: 

{'algorithm': 'kd_tree', 'leaf_size': 3, 'n_neighbors': 3, 'p': 1}
---------------------

Score =  0.48995191165071017


In [11]:
# model x12
kNN_function(x12,y)

---------------------

kNN regression: 

 Liczebność zbioru T =  896 
 Liczebność zbioru V =  442
---------------------

 Wartość współczynnika R^2 =  0.8131198344403464
 Wartość współczynnika mse =  27386289.55866528
---------------------

 Najlepszsze parametry modelu: 

{'algorithm': 'kd_tree', 'leaf_size': 13, 'n_neighbors': 9, 'p': 1}
---------------------

Score =  0.3287428968574322


In [12]:
# model x13
kNN_function(x13,y)

---------------------

kNN regression: 

 Liczebność zbioru T =  896 
 Liczebność zbioru V =  442
---------------------

 Wartość współczynnika R^2 =  0.6734773911496206
 Wartość współczynnika mse =  47850143.36137701
---------------------

 Najlepszsze parametry modelu: 

{'algorithm': 'ball_tree', 'leaf_size': 13, 'n_neighbors': 4, 'p': 1}
---------------------

Score =  0.453537179318685


In [13]:
# model x14
kNN_function(x14,y)

---------------------

kNN regression: 

 Liczebność zbioru T =  896 
 Liczebność zbioru V =  442
---------------------

 Wartość współczynnika R^2 =  0.7837198159546268
 Wartość współczynnika mse =  31694705.151453365
---------------------

 Najlepszsze parametry modelu: 

{'algorithm': 'ball_tree', 'leaf_size': 3, 'n_neighbors': 9, 'p': 1}
---------------------

Score =  0.34439895334601744


In [14]:
# model x15
kNN_function(x15,y)

---------------------

kNN regression: 

 Liczebność zbioru T =  896 
 Liczebność zbioru V =  442
---------------------

 Wartość współczynnika R^2 =  0.027054010507461923
 Wartość współczynnika mse =  142580035.25087497
---------------------

 Najlepszsze parametry modelu: 

{'algorithm': 'kd_tree', 'leaf_size': 7, 'n_neighbors': 8, 'p': 1}
---------------------

Score =  0.02442058644132883


In [15]:
# model x16
kNN_function(x16,y)

---------------------

kNN regression: 

 Liczebność zbioru T =  896 
 Liczebność zbioru V =  442
---------------------

 Wartość współczynnika R^2 =  0.8162839136785389
 Wartość współczynnika mse =  26922610.65542693
---------------------

 Najlepszsze parametry modelu: 

{'algorithm': 'kd_tree', 'leaf_size': 3, 'n_neighbors': 8, 'p': 1}
---------------------

Score =  0.32745152795111343


In [33]:
# modele bez 2 cech
x21 = (df[['age', 'bmi', 'children', 'smoker']])
x22 = (df[['sex', 'children', 'smoker', 'region']])
x23 = (df[['sex', 'bmi', 'children', 'region']])

In [20]:
# model x21
kNN_function(x21,y)

---------------------

kNN regression: 

 Liczebność zbioru T =  896 
 Liczebność zbioru V =  442
---------------------

 Wartość współczynnika R^2 =  0.837316262982016
 Wartość współczynnika mse =  23840432.26373371
---------------------

 Najlepszsze parametry modelu: 

{'algorithm': 'ball_tree', 'leaf_size': 1, 'n_neighbors': 9, 'p': 1}
---------------------

Score =  0.3306002282372206


In [21]:
# model x22
kNN_function(x22,y)

---------------------

kNN regression: 

 Liczebność zbioru T =  896 
 Liczebność zbioru V =  442
---------------------

 Wartość współczynnika R^2 =  0.5903451998467049
 Wartość współczynnika mse =  60032721.731050335
---------------------

 Najlepszsze parametry modelu: 

{'algorithm': 'kd_tree', 'leaf_size': 13, 'n_neighbors': 9, 'p': 1}
---------------------

Score =  0.5917465726305607


In [23]:
# model x23
kNN_function(x23,y)

---------------------

kNN regression: 

 Liczebność zbioru T =  896 
 Liczebność zbioru V =  442
---------------------

 Wartość współczynnika R^2 =  -0.08425913547165087
 Wartość współczynnika mse =  158892381.92683545
---------------------

 Najlepszsze parametry modelu: 

{'algorithm': 'kd_tree', 'leaf_size': 3, 'n_neighbors': 9, 'p': 2}
---------------------

Score =  -0.05090910205850707


In [32]:
# model bez 3 cech
x31 = (df[['sex', 'children', 'region']])
x32 = (df[['age', 'bmi', 'smoker']])

In [24]:
# model x31
kNN_function(x31,y)

---------------------

kNN regression: 

 Liczebność zbioru T =  896 
 Liczebność zbioru V =  442
---------------------

 Wartość współczynnika R^2 =  -0.005519871567086998
 Wartość współczynnika mse =  147353563.59119877
---------------------

 Najlepszsze parametry modelu: 

{'algorithm': 'ball_tree', 'leaf_size': 13, 'n_neighbors': 9, 'p': 2}
---------------------

Score =  -0.008669810268317146


In [25]:
# model x32
kNN_function(x32,y)

---------------------

kNN regression: 

 Liczebność zbioru T =  896 
 Liczebność zbioru V =  442
---------------------

 Wartość współczynnika R^2 =  0.8264035080188952
 Wartość współczynnika mse =  25439638.184853207
---------------------

 Najlepszsze parametry modelu: 

{'algorithm': 'kd_tree', 'leaf_size': 13, 'n_neighbors': 2, 'p': 1}
---------------------

Score =  0.2469104494230807


In [31]:
# model bez 4 cech
x41 = (df[['age', 'smoker']])
x42 = (df[['sex', 'region']])
x43 = (df[['age', 'bmi']])
x44 = (df[['bmi', 'smoker']])
x45 = (df[['children', 'smoker']])

In [26]:
# model x41
kNN_function(x41,y)

---------------------

kNN regression: 

 Liczebność zbioru T =  896 
 Liczebność zbioru V =  442
---------------------

 Wartość współczynnika R^2 =  0.6823952718135279
 Wartość współczynnika mse =  46543275.608022906
---------------------

 Najlepszsze parametry modelu: 

{'algorithm': 'kd_tree', 'leaf_size': 13, 'n_neighbors': 4, 'p': 1}
---------------------

Score =  0.6442041330958279


In [27]:
# model x42
kNN_function(x42,y)

---------------------

kNN regression: 

 Liczebność zbioru T =  896 
 Liczebność zbioru V =  442
---------------------

 Wartość współczynnika R^2 =  -0.10988124094226137
 Wartość współczynnika mse =  162647164.55675992
---------------------

 Najlepszsze parametry modelu: 

{'algorithm': 'ball_tree', 'leaf_size': 3, 'n_neighbors': 9, 'p': 1}
---------------------

Score =  -0.1894364133197608


In [28]:
# model x43
kNN_function(x43,y)

---------------------

kNN regression: 

 Liczebność zbioru T =  896 
 Liczebność zbioru V =  442
---------------------

 Wartość współczynnika R^2 =  -0.025144632480991636
 Wartość współczynnika mse =  150229467.42667675
---------------------

 Najlepszsze parametry modelu: 

{'algorithm': 'ball_tree', 'leaf_size': 13, 'n_neighbors': 9, 'p': 1}
---------------------

Score =  0.06686727808482795


In [29]:
# model x44
kNN_function(x44,y)

---------------------

kNN regression: 

 Liczebność zbioru T =  896 
 Liczebność zbioru V =  442
---------------------

 Wartość współczynnika R^2 =  0.7340701631027455
 Wartość współczynnika mse =  38970596.44476881
---------------------

 Najlepszsze parametry modelu: 

{'algorithm': 'ball_tree', 'leaf_size': 1, 'n_neighbors': 8, 'p': 1}
---------------------

Score =  0.686792749159286


In [30]:
# model x45
kNN_function(x45,y)

---------------------

kNN regression: 

 Liczebność zbioru T =  896 
 Liczebność zbioru V =  442
---------------------

 Wartość współczynnika R^2 =  0.6188856420391742
 Wartość współczynnika mse =  55850272.45038649
---------------------

 Najlepszsze parametry modelu: 

{'algorithm': 'ball_tree', 'leaf_size': 3, 'n_neighbors': 9, 'p': 1}
---------------------

Score =  0.6074281368129719
