# Hyperparameter Tuning für KNN-Imputation

In [115]:
import pandas as pd
import numpy as np
import math

from sklearn.preprocessing import StandardScaler
from sklearn.metrics import r2_score, mean_squared_error


In [116]:
def reset_base():
    base= pd.read_csv('additional_data/base.csv') 
    base.set_index(['Country Name', 'Indicator Name'], inplace=True)
    base = base.sort_index(level=['Country Name', 'Indicator Name'])
    return base

In [117]:
def get_cords(frac):
    n = int(base.isna().sum().sum()*frac)
    print(f'Testdaten mit {frac*100}% fehlenden Werten (absolut: {n})')
    #random state to ensure reproducibility
    rnds = np.random.RandomState(n)

    #coordinates for data entries to be removed randomly
    #5000 entries are selected
    cords = pd.DataFrame([[rnds.randint(0, len(base), size=n*4)[i], 
                  rnds.randint(0, len(base.columns), size=n*4)[i]]
                  for i in range(n*4)])

    #all coordinates pointing to NaN entries are removed and
    #first 1000 remaining entries are selected
    cords['value'] = [base.iloc[cords[0][i], cords[1][i]] for i in cords.index]
    cords = cords.dropna()[:n].reset_index(drop=True)
    
    return cords

In [118]:
cords = get_cords(0.1)

Testdaten mit 10.0% fehlenden Werten (absolut: 17030)


In [119]:
#getting train data by changing randomly chosen values to NaN
def reset_train():
    train = base.copy()
    for i in cords.index:
        train.iloc[cords[0][i], cords[1][i]] = None
    return train

In [120]:
results = []

In [121]:
def evaluate(method, df):
    
    
    #scaling original data and imputed data
    #necessary ?????????????????????????????????????
    train = reset_train()
    scaler = StandardScaler().fit(train) #fitting on train?
    norm_base = pd.DataFrame(scaler.transform(base))
    df = pd.DataFrame(scaler.transform(df))

    #getting imputed values for simulated NaNs and true value 
    res =pd.DataFrame({'y_true': [norm_base.iloc[cords[0][i], cords[1][i]] for i in cords.index],
                       'y_pred': [df.iloc[cords[0][i], cords[1][i]] for i in cords.index]
                      })
    res = res.dropna()

   
    #calculate evaluation metrics
    r2 = r2_score(res['y_true'], res['y_pred'])
    rmse = math.sqrt(mean_squared_error(res['y_true'], res['y_pred']))
    still_missing = df.isna().sum().sum()
    
    print(f'Mit dieser Methode bleiben {still_missing} NaNs bestehen.')
    print('')
    print(f'{len(res)} Werte wurden für die Metriken verwendet.')
    print(f'r2: {r2}, rmse: {rmse}')
    
    results.append([method, still_missing, r2, rmse])

In [122]:
def knn_imputer(df, n):
    knn_imp = KNNImputer( n_neighbors=n)
    df= knn_imp.fit_transform(df)
    return df

In [125]:
for i in range(9):
    
    base = reset_base()
    train = reset_train()

    df = knn_imputer(train, i+1)

    evaluate('KNN Imputer', df)



Mit dieser Methode bleiben 0 NaNs bestehen.

17030 Werte wurden für die Metriken verwendet.
r2: 0.3340016978911755, rmse: 1.6406390225552483




Mit dieser Methode bleiben 0 NaNs bestehen.

17030 Werte wurden für die Metriken verwendet.
r2: 0.40171197982598716, rmse: 1.555004425815101




Mit dieser Methode bleiben 0 NaNs bestehen.

17030 Werte wurden für die Metriken verwendet.
r2: 0.33182846746783123, rmse: 1.6433136410281242




Mit dieser Methode bleiben 0 NaNs bestehen.

17030 Werte wurden für die Metriken verwendet.
r2: 0.28939182292801535, rmse: 1.694695110203498




Mit dieser Methode bleiben 0 NaNs bestehen.

17030 Werte wurden für die Metriken verwendet.
r2: 0.2683048270121635, rmse: 1.7196559671326372




Mit dieser Methode bleiben 0 NaNs bestehen.

17030 Werte wurden für die Metriken verwendet.
r2: 0.2734936246794474, rmse: 1.7135476704306978




Mit dieser Methode bleiben 0 NaNs bestehen.

17030 Werte wurden für die Metriken verwendet.
r2: 0.2504357786262221, rmse: 1.7405275431861722




Mit dieser Methode bleiben 0 NaNs bestehen.

17030 Werte wurden für die Metriken verwendet.
r2: 0.2272953158782175, rmse: 1.7671900128975437




Mit dieser Methode bleiben 0 NaNs bestehen.

17030 Werte wurden für die Metriken verwendet.
r2: 0.21107594390244355, rmse: 1.785640696944728


In [127]:
results = pd.DataFrame(results)

In [128]:
results

Unnamed: 0,0,1,2,3
0,KNN Imputer,0,0.334002,1.640639
1,KNN Imputer,0,0.401712,1.555004
2,KNN Imputer,0,0.331828,1.643314
3,KNN Imputer,0,0.289392,1.694695
4,KNN Imputer,0,0.268305,1.719656
5,KNN Imputer,0,0.273494,1.713548
6,KNN Imputer,0,0.250436,1.740528
7,KNN Imputer,0,0.227295,1.76719
8,KNN Imputer,0,0.211076,1.785641
