# Úkol č. 2 - regrese

* Termíny jsou uvedeny na [courses.fit.cvut.cz](https://courses.fit.cvut.cz/BI-ML1/homeworks/index.html).
* Pokud odevzdáte úkol po prvním termínu ale před nejzazším termínem, budete penalizování -12 body, pozdější odevzdání je bez bodu.
* V rámci tohoto úkolu se musíte vypořádat s regresní úlohou, s příznaky různých typů a s chybějícími hodnotami.
* Před tím, než na nich postavíte predikční model, je třeba je nějakým způsobem převést do číselné reprezentace.
    
> **Úkoly jsou zadány tak, aby Vám daly prostor pro invenci. Vymyslet _jak přesně_ budete úkol řešit, je důležitou součástí zadání a originalita či nápaditost bude také hodnocena!**

Využívejte buňky typu `Markdown` k vysvětlování Vašeho postupu. Za nepřehlednost budeme strhávat body.

## Zdroj dat

Budeme se zabývat predikcí délky dožití v různých zemích a letech.
K dispozici máte trénovací data v souboru `data.csv` a data na vyhodnocení v souboru `evaluation.csv`.

#### Seznam příznaků:

* Year - Rok
* Status - Status rozvinuté nebo rozvojové země
* Life expectancy - Délka dožití v letech - **cílová proměnná, kterou budete predikovat**
* Adult Mortality - Úmrtnost dospělých bez ohledu na pohlaví (pravděpodobnost, že osoby, které dosáhly věku 15 let, zemřou před dosažením věku 60 let (uvedeno na 1 000 osob)).
* infant deaths - počet zemřelých kojenců na 1000 obyvatel
* Alcohol - Alkohol, zaznamenaná spotřeba na obyvatele (15+) (v litrech čistého alkoholu)
* percentage expenditure - Výdaje na zdravotnictví v procentech hrubého domácího produktu na obyvatele (%)
* Hepatitis B - pokrytí očkováním proti hepatitidě B (HepB) u dětí ve věku 1 roku (%)
* Measles - Spalničky - počet hlášených případů na 1000 obyvatel
* BMI - průměrný index tělesné hmotnosti celé populace
* under-five deaths - počet úmrtí dětí do pěti let na 1000 obyvatel
* Polio - proočkovanost proti dětské obrně (Pol3) u dětí ve věku 1 roku (%)
* Total expenditure - Výdaje vládních institucí na zdravotnictví jako procento celkových vládních výdajů (%)
* Diphtheria - pokrytí očkováním proti záškrtu, tetanu a černému kašli (DTP3) u jednoletých dětí (%)
* HIV/AIDS - počet úmrtí na 1 000 živě narozených dětí na HIV/AIDS (0-4 roky)
* GDP - hrubý domácí produkt na obyvatele (v USD)
* Population - počet obyvatel země
* thinness 1-19 years - podíl dětí ve věku 10-19 let s indexem tělesné hmotnosti (BMI) menším než 2 směrodatné odchylky pod mediánem (%)
* thinness 5-9 years - podíl dětí ve věku 5-9 let s indexem tělesné hmotnosti (BMI) menším než 2 směrodatné odchylky pod mediánem (%)
* Income composition of resources - Index lidského rozvoje z hlediska příjmového složení zdrojů (index v rozmezí 0 až 1)
* Schooling - počet let školní docházky (roky)


## Pokyny k vypracování

**Body zadání**, za jejichž (poctivé) vypracování získáte **25 bodů**: 
  * V notebooku načtěte data ze souboru `data.csv`. Vhodným způsobem si je rozdělte na podmnožiny, které Vám poslouží pro trénování (trénovací), porovnávání modelů (validační) a následnou predikci výkonnosti finálního modelu (testovací).
    
  * Proveďte základní předzpracování dat:
    * Projděte si jednotlivé příznaky a transformujte je do vhodné podoby pro použití ve vybraném regresním modelu.
    * Nějakým způsobem se vypořádejte s chybějícími hodnotami. _Pozor na metodické chyby!_
    * Můžete využívat i vizualizace. Vše stručně ale náležitě komentujte.
<br /><br />
  * Vytvořte **vlastní implementaci náhodného lesa**. Použijte k tomu níže předpřipravenou kostru.
  
  * Na připravená data postupně aplikujte Vaši předchozí implementaci modelu náhodného lesa, dále jeden z modelů **lineární regrese** nebo **hřebenové regrese**, a alespoň jeden další model podle Vašeho uvážení, přičemž pro každý z těchto modelů přiměřeně:
    * Okomentujte vhodnost daného modelu pro daný typ úlohy.
    * Experimentujte s normalizací (standardizace/min-max), pokud pro daný model očekáváte její příznivý vliv.
    * Vyberte si hlavní hyperparametry k ladění a najděte jejich nejlepší hodnoty (vzhledem k RMSE).
    * Pro model s nejlepšími hodnotami hyperparametrů určete jeho chybu pomocí RMSE a MAE. _Pozor na metodické chyby!_
    * Získané výsledky vždy řádně okomentujte.
<br /><br />
  * Ze všech zkoušených možností v předchozím kroku vyberte finální model a odhadněte, jakou chybu (RMSE) můžete očekávat na nových datech, která jste doposud neměli k dispozici. _Pozor na metodické chyby!_
    
  * Nakonec načtěte vyhodnocovací data ze souboru `evaluation.csv`. Pomocí finálního modelu napočítejte predikce pro tato data. Vytvořte soubor `results.csv`, ve kterém získané predikce uložíte s využitím tří sloupců: **Country**, **Year** a **Life expectancy**. Tento soubor též odevzdejte (uložte do repozitáře vedle notebooku).

  * Ukázka prvních řádků souboru `results.csv`:
  
```
Country,Year,Life expectancy
Peru,2012,71.4
Peru,2013,72.6
...
```


## Poznámky k odevzdání

  * Řiďte se pokyny ze stránky https://courses.fit.cvut.cz/BI-ML1/homeworks/index.html.

In [103]:
# Váš kód zde
from sklearn.tree import DecisionTreeRegressor
import numpy as np

########################################################
# Předpřipravená kostra modelu náhodného lesa
class CustomRandomForest:
    """
    Třída Vašeho modelu
    Bude se jednat o model náhodného lesa, kde podmodely tvoří rozhodovací stromy pro regresi.
    Pro podmodely můžete použít implementaci DecisionTreeRegressor ze sklearn.
    """
    def __init__(self, n_estimators, max_samples, max_depth, **kwargs):
        """
        Konstruktor modelu
        Základní hyperparametery:
            n_estimators - počet podmodelů - rozhodovacích stromů.
            max_samples - vyberte si, zda tento parametr bude označovat relativní počet bodů (tj. číslo mezi 0 a 1) 
                          nebo absolutní počet bodů (tj. číslo mezi 1 a velikostí trénovací množiny), 
                          které budou pro každý podmodel rozhodovacího stromu náhodně vybrány z trénovací množiny (bootstrap) a použity k jeho trénování.
            max_depth - maximální hloubka každého z podmodelů rozhodovacího stromu.
            kwargs - (volitelně) případné další hyperparametry, které pošlete do podmodelů rozhodovacího stromu
        """
        self.n_estimators = n_estimators
        self.max_samples = max_samples
        self.max_depth = max_depth
        self.kwargs = kwargs
        self.models = []
        self.random_seed = 666
        
    def fit(self, X, y):
        """
        Natrénování modelu. Trénovací data jsou v argumentech X a y.
        Pro trénování podmodelů používejte bootstraping a velikost samplovaného vzorku vezměte z hyperparametru max_samples_fraction
        """
        for _ in range(self.n_estimators):

            X_selected = X.sample(n=self.max_samples, replace=True, random_state=self.random_seed)
            y_selected = y.sample(n=self.max_samples, replace=True, random_state=self.random_seed)
            
            tree = DecisionTreeRegressor(max_depth=self.max_depth)
            tree.fit(X_selected, y_selected)
            
            self.models.append(tree)
        
    def predict(self, X):
        """
        Predikce y v zadaných bodech X
        """
        ypredicted = np.zeros((X.shape[0],))
        
        for tree in self.models:
            ypredicted += tree.predict(X) # add 1 or 0 from each tree in forest
        
        ypredicted /= self.n_estimators # get real prediction from all trees
        return ypredicted

    

In [104]:
import pandas as pd
from sklearn.model_selection import train_test_split


data = pd.read_csv('data.csv')

X = data.drop('Life expectancy', axis=1)
y = data['Life expectancy']


In [105]:
random_seed = 666

Xtrain, Xtest, Ytrain, Ytest = train_test_split(X, y, test_size=0.25, random_state=random_seed)
Xtrain, Xval, Ytrain, Yval = train_test_split(Xtrain, Ytrain, test_size=0.25, random_state=random_seed)

In [106]:
print("Velikost trénovací množiny:", len(Xtrain))
print("Velikost validační množiny:", len(Xval))
print("Velikost testovací množiny:", len(Xtest))

Velikost trénovací množiny: 1528
Velikost validační množiny: 510
Velikost testovací množiny: 680


In [107]:
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder

display(Xtrain.info())
columns_with_null = data.columns[data.isnull().any()].tolist()
columns_with_null_dtype = data[data.columns[data.isnull().any()]].dtypes
# print("Sloupce s null hodnotami:", columns_with_null)
print("Dtype sloupců s null hodnotami:")
print(columns_with_null_dtype)

<class 'pandas.core.frame.DataFrame'>
Index: 1528 entries, 2028 to 209
Data columns (total 21 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   Country                          1528 non-null   object 
 1   Year                             1528 non-null   int64  
 2   Status                           1528 non-null   object 
 3   Adult Mortality                  1528 non-null   float64
 4   infant deaths                    1528 non-null   int64  
 5   Alcohol                          1453 non-null   float64
 6   percentage expenditure           1528 non-null   float64
 7   Hepatitis B                      1227 non-null   float64
 8   Measles                          1528 non-null   int64  
 9   BMI                              1513 non-null   float64
 10  under-five deaths                1528 non-null   int64  
 11  Polio                            1522 non-null   float64
 12  Total expenditure      

None

Dtype sloupců s null hodnotami:
Alcohol                            float64
Hepatitis B                        float64
BMI                                float64
Polio                              float64
Total expenditure                  float64
Diphtheria                         float64
GDP                                float64
Population                         float64
thinness  1-19 years               float64
thinness 5-9 years                 float64
Income composition of resources    float64
Schooling                          float64
dtype: object


In [108]:
def replace_nan_mean(dataset, column):
    # get mean values depending on training data a fill NaN with mean of this current country to get accurate value as possible
    # because for example alcohol in Czech republic and muslim country will not be as accurate as it could have been
    # if country whole column is null then replace it with mean from whole train data in this column
    
    mean_values = Xtrain.groupby('Country')[column].mean()
    overall_mean = Xtrain[column].mean()
    
    for country, mean_value in mean_values.items():
        if not pd.isnull(mean_value):
            mask = (dataset['Country'] == country) & (dataset[column].isnull())
            dataset.loc[mask, column] = mean_value
        else:
            mask = (dataset['Country'] == country) & (dataset[column].isnull())
            dataset.loc[mask, column] = overall_mean
        

In [109]:
for column_with_null in columns_with_null:
    replace_nan_mean(Xtrain, column_with_null)

for column_with_null in columns_with_null:
    replace_nan_mean(Xval, column_with_null)
    
for column_with_null in columns_with_null:
    replace_nan_mean(Xtest, column_with_null)
    
Xtrain = Xtrain.drop('Country', axis=1)
Xval = Xval.drop('Country', axis=1)
Xtest = Xtest.drop('Country', axis=1)

In [110]:
display(Xtrain.info())
display(Xval.info())

<class 'pandas.core.frame.DataFrame'>
Index: 1528 entries, 2028 to 209
Data columns (total 20 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   Year                             1528 non-null   int64  
 1   Status                           1528 non-null   object 
 2   Adult Mortality                  1528 non-null   float64
 3   infant deaths                    1528 non-null   int64  
 4   Alcohol                          1528 non-null   float64
 5   percentage expenditure           1528 non-null   float64
 6   Hepatitis B                      1528 non-null   float64
 7   Measles                          1528 non-null   int64  
 8   BMI                              1528 non-null   float64
 9   under-five deaths                1528 non-null   int64  
 10  Polio                            1528 non-null   float64
 11  Total expenditure                1528 non-null   float64
 12  Diphtheria             

None

<class 'pandas.core.frame.DataFrame'>
Index: 510 entries, 113 to 1864
Data columns (total 20 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   Year                             510 non-null    int64  
 1   Status                           510 non-null    object 
 2   Adult Mortality                  510 non-null    float64
 3   infant deaths                    510 non-null    int64  
 4   Alcohol                          510 non-null    float64
 5   percentage expenditure           510 non-null    float64
 6   Hepatitis B                      510 non-null    float64
 7   Measles                          510 non-null    int64  
 8   BMI                              510 non-null    float64
 9   under-five deaths                510 non-null    int64  
 10  Polio                            510 non-null    float64
 11  Total expenditure                510 non-null    float64
 12  Diphtheria              

None

In [111]:
X_train_encoded = pd.get_dummies(Xtrain, columns=['Status'], drop_first=True)
X_val_encoded = pd.get_dummies(Xval, columns=['Status'], drop_first=True)
X_test_encoded = pd.get_dummies(Xtest, columns=['Status'], drop_first=True)

In [112]:
display(X_train_encoded.info())

<class 'pandas.core.frame.DataFrame'>
Index: 1528 entries, 2028 to 209
Data columns (total 20 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   Year                             1528 non-null   int64  
 1   Adult Mortality                  1528 non-null   float64
 2   infant deaths                    1528 non-null   int64  
 3   Alcohol                          1528 non-null   float64
 4   percentage expenditure           1528 non-null   float64
 5   Hepatitis B                      1528 non-null   float64
 6   Measles                          1528 non-null   int64  
 7   BMI                              1528 non-null   float64
 8   under-five deaths                1528 non-null   int64  
 9   Polio                            1528 non-null   float64
 10  Total expenditure                1528 non-null   float64
 11  Diphtheria                       1528 non-null   float64
 12  HIV/AIDS               

None

In [113]:
n_estimators_values = range(5, 36, 5)
max_depth_values = range(3, 9)
max_samples_values = range(1, len(X_train_encoded), 100)
best_score = float('inf') 
best_params = None


In [114]:
from sklearn.metrics import mean_squared_error

for n_estimators in n_estimators_values:
    for max_depth in max_depth_values:
        for max_samples in max_samples_values:
            curent_forest = CustomRandomForest(n_estimators=n_estimators, max_depth=max_depth, max_samples=max_samples)
            curent_forest.fit(X_train_encoded, Ytrain)
            y_pred = curent_forest.predict(X_val_encoded)
            mse = mean_squared_error(Yval, y_pred, squared=False)

            if mse < best_score:
                best_score = mse
                best_params = {'n_estimators': n_estimators, 'max_depth': max_depth, 'max_samples': max_samples, 'rmse' : mse}


In [115]:
from sklearn.preprocessing import StandardScaler, MinMaxScaler

standard_scaler = StandardScaler()
min_max_scaler = MinMaxScaler()

X_train_standard = standard_scaler.fit_transform(X_train_encoded)
X_train_standard = pd.DataFrame(X_train_standard, columns=X_train_encoded.columns)

X_val_standard = standard_scaler.transform(X_val_encoded)
X_val_standard = pd.DataFrame(X_val_standard, columns=X_val_encoded.columns)

X_train_min_max = min_max_scaler.fit_transform(X_train_encoded)
X_train_min_max = pd.DataFrame(X_train_min_max, columns=X_train_encoded.columns)

X_val_min_max = min_max_scaler.transform(X_val_encoded)
X_val_min_max = pd.DataFrame(X_val_min_max, columns=X_val_encoded.columns)

In [116]:
best_score_standard = float('inf')
best_params_standard = None

for n_estimators in n_estimators_values:
    for max_depth in max_depth_values:
        for max_samples in max_samples_values:
            curent_forest = CustomRandomForest(n_estimators=n_estimators, max_depth=max_depth, max_samples=max_samples)
            curent_forest.fit(X_train_standard, Ytrain)
            y_pred = curent_forest.predict(X_val_standard)
            mse = mean_squared_error(Yval, y_pred, squared=False)

            if mse < best_score_standard:
                best_score_standard = mse
                best_params_standard = {'n_estimators': n_estimators, 'max_depth': max_depth, 'max_samples': max_samples, 'rmse' : mse}


In [117]:
best_score_min_max = float('inf')
best_params_min_max = None

for n_estimators in n_estimators_values:
    for max_depth in max_depth_values:
        for max_samples in max_samples_values:
            curent_forest = CustomRandomForest(n_estimators=n_estimators, max_depth=max_depth, max_samples=max_samples)
            curent_forest.fit(X_train_min_max, Ytrain)
            y_pred = curent_forest.predict(X_val_min_max)
            mse = mean_squared_error(Yval, y_pred, squared=False)

            if mse < best_score_min_max:
                best_score_min_max = mse
                best_params_min_max = {'n_estimators': n_estimators, 'max_depth': max_depth, 'max_samples': max_samples, 'rmse' : mse}

In [118]:
print(f"Best params for random forests:\nOriginal data: {best_params}\nStandard scaled data: {best_params_standard}\nMin max scaled data: {best_params_min_max}")

Best params for random forests:
Original data: {'n_estimators': 20, 'max_depth': 8, 'max_samples': 1501, 'rmse': 2.9808665674556725}
Standard scaled data: {'n_estimators': 35, 'max_depth': 8, 'max_samples': 1501, 'rmse': 2.9817433950847865}
Min max scaled data: {'n_estimators': 20, 'max_depth': 8, 'max_samples': 1501, 'rmse': 2.9939002696402333}


In [119]:
from sklearn.linear_model import Ridge
from scipy import optimize

def get_opt_ridge_model(train, train_y, val, val_y):
    def ridgemodel_eval(alpha):
        clf = Ridge(alpha=alpha)
        clf.fit(train, train_y)
        return mean_squared_error(val_y, clf.predict(val), squared = False)

    alphas = np.linspace(1,500,100)
    alphas_res = [ridgemodel_eval(alpha) for alpha in alphas]
    plt.plot(alphas, alphas_res, '.')
    plt.show()

    # Find Ridge alpha automatically
    opt_alpha = optimize.minimize_scalar(ridgemodel_eval, options = {'maxiter': 30}, method = 'bounded', bounds=(0.1, 400))
    print('Optimal alpha', opt_alpha)
    print("\n")

    clf_opt_ridge = Ridge(alpha = opt_alpha.x)
    clf_opt_ridge.fit(train, train_y)
    return clf_opt_ridge

In [132]:
from sklearn.ensemble import AdaBoostRegressor
import sklearn.metrics as metrics

param_grid = {
    'n_estimators': range(10, 100, 10),
    'max_depth': range(2,9)
}

param_comb = ParameterGrid(param_grid)

val_metric_encoded = []
for params in param_comb:
    dt_depth = params.pop("max_depth")
    params["estimator"] = DecisionTreeRegressor(max_depth = dt_depth)
    dt = AdaBoostRegressor(**params, random_state = 42).fit(X_train_encoded, Ytrain)
    val_metric_encoded.append(metrics.mean_squared_error(Yval, dt.predict(X_val_encoded), squared = False))

best_params = param_comb[np.argmin(val_metric_encoded)]
print(f"We found the best params {best_params} with validation data with RMSE {min(val_metric):.5f}.")

val_metric_standard = []
for params in param_comb:
    dt_depth = params.pop("max_depth")
    params["estimator"] = DecisionTreeRegressor(max_depth = dt_depth)
    dt = AdaBoostRegressor(**params, random_state = 42).fit(X_train_standard, Ytrain)
    val_metric_standard.append(metrics.mean_squared_error(Yval, dt.predict(X_val_standard), squared = False))

best_params_standard = param_comb[np.argmin(val_metric_standard)]
print(f"We found the best params {best_params_standard} with validation standard scaled data with RMSE {min(val_metric_standard):.5f}.")

val_metric_min_max = []
for params in param_comb:
    dt_depth = params.pop("max_depth")
    params["estimator"] = DecisionTreeRegressor(max_depth = dt_depth)
    dt = AdaBoostRegressor(**params, random_state = 42).fit(X_train_min_max, Ytrain)
    val_metric_min_max.append(metrics.mean_squared_error(Yval, dt.predict(X_val_min_max), squared = False))

best_params_min_max = param_comb[np.argmin(val_metric_min_max)]
print(f"We found the best params {best_params_min_max} with validation min max scaled data with RMSE {min(val_metric_min_max):.5f}.")


We found the best params {'n_estimators': 70, 'max_depth': 8} with validation data with RMSE 2.39752.
We found the best params {'n_estimators': 80, 'max_depth': 8} with validation standard scaled data with RMSE 2.17219.
We found the best params {'n_estimators': 80, 'max_depth': 8} with validation min max scaled data with RMSE 2.20198.


In [131]:
tree = DecisionTreeRegressor(max_depth=8)
adaboost = AdaBoostRegressor(estimator=tree, n_estimators=80, random_state=42).fit(X_train_standard, Ytrain)
print(metrics.mean_squared_error(Yval, dt.predict(X_val_standard), squared = False))

6.926547378370142
