# Úkol č. 2 - regrese

* Termíny jsou uvedeny na [courses.fit.cvut.cz](https://courses.fit.cvut.cz/BI-ML1/homeworks/index.html).
* Pokud odevzdáte úkol po prvním termínu ale před nejzazším termínem, budete penalizování -12 body, pozdější odevzdání je bez bodu.
* V rámci tohoto úkolu se musíte vypořádat s regresní úlohou, s příznaky různých typů a s chybějícími hodnotami.
* Před tím, než na nich postavíte predikční model, je třeba je nějakým způsobem převést do číselné reprezentace.
    
> **Úkoly jsou zadány tak, aby Vám daly prostor pro invenci. Vymyslet _jak přesně_ budete úkol řešit, je důležitou součástí zadání a originalita či nápaditost bude také hodnocena!**

Využívejte buňky typu `Markdown` k vysvětlování Vašeho postupu. Za nepřehlednost budeme strhávat body.

## Zdroj dat

Budeme se zabývat predikcí délky dožití v různých zemích a letech.
K dispozici máte trénovací data v souboru `data.csv` a data na vyhodnocení v souboru `evaluation.csv`.

#### Seznam příznaků:

* Year - Rok
* Status - Status rozvinuté nebo rozvojové země
* Life expectancy - Délka dožití v letech - **cílová proměnná, kterou budete predikovat**
* Adult Mortality - Úmrtnost dospělých bez ohledu na pohlaví (pravděpodobnost, že osoby, které dosáhly věku 15 let, zemřou před dosažením věku 60 let (uvedeno na 1 000 osob)).
* infant deaths - počet zemřelých kojenců na 1000 obyvatel
* Alcohol - Alkohol, zaznamenaná spotřeba na obyvatele (15+) (v litrech čistého alkoholu)
* percentage expenditure - Výdaje na zdravotnictví v procentech hrubého domácího produktu na obyvatele (%)
* Hepatitis B - pokrytí očkováním proti hepatitidě B (HepB) u dětí ve věku 1 roku (%)
* Measles - Spalničky - počet hlášených případů na 1000 obyvatel
* BMI - průměrný index tělesné hmotnosti celé populace
* under-five deaths - počet úmrtí dětí do pěti let na 1000 obyvatel
* Polio - proočkovanost proti dětské obrně (Pol3) u dětí ve věku 1 roku (%)
* Total expenditure - Výdaje vládních institucí na zdravotnictví jako procento celkových vládních výdajů (%)
* Diphtheria - pokrytí očkováním proti záškrtu, tetanu a černému kašli (DTP3) u jednoletých dětí (%)
* HIV/AIDS - počet úmrtí na 1 000 živě narozených dětí na HIV/AIDS (0-4 roky)
* GDP - hrubý domácí produkt na obyvatele (v USD)
* Population - počet obyvatel země
* thinness 1-19 years - podíl dětí ve věku 10-19 let s indexem tělesné hmotnosti (BMI) menším než 2 směrodatné odchylky pod mediánem (%)
* thinness 5-9 years - podíl dětí ve věku 5-9 let s indexem tělesné hmotnosti (BMI) menším než 2 směrodatné odchylky pod mediánem (%)
* Income composition of resources - Index lidského rozvoje z hlediska příjmového složení zdrojů (index v rozmezí 0 až 1)
* Schooling - počet let školní docházky (roky)


## Pokyny k vypracování

**Body zadání**, za jejichž (poctivé) vypracování získáte **25 bodů**: 
  * V notebooku načtěte data ze souboru `data.csv`. Vhodným způsobem si je rozdělte na podmnožiny, které Vám poslouží pro trénování (trénovací), porovnávání modelů (validační) a následnou predikci výkonnosti finálního modelu (testovací).
    
  * Proveďte základní předzpracování dat:
    * Projděte si jednotlivé příznaky a transformujte je do vhodné podoby pro použití ve vybraném regresním modelu.
    * Nějakým způsobem se vypořádejte s chybějícími hodnotami. _Pozor na metodické chyby!_
    * Můžete využívat i vizualizace. Vše stručně ale náležitě komentujte.
<br /><br />
  * Vytvořte **vlastní implementaci náhodného lesa**. Použijte k tomu níže předpřipravenou kostru.
  
  * Na připravená data postupně aplikujte Vaši předchozí implementaci modelu náhodného lesa, dále jeden z modelů **lineární regrese** nebo **hřebenové regrese**, a alespoň jeden další model podle Vašeho uvážení, přičemž pro každý z těchto modelů přiměřeně:
    * Okomentujte vhodnost daného modelu pro daný typ úlohy.
    * Experimentujte s normalizací (standardizace/min-max), pokud pro daný model očekáváte její příznivý vliv.
    * Vyberte si hlavní hyperparametry k ladění a najděte jejich nejlepší hodnoty (vzhledem k RMSE).
    * Pro model s nejlepšími hodnotami hyperparametrů určete jeho chybu pomocí RMSE a MAE. _Pozor na metodické chyby!_
    * Získané výsledky vždy řádně okomentujte.
<br /><br />
  * Ze všech zkoušených možností v předchozím kroku vyberte finální model a odhadněte, jakou chybu (RMSE) můžete očekávat na nových datech, která jste doposud neměli k dispozici. _Pozor na metodické chyby!_
    
  * Nakonec načtěte vyhodnocovací data ze souboru `evaluation.csv`. Pomocí finálního modelu napočítejte predikce pro tato data. Vytvořte soubor `results.csv`, ve kterém získané predikce uložíte s využitím tří sloupců: **Country**, **Year** a **Life expectancy**. Tento soubor též odevzdejte (uložte do repozitáře vedle notebooku).

  * Ukázka prvních řádků souboru `results.csv`:
  
```
Country,Year,Life expectancy
Peru,2012,71.4
Peru,2013,72.6
...
```


## Poznámky k odevzdání

  * Řiďte se pokyny ze stránky https://courses.fit.cvut.cz/BI-ML1/homeworks/index.html.

In [105]:
# Váš kód zde
from sklearn.tree import DecisionTreeRegressor
import numpy as np

########################################################
# Předpřipravená kostra modelu náhodného lesa
class CustomRandomForest:
    """
    Třída Vašeho modelu
    Bude se jednat o model náhodného lesa, kde podmodely tvoří rozhodovací stromy pro regresi.
    Pro podmodely můžete použít implementaci DecisionTreeRegressor ze sklearn.
    """
    def __init__(self, n_estimators, max_samples, max_depth, **kwargs):
        """
        Konstruktor modelu
        Základní hyperparametery:
            n_estimators - počet podmodelů - rozhodovacích stromů.
            max_samples - vyberte si, zda tento parametr bude označovat relativní počet bodů (tj. číslo mezi 0 a 1) 
                          nebo absolutní počet bodů (tj. číslo mezi 1 a velikostí trénovací množiny), 
                          které budou pro každý podmodel rozhodovacího stromu náhodně vybrány z trénovací množiny (bootstrap) a použity k jeho trénování.
            max_depth - maximální hloubka každého z podmodelů rozhodovacího stromu.
            kwargs - (volitelně) případné další hyperparametry, které pošlete do podmodelů rozhodovacího stromu
        """
        self.n_estimators = n_estimators
        self.max_samples = max_samples
        self.max_depth = max_depth
        self.kwargs = kwargs
        self.models = []
        self.random_seed = 666
        
    def fit(self, X, y):
        """
        Natrénování modelu. Trénovací data jsou v argumentech X a y.
        Pro trénování podmodelů používejte bootstraping a velikost samplovaného vzorku vezměte z hyperparametru max_samples_fraction
        """
        for _ in range(self.n_estimators):
            #selected_indexes = np.random.choice(X.shape[0], size=self.max_samples, replace=True) # get random indexes of max_samples size that #could repeat 

           # selected_indexes = np.intersect1d(selected_indexes, np.arange(X.shape[0]))

            #if len(selected_indexes) == 0:
            # If no valid indexes are selected, skip this iteration
             #   continue
            
            X_selected = X.sample(n=self.max_samples, replace=True, random_state=self.random_seed)
            y_selected = y.sample(n=self.max_samples, replace=True, random_state=self.random_seed)
            
            tree = DecisionTreeRegressor(max_depth=self.max_depth)
            tree.fit(X_selected, y_selected)
            
            self.models.append(tree)
        
    def predict(self, X):
        """
        Predikce y v zadaných bodech X
        """
        ypredicted = np.zeros((X.shape[0],))
        
        for tree in self.models:
            ypredicted += tree.predict(X) # add 1 or 0 from each tree in forest
        
        y_predicted /= self.n_estimators # get real prediction from all trees
        return ypredicted

    def get_params(self, deep=True):
        return {'n_estimators': self.n_estimators, 'max_samples': self.max_samples, 'max_depth': self.max_depth, **self.kwargs}

    def set_params(self, **parameters):
        for parameter, value in parameters.items():
            setattr(self, parameter, value)
        return self
    

In [65]:
import pandas as pd
from sklearn.model_selection import train_test_split


data = pd.read_csv('data.csv')

X = data.drop('Life expectancy', axis=1)
y = data['Life expectancy']


In [66]:
random_seed = 666

Xtrain, Xtest, Ytrain, Ytest = train_test_split(X, y, test_size=0.25, random_state=random_seed)
Xtrain, Xval, Ytrain, Yval = train_test_split(Xtrain, Ytrain, test_size=0.25, random_state=random_seed)

In [67]:
print("Velikost trénovací množiny:", len(Xtrain))
print("Velikost validační množiny:", len(Xval))
print("Velikost testovací množiny:", len(Xtest))

Velikost trénovací množiny: 1528
Velikost validační množiny: 510
Velikost testovací množiny: 680


In [68]:
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder

display(Xtrain.info())
columns_with_null = data.columns[data.isnull().any()].tolist()
columns_with_null_dtype = data[data.columns[data.isnull().any()]].dtypes
# print("Sloupce s null hodnotami:", columns_with_null)
print("Dtype sloupců s null hodnotami:")
print(columns_with_null_dtype)

<class 'pandas.core.frame.DataFrame'>
Index: 1528 entries, 2028 to 209
Data columns (total 21 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   Country                          1528 non-null   object 
 1   Year                             1528 non-null   int64  
 2   Status                           1528 non-null   object 
 3   Adult Mortality                  1528 non-null   float64
 4   infant deaths                    1528 non-null   int64  
 5   Alcohol                          1453 non-null   float64
 6   percentage expenditure           1528 non-null   float64
 7   Hepatitis B                      1227 non-null   float64
 8   Measles                          1528 non-null   int64  
 9   BMI                              1513 non-null   float64
 10  under-five deaths                1528 non-null   int64  
 11  Polio                            1522 non-null   float64
 12  Total expenditure      

None

Dtype sloupců s null hodnotami:
Alcohol                            float64
Hepatitis B                        float64
BMI                                float64
Polio                              float64
Total expenditure                  float64
Diphtheria                         float64
GDP                                float64
Population                         float64
thinness  1-19 years               float64
thinness 5-9 years                 float64
Income composition of resources    float64
Schooling                          float64
dtype: object


In [69]:
def replace_nan_mean(dataset, column):
    # get mean values depending on training data a fill NaN with mean of this current country to get accurate value as possible
    # because for example alcohol in Czech republic and muslim country will not be as accurate as it could have been
    # if country whole column is null then replace it with mean from whole train data in this column
    
    mean_values = Xtrain.groupby('Country')[column].mean()
    overall_mean = Xtrain[column].mean()
    
    for country, mean_value in mean_values.items():
        if not pd.isnull(mean_value):
            mask = (dataset['Country'] == country) & (dataset[column].isnull())
            dataset.loc[mask, column] = mean_value
        else:
            mask = (dataset['Country'] == country) & (dataset[column].isnull())
            dataset.loc[mask, column] = overall_mean
        

In [70]:
for column_with_null in columns_with_null:
    replace_nan_mean(Xtrain, column_with_null)

for column_with_null in columns_with_null:
    replace_nan_mean(Xval, column_with_null)
    
for column_with_null in columns_with_null:
    replace_nan_mean(Xtest, column_with_null)

In [71]:
display(Xtrain.info())
display(Xval.info())

<class 'pandas.core.frame.DataFrame'>
Index: 1528 entries, 2028 to 209
Data columns (total 21 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   Country                          1528 non-null   object 
 1   Year                             1528 non-null   int64  
 2   Status                           1528 non-null   object 
 3   Adult Mortality                  1528 non-null   float64
 4   infant deaths                    1528 non-null   int64  
 5   Alcohol                          1528 non-null   float64
 6   percentage expenditure           1528 non-null   float64
 7   Hepatitis B                      1528 non-null   float64
 8   Measles                          1528 non-null   int64  
 9   BMI                              1528 non-null   float64
 10  under-five deaths                1528 non-null   int64  
 11  Polio                            1528 non-null   float64
 12  Total expenditure      

None

<class 'pandas.core.frame.DataFrame'>
Index: 510 entries, 113 to 1864
Data columns (total 21 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   Country                          510 non-null    object 
 1   Year                             510 non-null    int64  
 2   Status                           510 non-null    object 
 3   Adult Mortality                  510 non-null    float64
 4   infant deaths                    510 non-null    int64  
 5   Alcohol                          510 non-null    float64
 6   percentage expenditure           510 non-null    float64
 7   Hepatitis B                      510 non-null    float64
 8   Measles                          510 non-null    int64  
 9   BMI                              510 non-null    float64
 10  under-five deaths                510 non-null    int64  
 11  Polio                            510 non-null    float64
 12  Total expenditure       

None

In [72]:
X_train_encoded = pd.get_dummies(Xtrain, columns=['Status'], drop_first=True)
X_val_encoded = pd.get_dummies(Xval, columns=['Status'], drop_first=True)
X_test_encoded = pd.get_dummies(Xtest, columns=['Status'], drop_first=True)

In [74]:
display(X_train_encoded.info())

<class 'pandas.core.frame.DataFrame'>
Index: 1528 entries, 2028 to 209
Data columns (total 21 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   Country                          1528 non-null   object 
 1   Year                             1528 non-null   int64  
 2   Adult Mortality                  1528 non-null   float64
 3   infant deaths                    1528 non-null   int64  
 4   Alcohol                          1528 non-null   float64
 5   percentage expenditure           1528 non-null   float64
 6   Hepatitis B                      1528 non-null   float64
 7   Measles                          1528 non-null   int64  
 8   BMI                              1528 non-null   float64
 9   under-five deaths                1528 non-null   int64  
 10  Polio                            1528 non-null   float64
 11  Total expenditure                1528 non-null   float64
 12  Diphtheria             

None

In [98]:
from sklearn.model_selection import  ParameterGrid
"""
tree_param_grid = {
    'criterion': ['entropy', 'gini'],
    'max_features': [None, 'sqrt', 'log2'],
}

forest_param_grid = {
    'n_estimators': range(5, 50, 5),
    'max_depth': range(3, 15),
    'max_samples': range(1, len(X_train_encoded), 50),
    **tree_param_grid
}

param_combinations = list(ParameterGrid(forest_param_grid))
"""

n_estimators_values = range(5, 50, 5)
max_depth_values = range(3, 15)
max_samples_values = range(1, len(X_train_encoded), 50)
best_score = float('inf')  # Initialize with a high value
best_params = None

In [106]:
for n_estimators in n_estimators_values:
    for max_depth in max_depth_values:
        for max_samples in max_samples_values:
            model = CustomRandomForest(n_estimators=n_estimators, max_depth=max_depth, max_samples=max_samples)
            model.fit(X_train_encoded, Ytrain)
            y_pred = model.predict(X_val_encoded)
            mse = mean_squared_error(y_val, y_pred)

            # Update the best model if the current one has a lower MSE
            if mse < best_score:
                best_score = mse
                best_params = {'n_estimators': n_estimators, 'max_depth': max_depth, 'max_samples': max_samples}


ValueError: could not convert string to float: 'Paraguay'