# Úkol č. 4 - regrese
**Deadline úkolu je uveden na [course pages](https://courses.fit.cvut.cz/BI-VZD/homeworks/index.html).**

  * Cílem tohoto úkolu je vyzkoušet si řešit regresní problém na reálných datech.
  
> **Nejdůležitější na úkolu je to, abyste udělali vše procesně správně: korektní rozdělení datasetu, ladění hyperparametrů, vyhodnocení výsledků atp.**

## Dataset

  * Zdrojem dat je soubor `LifeExpectancyData.csv` na course pages (originál zde: https://www.kaggle.com/kumarajarshi/life-expectancy-who).
  * Popis datasetu najdete na uvedené stránce s originálem datasetu.
  * Cílová (vysvětlovaná) proměnná se jmenuje `Life expectancy `.
  

## Pokyny k vypracování
Body zadání, za jejichž (poctivé) vypracování získáte 12 bodů:

  1. Odeberte z dat body u kterých neznáte vysvětlovanou proměnnou.
  1. Rozdělte data na trénovací a testovací množinu.
  1. Proveďte základní průzkum dat. Na jeho základě adekvátně reagujte na problematické věci v datech (chybějící hodnoty, atd.).
  1. Aplikujte lineární a hřebenovou regresi a výsledky řádně vyhodnoťte:
    * K měření chyby použijte `mean_absolute_error`.
    * Experimentujte s tvorbou nových příznaků (na základě těch dostupných).
    * Experimentujte se standardizací/normalizací dat.
    * Vyberte si hyperparametry modelů k ladění a najděte jejich nejlepší hodnoty.
  1. Použijte i jiný model než jen lineární a hřebenovou regresi.


## Poznámky k odevzdání

  * Řiďte se pokyny ze stránky https://courses.fit.cvut.cz/BI-VZD/homeworks/index.html.
  * Odevzdejte tento Jupyter Notebook.
  * Opravující Vám může umožnit úkol dodělat či opravit a získat tak další body. První verze je ale důležitá a bude-li odbytá, budete za to penalizováni.

In [1]:
### odtud už je to Vaše
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from itertools import combinations
import warnings
warnings.filterwarnings('ignore')
FAST = True

In [2]:
df = pd.read_csv('LifeExpectancyData.csv')

## Odebrání dat s neznámou proměnnou

In [3]:
mask = df['Life expectancy '].isnull()
df = df[~mask]

In [4]:
df.sample(5)

Unnamed: 0,Country,Year,Status,Life expectancy,Adult Mortality,infant deaths,Alcohol,percentage expenditure,Hepatitis B,Measles,...,Polio,Total expenditure,Diphtheria,HIV/AIDS,GDP,Population,thinness 1-19 years,thinness 5-9 years,Income composition of resources,Schooling
1197,India,2004,Developing,64.0,214.0,1600,1.2,27.338009,6.0,55443,...,58.0,4.22,63.0,0.3,621.318377,1126136000.0,27.2,28.2,0.518,9.2
1477,Lesotho,2012,Developing,52.2,513.0,4,0.01,168.134899,95.0,179,...,93.0,11.14,95.0,9.0,1281.516,289928.0,6.4,6.2,0.479,11.0
537,Chad,2006,Developing,48.5,414.0,45,0.41,62.67226,,1594,...,49.0,3.32,4.0,5.1,712.184769,1421597.0,1.3,1.2,0.303,5.5
2900,Yemen,2005,Developing,62.6,245.0,40,0.04,0.0,8.0,6285,...,8.0,4.58,79.0,0.1,,,13.9,13.8,0.47,8.6
1117,Guyana,2004,Developing,65.1,237.0,1,7.84,1.776181,91.0,0,...,91.0,5.73,91.0,1.9,145.58861,751652.0,5.8,5.6,0.613,11.2


## Rozdělení dat

In [5]:
X = df.drop('Life expectancy ', axis=1)
y = df['Life expectancy ']
X_train, X_test, y_train, y_test = train_test_split(X, y)

## Průzkum dat

In [6]:
missing = df[df['Population'].isnull() == True]['Country'].unique()

In [7]:
for m in missing:
    if df[df['Country'] == m]['Population'].isnull().sum() < df[df['Country'] == m]['Population'].count():
        print(m)

Eritrea


Pro prvotním prozkoumání dat se ukazuje, že ve sloupci populace jsou spíše náhodná čísla, než skutečný počet obyvatel, také zde spousta hodnot chybí, možné řešení by mohlo být napojení na nějaké API a zjištění skutečného počtu obyvatel podle roku, v tomto úkolu ale sloupec dropnu.

In [8]:
df[['Country', 'Population']].sample(20)

Unnamed: 0,Country,Population
1207,Indonesia,242524123.0
1402,Kuwait,
2833,Uzbekistan,27328.0
2462,Sudan,34385963.0
1688,Mexico,117318941.0
817,Egypt,
1655,Mauritania,3717672.0
1189,India,126365852.0
2302,Sierra Leone,645872.0
1931,Oman,


In [9]:
df.drop('Population', axis=1, inplace=True)

## Chybějící hodnoty

Pokusíme se chybějící hodnoty doplnit pomocí metody KNN s vyloučeným sloupcem Life expectancy, aby se nepodílel na změně výsledků a nemohl tak ovlivnit předpověď sám sebe.

In [10]:
from sklearn.impute import KNNImputer
def fill_nulls(df):
    imputer = KNNImputer(n_neighbors=5)
    return pd.DataFrame(imputer.fit_transform(df), columns = df.columns)
def fill_nulls_fitted(df, fitted):
    return pd.DataFrame(fitted.transform(df), columns = df.columns)

In [11]:
def parse_data(df):
    df['Country'] = df['Country'].astype('category').cat.codes
    df['Status'] = df['Status'].astype('category').cat.codes
    return df

In [12]:
X_train = parse_data(X_train.copy())
X_train = fill_nulls(X_train.copy())

In [13]:
X_test = parse_data(X_test.copy())
imputer = KNNImputer(n_neighbors=5)
imputer.fit(X_train)
X_test = fill_nulls_fitted(X_test.copy(), imputer)

## Inconsistency check

In [14]:
df.groupby('Country').describe()

Unnamed: 0_level_0,Year,Year,Year,Year,Year,Year,Year,Year,Life expectancy,Life expectancy,...,Income composition of resources,Income composition of resources,Schooling,Schooling,Schooling,Schooling,Schooling,Schooling,Schooling,Schooling
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,...,75%,max,count,mean,std,min,25%,50%,75%,max
Country,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
Afghanistan,16.0,2007.5,4.760952,2000.0,2003.75,2007.5,2011.25,2015.0,16.0,58.19375,...,0.45625,0.479,16.0,8.21250,1.576864,5.5,6.725,8.55,9.575,10.1
Albania,16.0,2007.5,4.760952,2000.0,2003.75,2007.5,2011.25,2015.0,16.0,75.15625,...,0.74150,0.762,16.0,12.13750,1.443087,10.6,10.775,11.80,13.525,14.2
Algeria,16.0,2007.5,4.760952,2000.0,2003.75,2007.5,2011.25,2015.0,16.0,73.61875,...,0.72600,0.743,16.0,12.71250,1.348518,10.7,11.650,12.45,14.100,14.4
Angola,16.0,2007.5,4.760952,2000.0,2003.75,2007.5,2011.25,2015.0,16.0,49.01875,...,0.49825,0.531,16.0,8.04375,2.287930,4.6,6.275,7.90,9.625,11.4
Antigua and Barbuda,16.0,2007.5,4.760952,2000.0,2003.75,2007.5,2011.25,2015.0,16.0,75.05625,...,0.78225,0.788,16.0,8.84375,7.078792,0.0,0.000,13.90,14.125,14.7
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Venezuela (Bolivarian Republic of),16.0,2007.5,4.760952,2000.0,2003.75,2007.5,2011.25,2015.0,16.0,73.38750,...,0.75875,0.771,16.0,12.78750,1.430093,10.4,11.600,13.15,14.100,14.3
Viet Nam,16.0,2007.5,4.760952,2000.0,2003.75,2007.5,2011.25,2015.0,16.0,74.77500,...,0.65675,0.678,16.0,11.51250,0.696539,10.4,10.975,11.50,12.050,12.6
Yemen,16.0,2007.5,4.760952,2000.0,2003.75,2007.5,2011.25,2015.0,16.0,63.86250,...,0.49325,0.500,16.0,8.50625,0.402440,7.7,8.350,8.55,8.775,9.0
Zambia,16.0,2007.5,4.760952,2000.0,2003.75,2007.5,2011.25,2015.0,16.0,53.90625,...,0.54575,0.576,16.0,11.21250,1.009208,9.6,10.425,11.25,12.075,12.5


## Outliers detection
Předpokládáme, že vývoj v rámci jednotlivé země je konzistentní, respektive pozvolný. Pokusíme se detektovat některé outliery a nějak na ně reagovat.

In [15]:
def detect_outliers(df_country):
    d = {}
    for cont in df['Country'].unique():
    # IQR method
        df_country = df[df['Country'] == cont].drop(['Country', 'Status'], axis=1)
        for c in df_country.columns:
            m = df_country[c].mean()
            date_outlier_mask = (df_country[c] > m*5)
            if len(df_country[date_outlier_mask]) > 0:
                if c in d.keys():
                    d[c] = d[c] + 1
                else:
                    d[c] = 1

    print(d)

In [16]:
detect_outliers(df)

{'Measles ': 117, 'infant deaths': 2, 'under-five deaths ': 1, 'percentage expenditure': 2, 'Adult Mortality': 1}


Vidíme, že sloupec "Measles" je problematický, odstraníme ho.

In [17]:
X_train.drop('Measles ', axis=1, inplace=True)
X_test.drop('Measles ', axis=1, inplace=True)

### Detekce důležitých sloupců (redukce dimenzionality)

In [18]:
from itertools import combinations
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error

In [19]:
if not FAST:
    mi = 10
    mi_comb = None
    for i in range(1, 6):
        combs = combinations(X_train.columns, i)
        for c in combs:
            reg = LinearRegression().fit(X_train.drop(np.array(c), axis=1), y_train)
            err = mean_absolute_error(y_test, reg.predict(X_test.drop(np.array(c), axis=1)))
            if err < mi:
                mi = err
                mi_comb = c

else:
    mi = 2.922318009469975
    mi_comb = ('percentage expenditure', 'Hepatitis B', 'Population', ' thinness  1-19 years')
print(mi, mi_comb)
X_train.drop(np.array(mi_comb), axis=1, inplace=True)
X_test.drop(np.array(mi_comb), axis=1, inplace=True)

2.922318009469975 ('percentage expenditure', 'Hepatitis B', 'Population', ' thinness  1-19 years')


## Predikce pomocí lineární regrese

In [20]:
reg = LinearRegression().fit(X_train, y_train)
print(mean_absolute_error(y_test, reg.predict(X_test)))

2.8839998324167953


### Normalizovaná data

In [21]:
reg = LinearRegression(normalize=True).fit(X_train, y_train)
print(mean_absolute_error(y_test, reg.predict(X_test)))

2.8839998324167953


### Standardizovaná data

In [22]:
from sklearn import preprocessing

In [23]:
X_train_st = preprocessing.StandardScaler().fit_transform(X_train)
X_train_st = pd.DataFrame(X_train_st)
reg = LinearRegression().fit(X_train_st, y_train)
print(mean_absolute_error(y_test, reg.predict(X_test)))

4750.602317962377


Standardizovaná data jsou očividně nepoužitelná.

## Hřebenová regrese

In [24]:
from sklearn.linear_model import Ridge

In [25]:
model = Ridge(alpha=5000)
model.fit(X_train, y_train)
print(mean_absolute_error(y_test, model.predict(X_test)))

3.0161236975178745


### Normalizovaná data

In [26]:
model = Ridge(alpha=1.0, normalize=True)
model.fit(X_train, y_train)
print(mean_absolute_error(y_test, model.predict(X_test)))

3.3734005810863885


### Standardizovaná data

In [27]:
X_train_st = preprocessing.StandardScaler().fit_transform(X_train)
X_train_st = pd.DataFrame(X_train_st)
model = Ridge(alpha=5000)
model.fit(X_train_st, y_train)
print(mean_absolute_error(y_test, model.predict(X_test)))

3859.4898280531665


## LASSO

In [28]:
from sklearn import linear_model

In [29]:
clf = linear_model.Lasso(alpha=1, max_iter = 3000)
clf.fit(X_train, y_train)
print(mean_absolute_error(y_test, clf.predict(X_test)))

3.010972393512737


### Normalizovaná data

In [30]:
model = linear_model.Lasso(alpha=1.0, normalize=True)
model.fit(X_train, y_train)
print(mean_absolute_error(y_test, model.predict(X_test)))

8.155243263957319


# Ladění hyperparametrů - Lasso
Klasifikátor lasso umožnuje nastavit nejvíce hyperparametrů, najdeme ty nejlepší pomocí GridSearchCV

In [31]:
from sklearn.model_selection import GridSearchCV

In [32]:
clf = linear_model.Lasso()
parameters = {'alpha':[0.1, 5], 'max_iter':[1000, 5000],'selection':('cyclic', 'random'), 'positive':(True, False), 'fit_intercept':(True, False), 'warm_start': (True, False)}

In [33]:
clf = GridSearchCV(clf, parameters)
clf.fit(X_train, y_train)

GridSearchCV(estimator=Lasso(),
             param_grid={'alpha': [0.1, 5], 'fit_intercept': (True, False),
                         'max_iter': [1000, 5000], 'positive': (True, False),
                         'selection': ('cyclic', 'random'),
                         'warm_start': (True, False)})

In [34]:
print(f'Best params: {clf.best_estimator_}')

Best params: Lasso(alpha=0.1, selection='random', warm_start=True)


In [35]:
model = clf.best_estimator_
model.fit(X_train, y_train)
print(mean_absolute_error(y_test, model.predict(X_test)))

2.958850163763379


# Shrnutí
Podařilo se nám dosáhnout erroru kolem 3 let, což je poměrně slušný výsledek. Ze začátku jsme si rozdělili data na trénovací a testovací množinu. Množiny jsme poté doplnili pomocí KNN imputace, kdy na doplnění testovacích dat jsme použili fitnutý model z dat trénovacích. Odstranili jsme problematické sloupce, kde byly hlavně integritní prooblémy. Poté jsme použili 3 různé modely, kromě 2 zadaných ještě Lasso klasifikátor, kde jsme zkusili i tunění hyperparametrů. Přidání nových příznaků by asi mělo jen malý dopad, vzhledem k tomu, že bysme opět přidali příznak, který by byl nějak lineárně závislý na ostatních příznacích. Více by mohlo pomoct zkusit nějaké kombinace sloupců, tedy zkusit aplikovat redukci dimenzionality.