# Knihovna Scikit-learn, přehled užitečných funkcí

V předešlé hodině jsme se vyhýbali programování, jak jen se to dalo. Teď už si ale chceš také sama vše vyzkoušet.
Abys mohla úlohu rozmyšlenou v domácím úkolu naprogramovat, projdeme si nejdůležitější funkce, které budeš potřebovat. 

Především budeme používat knihovnu [Sciki-learn](https://scikit-learn.org) a samozrejmě také pandas. 
Potřebné věci projdeme na příkladu. 

In [1]:
import pandas as pd

## Načtení a příprava dat 

Na začátku vždy bude potřeba připravit data. Čištění dat a použití knihovny pandas už bys měla ovládat, 
zameříme se jen na věci, které jsou specifické pro strojové učení.

Načíst data tedy umíš.

In [2]:
df_platy = pd.read_csv("static/salaries.csv", index_col=0)
df_platy.sample(10)

Unnamed: 0,rank,discipline,yrs.since.phd,yrs.service,sex,salary
155,AsstProf,B,4,0,Male,92000
16,Prof,B,12,3,Male,117150
73,Prof,B,29,19,Male,100131
15,Prof,B,20,18,Male,104800
120,AsstProf,A,5,3,Female,73500
58,AssocProf,B,9,8,Male,90215
40,AssocProf,B,9,9,Male,100938
79,AsstProf,B,3,1,Male,86100
191,Prof,B,22,9,Male,180000
150,AsstProf,B,4,3,Male,95079


Pro predikci použijeme jako příznaky `rank`, `discipline`, `yrs.since.phd`, `yrs.service` a `sex`, 
predikovat budeme hodnotu `salary`.  

Pro učení potřebujeme všechny hondoty převést na čísla (`float`). Pokud by data obsahovala chybějící
hodnoty, nejjednodušší řešení je takové řádky zahodit. (Bonus: pokud bys měla data s větším množstvím
chybějících hodnot, podívej se na možnosti [sklearn.impute](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.impute))

Důležité je vypořádat se s kategorickými hodnotami. Sloupce obsahující hodnoty typu Boolean nebo dvě hodnoty (např. muž/žena), lze snadno převést na hodnoty $[0,1]$. 

In [3]:
df_platy = df_platy.replace({"Male": 0, "Female": 1})
df_platy.sample(10)

Unnamed: 0,rank,discipline,yrs.since.phd,yrs.service,sex,salary
191,Prof,B,22,9,0,180000
108,AssocProf,A,10,8,0,82600
75,Prof,B,28,23,0,113398
5,Prof,B,40,41,0,141500
71,Prof,B,17,2,0,126320
27,Prof,A,35,23,0,134885
116,Prof,A,21,9,0,120806
29,AsstProf,B,11,0,0,77000
183,AssocProf,B,8,8,0,100000
77,Prof,B,17,3,0,150480


Pro kategorické proměnné s více možnostvi použijeme tzv. *one-hot-ecoding*. 

Př. sloupec `rank` obsahuje hodnoty `Prof`, `AsstProf` a `AssocProf`. K zakódování pomocí one-hot-encoding potřebujeme tři sloupce: 

Původní hodnota | Kód 
--- | --- 
Prof      | 1 0 0
AsstProf  | 0 1 0 
AssocProf | 0 0 1  


Knihovna Scikitlearn nabízí [sklearn.preprocessing.OneHotEncoder](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html#sklearn.preprocessing.OneHotEncoder), při práci s pandas však můžeme použít rovnou metodu [get_dummies](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html). (Pozn. *dummies* proto, že nám přibudou pomocné proměnné (sloupce), které se označují jako *dummy variables*.)

In [4]:
df_platy = pd.get_dummies(df_platy)
df_platy

Unnamed: 0,yrs.since.phd,yrs.service,sex,salary,rank_AssocProf,rank_AsstProf,rank_Prof,discipline_A,discipline_B
1,19,18,0,139750,0,0,1,0,1
2,20,16,0,173200,0,0,1,0,1
3,4,3,0,79750,0,1,0,0,1
4,45,39,0,115000,0,0,1,0,1
5,40,41,0,141500,0,0,1,0,1
...,...,...,...,...,...,...,...,...,...
194,19,19,0,86250,1,0,0,0,1
195,48,53,0,90000,1,0,0,0,1
196,9,7,0,113600,1,0,0,0,1
197,4,4,0,92700,0,1,0,0,1


Poslední krok předzpracování bývá přeškálování hodnot. Není to vždy nutné, ale některým modelům to může pomoci.
Využijeme [StandardScaler](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html#sklearn.preprocessing.StandardScaler).
(Pozn.: vytvoříme zvlášť objekt na transformaci odezvy, abychom ho později mohli použít samostatně na konverzi
predikovaných hodnot). 

In [5]:
from sklearn.preprocessing import StandardScaler 

priznaky_ke_konverzi = ["yrs.since.phd", "yrs.service"]
odezva = ["salary"]

transformace = StandardScaler()
df_platy[priznaky_ke_konverzi] = transformace.fit_transform(df_platy[priznaky_ke_konverzi])

transformace_odezva = StandardScaler()
df_platy[odezva] = transformace_odezva.fit_transform(df_platy[odezva])

df_platy.sample(10)


Unnamed: 0,yrs.since.phd,yrs.service,sex,salary,rank_AssocProf,rank_AsstProf,rank_Prof,discipline_A,discipline_B
77,-0.178305,-1.024448,0,1.379606,0,0,1,0,1
59,-0.749045,-0.520078,0,-0.384134,1,0,0,0,1
141,-0.422908,-0.60414,0,-0.38529,1,0,0,1,0
35,-1.238251,-1.10851,1,-1.081642,0,1,0,0,1
28,-1.156717,-1.024448,0,-1.006181,0,1,0,0,1
182,-0.096771,-0.856325,0,1.052257,0,0,1,0,1
90,-0.830579,-0.688202,0,-0.143351,1,0,0,0,1
132,3.001534,3.51488,0,-1.200229,0,0,1,1,0
34,-1.238251,-1.10851,0,-1.081642,0,1,0,0,1
124,0.47397,0.572723,1,-1.68915,1,0,0,1,0


## Vytvoření trénovací a testovací množiny

V teorii strojového učení se vstupy modelu (příznaky, vsupní proměnné) typicky označují písmenem `X` a výstupy písmenem `y`. Řada programátorů toto používá i k označování proměnných v kódu. 
`X` představuje *matici* (neboli tabulku), kde každý řádek odpovídá jednomu datovému vzorku a každý sloupec jednomu příznaku (vstupní proměnné). `y` je vektor, neboli jeden sloupec s odezvou. 

Na vyzobnutí odezvy se výborně hodí metoda [pop](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.pop.html).

In [6]:
y = df_platy.pop("salary")
X = df_platy 

print(X.columns)
print(y.name)

Index(['yrs.since.phd', 'yrs.service', 'sex', 'rank_AssocProf',
       'rank_AsstProf', 'rank_Prof', 'discipline_A', 'discipline_B'],
      dtype='object')
salary


Zbývá data rozdělit na trénovací a testovací. K tomu slouží metoda [train_test_split](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html?highlight=train%20test%20split#sklearn.model_selection.train_test_split). 
Data nám rozdělí náhodně na trénovací a testovací sadu. Velikost testovací množiny můžeme specifikovat parametrem `test_size`, jeho defaultní hodnota je `0.25`, t. j. 25%.

In [7]:
from sklearn.model_selection import train_test_split 

X_train, X_test, y_train, y_test = train_test_split(X, y)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

## Modely 

Můžeme přejít k samotnému učení. Vybereme si model. Přehled modelů najdeš v sekci [Supervised learnig](https://scikit-learn.org/stable/supervised_learning.html#supervised-learning).
                                                                                                       
                                        
Na regresi můžeš použít:
  - TODO
   -
 
Na klasifikační úlohy (ke kterým se dostaneme v této hodině) využiješ: 
  - TODO
  -

Vytvoříme instanci vybraného modelu (jde nám teď o syntaxi, vezmeme nejjednodušší lineární regresi):

In [8]:
from sklearn.linear_model import LinearRegression

model = LinearRegression()

## Trénování

Model natrénujeme na trénovací množině:

In [9]:
model.fit(X_train, y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

## Predikce 

Natrénovaný model typicky chceme použít k ohodnocení nějakých nových datových vzorků, k tomu máme metodu `predict`. Zavolejme ji jak na trénovací, tak na testovací data.

In [10]:
train_predikce = model.predict(X_train)
test_predikce = model.predict(X_test)

Pozor, k učení jsme použili transformované hodnoty odezvy. Zajímají-li nás skutečné hodnoty platů, 
musíme i predikované hodnoty transformovat zpět.

In [11]:
predikce_platu = pd.Series(transformace_odezva.inverse_transform(test_predikce))
predikce_platu.head()

0    110849.192762
1    133890.803811
2     86489.848932
3    128506.442948
4     78035.296084
dtype: float64

## Evaluace modelu

Můžeme využít funkci `score`, která nám vrátí hodnotu $R^2$ metriky:   

In [12]:
print("R2 na trénovací množině: ", model.score(X_train, y_train))
print("R2 na testovací množině: ", model.score(X_test, y_test))

R2 na trénovací množině:  0.5385580275011994
R2 na testovací množině:  0.4948083912636363


Funkce pro všechny možné metriky najdeš v [sklearn.metrics](https://scikit-learn.org/stable/modules/classes.html?highlight=sklearn%20metrics#module-sklearn.metrics).
                                                            (nyní nás zajímají [regresní metriky](https://scikit-learn.org/stable/modules/classes.html?highlight=sklearn%20metrics#module-sklearn.metrics))          

In [13]:
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

pd.DataFrame(
    {
        "MAE": [mean_absolute_error(y_train, train_predikce), mean_absolute_error(y_test, test_predikce)],
        "MSE": [mean_squared_error(y_train, train_predikce), mean_absolute_error(y_test, test_predikce)],
        "R2": [r2_score(y_train, train_predikce), r2_score(y_test, test_predikce)]
    },
    index = ["train", "test"]
)

Unnamed: 0,MAE,MSE,R2
train,0.462738,0.453771,0.538558
test,0.54822,0.54822,0.494808


## Uložení modelu 

Někdy si potřebujeme naučený model uchovat na další použití. Model lze uložit do souboru a zase načíst pomocí `pickle`.
Kujme pikle:

In [14]:
import pickle 

with open("model", "wb") as soubor:
    pickle.dump(model, open("model.pickle", "wb"))


with open("model.pickle", "rb") as soubor:
    staronovy_model = pickle.load(soubor)

staronovy_model.score(X_test, y_test)

0.4948083912636363

Pozn.: Bohužel mám poměrně bohaté špatné zkušenosti z načítáním modelů uložených před delším časem
(bývá problém načíst model uložený ve starší verzi Scikit-learn ve verzi novější). 

### Bonusy:

 - volba vhodného modelu a jeho hyper-parametrů se skrývá pod klíčovým slovem **model selection**. Knihovna Scikit-learn obsahuje různé pomůcky k ulehčení toho výběru. Přesahuje to ale rámec tohoto kurzu, narazíš-li na to toho téma při samostudiu, pročti si [sklear.model_selection](https://scikit-learn.org/stable/modules/classes.html?highlight=model%20selection#module-sklearn.model_selection). 
 
 - v příkladu výše jsme použili různé transformace nad daty a pak teprve tvorbu modelu. Až budeš v těchto věcech zběhlejší, bude se ti hodit propojit tyto věci dohromady. K tomu slouží tzv. [pipeline](https://scikit-learn.org/stable/modules/classes.html?highlight=pipeline#module-sklearn.pipeline).  