## Prediktívne modelovanie - regresia (pomocou lineárnej regresie)

V tomto príklade si demonštrujeme ukážku riešenia prediktívnej úlohy regresného typu - úlohy, kedy je predikovaný atribút spojitý. Spôsob modelovania a príravy na modelovanie korešponduje s klasifikačnými úlohami (spôsob rozdelenia dát na trénovacie a testovacie, trénovanie modelu). 

Najprv importujeme niektoré potrebné knižnice. 

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

Načítanie datasetu Diabetes pomocou funkcie `load_diabetes`. Dataset v premennej `diabetes` obsahuje vektorizované dáta, v stĺpci `data` sú dáta zo vstupných atribútov, v stĺpci `target` hodnoty cieľového atribútu. 

In [None]:
from sklearn import datasets
diabetes = datasets.load_diabetes()


Pre lepšie zobrazenie dát si dáta môžeme previesť a zobraziť ako dátový rámec - pracovať však už môžeme priamo s vektorovou podobou dát. 
`diabetes['data']` obsahuje 10 stĺpcov, v ktorých sú zakódované hodnoty parametrov pacientov (Vek, Pohlavie, BMI index, priemerný krvný tlak, atď.). Predikovaná veličina `diabetes['target']` vyjadruje kvantitatívnu mieru progresu ochorenia rok po úvodnom meraní. 

In [None]:
df = pd.DataFrame(diabetes['data'])
df.head()

Pomocou funkcie `train_test_split` rozdelíme dáta do trénovacej a testovacej množiny. Keďže v `diabetes` už máme vektorizované dáta, v stĺpci `data` predikujúce atribúty a v stĺpci `target` predikovaný atribút, môžeme ich priamo priradiť do premenných X (matica príznakov) a y (vektor hodnôt cieľového atribútu)

In [None]:
from sklearn.model_selection import train_test_split

X = diabetes['data']
y = diabetes['target']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.3)

Importujeme knižnicu pre lineárny regresný model - lineárnu regresiu. Model inicializujeme a natrénujeme na trénovacej množine.

In [None]:
from sklearn.linear_model import LinearRegression

lm = LinearRegression()
model = lm.fit(X_train, y_train)

Po netrénovaní môžeme model overiť na testovacej množine. Pomocou funkcie `predict` vypočítame predikcie pre dáta z testovacej množiny a uložíme ich do premennej `y_model`.  

Pre porovnanie skutočných hodnôt z testovacej množiny a predikovaných hodnôt môžeme vytvoriť tabuľku (ako Pandas dátový rámec), kde veľa seba vypíšeme skutočné hodnoty z testovacej množiny `y_test` a modelom predikované hodnoty `y_model`.

In [None]:
y_model = model.predict(X_test)

summary_df = pd.DataFrame()
summary_df['target'] = y_test
summary_df['prediction'] = y_model

print(summary_df)

In [None]:
summary_df.plot(kind="scatter", x="target", y="prediction")

Podobne ako pri klasifikačných úlohách, môžeme z týchto výsledkov vypočítať viaceré metriky, ktoré umožňujú porovnať regresné modely, resp. vyjadriť kvalitu daného regresného modelu. Pre regresné modely sa používa niekoľko metrík:

* priemerná absoútna chyba - ukazuje veľkosť celkovej chyby, ktorá vznikla pri predikcie (veľké chyby nie sú v tomto ukazovateli penalizované)
* priemerná kvadratická chyba - veličina vyjadrujú přesnosť odhadov pomocou strednej hodnoty druhých mocnín rozdielov medzi predikovanou hodnotou a skutočnosťou (penalizuje extrémne chyby, alebo inými slovami, MSE je oveľa viac ovplyvnená veľkými chybami ako malými)
* R2 skóre - Koeficient determinácie, v rozsahu od 0 (žiadny lineárny vzťah) do 1 (absolútny lineárny vzťah, či už pozitívny alebo negatívny)


In [None]:
from sklearn.metrics import mean_absolute_error
mae = mean_absolute_error(y_test, y_model)

from sklearn.metrics import mean_squared_error
mse = mean_squared_error(y_test, y_model)

from sklearn.metrics import r2_score 
r2 = r2_score(y_test, y_model)

print("MAE:", mae)
print("MSE:", mse)
print("R2 Score:", r2)