# Implementace domácího úkolu - rybí regrese 

In [None]:
import pandas as pd
import numpy as np 
np.random.seed(42) #ať to všem dopadne stejně

__ = 0  # ignorujte, slouží dále jako volné místo pro doplnění

- Načtěte si data pomocí pandas, vyberte požadované sloupce, převeďte vše na číselné hodnoty. 

*(Bude se vám hodit [get_dummies](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html), která kategoriální hodnoty zakóduje pomocí one hot encoding (pomocí nul a jedniček). (Pozn. **dummies** proto, že nám přibudou pomocné proměnné (sloupce), které se označují jako **dummy variables**.)*

In [None]:
fish_data = pd.read_csv("fish_data.csv", index_col=0)

# dopište kód 
...

- Zvol si sloupec, který budeš používat jako odezvu (**Weight**). Do proměnné **X** ulož sloupce, které budeš používat jako příznaky, do proměnné **y** sloupec s odezvou.

*V teorii strojového učení se vstupy modelu (příznaky, vstupní proměnné) typicky označují písmenem X a výstupy písmenem y. Takto se často označují i proměnné v kódu. X představuje matici (neboli tabulku), kde každý řádek odpovídá jednomu datovému vzorku a každý sloupec jednomu příznaku (vstupní proměnné). y je vektor, neboli jeden sloupec s odezvou.*

In [None]:
# doplň výběr příznaků a odezvy 
y = __
X = __ 

- Rozděl data na trénovací a testovací. Všimni si, že máme v datech různé druhy ryb, na co si dát pozor? 

*Metoda  [train_test_split](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html?highlight=train%20test%20split#sklearn.model_selection.train_test_split)  nám data rozdělí náhodně na trénovací a testovací sadu. Velikost testovací množiny můžeme specifikovat parametrem test_size, jeho přednastavená (default) hodnota je 0.25, t. j. 25%.*

In [None]:
from sklearn.model_selection import train_test_split 

# doplň rozdělení na testovací a trénovací data 
# X_train, X_test, y_train, y_test = ... 

- Vyber si několik regresních modelů a zkus je použít. 

Pro dnešek možno zkusit:

  - [LinearRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html) 
 
  - [Lasso](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Lasso.html#sklearn.linear_model.Lasso)
      + hyperparametry: 
          * alpha, float, default=1.0 
 
- [SVR](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVR.html#sklearn.svm.SVR)        
     + hyperparametry:
          * kernel, default rbf, one of ‘linear’, ‘poly’, ‘rbf’, ‘sigmoid’
          * C, float, optional (default=1.0)

# Odbočka: co jsou to ty *hyper-parametry*? 

U příkladů s černými krabičkami v první hodině jsme si (za vašimi zády) několikrát trochu pomohli a 
krabičce jsme předali na začátku nějaké parametry. Krabička totiž často umožňuje uživateli, aby si ji nakonfiguroval. V terminologii krabiček si můžeme představit, že krabička má na sobě různé páčky, kterými se dá seřídit. Těmito páčkami se nastavují tzv. **hyper-parametry** modelu. Všechny modely, které najdeš v knihovně Scikit-learn, mají nějaké výchozí nastavení a půjdou použít i bez toho, aby ses nastavením těchto hyper-parametrů zabývala.
V případě, že model nedává uspokojivý výsledek, můžeš zkusit tyto parametry upravit, např. vyzkoušet několik různých nastavení a porovnat hodnotu metriky na testovací množině.

U seznamu výše máme některé hyperparametry uvedené. Parametry často souvisejí s regularizací (výše *alpha*, *C*). **Regularizace** znamená, že model kromě toho, že se snaží nafitovat tak, aby odpovídal datům (dával správné odpovědi), zohledňuje nějaké další kriterium. Typicky toto kritérium hlídá, aby výstup modelu moc neosciloval, apod. Podobně jako jsi v příkladu s krajinou říkala, že řešení volíš tak, aby bylo *plynulé*, *hezké*, *odpovídalo obvyklým* krajinám. 

Proces výběru modelu včetně jeho parametrů se nazývá **model selection**, v knihovně Scikit-learn najdeš nástroje, které ti mohou pomoci, pod heslem [Model selection](https://scikit-learn.org/stable/model_selection.html).

In [None]:
from sklearn.linear_model import LinearRegression, Lasso, SGDRegressor  
from sklearn.svm import SVR 

In [None]:
# neboj se seznam změnit nebo zkusit jiné hodnoty parametrů 
model_zoo = [ 
    LinearRegression(),
    Lasso(alpha=1.0),
    Lasso(alpha=0.5), 
    SVR(kernel="rbf"),
    SVR(kernel="poly")
]

+ K trénovaní (fitování) slouží metoda `fit`, k predikci pro nové vzory metoda `predict`. 
```
  model.fit(X_train, y_train)
  pred = model.predict(X_test)
```

+ Metriku nemusíš programovat, k dispozici máš `mean_absolute_error`, `mean_squared_error` a `r2_score`.
```
  metrika = mean_absolute_error(y_test, pred)
```  

In [None]:
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

def ml_game(X_train, y_train, X_test, y_test, model):
    """ 1. Natrénuje model na trénovací množině.
        2. Spočte a vypíše hodnoty metrik na trénovací i testovací množině.
        returns naučený model 
    """ 
        
    # doplň kód dle bodů výše
    
    return model 

In [None]:
# stačí odkomentovat 

#trained_models = []
#for model in model_zoo: 
#    ml_game(X_train, y_train, X_test, y_test, model)
#    trained_models.append(model) 

Naučili jsme několik modelů. Zamysli se teď na chvilku, který by sis vybrala a proč. 
Označme si jej jako `best_model`.  Můžeš si i zkusit pohrát s hyperparametry a zvolit jiné nastavení.

In [None]:
# doplň pořadí modelu, který jsi vybrala

# best_model = trained_models[__]

# A pozor, překvapení ...  další testovací množina

Data jsme si rozdělili na trénovací a testovací. Trénovací jsme použili na učení modelu. 
**Ale pozor!** Testovací množinu jsme použili k výběru modelu. Metrika na testovací množině nám tedy 
nedává nezávislý odhad toho, jak se bude náš model chovat na neznámých datech. Byl totiž vybrán tak, 
aby dával dobré výsledky na testovací množině. 


Testovací množina nám slouží jako odhad generalizačních schopností modelu. Neměla by ale být použita ani při učení,
ani při výběru modelu. Část, kterou si oddělíme na "testování" pro účely výběru modelu, nazýváme správně 
**validační** množina. 
**Pozor:** Pokud jsme ale tuto validační množinu použili k výběru modelu, nesmíme ji používat k samotnému hodnocení generalizačních schopností tohoto modelu. 

A proto teď přichází opravdová testovací data, načtěte je ze souboru `fish_data_test.csv`. Pokud jsi při vytváření modelu data škálovala, nezapomeň stejně přeškálovat i tato data.

In [None]:
test_data = pd.read_csv("fish_data_test.csv", index_col=0)
test_data = pd.get_dummies(test_data.drop(columns=["ID"]))

y_real_test = test_data["Weight"]
X_real_test = test_data.drop(columns=["Weight"])

#y_pred_test = best_model.predict(X_real_test)

#print(f"MAE {mean_absolute_error(y_real_test, y_pred_test):.3f}")
#print(f"MSE {mean_squared_error(y_real_test, y_pred_test):.3f}")


In [None]:
#for weight, predicted_weight in zip(y_real_test, y_pred_test):
#    print(f"{weight:>10.1f}     {predicted_weight:>10.1f}")

# Visualizace na závěr 

+ Pro představu si zobrazme závislost váhy ryby na délce Length3. Zobrazíme zvlášt pro různé druhy, tedy např. pro Pike a Roach.  

In [None]:
mam_hotovy_prechozi_kod = False
if mam_hotovy_prechozi_kod:
    is_pike = test_data["Species_Bream"] == 1
    pike = test_data[is_pike].sort_values(by=["Length3"])
    pike_weights = pike["Weight"]
    pike_length3 = pike["Length3"]
    X_pike = scaler.transform(pike.drop(columns=["Weight"]))
    
    predicted_pike_weights = best_model.predict(X_pike)

    is_roach = test_data["Species_Roach"] == 1
    roach = test_data[is_roach].sort_values(by=["Length3"])
    roach_weights = roach["Weight"]
    roach_length3 = roach["Length3"]
    X_roach = scaler.transform(roach.drop(columns=["Weight"]))
    
    predicted_roach_weights = best_model.predict(X_roach)

In [None]:
import matplotlib.pyplot as plt 

if mam_hotovy_prechozi_kod:
    fig, ax = plt.subplots(1, 2)

    ax[0].scatter(pike_length3, pike_weights, label="true weight");
    ax[0].plot(pike_length3, predicted_pike_weights, label="prediction");
    ax[0].legend()

    ax[1].scatter(roach_length3, roach_weights, label="true weight");
    ax[1].plot(roach_length3, predicted_roach_weights, label="prediction");
    ax[1].legend()