# üèãüèΩ‚Äç‚ôÇÔ∏è Vizualizace bƒõhem tr√©nov√°n√≠
Vizualizace n√°m mohou pomoci l√©pe pochopit proces tr√©nov√°n√≠. V p≈ôedn√°≈°ce jsme si ≈ô√≠kali, ≈æe lze vizualizovat v√Ωsledn√Ω model pro r≈Øzn√© mno≈æiny hyperparametr≈Ø nebo t≈ôeba vizualizovat nƒõjakou metriku jako ƒçasovou ≈ôadu nap≈ô√≠ƒç iteracemi. V tomto notebooku si uk√°≈æeme, jak to udƒõlat v praxi.

In [None]:
# models
from sklearn.tree import DecisionTreeClassifier 

# data generation
from sklearn.datasets import make_blobs
import numpy as np

# plotting
import matplotlib.pyplot as plt
from mlxtend.plotting import plot_decision_regions 

# interactive elements
from ipywidgets import interact

## üìä Vizualizace modelu pro r≈Øzn√© hodnoty hyperparametr≈Ø
Postup si uk√°≈æeme na rozhodovac√≠m stromu a jeho hyperparametru `max_depth`.

Zaƒçneme t√≠m, ≈æe si vygenerujeme nƒõjak√° data (nap≈ô. pomoc√≠ funkce [`make_blobs()`](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_blobs.html), kter√° defaultnƒõ generuje 2 p≈ô√≠znaky) pro klasifikaƒçn√≠ probl√©m a vytvo≈ô√≠me funkci, kter√° bude vizualizovat natr√©novan√Ω model.

In [None]:
X, y = make_blobs(n_samples=300, centers=4, random_state=0, cluster_std=1.2)

fig, ax = plt.subplots()
ax.scatter(X[:, 0], X[:, 1], c=y, s=50)

In [None]:
def show_decision_region(X, y, clf):
    fig, ax = plt.subplots(figsize=(16,8))
    
    # styling
    scatter_kwargs = {'edgecolor': None, 'alpha': 0.7}
    contourf_kwargs = {'alpha': 0.3}
    
    # plotting
    plot_decision_regions(X, y, clf=clf, ax=ax, legend=2, scatter_kwargs=scatter_kwargs, contourf_kwargs=contourf_kwargs)

Pojƒème se pod√≠vat, co n√°m funkce `show_decision_region` vykresl√≠ üëÄ.

In [None]:
clf = DecisionTreeClassifier(random_state=42)
clf.fit(X, y)

show_decision_region(X, y, clf)

Nyn√≠ vytvo≈ô√≠me funkci, kter√° vykresl√≠ interaktivn√≠ vizualizaci. K tomu vyu≈æijeme funkci `interact`.

üë®üèΩ‚Äçüíª [user guide](https://ipywidgets.readthedocs.io/en/latest/examples/Using%20Interact.html)

Funkce `interact` funguje n√°sledovnƒõ ‚Äì parametrem prod√°me funkci, kter√° m√° nƒõjak√© vlastn√≠ parametry a `interact` vytvo≈ô√≠ UI elementy, kter√© n√°m umo≈æn√≠ tyto parametry nastavit. Po nastaven√≠ parametru `interact` je zavol√°na funkce s vybran√Ωmi hodnotami a jej√≠ v√Ωstup se vyp√≠≈°e/vykresl√≠ do v√Ωstupu bu≈àky.

In [None]:
def plot_tree_interactive(X, y, depth_min, depth_max):   
    # trains classifier with provided depth and displays decision region
    def interactive_tree(depth):
        clf = DecisionTreeClassifier(max_depth=depth, random_state=0)
        clf.fit(X, y)
        show_decision_region(X, y, clf)

    # interact witdget (calls interactive_tree function with current depth specified by slider value)
    # slider values go from depth_min to depth_max
    return interact(interactive_tree, depth=(depth_min,depth_max))

In [None]:
_ = plot_tree_interactive(X, y, 1, 8)

D√≠ky vizualizaci m≈Ø≈æeme konstatovat, ≈æe ide√°ln√≠ hloubka je v tomto p≈ô√≠padƒõ 3 nebo 4. Stromy s men≈°√≠ hloubkou neumƒõly predikovat v≈°echny t≈ô√≠dy a stromy s vƒõt≈°√≠ hloubkou byly p≈ôeuƒçen√©.

## üìà Vizualizace metriky nap≈ô√≠ƒç iteracemi
P≈ôi v√Ωbƒõru v√Ωsledn√©ho modelu se rozhodujeme podle nƒõjak√© metriky (nebo v√≠ce metrik). P≈ôi klasifikaci je to ƒçasto klasifikaƒçn√≠ p≈ôesnost (angl. classification accuracy).

Predispozic√≠ k tomuto typu vizualizace je, ≈æe jsme si bƒõhem tr√©nov√°n√≠ v ka≈æd√© iteraci ukl√°dali hodnotu dan√© metriky.

Vytvo≈ôme si tedy data, kter√° takovou situaci simuluj√≠. P≈ôedstavme si, ≈æe jsme tr√©novali rozhodovac√≠ strom üå≥ a zkusili jsme ladit hyperparametr `max_depth` pro hodnoty 1 a≈æ 11. V ka≈æd√© iteraci jsme si ulo≈æili tr√©novac√≠ a validaƒçn√≠ p≈ôesnost.

In [None]:
train_acc = [0.4880, 0.7023, 0.9047, 0.9226, 0.9404, 0.9642, 0.9642, 0.9821, 0.9940, 0.9940]
val_acc = [0.4210, 0.7192, 0.9298, 0.9122, 0.8771, 0.8771, 0.8771, 0.8421, 0.8421, 0.8771]

depths = range(1,11)

In [None]:
# styling
blue = '#8592dc'
violet = '#9047A0'
red = '#d14081'

plt.rcParams.update({"axes.grid" : True})
plt.rcParams['axes.prop_cycle'] = plt.cycler(color=[blue, violet, red])
plt.style.use('seaborn-darkgrid')

Graf pak vytvo≈ô√≠me tak, ≈æe vykresl√≠me dva ƒç√°rov√© grafy (angl. line charts), jeden pro tr√©novac√≠ a druh√Ω pro validaƒçn√≠ p≈ôesnost.

In [None]:
fig, ax = plt.subplots(figsize=(16,8))
ax.set_xlabel('max depth')
ax.set_ylabel('accuracy')

ax.plot(depths, train_acc,'o-', label='train')
ax.plot(depths, val_acc,'o-', label='validation')

_ = ax.legend()

Z grafu vid√≠me, ≈æe i kdy≈æ tr√©novac√≠ p≈ôesnost st√°le rostla, validaƒçn√≠ zaƒçala od hloubky 3 klesat. To signalizuje p≈ôeuƒçen√≠. Nejlep≈°√≠ byl tedy model s hloubkou 3.

### üõ† Ladƒõn√≠ v√≠ce hyperparametr≈Ø
Vƒõt≈°inou lad√≠me v√≠ce ne≈æ jeden hyperparametr. V takov√©m p≈ô√≠padƒõ m≈Ø≈æeme jemnƒõ ohnout graf z p≈ôedchoz√≠ sekce (to si uk√°≈æeme v notebooku `example.ipynb`). Druh√° mo≈ænost je nap≈ô√≠klad pou≈æ√≠t graf paraleln√≠ch sou≈ôadnic. Ten v `matplotlib`u neexistuje a museli bychom jej naprogramovat ruƒçnƒõ. Na≈°tƒõst√≠ m≈Ø≈æeme pou≈æ√≠t bal√≠ƒçek `plotly`, kter√Ω tento graf obsahuje.

Nav√≠c je tento graf defaultnƒõ interaktivn√≠. M≈Ø≈æete zkusit p≈ôeuspo≈ô√°dat osy t√≠m, ≈æe kliknete na jejich n√°zev a pot√°hnete je. Tak√© m≈Ø≈æete filtrovat, jak√Ω interval hodnot v√°s na dan√© ose zaj√≠m√°. Staƒç√≠ kliknout na maxim√°ln√≠ hodnotu a pot√°hnout my≈° smƒõrem dol≈Ø na minim√°ln√≠ hodnotu (nebo naopak).

üóÇ [dokumentace](https://plotly.com/python-api-reference/generated/plotly.express.parallel_coordinates.html)

üë®üèΩ‚Äçüíª [examples](https://plotly.com/python/parallel-coordinates-plot/)

In [None]:
import plotly.express as px
import pandas as pd

rng = np.random.RandomState(1)

d = {
    'max_depth': [5, 5, 5, 8, 8, 8, 10, 10, 10, 5, 5, 5, 8, 8, 8, 10, 10, 10, 5, 5, 5, 8, 8, 8, 10, 10, 10], 
    'min_samples_leaf': [1, 3, 5, 1, 3, 5, 1, 3, 5, 1, 3, 5, 1, 3, 5, 1, 3, 5, 1, 3, 5, 1, 3, 5, 1, 3, 5],
    'min_samples_split': [ 2, 2, 2, 2, 2, 2, 2, 2, 2, 5, 5, 5, 5, 5, 5, 5, 5, 5, 8, 8, 8, 8, 8, 8, 8, 8, 8],
    'accuracy': rng.rand(27)
}

df = pd.DataFrame(data=d)

fig = px.parallel_coordinates(
    df, 
    color='accuracy', 
    # sets color scale to red-yellow-green
    color_continuous_scale=px.colors.diverging.RdYlGn,
    # sets middle value (accuracy range is 0 to 1, middle is in 0.5)
    color_continuous_midpoint=0.5
)

fig.show()

# üéâ A to je k tr√©nov√°n√≠ v≈°e! üéâ 