# 03 Modelování

## Data pro modelování

Využijeme vyčištěná a normalizovaná data ze skriptu *02 Průzkumová analýza dat*. Proměnná pro další pouužití se jmenuje *cistaData*.

In [3]:
#umístění souboru
soubor="R:/-DigitalAcademy-/Clustering/trickaData.csv"

In [2]:
#import knihovny
import pandas as pd

In [4]:
#načtení dat
hrubaData=pd.read_csv(soubor)

In [5]:
#vytvořím kopii bez posledních dvou pozorování - outlier a řádek obsahující NaN
cistaData=hrubaData[0:200].copy()

#převod z mm na cm
cistaData["Delka"]=cistaData["Delka"]/10

#přejmenování
cistaData.rename(columns={"Sirka":"Sirka [cm]","Delka":"Delka [cm]"},inplace=True)

In [7]:
#zobrazení
cistaData.head()

Unnamed: 0,Cislo,Sirka [cm],Delka [cm]
0,1,45.99,66.25
1,2,43.64,66.15
2,3,56.83,69.12
3,4,53.9,66.27
4,5,35.87,70.38


## Shlukování

[shlukování python](http://scikit-learn.org/stable/modules/clustering.html)

### Co je to shlukování

Úkolem *shlukování* je dát podobné objekty do jednoho koše. Prozkoumat *přirozenou strukturu* dat.

Dnes se seznámíme se shlukováním pomocí k-means (k středů), kde jako *vstupní parametr* udávám počet košů/shluků k.

Začneme [zde](https://www.naftaliharris.com/blog/visualizing-k-means-clustering/).

**SAMOTNÉ SHLUKOVÁNÍ POMOCÍ K-STŘEDŮ PROBEREME ZÍTRA, DNES NÁM JDE JEN O INTUINITNÍ POCHOPENÍ TOHO PROČ SHLUKOVÁNÍ A O ČEM TO JE.**

### Shlukování pro naši úlohu

In [19]:
#import knihovny
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

%matplotlib notebook

In [78]:
#vytvořím objekt
kmeansTricka = KMeans(n_clusters = 3)

In [79]:
#nafituji data
kmeansTricka.fit(cistaData[["Sirka [cm]","Delka [cm]"]])

KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,
    n_clusters=3, n_init=10, n_jobs=1, precompute_distances='auto',
    random_state=None, tol=0.0001, verbose=0)

In [80]:
#vykreslení
obrShluk = plt.figure()
ax = obrShluk.add_subplot()
plt.scatter(cistaData["Sirka [cm]"],cistaData["Delka [cm]"],c=kmeansTricka.labels_,cmap='rainbow')

<IPython.core.display.Javascript object>

<matplotlib.collections.PathCollection at 0x1ef1c0bbc88>

In [70]:
#středy shluků - CO TO JE STŘED SHLUKŮ PRO NAŠÍ ÚLOHU
kmeansTricka.cluster_centers_

array([[ 57.26828571,  68.53542857],
       [ 49.03342105,  65.70342105],
       [ 42.83678571,  65.13732143],
       [ 60.952     ,  75.1375    ],
       [ 83.4825    ,  71.0375    ],
       [ 48.05368421,  72.45736842],
       [ 34.63230769,  69.72153846],
       [ 68.806     ,  67.96533333]])

In [71]:
#do kterého shluku patří
kmeansTricka.labels_

array([1, 2, 0, 0, 6, 5, 3, 1, 3, 2, 1, 0, 2, 1, 6, 7, 2, 1, 0, 5, 2, 5, 1,
       3, 6, 0, 2, 1, 1, 2, 2, 0, 6, 2, 6, 1, 7, 0, 1, 1, 2, 3, 7, 2, 0, 0,
       5, 3, 3, 0, 1, 0, 4, 2, 5, 1, 7, 2, 5, 0, 1, 1, 0, 2, 0, 2, 5, 2, 5,
       0, 3, 0, 1, 5, 0, 5, 2, 2, 7, 2, 2, 2, 7, 5, 2, 2, 5, 1, 1, 2, 4, 1,
       2, 6, 2, 7, 0, 1, 6, 5, 2, 1, 3, 3, 2, 0, 1, 2, 3, 7, 2, 7, 5, 2, 1,
       1, 0, 0, 0, 3, 5, 0, 3, 5, 0, 2, 3, 2, 2, 6, 2, 2, 1, 2, 2, 0, 0, 1,
       2, 5, 0, 4, 1, 6, 0, 3, 2, 2, 1, 7, 0, 7, 0, 1, 3, 1, 2, 2, 2, 2, 7,
       3, 7, 0, 1, 7, 2, 2, 2, 0, 2, 1, 5, 2, 2, 3, 3, 1, 5, 6, 6, 2, 1, 2,
       1, 2, 0, 2, 1, 7, 3, 6, 4, 3, 6, 1, 2, 0, 0, 1])

In [75]:
#"kvalita" shlukování - skóre
-kmeansTricka.score(cistaData[["Sirka [cm]","Delka [cm]"]])

2823.7947847431142

### Jak najdeme odpovědi na naši úlohu?

In [44]:
print(-kmeansTricka.score(cistaData[["Sirka [cm]","Delka [cm]"]]))

2361.30531039


In [62]:
vektorK = range(2,21)
kvalita = [0]*len(vektorK)
i=0
for pocetShluku in vektorK:
    kmeansTricka = KMeans(n_clusters = pocetShluku)
    kmeansTricka.fit(cistaData[["Sirka [cm]","Delka [cm]"]])
    kvalita[i]=-kmeansTricka.score(cistaData[["Sirka [cm]","Delka [cm]"]])
    i=i+1

In [61]:
obrKvalita = plt.figure()
ax = obrKvalita.add_subplot()
plt.plot(vektorK,kvalita)

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x1ef1b542940>]

# Poznámky

## Být spisovatelkou či nebýt?

Aneb jak moc řešit názvy proměnných.
* Standardy jazyka - sledujte dokumentaci a přebýrejte z ní názvy - používají se standardně a umožňují rychlejcí komunikaci v komunitě (pd, np, plt, for (key, value) in d.itemsets():,)
* Obecné standardy - proměnné pro iterace přes pole i,j,k,l.
* Jinak má být jasné, co to je.

## Proč má smysl rozumět matematice na pozadí?

* Ladění parametrů.
* Co jsou jednotlivé "objekty" - zde například střed shluku?
* Diskuse (ne)smysluplnosti výstupu.

## Proč python?

* Není ekvivalent sklearn v excelu.

# DÚ

* Do zítřka se nad tím zkuste zamyslet.