# Porovnávanie modelov a train, test metóda
V predošlých kapitolách sme predstavili dva modely, ktoré sa používajú na regresné a klasifikačné úlohy. <br>
V tejto kapitole predstavíme *trénovacie a testovacie dáta* a ako vieme ovplyvňovať *presnosť* a *spôsob učenia* našich modelov.

## Train/test split metóda
* metódou rozdelíme dataset na trénovacie a testovacie dáta, aby sme vedeli pozorovať akú má model presnosť
* pomocou *trénovacích* dát **trénujeme** model
* na *testovacích* dátach model **testujeme**

Na začiatku máme import knižnice, import datasetu a zadefinovanie X a y premenných

In [1]:
from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data
y = iris.target

Zadefinujeme si trénovacie a testovacie premenné s rozdelenými dátami z datasetu
* využijeme na to zabudovanú funkciu *train_test_split*
* *test_size* slúži na zadanie pomeru trénovacích a testovacích dát, najčastejšie pomery pre testovanie sú **60% ku 40%**, 90% ku 10% a 70% ku 30%
* *random_state* je parameter, ktorý náhodne delí dáta (môžeme testovať viac krát rovnaký dataset s inými vybranými testovacími a trénovacími dátami) 
<br>   

 obrázok: randomState.png

In [2]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size = 0.4, random_state = 4)

## KNN
* naučíme KNN model naše trénovacie dáta

In [3]:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors = 1)
knn.fit(X_train, y_train)

KNeighborsClassifier(n_neighbors=1)

* pomocou metódy *predict* zistíme aké sú predikcie pre naše testovacie dáta

In [4]:
y_predictions = knn.predict(X_test)

* nakoniec porovnáme na koľko sa nám zhodujú naše *predikcie* (vypočítané z trénovacích dát) s *testovacími dátami*

In [5]:
from sklearn import metrics
print(metrics.accuracy_score(y_test, y_predictions))

0.95


Obrázok: KNN1.png
* vidíme, že zhoda je 95%
Čo sa ale stane, ak dáme iné K?

## 1. programovacia úloha
**Naprogramujte predikciu KNN modelu, kde bude K rovné 3. Testovacie dáta budú predstavovať 40% datasetu a parameter pre náhodu nechajte na 4.**

In [1]:
# riešenie
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn import metrics
iris = load_iris()

X = iris.data
y = iris.target

X_train, X_test, y_train, y_test = train_test_split(X,y,test_size = 0.4, random_state = 4)

knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)
y_pred = knn.predict(X_test)
print(metrics.accuracy_score(y_test, y_pred))

0.96


Takže náš model predikoval lepšie o jedno percento. <br>
Skúsime ešte **K=5**. <br>
Obrázok: KNN5.png

In [7]:
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, y_train)
y_pred = knn.predict(X_test)
print(metrics.accuracy_score(y_test, y_pred))

0.9666666666666667


A **K=7**.

In [8]:
knn = KNeighborsClassifier(n_neighbors=7)
knn.fit(X_train, y_train)
y_pred = knn.predict(X_test)
print(metrics.accuracy_score(y_test, y_pred))

0.9833333333333333


Pozorujeme, že čím vyššie je K, tým presnejší model máme, môžeme teda prísť až na 100%? <br>
Musíme si ale uvedomiť, že sa nám s vyšším K zvyšuje aj výpočtová zložitosť. <br>
Čo ak bude **K=25**?

In [9]:
knn = KNeighborsClassifier(n_neighbors=25)
knn.fit(X_train, y_train)
y_pred = knn.predict(X_test)
print(metrics.accuracy_score(y_test, y_pred))

0.95


Výsledok nám klesol. Istejšie bude, ak sa pozrieme na graf.<br>
obrázok: KNNgraph.png <br>
Z grafu vidíme, že *od KNN=5 až po KNN=15* môžeme očakávaš s istotou *najvyššiu možnú presnosť*.

### Čiže neplatí: čím vyššie dáme číslo K v KNN, tým presnejšiu hodnotu dostaneme.

## Lineárna regresia
V *kapitole lineárna regresia* sme už použili metódu train_test_split. <br>
Pracovali sme s datasetom o reklamách a skončili sme pri vypočítaných koeficientoch.

In [10]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

url = "https://raw.githubusercontent.com/justmarkham/scikit-learn-videos/master/data/Advertising.csv"
data = pd.read_csv(url)
linreg = LinearRegression()

X = data[['TV', 'Radio', 'Newspaper']]
y = data.Sales

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=1)
linreg.fit(X_train, y_train)

stlpce = ['TV', 'Radio', 'Newspaper']
list(zip(stlpce, linreg.coef_))

[('TV', 0.04656456787415028),
 ('Radio', 0.17915812245088836),
 ('Newspaper', 0.0034504647111804412)]

* teraz k tomu spravíme predikciu

In [11]:
linreg.predict(X_test)

array([21.70910292, 16.41055243,  7.60955058, 17.80769552, 18.6146359 ,
       23.83573998, 16.32488681, 13.43225536,  9.17173403, 17.333853  ,
       14.44479482,  9.83511973, 17.18797614, 16.73086831, 15.05529391,
       15.61434433, 12.42541574, 17.17716376, 11.08827566, 18.00537501,
        9.28438889, 12.98458458,  8.79950614, 10.42382499, 11.3846456 ,
       14.98082512,  9.78853268, 19.39643187, 18.18099936, 17.12807566,
       21.54670213, 14.69809481, 16.24641438, 12.32114579, 19.92422501,
       15.32498602, 13.88726522, 10.03162255, 20.93105915,  7.44936831,
        3.64695761,  7.22020178,  5.9962782 , 18.43381853,  8.39408045,
       14.08371047, 15.02195699, 20.35836418, 20.57036347, 19.60636679])

* vypočítame presnosť s pomocou *score*

In [12]:
linreg.score(X_test,y_test)

0.9156213613792232

* náš model pracuje s presnosťou 91%

## 2. programovacia úloha
**Naprogramujte model lineárnej regresie na datasete advertising.csv s parametrami. Testovacie dáta budú predstavovať 90% z datasetu a parameter pre náhodu bude 0.**<br>
link na dataset: https://raw.githubusercontent.com/justmarkham/scikit-learn-videos/master/data/Advertising.csv

In [13]:
# riešenie
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

url = "https://raw.githubusercontent.com/justmarkham/scikit-learn-videos/master/data/Advertising.csv"
data = pd.read_csv(url)
linreg = LinearRegression()

X = data[['TV', 'Radio', 'Newspaper']]
y = data.Sales

X_train, X_test, y_train, y_test = train_test_split(X, y,test_size = 0.9, random_state = 0)
linreg.fit(X_train, y_train)

linreg.predict(X_test)
linreg.score(X_test,y_test)

0.8532420604774107

### Prečo je užitočné deliť dataset na trénovacie a testovacie dáta a na nich robiť predikcie?
* aby sme predišli tzv. *underfitting a overfitting* a aby náš model vedel dobre pracovať s dátami, ktoré ešte nevidel
    * **underfitting**  - ak náš dataset nevie zachytiť vzťahy medzi vstupnými a výstupnými hodnotami
                    - keď je model *príliš jednoduchý* - potreba dlhšieho času na učenie sa
                                                       - málo dát 
                                                       - menej podmienok
                    - vieme to odpozorovať na chybných trénovacích a testovacích dátach                                        
    * **overfitting**   - ak je náš dataset *priveľmi komplexný* - model sa pridlho učí <br>
                                                  - model pracuje s podrobnými dátami 
                    - model pracuje do väčšej hĺbky s trénovacími dátami a zároveň hľadá viac súvislostí a faktorov, ale pri testovacích dátach sa toto znevýhodní a výsledky má zlé

obrázok: Under-Overfitting.png

#### Materiály na dodatočné štúdium 
Na hlbšie preskúmanie trénovacích a testovacích dát: <br>
https://machinelearningmastery.com/difference-test-validation-datasets/ <br>
https://machinelearningmastery.com/train-test-split-for-evaluating-machine-learning-algorithms/ <br>
https://towardsdatascience.com/train-test-split-and-cross-validation-in-python-80b61beca4b6 <br>
Taktiež odporúčame GridSearchCV: <br>
https://towardsdatascience.com/gridsearchcv-for-beginners-db48a90114ee