#  TPOT - Predviđanje kvalitete vina na temelju kemijskih svojstava uočenih pri proizvodnji

## Uvodno

Dva skupa podataka koja proučavamo odnose se na crvene i bijele vrste portugalskog „Vinho Verde“ vina. Za više pojedinosti, kontaktirajte URL: http://www.vinhoverde.pt/en/. Zbog tajnosti recepture i povjerljivih podataka vinarije, dostupne su samo fizičko-kemijske (ulazne) i senzorske (izlazne) varijable (npr. Nema podataka o vrstama grožđa, vinskoj marki, prodaji vina itd.).

Podaci su preuzeti s: https://www.kaggle.com/danielpanizzo/wine-quality/version/1#

Članak na koji ćemo se pozivati i na kojemu smo zahvalni za inspiraciju: 
<i>"Modeling wine preferences by data mining from physicochemical properties",</i>
<br>Paulo Cortez, AntónioCerdeira, Fernando Almeida, Telmo Matos, José Reis,
https://www.sciencedirect.com/science/article/pii/S0167923609001377

### Općenito o podacima

Klase su poredane i nisu uravnotežene (npr. broj uobičajenih vina je veći od izvrsnih ili loših, gledajući ocjene žirija). Također, nismo sigurni jesu li sve ulazne varijable relevantne i postoji li koreliranost među atributima.

Broj primjeraka: 
    <li>crno vino - 1599 (red)</li> 
    <li>bijelo vino - 4898 (wh)</li>

### O atributima

Broj atributa: 11 + izlazni atribut


#### Nezavisne varijable

1 - fiksirana kiselost (g/dm^3): 
    <p style="text-indent: 20px;">većina kiselina uključenih u vino ili fiksnih ili neprikladnih (ne isparavaju lako)</p>

2 - hlapljiva kiselost (g/dm^3): 
    <p style="text-indent: 20px;">količina octene kiseline u vinu, koja na previsokoj razini može dovesti do neugodnog okusa octa</p>

3 - limunska kiselina (g/dm^3): 
    <p style="text-indent: 20px;">nalazi se u malim količinama, limunska kiselina može dodati 'svježinu' i okus vinima</p>

4 - rezidualni šećer (g/dm^3):  
    <p style="text-indent: 20px;">količina preostalog šećera nakon završetka procesa fermentacije, rijetko se nađu vina s manje od 1 grama po litri, a vina s više od 45 grama po litri smatraju se slatkima</p>

5 – kloridi (g/dm^3): 
    <p style="text-indent: 20px;">količina soli u vinu</p>

6 - slobodni sumporni dioksid (mg/dm^3): 
    <p style="text-indent: 20px;">slobodni oblik SO2 postoji u ravnoteži između molekularnog SO2 (kao otopljenog plina) i bisulfitnog iona; sprječava rast mikroba i oksidaciju vina</p>

7 - ukupni sumporni dioksid (mg/dm^3): 
    <p style="text-indent: 20px;">količina slobodnih i vezanih oblika S02; u niskim koncentracijama, SO2 se uglavnom ne može detektirati u vinu, ali u slobodnim koncentracijama SO2 preko 50 ppm, SO2 postaje očit u nosu i okusu vina</p>

8 – gustoća (g/dm^3): 
    <p style="text-indent: 20px;">gustoća vina je blizu gustoći vode, ovisno o udjelu alkohola i šećera</p>

9 - pH: 
    <p style="text-indent: 20px;">opisuje kiselost ili lužnatost vina na skali od 0 do 14; većina vina je između 3 i 4 na pH skali</p>

10 – sulfati (g/dm^3): 
    <p style="text-indent: 20px;">aditiv vina koji može doprinijeti razinama sumporovog dioksida (S02), koji djeluje kao antimikrobijal i antioksidans</p>

11 - alkohol: 
    <p style="text-indent: 20px;">postotak alkohola u vinu</p>


#### Zavisna varijabla (na temelju senzorskih podataka)

12 - kvaliteta (rezultat između 0 i 10): 
    <br><p style="text-indent: 20px;">uzet je medijan triju ocjenjivača</p>


## Tree-Based Pipeline Optimization Tool (TPOT)

### Što je TPOT?

TPOT je automatizirani alat za strojno učenje (AutoML) koji optimizira učenje pomoću genetskog algoritma. Ideja je da pretraži mnogo pipelinea i na taj način nam pomoću python paketa olakša učenje. 
<br>
<br>
<img src="https://raw.githubusercontent.com/EpistasisLab/tpot/master/images/tpot-ml-pipeline.png">

<br>
<br>
Nakon što je pretraga završila, dobivamo Python kod najboljeg pipelinea.
<br>Implementacija se temelji na <b>scikit-learnu</b> te na slijedećim Python paketima: 
<li><b>NumPy</b></li> 
<li><b>SciPy</b></li> 
<li><b>pandas</b></li> 
<li>DEAP - za brzo prtotype-anje i testiranje ideja</li>
<li>update_checker - za provjeru updatea paketa</li>
<li>tqdm - da progress bar</li>
<li>stopit - za exceptione među dretvama u slučaju paralelnog rada</li>
<li>xgboost - Extreme Gradient Boosting, opcionalno</li>

## Implementacija

Početno importamo potrebne library-je:
<li>pandas koristimo za učitavanje podataka</li>
<li>numpy za manipulacije array-ima</li>
<li>TPOT sadrži dvije vrste modela: <p style="padding-left:30px;">TPOTClassifier - kategoričke labele<br>TPOTRegressor - neprekidne labele</p></li>
<li>shuffle - permutira podatke</li>
<li>train_test_split - dijeli podatke na trening i test</li>

In [1]:
import pandas as pd
import numpy as np
from tpot import TPOTClassifier, TPOTRegressor
from sklearn.utils import shuffle
from sklearn.model_selection import train_test_split


In [71]:
# Učitavamo podatke:
# red - crna vina
# wh - bijela vina

red = pd.read_csv('wineQualityReds.csv')
wh = pd.read_csv('wineQualityWhites.csv')


# Ispisujemo primjer tablice crnih vina
red

Unnamed: 0.1,Unnamed: 0,fixed.acidity,volatile.acidity,citric.acid,residual.sugar,chlorides,free.sulfur.dioxide,total.sulfur.dioxide,density,pH,sulphates,alcohol,quality
0,1,7.4,0.700,0.00,1.9,0.076,11.0,34.0,0.99780,3.51,0.56,9.4,5
1,2,7.8,0.880,0.00,2.6,0.098,25.0,67.0,0.99680,3.20,0.68,9.8,5
2,3,7.8,0.760,0.04,2.3,0.092,15.0,54.0,0.99700,3.26,0.65,9.8,5
3,4,11.2,0.280,0.56,1.9,0.075,17.0,60.0,0.99800,3.16,0.58,9.8,6
4,5,7.4,0.700,0.00,1.9,0.076,11.0,34.0,0.99780,3.51,0.56,9.4,5
5,6,7.4,0.660,0.00,1.8,0.075,13.0,40.0,0.99780,3.51,0.56,9.4,5
6,7,7.9,0.600,0.06,1.6,0.069,15.0,59.0,0.99640,3.30,0.46,9.4,5
7,8,7.3,0.650,0.00,1.2,0.065,15.0,21.0,0.99460,3.39,0.47,10.0,7
8,9,7.8,0.580,0.02,2.0,0.073,9.0,18.0,0.99680,3.36,0.57,9.5,7
9,10,7.5,0.500,0.36,6.1,0.071,17.0,102.0,0.99780,3.35,0.80,10.5,5


In [72]:
# Iz podataka je potrebno izbaciti prvi stupac - to nije značajka

red = red.drop(['Unnamed: 0'], axis=1)
wh = wh.drop(['Unnamed: 0'], axis=1)


# Ispisujemo crna vina kao provjeru
red

Unnamed: 0,fixed.acidity,volatile.acidity,citric.acid,residual.sugar,chlorides,free.sulfur.dioxide,total.sulfur.dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.700,0.00,1.9,0.076,11.0,34.0,0.99780,3.51,0.56,9.4,5
1,7.8,0.880,0.00,2.6,0.098,25.0,67.0,0.99680,3.20,0.68,9.8,5
2,7.8,0.760,0.04,2.3,0.092,15.0,54.0,0.99700,3.26,0.65,9.8,5
3,11.2,0.280,0.56,1.9,0.075,17.0,60.0,0.99800,3.16,0.58,9.8,6
4,7.4,0.700,0.00,1.9,0.076,11.0,34.0,0.99780,3.51,0.56,9.4,5
5,7.4,0.660,0.00,1.8,0.075,13.0,40.0,0.99780,3.51,0.56,9.4,5
6,7.9,0.600,0.06,1.6,0.069,15.0,59.0,0.99640,3.30,0.46,9.4,5
7,7.3,0.650,0.00,1.2,0.065,15.0,21.0,0.99460,3.39,0.47,10.0,7
8,7.8,0.580,0.02,2.0,0.073,9.0,18.0,0.99680,3.36,0.57,9.5,7
9,7.5,0.500,0.36,6.1,0.071,17.0,102.0,0.99780,3.35,0.80,10.5,5


In [74]:
# Shuffle permutira retke, odnosno primjerke bijelih i crnih vina.

wh = shuffle(wh)
red = shuffle(red)


# Zatim pretvaramo podatke u np.array i ispisujemo bijela vina kao provjeru.

red = np.array(red)
wh = np.array(wh)
wh

array([[ 6.6 ,  0.34,  0.28, ...,  0.42, 10.7 ,  6.  ],
       [ 6.4 ,  0.2 ,  0.28, ...,  0.55, 11.5 ,  5.  ],
       [ 6.6 ,  0.21,  0.6 , ...,  0.39,  9.3 ,  7.  ],
       ...,
       [ 6.3 ,  0.29,  0.29, ...,  0.36, 12.8 ,  7.  ],
       [ 7.1 ,  0.37,  0.32, ...,  0.62, 12.  ,  5.  ],
       [ 5.6 ,  0.19,  0.47, ...,  0.45, 11.2 ,  6.  ]])

In [75]:
# Ispisujemo dimenziju bijelih vina

wh.shape

(4898, 12)

In [76]:
# Ispisujemo dimenziju crnih vina

red.shape

(1599, 12)

In [89]:
# Dijelimo naše podatke na ulazne i izlaznu varijablu te na trening i test i koristimo Train & test metodu(2:1)

red_x_train, red_x_test, red_y_train, red_y_test = train_test_split(red[ : , :11], red[ : , 11], train_size=0.67, test_size=0.33)
wh_x_train, wh_x_test, wh_y_train, wh_y_test = train_test_split(wh[ : , :11], wh[ : , 11], train_size=0.67, test_size=0.33)


# Provjeravamo jesu li svi podaci dobro podijeljeni
print(red_x_train.shape[0] + red_x_test.shape[0] == red.shape[0])
wh_x_train.shape[0] + wh_x_test.shape[0] == wh.shape[0]

True


True

### O treniranju

Nakon formatiranja podataka slijedi treniranje modela.
<br> Prvo ćemo pretraživati model za crna vina pomoću regresije:
<br><br>class tpot.<b>TPOTRegressor</b>( generations=100, population_size=100,
                         offspring_size=None,<br> mutation_rate=0.9,
                         crossover_rate=0.1,
                         scoring='neg_mean_squared_error', cv=5,
                         subsample=1.0,<br> n_jobs=1,
                         max_time_mins=None, max_eval_time_mins=5,
                         random_state=None, <br> config_dict=None,
                         warm_start=False,
                         memory=None,
                         <br>periodic_checkpoint_folder=None,
                         early_stop=None,
                         verbosity=0,
                         disable_update_check=False )
<br>
<br>
Neki od važnijih hiperparametara su:
<li>generations - broj generacija za genetsko učenje, odnosno broj iteracija</li>
<li>population_size - veličina populacije za genetsko učenje</li>
<li>scoring - funkcija greške</li>
<li>max_time_mins - vremensko ograničenje pretrage u minutama</li>
<br>
Algoritam će pretražiti ukupno population_size + generations × offspring_size pipelinea.

#### Započinjemo s crnim vinom

In [90]:
# Inicijalizacija regresijskog objekta tpot
# Za scoring koristimo median_absoute_error, population_size=100, cross-validation=5, verbosity - informiranost

tpot = TPOTRegressor(generations=20,  scoring='neg_median_absolute_error', max_time_mins=30, verbosity=2)

# Pokretanje algoritma na crnom vinu
tpot.fit(red_x_train, red_y_train)

# Ispis scora na testnim podacima
print(tpot.score(red_x_test, red_y_test))

# Dobivamo konačni model u obliku koda
tpot.export('red_Regression.py')

Optimization Progress: 100%|██████████| 200/200 [01:23<00:00,  1.58pipeline/s]

Generation 1 - Current best internal CV score: -0.21908153457189378


Optimization Progress: 100%|██████████| 300/300 [02:31<00:00,  2.49pipeline/s]

Generation 2 - Current best internal CV score: -0.1685987342481842


Optimization Progress: 100%|██████████| 400/400 [04:36<00:00,  1.60pipeline/s]

Generation 3 - Current best internal CV score: 0.0


Optimization Progress: 100%|██████████| 500/500 [06:44<00:00,  1.07pipeline/s]

Generation 4 - Current best internal CV score: 0.0


Optimization Progress: 100%|██████████| 600/600 [08:50<00:00,  1.39s/pipeline]

Generation 5 - Current best internal CV score: 0.0


Optimization Progress: 100%|██████████| 700/700 [11:10<00:00,  1.35s/pipeline]

Generation 6 - Current best internal CV score: 0.0


Optimization Progress: 100%|██████████| 800/800 [14:33<00:00,  1.74s/pipeline]

Generation 7 - Current best internal CV score: 0.0


Optimization Progress: 100%|██████████| 900/900 [17:49<00:00,  3.20s/pipeline]

Generation 8 - Current best internal CV score: 0.0


Optimization Progress: 100%|██████████| 1000/1000 [21:28<00:00,  2.57s/pipeline]

Generation 9 - Current best internal CV score: 0.0


Optimization Progress: 100%|██████████| 1100/1100 [24:40<00:00,  1.86s/pipeline]

Generation 10 - Current best internal CV score: 0.0


Optimization Progress: 100%|██████████| 1200/1200 [27:49<00:00,  2.55s/pipeline]

Generation 11 - Current best internal CV score: 0.0


                                                                                


30.014947333333335 minutes have elapsed. TPOT will close down.
TPOT closed prematurely. Will use the current best pipeline.

Best pipeline: DecisionTreeRegressor(KNeighborsRegressor(input_matrix, n_neighbors=33, p=2, weights=distance), max_depth=6, min_samples_leaf=18, min_samples_split=9)
-0.0


True

In [94]:
# Provjeravamo dobiveni rezultat
tpot.predict(red_x_train) - red_y_train

array([0., 0., 0., ..., 0., 0., 0.])

In [95]:
# Računamo greške nad testnim podacima
red_test_results = tpot.predict(red_x_test) - red_y_test

In [96]:
# Ispisujemo rezultate
red_test_results

array([ 0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
        0.        ,  0.        ,  0.        ,  1.        ,  1.        ,
        0.        ,  1.        ,  0.        ,  0.        , -2.        ,
        0.        ,  1.        ,  0.        ,  0.        , -1.        ,
        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
        0.        ,  0.        ,  0.        ,  1.        ,  0.        ,
        0.        ,  0.        , -1.        ,  1.        ,  0.        ,
        0.        ,  0.        ,  0.        ,  2.        ,  0.        ,
        0.        ,  1.        ,  1.        ,  0.        ,  0.        ,
        0.        ,  1.        ,  1.        ,  0.        ,  0.        ,
        0.        ,  0.        ,  0.        ,  1.        ,  1.        ,
        0.        , -2.        ,  0.        ,  0.        ,  1.        ,
        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
        0.        ,  0.        ,  0.        ,  0.        ,  0.13

In [100]:
# Izrađujemo funkcije za relativnu i apsolutnu grešku
def apsolutna_greška(polje):
    suma = 0
    for a in polje:
        suma += abs(a)
    return suma

def relativna_greška(polje):
    return apsolutna_greška(polje)/len(polje)

In [101]:
apsolutna_greška(red_test_results)

243.86613272311212

In [102]:
relativna_greška(red_test_results)

0.46186767561195474

In [104]:
# U članku (na kojeg)
def cut_off(polje, cut):
    broj = 0
    for a in polje:
        if abs(a) <= cut:
            broj += 1
    return broj

In [105]:
cut_off(red_test_results, 1)

492

In [106]:
# Cut-Off = 1
cut_off(red_test_results, 1)/len(red_test_results)

0.9318181818181818

In [107]:
# Accuracy
cut_off(red_test_results, 0)/len(red_test_results)

0.6079545454545454

In [108]:
# Cut-Off = 0.5
cut_off(red_test_results, 0.5)/len(red_test_results)

0.6193181818181818

In [109]:
# Cut-Off = 0.25
cut_off(red_test_results, 0.25)/len(red_test_results)

0.6193181818181818

Usporedba <b>naših</b> rezultata (i najboljih* iz članka):

MAD(mean absolute deviation): <b>0.46</b> (0.46) 
<br>Cut-Off (0.25): <b>61.9</b> (43.2) 
<br>Cut-Off (0.5): <b>61.9</b> (62.4)
<br>Cut-Off (1): <b>93.1</b> (89.0)
<br>
#### Zaključak

Već pri prvom modeliranju možemo zaključiti da je naš model za ocjenjivanje <i>crnog vina</i> generalno bolji od modela iz članka. Najzanjimljiviji podatak je taj da naš model ima bolju točnost za Cut-Off=0, nego najbolji model iz članka za Cut-Off=0.25. Dakle, naš model ima 60.8% točno predviđenih ocjena.
<br>
Što se tiče samog učenja, od sprovedenih 10 generacija uviđamo da je 7 radio uzaludno jer je best internal CV score bio 0.0. Ubuduće ćemo aktivirati parametar early_stop. Taj parametar govori koliko generacija (iteracija) ne smije biti poboljšanja da bi se proces optimizacije zaustavio. Mi ćemo stavljati early_stop=3, što bi značilo ako uzastopne 3 generacije nema poboljšanja algoritam staje.
<br>
Najbolji pipeline kojeg nam je TPOT pronašao se sastoji od DecisionTreeRegressora i KNeighborsRegressora. Dakle, sastoji se od regresijskog stabla odluke i algoritma regresijskih k-najbližih susjeda. Za drugi algoritam se ciljna varijabla računa kao lokalna interpolacija najbližih susjeda iz trening seta.

*U članku su rađena tri modela: Linearna regresija, NN i SVM. Najbolji se odnosi na SVM. Njegove vrijednosti su u zagradama

#### Prelazimo na bijelo vino

In [110]:
# Inicijalizacija regresijskog objekta tpot
# Za scoring koristimo median_absoute_error, population_size=100, cross-validation=5, verbosity - informiranost
# Poučeni prethodnom iskustvu stavljamo early_stop=3

tpot2 = TPOTRegressor(generations=20,  scoring='neg_median_absolute_error', max_time_mins=30, early_stop=3, verbosity=2)

# Pokretanje algoritma na bijelom vinu
tpot2.fit(wh_x_train, wh_y_train)

# Ispis scora na testnim podacima
print(tpot2.score(wh_x_test, wh_y_test))

# Dobivamo konačni model u obliku koda
tpot2.export('wh_Regression.py')

Optimization Progress: 100%|██████████| 200/200 [03:22<00:00,  1.44s/pipeline]

Generation 1 - Current best internal CV score: -0.21619204440576212


Optimization Progress: 100%|██████████| 300/300 [05:44<00:00,  1.41s/pipeline]

Generation 2 - Current best internal CV score: -0.21619204440576212


Optimization Progress: 100%|██████████| 400/400 [10:29<00:00,  1.31pipeline/s]

Generation 3 - Current best internal CV score: -0.0037428571428571368


Optimization Progress: 100%|██████████| 500/500 [14:52<00:00,  3.76s/pipeline]

Generation 4 - Current best internal CV score: -0.0037428571428571368


Optimization Progress: 100%|██████████| 600/600 [19:13<00:00,  2.66s/pipeline]

Generation 5 - Current best internal CV score: -0.0037428571428571368


Optimization Progress: 100%|██████████| 700/700 [25:50<00:00,  5.19s/pipeline]

Generation 6 - Current best internal CV score: -0.0037428571428571368


                                                                              


30.007735733333334 minutes have elapsed. TPOT will close down.
TPOT closed prematurely. Will use the current best pipeline.

Best pipeline: RandomForestRegressor(KNeighborsRegressor(input_matrix, n_neighbors=25, p=1, weights=distance), bootstrap=True, max_features=0.7000000000000001, min_samples_leaf=2, min_samples_split=7, n_estimators=100)
-0.0


True

In [112]:
# Provjeravamo dobiveni rezultat
tpot2.predict(wh_x_train) - wh_y_train

array([ 0.        ,  0.        ,  0.        , ...,  0.        ,
        0.        , -0.00666667])

In [113]:
# Računamo greške nad testnim podacima
wh_test_results = tpot2.predict(wh_x_test) - wh_y_test

# Ispisujemo rezultate
wh_test_results

array([0.   , 0.   , 0.   , ..., 0.988, 1.   , 2.   ])

In [114]:
apsolutna_greška(wh_test_results)

675.6535299422799

In [115]:
relativna_greška(wh_test_results)

0.4178438651467408

In [116]:
# Cut-Off = 1
cut_off(wh_test_results, 1)/len(wh_test_results)

0.9294990723562152

In [117]:
# Cut-Off = 0.5
cut_off(wh_test_results, 0.5)/len(wh_test_results)

0.6326530612244898

In [118]:
# Cut-Off = 0.25
cut_off(wh_test_results, 0.25)/len(wh_test_results)

0.6326530612244898

In [119]:
# Accuracy
cut_off(wh_test_results, 0)/len(wh_test_results)

0.525664811379097

Usporedba <b>naših</b> rezultata (i najboljih* iz članka):

MAD(mean absolute deviation): <b>0.42</b> (0.45) 
<br>Cut-Off (0.25): <b>63.3</b> (50.3) 
<br>Cut-Off (0.5): <b>63.3</b> (64.6)
<br>Cut-Off (1): <b>92.9</b> (86.8)
<br>
#### Zaključak

Krenimo s MAD vrijednosti. Kako je cilj da je MAD što manja vidimo da je naš model nešto bolji u odnosu na njihov. Gledajući Cut-Off=0.25 vidimo da je za tu vrijednost naš model dosta bolji. Možemo zamijetiti da je naš Cut-Off=0 ponovno bolji nego njihov Cut-Off=0.25 što smatramo da je pohvalno. Cut-Off=0.5 nam je podjednak, no ostvarili smo bolji rezultat i za Cut-Off=1.
<br>
Nadalje, vidimo da model koji nam je algoritam pronašao se sastoji od KNeighborsRegressora te RandomForestRegressora. Primijetimo da se KNeighborsRegressor ponovio. No, za razliku od prethodnog Stabla odluke, sada imamo algoritam Slučajnih šuma, koji dobro kontrolira problem over-fittinga.

*U članku su rađena tri modela: Linearna regresija, NN i SVM. Najbolji se odnosi na SVM. Njegove vrijednosti su u zagradama

### Zaključak o regresiji i daljnje mogućnosti poboljšanja

Vidimo da su za oba dataseta naši algoritmi bolji od algoritama iz navedenog članka. No, postavlja se pitanje možemo li vlastite algoritme poboljšati. Na primjer mogli bismo pomiješati crna i bijela vina ili modificirati ocjene, odnosno izlaznu varijablu. Prvi način bi mogao biti loš jer crna i bijela vina nemaju iste kemijsko-fizikana svojstva. No, što se tiče modificiranja kategorija ne vidimo razlog zašto ne bi funkcioniralo kada bismo ocjene rasporedili u nove kategorije: 1={1,2,3}, 2={4,5}, 3={6,7}, 4={8,9,10}. Na taj način zapravo dobivamo četiri klase vina: loša, lošije prema osrednjem, osrednje prema boljem i dobra.

In [133]:
# Inicijaliziramo nove varijable
red_y_train2 = red_y_train
red_y_test2 = red_y_test
wh_y_train2 = wh_y_train
wh_y_test2 = wh_y_test

In [134]:
# Funkcija za navedenu modifikaciju
def modifikacija(polje):
    for i in range(len(polje)):
        if polje[i] < 4:
            polje[i] = 1
        elif polje[i] < 6:
            polje[i] = 2
        elif polje[i] < 8:
            polje[i] = 3
        else: polje[i] = 4

In [135]:
# Priprema za klasifikaciju s četiri sadržajne kategorije
modifikacija(red_y_train2)
red_y_train2

array([2., 3., 3., ..., 3., 3., 2.])

In [152]:
# Priprema za klasifikaciju s četiri sadržajne kategorije
modifikacija(red_y_test2)
modifikacija(wh_y_train2)
modifikacija(wh_y_test2)

### Primijena klasifikatora

Sada kada smo pripremili podatke slijedi treniranje modela.
<br> Prvo ćemo pretraživati model za crna vina pomoću klasifikacije, zatim ćemo analogno prethodnom modeliranju prijeći na bijela:
<br><br>class tpot.<b>TPOTClassifier</b>(generations=100, population_size=100,
                          offspring_size=None,<br> mutation_rate=0.9,
                          crossover_rate=0.1,
                          scoring='accuracy', cv=5,
                          subsample=1.0,<br> n_jobs=1,
                          max_time_mins=None, max_eval_time_mins=5,
                          random_state=None,<br> config_dict=None,
                          warm_start=False,
                          memory=None,
                          <br>periodic_checkpoint_folder=None,
                          early_stop=None,
                          verbosity=0,
                          disable_update_check=False)

<br>
<br>
Neki od važnijih hiperparametara su:
<li>generations - broj generacija za genetsko učenje, odnosno broj iteracija</li>
<li>population_size - veličina populacije za genetsko učenje</li>
<li>scoring - funkcija greške, koristimo točnost</li>
<li>max_time_mins - vremensko ograničenje pretrage u minutama, ponovno ćemo staviti 30min</li>
<br>
Algoritam će pretražiti ukupno population_size + generations × offspring_size pipelinea.

#### Započinjemo s crnim vinom

In [139]:
# Inicijalizacija regresijskog objekta tpot
# Za scoring koristimo accuracy, population_size=100, cross-validation=5, verbosity - informiranost
# Poučeni prethodnom iskustvu stavljamo early_stop=3

tpot3 = TPOTClassifier(generations=20, max_time_mins=30, early_stop=3, verbosity=2)

# Pokretanje algoritma na crnom vinu
tpot3.fit(red_x_train, red_y_train2)

# Ispis scora na testnim podacima
print(tpot3.score(red_x_test, red_y_test2))

# Dobivamo konačni model u obliku koda
tpot3.export('red_Classification.py')


Optimization Progress: 100%|██████████| 200/200 [02:43<00:00,  1.07pipeline/s]

Generation 1 - Current best internal CV score: 0.7767810115110333


Optimization Progress: 100%|██████████| 300/300 [04:45<00:00,  1.04pipeline/s]

Generation 2 - Current best internal CV score: 0.7767810115110333


                                                                              

Generation 3 - Current best internal CV score: 0.7767810115110333

The optimized pipeline was not improved after evaluating 3 more generations. Will end the optimization process.

TPOT closed prematurely. Will use the current best pipeline.

Best pipeline: XGBClassifier(ExtraTreesClassifier(input_matrix, bootstrap=False, criterion=gini, max_features=0.4, min_samples_leaf=20, min_samples_split=19, n_estimators=100), learning_rate=0.1, max_depth=6, min_child_weight=4, n_estimators=100, nthread=1, subsample=0.45)
0.7765151515151515


  if diff:


True

In [145]:
# Računamo greške nad testnim podacima
red_test_results2 = tpot3.predict(red_x_test) - red_y_test2

# Ispisujemo rezultate
red_test_results2

  if diff:


array([-1.,  0.,  0.,  0.,  0.,  0.,  1.,  0.,  0.,  0.,  0.,  0.,  0.,
        0.,  0.,  0.,  1.,  0.,  0.,  0.,  1.,  1., -1.,  0.,  0.,  0.,
        0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  1.,
        0.,  0.,  1.,  1.,  0.,  0.,  0.,  0.,  1.,  0.,  0.,  0.,  0.,
        0.,  0.,  1.,  0., -1.,  0.,  0.,  0., -1., -1., -1.,  0.,  0.,
        0., -1.,  0.,  0.,  0.,  0.,  0.,  1.,  1.,  0.,  0.,  0.,  0.,
        0., -1.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,
        0.,  0., -1.,  0.,  0.,  0.,  0.,  0.,  0.,  0., -1.,  0.,  0.,
        0.,  0.,  1.,  0.,  0.,  0.,  1.,  1.,  0.,  0.,  0.,  0.,  0.,
        0.,  0.,  0., -1.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,
       -1.,  0.,  0.,  0.,  0.,  0.,  1.,  0.,  0.,  0.,  0., -1.,  0.,
        0.,  0.,  0.,  1., -1.,  0.,  1.,  1.,  0.,  0.,  0., -1.,  0.,
        0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  1.,  1.,  0.,  0.,  0.,
        0.,  1.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0

In [146]:
# Provjera točnosti
cut_off(red_test_results2, 0)/len(red_test_results2)

0.7765151515151515

#### Zaključak

Ovim modelom smo pokazali kako se isti problem može rješiti i kao problem klasifikacije. Model nam je kao podmodele dao XGBClassifier(gradient boosted trees) te ExtraTreesClassifier (randomized decision trees). ExtraTreesClassifier poboljšava prediktivnu točnost i kontrolu over-fittinga.
<br>
Nadalje, promatrali smo isključivo Cut-Off=0, jer ostali nemaju smisla zbog toga što smo modificirali ciljnu varijablu.
Dobili smo točnost od 77.7% što je puno bolje u odnosu na prethodni model crnog vina uz jednaki Cut-Off. Prisjetimo se točnost je bila 60.8%. No, treba biti oprezan jer je za prošli model i za Cut-Off=1 točnost bila 93.1%. Tako da ako uračunamo pomak kategorija za +-1, dolazi do toga da je prvi model i dalje bolji.

#### Prelazimo na bijelo vino

In [147]:
# Inicijalizacija regresijskog objekta tpot
# Za scoring koristimo accuracy, population_size=100, cross-validation=5, verbosity - informiranost
# Poučeni prethodnom iskustvu stavljamo early_stop=3

tpot4 = TPOTClassifier(generations=20, max_time_mins=30, early_stop=3, verbosity=2)

# Pokretanje algoritma na bijelom vinu
tpot4.fit(wh_x_train, wh_y_train2)

# Ispis scora na testnim podacima
print(tpot4.score(wh_x_test, wh_y_test2))

# Dobivamo konačni model u obliku koda
tpot4.export('wh_Classification.py')


Optimization Progress: 100%|██████████| 200/200 [08:21<00:00,  2.38s/pipeline]

Generation 1 - Current best internal CV score: 0.7854096355359671


Optimization Progress: 100%|██████████| 300/300 [14:31<00:00,  2.26s/pipeline]

Generation 2 - Current best internal CV score: 0.7854096355359671


Optimization Progress: 100%|██████████| 400/400 [23:43<00:00,  4.91s/pipeline]

Generation 3 - Current best internal CV score: 0.790314187505526


                                                                              


30.094372216666667 minutes have elapsed. TPOT will close down.
TPOT closed prematurely. Will use the current best pipeline.

Best pipeline: RandomForestClassifier(RobustScaler(input_matrix), bootstrap=False, criterion=entropy, max_features=0.35000000000000003, min_samples_leaf=3, min_samples_split=5, n_estimators=100)
0.7996289424860853


True

In [150]:
# Računamo greške nad testnim podacima
wh_test_results2 = tpot4.predict(wh_x_test) - wh_y_test2

# Ispisujemo rezultate
wh_test_results2

array([0., 0., 0., ..., 0., 0., 0.])

In [151]:
# Provjera točnosti
cut_off(wh_test_results2, 0)/len(wh_test_results2)

0.7996289424860853

#### Zaključak nakon klasifikacije "modificiranog" bijelog vina  

Ponovno smo rješavali problem klasifikacije, no ovaj puta sa bijelim vinom. Predloženi model se sastoji ponovno od RandomForestClassifiera i RobustScalera. Robusnost se odnosi na outliere. Podaci se normaliziraju pomoću prosjeka i interkvartila i to za svaku značajku nezavisno. Prosječna virjednost i interkvartil se spremaju kako bi se koristili i za predikciju.
<br>
Također, i ovaj put promatramo isključivo Cut-Off=0, odnosno točnost.
Dobili smo točnost od 80% što je puno bolje u odnosu na prethodni model bijelog vina. Tada smo dobili točnost od 52.57%. No, i dalje treba biti oprezan jer je za prošli model i za Cut-Off=1 točnost bila 92.9%. Tako da ako uračunamo pomak kategorija za +-1, moguće je prethodni model i ovaj puta bolji.
<br>
## Zaključak

Ovim radom naučili smo koristiti TPOT(https://epistasislab.github.io/tpot/) te smatramo da smo uspijeli dobiti bolje modele nego navedena skupina znanstvenika. Imamo također modele koji bi bili dobri za kategorizaciju vina u četiri kategorije: <li>crno: 77.65% točnost</li><li>bijelo: 79.96% točnost</li>.
<br>Za evaluaciju modela smo koristili Train & test metodu u omjeru 2:1. Kod svih pretraživanja se koristila 5-fold Cross-validacija i 30min kao vremensko ograničenje.Inače je moguće koristiti TPOT na samo odabranim algoritmima, no odlučili smo koristiti defaultni mod misleći kako je to dovoljno dobro za naš problem. Kao ponuđene modele dobivali smo razne varijacije Stabla odluke. Kao daljnju mogućnost napredka vidimo dulje vremensko pretraživanje modela te moguće kombiniranje podataka bijelog i crnog vina. Za kraj, nadamo se da je dovoljno jasno sve što smo radili te kako ovaj kod može poslužiti kao dobar tutorial.

## Reference

TPOT - https://epistasislab.github.io/tpot/, 
<br>Randal S. Olson, Ryan J. Urbanowicz, Peter C. Andrews, Nicole A. Lavender, La Creis Kidd, and Jason H. Moore (2016). <i>"Automating biomedical data science through tree-based pipeline optimization.", </i>https://link.springer.com/chapter/10.1007/978-3-319-31204-0_9 , Applications of Evolutionary Computation, pages 123-137.

Kaggle - <i>"Wine Quality - Modeling wine preferences by data mining from physicochemical properties.",</i>Daniel S. Panizzo, https://www.kaggle.com/danielpanizzo/wine-quality/version/1#

Sciencedirect - <i>"Modeling wine preferences by data mining from physicochemical properties",</i> 
Paulo Cortez, AntónioCerdeira, Fernando Almeida, Telmo Matos, José Reis, https://www.sciencedirect.com/science/article/pii/S0167923609001377