In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris, load_breast_cancer, make_circles
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, confusion_matrix

from sklearn.model_selection import train_test_split, GridSearchCV

import matplotlib.pyplot as plt
import numpy as np

import xgboost

# Metoda eXtreme Gradient Boosting (XGBoost)

Obok sieci neuronowych lider w konkursach keggla [keggle.com](keggle.com). W odróżnieniu od sieci neuronowych najlepiej sprawdza się w przypadku danych strukturalnych (zebranych w tabelach).
 
Za dokumentacją SPSS:   XGBoost Tree to zaawansowana implementacja algorytmu wzmacniania gradientowego (boosting), który jako model bazowy wykorzystuje model drzewa decyzyjnego. Algorytmy wzmacniania iteracyjnie ucząc się, wyznaczają słabe klasyfikatory i dodają je do ostatecznego silnego klasyfikatora. Dodatkowo, każde kolejne drzewo podobnie jak w metodzie lasów losowych budowane jest w oparciu o wylosowany podzbiór zmiennych i obserwacji.

W tej metodzie drzewa klasyfikacyjne łączymy **szeregowo**

W metodzie tej tworzymy wiele, **zróżnicowanych** drzew klasyfikacyjnych, których dokładność musi przekraczać 50%, jednak nie może być też zbyt duża, aby modele były rzeczywiście zróżnicowane.  
2. Każdy z tych modeli budujemy jedynie na **`n` wybranych zmiennych**.
3. Drzewa te połączone są ze sobą **równolegle**
4. Ostateczna klasyfikacja dokonywana jest na drodze głosowania przez poszczególne modele.

![alt text](https://luckytoilet.files.wordpress.com/2018/01/11.png?w=984)

# Idea  gradient boostingu
## Kroki algorytmu
1. Ustal liczbę modeli bazowych $M$
2. Przyjmij równe początkowe wagi dla obserwacji ze zbioru uczącego $U$
3. Dla $m = 1, \dots , M$ wykonaj następujące kroki:
    
    a) Stwórz model bazowy
    
    b) Oblicz **residua** (czyli wartość rzeczywista minus wartość przewidziana przez model)
    $$ e_1= \hat{y} - y_{predicted1}$$
    
    c) Wytrenuj nowy model z otrzymanymi  residuami jako y_train. Oblicz $e_{predicted1}$
    
    d) Dodaj residua przewidziane przez nowy model do wyniku poprzedniego modelu
    
    $$ y_{predicted2}=  y_{predicted1}+ e_{predicted1}$$
    
    e) Oblicz nowe residua i wytrenuj kolejny model .....
    

### Ciekawoskta:
Pierwotnie powstała idea boostingu. Dopiero później pokazano, że takie podejście jest równoznaczne z minimalizacją gradientu pewnej funkcji kosztu. W przypadku regresji można zauważyć, że poszukiwanie modelu o zerowych residuach, zdefiniowanych jako:
$$r =  \sum (\hat{y}-y_{predicted})$$

jest równoznaczne z poszukiawniem minimum funkcji:
$$ \mathcal{L} = \sum (\hat{y}-y_{predicted})^2$$

$$\frac{d\mathcal{L} }{d y_{predicted}}  = - 2 \sum (\hat{y}-y_{predicted}) $$


## Wróćmy do irysów...

In [None]:
iris = load_iris()
X, y = iris.data, iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1)


In [None]:
clf = xgboost.XGBClassifier()

In [None]:
clf.fit(X_train, y_train)

In [None]:
clf.score(X_test, y_test)

In [None]:
parameters = {'nthread':[4], 
              'learning_rate': [0.01,0.05, 0.1], 
              'max_depth': [3,6, 10], 
              'n_estimators': [3, 10, 50, 100, 200]
              }

model = xgboost.XGBClassifier()

In [None]:
clf_grid = GridSearchCV(model, parameters)

In [None]:
import warnings
warnings.filterwarnings(action='ignore', category=DeprecationWarning)
clf_grid.fit(X_train, y_train)

In [None]:
print ("Najlepsza dokładność na zbiorze treningowym {}".format(clf_grid.best_score_))
print ("Dobrane parametry: {}".format(clf_grid.best_params_))
print ("Dokładność na zbiorze testowym {}".format(clf_grid.best_estimator_.score(X_test, y_test)))

## Zadanie

Zobacz jaką dokładność modelu jesteś w stanie otrzymać dla danych `breast_cancer`
