In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris, load_breast_cancer, make_circles
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, confusion_matrix

from sklearn.model_selection import train_test_split, GridSearchCV

import matplotlib.pyplot as plt
import numpy as np

import xgboost

# Metoda eXtreme Gradient Boosting (XGBoost)

Obok sieci neuronowych lider w konkursach keggla [keggle.com](keggle.com). W odróżnieniu od sieci neuronowych najlepiej sprawdza się w przypadku danych strukturalnych (zebranych w tabelach).
 
Za dokumentacją SPSS:   XGBoost Tree to zaawansowana implementacja algorytmu wzmacniania gradientowego (boosting), Modelem bazowym dla Gradient Boostingu jest  drzewo decyzyjne. W kolejnych iteracjach algorytmu tworzone są drzewa, 
dopasowujące sie do błędu resztkowego popełnionego przez poprzedni predyktor. Ostateczny wynik jest sumą modeli składowych. Dodatkowo warto zauważyć, że każde kolejne drzewo podobnie jak w metodzie lasów losowych budowane jest w oparciu o wylosowany podzbiór zmiennych i obserwacji.

W tej metodzie drzewa klasyfikacyjne łączymy **szeregowo**



![alt text](https://luckytoilet.files.wordpress.com/2018/01/11.png?w=984)

# Idea  gradient boostingu
## Kroki algorytmu
1. Ustal liczbę modeli bazowych $M$
2. Przyjmij równe początkowe wagi dla obserwacji ze zbioru uczącego $U$
3. Dla $m = 1, \dots , M$ wykonaj następujące kroki:
    
    a) Stwórz model bazowy
    
    b) Oblicz **residua** (czyli wartość rzeczywista minus wartość przewidziana przez model)
    $$ e_1= \hat{y} - y_{predicted1}$$
    
    c) Wytrenuj nowy model z otrzymanymi  residuami jako y_train. Oblicz $e_{predicted1}$
    
    d) Dodaj residua przewidziane przez nowy model do wyniku poprzedniego modelu
    
    $$ y_{predicted2}=  y_{predicted1}+ e_{predicted1}$$
    
    e) Oblicz nowe residua i wytrenuj kolejny model .....
    

### Ciekawoskta:
Pierwotnie powstała idea boostingu. Dopiero później pokazano, że takie podejście jest równoznaczne z minimalizacją gradientu pewnej funkcji kosztu. W przypadku regresji można zauważyć, że poszukiwanie modelu o zerowych residuach, zdefiniowanych jako:
$$r =  \sum (\hat{y}-y_{predicted})$$

jest równoznaczne z poszukiawniem minimum funkcji:
$$ \mathcal{L} = \sum (\hat{y}-y_{predicted})^2$$

$$\frac{d\mathcal{L} }{d y_{predicted}}  = - 2 \sum (\hat{y}-y_{predicted}) $$


## Wróćmy do irysów...

# EXtreme Gradient Boosting method (XGBoost)

Next to neural networks, the XGBoost metis hod the leader in keggla competitions [keggle.com](keggle.com). Unlike neural networks, it works best for structured data (collected in tables).
  
Behind the SPSS documentation: XGBoost Tree is an advanced implementation of the boosting algorithm. The base model for Gradient Boosting is the decision tree. In subsequent iterations of the algorithm, trees are created,
matching the residual error made by the previous predictor. The final result is the sum of the component. In addition, it is worth noting that each subsequent tree, similarly to the random forest method, is built based on a random subset of variables and observations.

In this method, we classify trees **in series**



! [alt text] (https://luckytoilet.files.wordpress.com/2018/01/11.png?w=984)

# Idea of gradient boosting
## Algorithm steps
1. Determine the number of $M$ base models
2. Take equal initial weights for observations from the $U$ learning set
3. For $m = 1, \dots , M$, follow these steps:
    
    a) Create a base model
    
    b) Calculate **residua** (i.e. actual value minus the value predicted by the model)
    $$ e_1= \hat{y} - y_{predicted1}$$
    
    c) Train a new model with the residues obtained as y_train. Calculate $e_{predicted1}$
    
    d) Add the residues provided by the new model to the result of the previous model
    
    $$ y_{predicted2}=  y_{predicted1}+ e_{predicted1}$$
    
    e) Calculate new residues and train another model .....
    

### Mathematical property:

The idea of  boosting preceded the mathematical description of this method. It was  later shown that boosting approach minimize the gradient of a certain cost function. In the case of regression, it can be seen that the search for a model with zero residues, defined as:
$$r =  \sum (\hat{y}-y_{predicted})$$

is the same as searching mini the minimum of the function:
$$ \mathcal{L} = \sum (\hat{y}-y_{predicted})^2$$

$$\frac{d\mathcal{L} }{d y_{predicted}}  = - 2 \sum (\hat{y}-y_{predicted}) $$


## Let's go back to irises ...

In [None]:
iris = load_iris()
X, y = iris.data, iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1)


In [None]:
clf = xgboost.XGBClassifier()

In [None]:
clf.fit(X_train, y_train)

In [None]:
clf.score(X_test, y_test)

In [None]:
parameters = {'nthread':[4], 
              'learning_rate': [0.01,0.05, 0.1], 
              'max_depth': [3,6, 10], 
              'n_estimators': [3, 10, 50, 100, 200]
              }

model = xgboost.XGBClassifier()

In [None]:
clf_grid = GridSearchCV(model, parameters)

In [None]:
import warnings
warnings.filterwarnings(action='ignore', category=DeprecationWarning)
clf_grid.fit(X_train, y_train)

In [None]:
print ("The best accuracy on training set  {}".format(clf_grid.best_score_))
print ("The best parameters: {}".format(clf_grid.best_params_))
print ("The model accuracy on test set  {}".format(clf_grid.best_estimator_.score(X_test, y_test)))

## Zadanie

Zobacz jaką dokładność modelu jesteś w stanie otrzymać dla danych `breast_cancer`


## Task

Check what model accuracy you can get for `breast_cancer` data