<a href="https://colab.research.google.com/github/guilhermeaugusto9/sigmoidal/blob/master/05_7_XGBoost.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img alt="Colaboratory logo" width="15%" src="https://raw.githubusercontent.com/carlosfab/escola-data-science/master/img/novo_logo_bg_claro.png">

#### **Data Science na Prática 2.0**
*by [sigmoidal.ai](https://sigmoidal.ai)*

---

# XGBoost

O nome XGBoost vem de e**X**treme **G**radient **Boost**ing e é pertencente à classe das árvores de decisão. Este algoritmo vem se destacado nas competições do Kaggle, sendo considerado como melhor opção para diversos tipos de problema.

<p align=center><img src="http://sigmoidal.ai/wp-content/uploads/2019/08/boosted_stumps.gif" width="30%"></p>

O potencial do XGBoost é devido à técnica de *Gradient Boosting*, capaz de combinar resultados de diversos classificadores "fracos" (tipicamente árvores de decisão) que são combinados mediante um *comitê forte de decisão*.

A única diferença de tudo que fizemos até agora é que o XGBoost precisa usar um biblioteca diferente da `sklearn`. Para usar o poder deste algoritmo, temos que usar o `xgboost` - que já vem instalado no Google Colab.

<p align=center><img src="http://sigmoidal.ai/wp-content/uploads/2019/08/gradient_boosting_by_hand-2-768x737.png" width="30%"></p>



## Implementando o XGBoost

In [None]:
# importar os pacotes necessários
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# importar o arquivo
df = pd.read_csv("http://dl.dropboxusercontent.com/s/6d91j46mkcdj4qv/heart-disease-clean.csv?dl=0")

# ver as primeiras entradas
print("Tamanho de df: {}\n".format(df.shape))

df.head()

Tamanho de df: (303, 14)



Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,num
0,63.0,1.0,1.0,145.0,233.0,1.0,2.0,150.0,0.0,2.3,3.0,0.0,6.0,0
1,67.0,1.0,4.0,160.0,286.0,0.0,2.0,108.0,1.0,1.5,2.0,3.0,3.0,1
2,67.0,1.0,4.0,120.0,229.0,0.0,2.0,129.0,1.0,2.6,2.0,2.0,7.0,1
3,37.0,1.0,3.0,130.0,250.0,0.0,0.0,187.0,0.0,3.5,3.0,0.0,3.0,0
4,41.0,0.0,2.0,130.0,204.0,0.0,2.0,172.0,0.0,1.4,1.0,0.0,3.0,0


Aqui se divide normalmente o *dataset* entre treino e teste.

Vale a ressalva que o XGBoost tem uma quantidade grande de parâmetros. Busquei colocar os valores genéricos bons, que se adequam bem a um problema genérico.

In [None]:
# 1. escolher e importar um modelo
from xgboost import XGBClassifier

# 2. Instanciar e escolher os hyperparameters
model = XGBClassifier(
    learning_rate=0.05,
    n_estimators=100,
    max_depth=4,
    subsample = 0.9,
    colsample_bytree = 0.1,
    gamma=1,
    random_state=42
    )

# 3. Separar os dados entre feature matrix e target vector 
X = df.drop('num', axis=1)
y = df['num']

# 3.1 Dividir o dataset entre treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y)

# 4. Fit do modelo (treinar)
model.fit(X_train, y_train)

# 5. Fazer previsões em cima de novos dados
y_pred = model.predict(X_test)

Da mesma maneira, vamos verificar a sua acurácia.

In [None]:
# ver performance do algoritmo
print("\nAccuracy Score:")
print (accuracy_score(y_test, y_pred))


Accuracy Score:
0.8157894736842105
