<a href="https://colab.research.google.com/github/mabittar/Portfolio/blob/master/ML10_XGBoost.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#XGBoost

## Introdução

Criado em 1999 por TIANQI CHEN a técnica é utilizada em modelos preditivos com dados regulares.

Pertencente a categória de árvores de decisão, sendo capaz de combinar resultados de diversos classificadores "fracos" (baixa correlação) mediante um comitê de decisão.

O nome XGBoost vem de e**X**treme **G**radient **Boost**ing!

<p align=center><img src="http://sigmoidal.ai/wp-content/uploads/2019/08/boosted_stumps.gif" width="30%"></p>

O XGBoost trabalha a partir de árvores individuais criadas utilizando múltpiplos cores e os dados são organizados de forma a minimizar o tempo de consulta entre os ramos.



### Aspectos Principais

 - **Gradient Boosting:** considera a taxa de aprendizado do algorítimo
 - **Stochastic Gradient Boosting:** subamostragem por linhas e colunas e colunas por nível de decisão.
 - **Regularized Gradient Boosting: ** utiliza ambas regularizações L1 e L2.

### Aspectos do sistema:

 - **Paralelismo:** Utiliza todos os cores do sistema para executar cálulos.
 - **Computação Distribuída:** Otimizado para trabalhar em múltiplos hardware (clusters).
 - **Out-of-Core Computing:** Permite trabalhar com datasets que não cabem na memória.
 - ** Otimização de Cache:** de dados e algorítmos que permite uma utilização mais eficiente do hardware

### Aspectos do Algorítmo

 - **Dados Esparços (Sparce Aware):** implementado para trabalhar automaticamente com dados ausentes.
 - **Estruturas em bloco:** suporta a construção paralela de bloco de árvores.
 - **Treinamento Contínuo:** para que seja possível impulsionar ainda mais um modelo já treinado com novos dados.

## Implementando

In [None]:
#importando bibliotecas necessárias
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

In [None]:
#importando os dados
df = pd.read_csv("http://dl.dropboxusercontent.com/s/6d91j46mkcdj4qv/heart-disease-clean.csv?dl=0")

#verificando o formato do dataset
print(df.shape)

(303, 14)


In [None]:
df.head()

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,num
0,63.0,1.0,1.0,145.0,233.0,1.0,2.0,150.0,0.0,2.3,3.0,0.0,6.0,0
1,67.0,1.0,4.0,160.0,286.0,0.0,2.0,108.0,1.0,1.5,2.0,3.0,3.0,1
2,67.0,1.0,4.0,120.0,229.0,0.0,2.0,129.0,1.0,2.6,2.0,2.0,7.0,1
3,37.0,1.0,3.0,130.0,250.0,0.0,0.0,187.0,0.0,3.5,3.0,0.0,3.0,0
4,41.0,0.0,2.0,130.0,204.0,0.0,2.0,172.0,0.0,1.4,1.0,0.0,3.0,0


Os próximos passos são dividir o dataset em treino e teste e executar o modelo em questão.

Serão utilizados apenas os parâmetros genéricos, que combinam com o dataset em questão.

In [None]:
#1. escolher e importar o modelo
from xgboost import XGBClassifier

#2. instanciar o modelo e definir a parametrização
model = XGBClassifier(
    learning_rate=0.05,
    n_estimator=100,
    max_depth=4,
    subsample=0.9,
    colsample_bytree=0.01,
    gamma=1,
    random_state=42
    )

#3. Separar os dados entre variáveis e alvo
X = df.drop('num', axis=1)
y = df['num']

#3.1 dividir o dataset entre treino e teste
X_train, X_test, y_train, y_test = train_test_split(X,y, random_state=42)

#4. Fit do modelo
model.fit(X_train, y_train)

#5. Fazer previsões em cima do modelo gerado
y_pred_xgb = model.predict(X_test)


Verificando a eficácia do modelo

In [None]:
print('Acurácia:')
print(accuracy_score(y_test, y_pred_xgb))

Acurácia:
0.8026315789473685
