# **XGBOOST**

### **Abrindo os arquivos criados no Pre-Processamento**

In [1]:
# Importando a Biblioteca
import pickle

In [2]:
alvo           = pickle.load(open('heart.pkl',  'rb'))
previsores     = pickle.load(open('heart2.pkl', 'rb'))
previsores_esc = pickle.load(open('heart3.pkl', 'rb'))
previsores2    = pickle.load(open('heart4.pkl', 'rb'))
previsores3    = pickle.load(open('heart5.pkl', 'rb'))
previsores3_esc= pickle.load(open('heart6.pkl', 'rb'))

# RESUMO DO PRE-PROCESSAMENTO

**<font color='green'> alvo </font>** = variável que se pretende atingir (tem ou não doença cardíaca).

**<font color='green'> Previsores </font>** = conjunto de variáveis previsoras com as variáveis categóricas transformadas em numéricas manualmente, sem escalonar.

**<font color='green'> Previsores_esc </font>** = conjunto de variáveis previsoras com as variáveis categóricas transformadas em numéricas, escalonada.

**<font color='green'> Previsores2 </font>** = conjunto de variáveis previsoras com as variáveis categóricas transformadas em numéricas pelo labelencoder.

**<font color='green'> Previsores3 </font>** = conjunto de variáveis previsoras transformadas pelo labelencoder e onehotencoder, sem escalonar.

**<font color='green'> Previsores3_esc </font>** = conjunto de variáveis previsoras transformadas pelo labelencoder e onehotencoder escalonada.

## **BASE DE TREINO E TESTE**

In [3]:
# Importando a biblioteca
from sklearn.model_selection import train_test_split

**Parâmetros train_test_split:**   
- **arrays:** nomes dos atributos previsores e alvo.   
- **test_size:** tamanho em porcentagem dos dados de teste. default é none.   
- **train_size:** tamanho em porcentagem dos dados de treinamento.default é none.  
- **random_state:** nomeação de um estado aleatório.   
- **shuffle:** embaralhamento dos dados aleatórios. Associado com o random_state ocorre o mesmo embaralhamento sempre. Default é True.  
- **stratify:** Possibilidade de dividir os dados de forma estratificada. Default é None (nesse caso é mantido a proporção, isto é, se tem 30% de zeros e 70% de 1 no dataframe, na separação em treinamento e teste se manterá essa proporção).

In [4]:
# Separando teste e treino
x_treino, x_test, y_treino, y_test = train_test_split(previsores, alvo, test_size = 0.3, random_state=0)

In [5]:
# Shape de x
x_treino.shape, x_test.shape

((641, 11), (276, 11))

In [6]:
# Shape de y
y_treino.shape, y_test.shape

((641,), (276,))

# **XGBOOST**

Biblioteca: https://xgboost.readthedocs.io/en/stable/

In [7]:
# Import da biblioteca
from xgboost import XGBClassifier

In [8]:
xg = XGBClassifier(max_depth=2, learning_rate=0.05, n_estimators=250, objective='binary:logistic', random_state=3)
xg.fit(x_treino, y_treino)

In [9]:
# Criando a variavel previsoes
previsoes_xg = xg.predict(x_test)
previsoes_xg[:100]

array([1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1,
       1, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1,
       1, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 1, 1, 0, 1, 1,
       1, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1,
       1, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0])

In [10]:
# Import da biblioteca de acuracia e matrix de confusao
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [11]:
print(f"Acuracia de Teste: {accuracy_score(y_test, previsoes_xg)*100:.2f}%")

Acuracia de Teste: 87.68%


In [12]:
# Matrix de confusao
confusion_matrix(y_test, previsoes_xg)

array([[104,  17],
       [ 17, 138]], dtype=int64)

In [13]:
# Resultado
print(classification_report(y_test, previsoes_xg))

              precision    recall  f1-score   support

           0       0.86      0.86      0.86       121
           1       0.89      0.89      0.89       155

    accuracy                           0.88       276
   macro avg       0.87      0.87      0.87       276
weighted avg       0.88      0.88      0.88       276



#### **Analise com dados de treino**

In [14]:
# Variavel treino
previsoes_treino = xg.predict(x_treino)
previsoes_treino[:100]

array([1, 0, 1, 1, 1, 1, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0, 0, 1, 0, 1,
       1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0,
       1, 1, 0, 1, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 1,
       0, 0, 1, 0, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1,
       1, 1, 0, 1, 0, 0, 1, 1, 1, 1, 1, 1])

In [15]:
# Acuracia 
print(f'Acuracia de Treino: {accuracy_score(y_treino, previsoes_treino)*100:.2f}%')

Acuracia de Treino: 91.58%


In [16]:
# Matrix de confusao
confusion_matrix(y_treino, previsoes_treino)

array([[254,  35],
       [ 19, 333]], dtype=int64)

### Validacao Cruzada

In [17]:
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

In [18]:
# Separando os dados em Folds
kfold = KFold(n_splits=30, shuffle=True, random_state=5)

In [19]:
# Criando o Modelo
modelo = XGBClassifier(max_depth=2, learning_rate=0.05, n_estimators=250, objective='binary:logistic', random_state=3)
resultado = cross_val_score(modelo, previsores, alvo, cv=kfold)

# Utilizando a Media e o desvio padrao
print(f"Acuracia Media: {resultado.mean()*100:.2f}%")

Acuracia Media: 87.13%
