# **APRENDIZAGEM SUPERVISIONADA: CLASSIFICAÇÃO**

Objetivos: Desenvolver um algoritmo de Machine Learning para prever se determinado cliente será inadimplente ou não ao efetuar uma compra.

- Neste projeto serão utilizados 2 algoritmos, Arvores de Decisão e Gradient Boosting.
- Ambos serão treinados com Hiperparâmetros otimizados utilizando o método Grid Search.
- Ao final, será separado o melhor modelo para ser disponibilizado para a equipe de desenvolvimento.





# Pré Processamento

## Dados categóricos

Transformar dados categóricos em dados numéricos

In [1]:
# Importando as bibliotecas nescessárias
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import LabelEncoder

In [2]:
# Lendo o arquivo
df = pd.read_csv('/content/drive/MyDrive/trabalhos/python/lojas_informatica/dados/dados_tratados.csv', sep= ';', encoding= 'utf-8')

In [3]:
# Visualizando
df.head()

Unnamed: 0,cliente_sexo,cliente_idade,loja_cidade,produto_produto,produto_valor,promocao,pg
0,M,74,Palmas,laptop_básico,2300.0,0,1
1,F,52,Palmas,laptop_básico,2300.0,1,1
2,M,62,Salvador,cadeira,540.0,1,1
3,M,82,Belo_Horizonte,laptop_básico,2300.0,0,0
4,M,83,Palmas,mouse,20.0,0,1


In [4]:
df.shape

(3000, 7)

In [5]:
# Tipos dos dados
df.dtypes

Unnamed: 0,0
cliente_sexo,object
cliente_idade,int64
loja_cidade,object
produto_produto,object
produto_valor,float64
promocao,int64
pg,int64


**Definir as colunas previsoras**

In [6]:
# Definindo as colunas previsoras e armazenando em previsores
previsores = df.iloc[:, 0:6].values
previsores

array([['M', 74, 'Palmas', 'laptop_básico', 2300.0, 0],
       ['F', 52, 'Palmas', 'laptop_básico', 2300.0, 1],
       ['M', 62, 'Salvador', 'cadeira', 540.0, 1],
       ...,
       ['M', 38, 'Rio_de_Janeiro', 'laptop_gamer', 5300.0, 0],
       ['F', 57, 'Rio_de_Janeiro', 'mouse', 20.0, 0],
       ['F', 80, 'Rio_de_Janeiro', 'teclado', 30.0, 1]], dtype=object)

In [7]:
previsores[:,0] = LabelEncoder().fit_transform(previsores[:,0])
previsores[:,2] = LabelEncoder().fit_transform(previsores[:,2])
previsores[:,3] = LabelEncoder().fit_transform(previsores[:,3])

In [8]:
previsores

array([[1, 74, 3, 3, 2300.0, 0],
       [0, 52, 3, 3, 2300.0, 1],
       [1, 62, 6, 0, 540.0, 1],
       ...,
       [1, 38, 5, 4, 5300.0, 0],
       [0, 57, 5, 7, 20.0, 0],
       [0, 80, 5, 8, 30.0, 1]], dtype=object)

In [9]:
previsores.shape

(3000, 6)

**Definir a coluna alvo**

In [10]:
# Definindo a coluna alvo e armazenando em alvo
alvo = df.iloc[:, 6].values

In [11]:
alvo

array([1, 1, 1, ..., 0, 0, 0])

In [12]:
alvo.shape

(3000,)

## Padronização

In [13]:
# Importação da StandardScaler para padronizar os dados
from sklearn.preprocessing import StandardScaler

In [14]:
# Transformar o dataset previsores com relação a sua escala utilizando a padronização e armazelar o resultado na variável previsores2
previsores2 = StandardScaler().fit_transform(previsores)

In [15]:
# Visualizar previsores2 padronizado
previsores2

array([[ 0.99137057,  1.00058338, -0.67534966, -0.41402091,  0.5093186 ,
        -0.80520286],
       [-1.00870455, -0.10640507, -0.67534966, -0.41402091,  0.5093186 ,
         1.24192306],
       [ 0.99137057,  0.3967715 ,  0.54761753, -1.69802787, -0.83496431,
         1.24192306],
       ...,
       [ 0.99137057, -0.81085227,  0.1399618 ,  0.01398141,  2.80070992,
        -0.80520286],
       [-1.00870455,  0.14518321,  0.1399618 ,  1.29798837, -1.23213881,
        -0.80520286],
       [-1.00870455,  1.30248932,  0.1399618 ,  1.72599069, -1.22450084,
         1.24192306]])

In [16]:
# Transformar a variável previsores2 em um dataframe
previsoresDF = pd.DataFrame(previsores2)
previsoresDF

Unnamed: 0,0,1,2,3,4,5
0,0.991371,1.000583,-0.675350,-0.414021,0.509319,-0.805203
1,-1.008705,-0.106405,-0.675350,-0.414021,0.509319,1.241923
2,0.991371,0.396771,0.547618,-1.698028,-0.834964,1.241923
3,0.991371,1.403125,-1.898317,-0.414021,0.509319,-0.805203
4,0.991371,1.453442,-0.675350,1.297988,-1.232139,-0.805203
...,...,...,...,...,...,...
2995,-1.008705,-1.515299,-1.083005,-1.270026,-1.132845,-0.805203
2996,-1.008705,-1.213394,-1.490661,-0.414021,0.509319,-0.805203
2997,0.991371,-0.810852,0.139962,0.013981,2.800710,-0.805203
2998,-1.008705,0.145183,0.139962,1.297988,-1.232139,-0.805203


# Resumo do Pré Processamento

- previsores = Colunas previsoras com variáveis categóricas transformadas em numéricas
- previsores2 = Colunas previsoras com variáveis categóricas transformadas em numéricas e padronizadas
- alvo = Coluna alvo sem alteração



---



# Treino e Teste

In [17]:
# Importando a função train_test_split da biblioteca de ML sklearn
from sklearn.model_selection import train_test_split

In [18]:
# x_treino = dados das colunas previsoras separadas para treino (70%)
# x_test = dados das colunas previsoras separadas para teste(30%)
# y_treino = dados da coluna alvo separadas para treino (70%)
# y_teste = dados da coluna alvo separadas para teste (30%)

# test_size = 0.3 = 30% dos dados das colunas previsoras e alvo separado para teste, o restante 70% é separado para treino

x_treino, x_teste, y_treino, y_teste = train_test_split(previsores, alvo, test_size = 0.3, random_state = 0)

In [19]:
# Dados de previsores reservados para treino
x_treino.shape

(2100, 6)

In [20]:
# Dados de previsores reservados para teste
x_teste.shape

(900, 6)

In [21]:
# Dados de alvo reservados para treino
y_treino.shape

(2100,)

In [22]:
# Dados de alvo reservados para teste
y_teste.shape

(900,)

# Treinamento dos Algoritmos


**Resultados Finais dos Treinamentos**


**Arvores de Decisão**
- Acurácia de Teste = 81.11% - 730 acertos
- Acurácia de Treino = 80.38%
- Acurácia da Validação Cruzada = 80.27%
- Modelo: previsores
- arvoreGS = DecisionTreeClassifier(criterion='entropy', max_depth=4, min_samples_split=2)

**Gradient Boosting**
- Acurácia de Teste = 78% - 710 acertos
- Acurácia de Treino = 80.05%
- Acurácia da Validação Cruzada = 80.27%
- Modelo: previsores
- gb = GradientBoostingClassifier(learning_rate=0.05, max_depth=4, n_estimators=20)

---

## Arvores de Decisão

In [23]:
from sklearn.metrics import roc_auc_score
# Importando GridSearchCV de sklearn
from sklearn.model_selection import GridSearchCV
# Importando DecisionTreeClassifier da biblioteca de ML sklearn
from sklearn.tree import DecisionTreeClassifier

In [24]:
import warnings
# Ocultar warnings
warnings.filterwarnings("ignore")

In [25]:
# Criando o algoritmo
clf = DecisionTreeClassifier(random_state=0)

In [26]:
# Determinando as combinações do hiperparâmetro em um dicionário e armazenando em param_grid
param_grid = dict(
    max_depth=list(range(1, 30)),
    min_samples_split=list(range(2, 8)),
    criterion=['gini', 'entropy'])

In [27]:
# Mostrando o número de combinações total que foi definido anteriormente e armazenado em param_grid
print('Número total de combinações de Hiperparâmetros: ',
      len(param_grid['max_depth']) * len(param_grid['min_samples_split']) * len(param_grid['criterion']))

Número total de combinações de Hiperparâmetros:  348


In [28]:
# Configurando a procura com grid_seach
grid_search = GridSearchCV(estimator=clf, param_grid=param_grid, scoring='roc_auc', cv=6)

In [29]:
# Configurando os melhores hiperparâtros
grid_search.fit(x_treino, y_treino)

In [30]:
# Melhores hiperparâmetros
grid_search.best_params_

{'criterion': 'entropy', 'max_depth': 4, 'min_samples_split': 2}

**Treinamento dos algoritmos**

In [31]:
arvoreGS = DecisionTreeClassifier(criterion='entropy', max_depth=4, min_samples_split=2)
arvoreGS.fit(x_treino, y_treino)

**Avaliação do algoritmo (teste)**

In [32]:
# Fazendo o teste com os dados de teste (30% das colunas previsoras)
previsoes_arvore = arvoreGS.predict(x_teste)
# Visualizando o resultado do teste
previsoes_arvore

array([1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1,
       0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 0, 0, 0, 1, 1,
       0, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 0, 0, 1, 1, 1, 0, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1,
       1, 1, 1, 0, 1, 0, 1, 1, 1, 0, 1, 0, 1, 0, 0, 0, 1, 1, 1, 1, 0, 0,
       1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 0,
       0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1,
       0, 1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 0, 0, 1, 1,
       0, 1, 1, 1, 0, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1,
       1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1,
       1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 0,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1,
       1, 1, 1, 0, 1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 0,
       1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 0,

In [33]:
y_teste

array([1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0,
       1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 0, 1, 0, 1, 1,
       0, 1, 1, 0, 0, 1, 1, 0, 0, 1, 1, 0, 1, 0, 1, 1, 1, 0, 1, 0, 1, 1,
       1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1,
       1, 1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0,
       1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 0, 0,
       0, 0, 1, 1, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1,
       1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 1, 0,
       0, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 0, 1, 1,
       1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1,
       1, 1, 1, 0, 1, 0, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1,
       1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 0,

In [34]:
# Importar as funções accuracy_score, confusion_matrix, classification_report
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [35]:
# Visualizando os acertos do teste em % (acurácia)
accuracy_score(y_teste, previsoes_arvore)

0.8111111111111111

In [36]:
print ('Acurácia: %.2f%%' % (accuracy_score(y_teste, previsoes_arvore) * 100))

Acurácia: 81.11%


In [37]:
# Visualização da matriz de confusão dos dados de teste
confusion_matrix(y_teste, previsoes_arvore)

array([[168, 109],
       [ 61, 562]])

In [38]:
print(classification_report(y_teste, previsoes_arvore))

              precision    recall  f1-score   support

           0       0.73      0.61      0.66       277
           1       0.84      0.90      0.87       623

    accuracy                           0.81       900
   macro avg       0.79      0.75      0.77       900
weighted avg       0.81      0.81      0.81       900



**Análise dos dados de treino**

In [39]:
previsoes_treino = arvoreGS.predict(x_treino)
previsoes_treino

array([1, 1, 0, ..., 1, 1, 1])

In [40]:
y_treino

array([1, 1, 1, ..., 1, 1, 1])

In [41]:
# Visualizando os acertos do treino em % (acurácia)
accuracy_score(y_treino, previsoes_treino)

0.8038095238095239

In [42]:
print ('Acurácia: %.2f%%' % (accuracy_score(y_treino, previsoes_treino) * 100))

Acurácia: 80.38%


In [43]:
confusion_matrix(y_treino, previsoes_treino)

array([[ 410,  241],
       [ 171, 1278]])

In [44]:
print(classification_report(y_treino, previsoes_treino))

              precision    recall  f1-score   support

           0       0.71      0.63      0.67       651
           1       0.84      0.88      0.86      1449

    accuracy                           0.80      2100
   macro avg       0.77      0.76      0.76      2100
weighted avg       0.80      0.80      0.80      2100



**Validação cruzada**

- Técnica que mistura os dados de treino e teste para conferir se a separação de dados em treino e teste não foi ruim.

- Esta técnica muda os dados de treino e teste constantemente.

In [45]:
# Importar KFold e cross_val_score para validação cruzada
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

In [46]:
# Separando os dados em grupos para validação cruzada
kfold = KFold(n_splits =30, shuffle=True, random_state = 5)

In [47]:
# Criando o modelo de classificação com DecisionTreeClassifier
modelo = DecisionTreeClassifier(criterion='entropy', max_depth=4, min_samples_split=2)

# Avaliando o modelo com validação cruzada usando o k-fold
resultado = cross_val_score(modelo, previsores, alvo, cv=kfold)
resultado

array([0.81, 0.83, 0.8 , 0.87, 0.81, 0.81, 0.85, 0.75, 0.84, 0.84, 0.78,
       0.8 , 0.77, 0.83, 0.76, 0.8 , 0.74, 0.83, 0.82, 0.79, 0.83, 0.81,
       0.81, 0.79, 0.78, 0.79, 0.76, 0.77, 0.8 , 0.81])

In [48]:
# Usamos a média dos valores acima
print("Acurácia Média: %.2f%%" % (resultado.mean() * 100.0))

Acurácia Média: 80.27%


## Resultado

Acurácia de Teste =81.11% - 730 acertos

Acurácia de Treino = 80.38%

Acurácia da Validação Cruzada = 80.27%

Modelo: previsores

DecisionTreeClassifier(criterion='entropy', max_depth=4, min_samples_split=2)

---

## Gradient Boosting

**Definição dos Hiperparâmetros**

In [49]:
from sklearn.metrics import roc_auc_score
# Importando GridSearchCV de sklearn
from sklearn.model_selection import GridSearchCV
# Importando GradientBoostingClassifier de sklearn
from sklearn.ensemble import GradientBoostingClassifier

In [50]:
# Criando o algoritmo
gbm = GradientBoostingClassifier(random_state=0)

In [51]:
# Determinando as combinações do hiperparâmetro em um dicionário e armazenando em param_grid
# n_estimators é o número de estimadores
# learning_rate é a taxa de aprendizado
# max_depth é a profundidade da árvore

param_grid = dict (n_estimators = [20, 50, 100, 50],
                   learning_rate = [0.05, 0.1, 0.5],
                   max_depth = [1, 2, 3, 4, 5])

In [52]:
# Mostrando o número de combinações total que foi definido anteriormente e armazenado em param_grid
print('Número total de combinações de Hiperparâmetros: ',
      len(param_grid['n_estimators']) * len(param_grid['learning_rate']) * len(param_grid['max_depth']))

Número total de combinações de Hiperparâmetros:  60


In [53]:
# Configurando a procura com grid_seach
grid_search = GridSearchCV(estimator=gbm, param_grid=param_grid, scoring='roc_auc', cv=5, n_jobs=-1)

In [54]:
# Configurando os melhores hiperparâtros
grid_search.fit(x_treino, y_treino)

In [55]:
# Melhores hiperparâmetros
grid_search.best_params_

{'learning_rate': 0.05, 'max_depth': 4, 'n_estimators': 20}

**Treinamento do algoritmo**

In [56]:
gb = GradientBoostingClassifier(learning_rate=0.05, max_depth=4, n_estimators=20)
gb.fit(x_treino, y_treino)

**Avaliação do algoritmo (teste)**

In [57]:
# Fazendo o teste com os dados de teste
previsoes_gb = gb.predict(x_teste)

In [58]:
# Visualizando o resultado do teste
previsoes_gb

array([1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1,
       0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 0, 0, 1, 1, 1,
       1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 0, 0, 1, 1, 1, 0, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1,
       1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 0, 1, 0, 0, 0, 1, 1, 1, 1, 0, 0,
       1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1,
       0, 1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 0, 0, 1, 1,
       0, 1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1,
       1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1,
       1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 0,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1,
       1, 1, 1, 0, 1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0,
       1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1,

In [59]:
y_teste

array([1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0,
       1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 0, 1, 0, 1, 1,
       0, 1, 1, 0, 0, 1, 1, 0, 0, 1, 1, 0, 1, 0, 1, 1, 1, 0, 1, 0, 1, 1,
       1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1,
       1, 1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0,
       1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 0, 0,
       0, 0, 1, 1, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1,
       1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 1, 0,
       0, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 0, 1, 1,
       1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1,
       1, 1, 1, 0, 1, 0, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1,
       1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 0,

In [60]:
# Importar métricas de avaliação de modelos
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [61]:
# Visualizando os acertos do teste em % (acurácia)
accuracy_score(y_teste, previsoes_gb)

0.7888888888888889

In [62]:
print ('Acurácia: %.2f%%' % (accuracy_score(y_teste, previsoes_gb) * 100))

Acurácia: 78.89%


In [63]:
# Visualização da matriz de confusão dos dados de teste
confusion_matrix(y_teste, previsoes_gb)

array([[143, 134],
       [ 56, 567]])

In [64]:
print(classification_report(y_teste, previsoes_gb))

              precision    recall  f1-score   support

           0       0.72      0.52      0.60       277
           1       0.81      0.91      0.86       623

    accuracy                           0.79       900
   macro avg       0.76      0.71      0.73       900
weighted avg       0.78      0.79      0.78       900



**Análise dos dados de treino**

In [65]:
previsoes_treino = gb.predict(x_treino)
previsoes_treino

array([1, 1, 0, ..., 1, 1, 1])

In [66]:
y_treino

array([1, 1, 1, ..., 1, 1, 1])

In [67]:
# Visualizando os acertos do treino em % (acurácia)
accuracy_score(y_treino, previsoes_treino)

0.8004761904761905

In [68]:
print ('Acurácia: %.2f%%' % (accuracy_score(y_treino, previsoes_treino) * 100))

Acurácia: 80.05%


In [69]:
confusion_matrix(y_treino, previsoes_treino)

array([[ 368,  283],
       [ 136, 1313]])

In [70]:
print(classification_report(y_treino, previsoes_treino))

              precision    recall  f1-score   support

           0       0.73      0.57      0.64       651
           1       0.82      0.91      0.86      1449

    accuracy                           0.80      2100
   macro avg       0.78      0.74      0.75      2100
weighted avg       0.79      0.80      0.79      2100



**Validação cruzada**

- Técnica que mistura os dados de treino e teste para conferir se a separação de dados em treino e teste não foi ruim.

- Esta técnica muda os dados de treino e teste constantemente.

In [71]:
# Importar KFold e cross_val_score para validação cruzada
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

In [72]:
# Separando os dados em grupos para validação cruzada
kfold = KFold(n_splits =30, shuffle=True, random_state = 5)

In [73]:
# Criando o modelo de classificação com Gradient Boosting
modelo = GradientBoostingClassifier(learning_rate=0.05, max_depth=4, n_estimators=20)

# Avaliando o modelo com validação cruzada usando o k-fold
resultado = cross_val_score(modelo, previsores, alvo, cv=kfold)
resultado

array([0.81, 0.84, 0.81, 0.88, 0.82, 0.8 , 0.85, 0.75, 0.84, 0.85, 0.77,
       0.79, 0.78, 0.85, 0.76, 0.8 , 0.74, 0.83, 0.81, 0.79, 0.83, 0.81,
       0.8 , 0.78, 0.78, 0.78, 0.77, 0.75, 0.8 , 0.81])

In [74]:
# Usamos a média dos valores acima
print("Acurácia Média: %.2f%%" % (resultado.mean() * 100.0))

Acurácia Média: 80.27%


## Resultado

Acurácia de Teste = 78% - 710 acertos

Acurácia de Treino = 80.05%

Acurácia da Validação Cruzada = 80.27%

Modelo: previsores

GradientBoostingClassifier(learning_rate=0.05, max_depth=4, n_estimators=20)

---

# Salvando os Dados do Modelo para Deploy

- Arvores de Decisão foi o algoritmo com melhor desempenho utilizando previsores e alvo.

- previsores e alvo devem ser salvos e passados para a equipe de desenvolvimento.

In [75]:
# Salvando previsores como csv
np.savetxt('previsores.csv', previsores, delimiter=',')

In [76]:
# Salvando alvo como csv
np.savetxt('alvo.csv', alvo, delimiter=',')

- Passar para o desenvolvimento também o classificador abaixo.

In [77]:
# Substituir (x_treino,y_treino) por (previsores,alvo)

from sklearn.tree import DecisionTreeClassifier

arvoreGS = DecisionTreeClassifier(criterion='entropy', max_depth=4, min_samples_split=2)
arvoreGS.fit(previsores,alvo)