<a href="https://colab.research.google.com/github/lopes-andre/brains/blob/main/Pratica_Arvores_Decisao.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<h1><center>BRAINS - Brazilian AI Networks üß†</center></h1>

<center><i>BRAINS - Brazilian AI Networks - √© uma comunidade de estudantes brasileiros que tem como objetivo trazer conte√∫do de qualidade sobre AI, Machine Learning e Dados para o Brasil, em Portugu√™s.</i> üáßüá∑</center>

<h1><center>Pr√°tica: √Årvores de Decis√£o</center></h1>

## Introdu√ß√£o

Iremos agora, neste notebook, abordar de forma pr√°tica a constru√ß√£o de modelos de **√Årvores de Decis√£o** (ou *Decision Trees*), para um problema de Classifica√ß√£o Bin√°ria.

J√° conversamos sobre a teoria dos Modelos de Classifica√ß√£o e tamb√©m das √Årvores de Decis√£o nos seguintes posts.

- [√Årvores de Decis√£o: Algoritmos Baseados em √Årvores](https://brains.dev/2023/arvores-de-decisao-algoritmos-baseados-em-arvores/)


- [Medidas de Performance: Modelos de Classifica√ß√£o](https://brains.dev/2023/medidas-de-performance-modelos-de-classificacao/)


Se voc√™ ainda n√£o leu estes dois posts, a leitura √© recomendada. Mas se voc√™ j√° leu, ou domina os temas, bora programar!

## Objetivos

Para minimizar as perdas de um banco fict√≠cio, precisamos desenvolver um processo de tomada de decis√£o sobre para quem o banco deve aprovar empr√©stimos e para quem n√£o. Os perfis demogr√°fico e socioecon√¥mico do cliente s√£o considerados pelos fict√≠cios gerentes de empr√©stimos antes da tomada de decis√£o sobre o pedido de empr√©stimo.

Com base na base de dados de clientes que pegaram empr√©stimos no banco fict√≠cio, temos classificados os clientes inadimplentes e os clientes e quitaram as suas d√≠vidas.

Nosso objetivo √© construir um Modelo de Machine Learning que ir√° prever se um cliente que aplica para um empr√©stimo pode ser ou n√£o um cliente inadimplente.

## Descri√ß√£o dos Dados

Nossa base de dados √© um dataset p√∫blico, disponibilizado pelo *Center for Machine Learning and Intelligent Systems*  da Universidade da Calif√≥rnia, UCI. 

Link do dataset: https://archive.ics.uci.edu/ml/datasets/statlog+(german+credit+data)

> ***Nota:*** *Trata-se de um dataset de um banco da Alemanha, doado para uso p√∫blico em 1994. Toda a base de dados original est√° em Ingl√™s. Foi feita uma tradu√ß√£o livre e pequenas manipula√ß√µes de dados para fins did√°ticos.*

A base de dados √© composta pelas seguintes colunas.

- **saldo_corrente:** saldo na conta corrente (categ√≥rica).

- **duracao_emp_meses:** dura√ß√£o do empr√©stimo, em meses (num√©rica).

- **historico_credito:** hist√≥rico de cr√©dito (categ√≥rica).

- **motivo:** motivo para pedido de empr√©stimo (categ√≥rica).

- **quantia:** valor do empr√©stimo pedido (num√©rica).

- **saldo_poupanca:** saldo na conta poupan√ßa (categ√≥rica).

- **tempo_empregado:** tempo no emprego atual (categ√≥rica).

- **porcentagem_renda:** porcentagem da renda comprometida pela parcela do empr√©stimo (num√©rica).

- **anos_residencia:** tempo de moradia na resid√™ncia atual, em anos (num√©rica).

- **idade:** idade do cliente, em anos (num√©rica).

- **outro_credito:** se o cliente possui empr√©stimos em outros estabelecimentos (categ√≥rica).

- **residencia:** se mora em resid√™ncia pr√≥pria ou alugada (categ√≥rica).

- **qtd_emprestimos_existentes:** quantidade de empr√©stimos existentes neste banco (num√©rica).

- **emprego:** categoria de emprego (categ√≥rica).

- **dependentes:** quantidade de dependentes (num√©rica).

- **telefone:** se o cliente possui telefone, informa√ß√£o relevante na √©poca (categ√≥rica).

- **inadimplente:** classifica√ß√£o se o cliente foi inadimplente ou n√£o, nossa **vari√°vel alvo**.

<br><br>
## Importando as Bibliotecas

In [None]:
# !pip install sklearn

In [None]:
# Manipula√ß√£o de dados
import numpy as np
import pandas as pd

# Visualiza√ß√£o de dados
import matplotlib.pyplot as plt
import seaborn as sns

# Divis√£o dos dados
from sklearn.model_selection import train_test_split

# Algoritmos de Machine Learning
from sklearn import tree
from sklearn.tree import DecisionTreeClassifier

# M√©tricas de performance
from sklearn import metrics
from sklearn.metrics import (f1_score,
                            accuracy_score,
                            recall_score,
                            precision_score,
                            confusion_matrix,
                            plot_confusion_matrix,
                            roc_auc_score)

# Ajustes de Hiperparametros
from sklearn.model_selection import GridSearchCV

# Optional para Annotations das fun√ß√µes
from typing import Optional

# Ignorar alertas
import warnings
warnings.filterwarnings('ignore')

N√≥s iremos construir nosso modelo de √Årvores de Decis√£o usando a biblioteca [`scikit-learn`](https://scikit-learn.org/stable/).

<br>

## Carregando e Explorando os Dados

In [None]:
import ssl
ssl._create_default_https_context = ssl._create_unverified_context

# Local do dataset online
url_dataset = 'https://raw.githubusercontent.com/lopes-andre/datasets/main/credito.csv'

# Carrega os dados em um DataFrame
data = pd.read_csv(url_dataset)
data.head()

In [None]:
# Verifica o shape dos dados
print(f'Shape dos dados: {data.shape}\n')

print(f'Esta base de dados tem {data.shape[0]} linhas e {data.shape[1]} colunas.')

In [None]:
# Resumo Estat√≠stico dos dados
data.describe()

#### Observa√ß√µes

- N√≥s podemos com apenas uma linha de c√≥digo ver todo o resumo estat√≠stico dos dados.


- Este m√©todo nos retorna as seguintes informa√ß√µes:

  - Contagem de entradas de cada coluna.

  - M√©dia.

  - Desvio Padr√£o.

  - Valores m√≠nimo e m√°ximo de cada coluna.

  - Primeiro quartil, Mediana e terceiro quartil.
  

- Todas as entradas num√©ricas s√£o retornadas.


Para analisar os dados das colunas Categ√≥ricas, podemos usar um outro trecho de c√≥digo. A c√©lula abaixo ir√° isolar as colunas do tipo `object` e analisar as entradas de cada uma destas colunas.

In [None]:
# Lista de vari√°veis categ√≥ricas
colunas_cat = data.select_dtypes(include=['object']).columns.tolist()

# Loop para imprimir a contagem de valores √∫nicos em cada coluna categ√≥rica
for coluna in colunas_cat:
    print(f'### Coluna <{coluna}> ###')
    print(data[coluna].value_counts())
    print('-' * 40)

In [None]:
# Verifica os tipos das colunas e quantidade de entradas
data.info()

In [None]:
# Verificando dados nulos
print('Colunas com dados nulos:')
display(data.isnull().sum()[data.isnull().sum() > 0])

### Observa√ß√µes sobre o Resumo dos Dados

- Os valores monet√°rios est√£o em Deutsche Mark (DM), moeda da Alemanha na √©poca, anterior ao Euro.


- As colunas `duracao_emp_meses` , `porcentagem_renda` e `anos_residencia` t√™m valores nulos/faltantes. Valores nulos podem causar resultados inesperados em modelos preditivos, portanto iremos tratar esses valores com Engenharia de Atributos.


- A m√©dia de idade √© aproximadamente 35 anos e a mediana √© 33 anos.


- A m√©dia de valor dos empr√©stimos est√° em torno de 3271 DM (Deutsche Mark), mas h√° um grande range de 250 DM a 18434 DM. Poder√≠amos analisar melhor estes dados na An√°lise Explorat√≥ria de Dados.


- A m√©dia de parcelas dos empr√©stimos est√° em torno de 21 meses e a mediana em 18 meses.


- Temos poucos clientes desempregados na base de dados.


- H√° uma classe na coluna `motivo` que parece ter sofrido erro de digita√ß√£o. Iremos tratar isso com a Engenharia de Atributos.


- A nossa vari√°vel alvo, `inadimplente`, est√° desbalanceada. Apenas 30% das observa√ß√µes est√£o na Classe 1 (inadimplente) e 70% na Classe 0 (n√£o inadimplente).


A An√°lise Explorat√≥ria dos Dados para este Dataset pode ficar bem extensa, portanto deixaremos para abordar ela completa em outro post, ok?

Vamos direto para a **Engenharia de Atributos** (ou ***Feature Engineering***).

## Engenharia de Atributos

Durante a fase de Engenharia de Atributos iremos preparar o dataset para a modelagem preditiva. Poder√≠amos ter realizado algumas dessas transforma√ß√µes antes da An√°lise Explorat√≥ria de Dados, mas para fins did√°ticos centralizamos aqui nesta sess√£o todos os passos.

### Corrigindo Erros nos Atributos

Como mencionado acima, h√° um erro de digita√ß√£o em uma das categorias do atributo `motivo` . Vamos analisar este ponto e corrigir conforme necess√°rio.

In [None]:
# Exibe as categorias da vari√°vel motivo
data['motivo'].value_counts()

In [None]:
# Corrige o erro de digita√ß√£o
corrige_carro = {'carr0': 'carro'}
data.replace(corrige_carro, inplace=True)

# Verifica as categorias novamente
data['motivo'].value_counts()

Note que a entrada `"carr0"`, que era aparentemente um erro de digita√ß√£o, j√° n√£o existe mais. 

O problema foi corrigido. N√≥s substitu√≠mos as entradas `"carr0"` por `"carro"`.

## Transformando Vari√°veis Categ√≥ricas em Num√©ricas para Modelagem

A maioria dos algoritmos de Machine Learning n√£o lidam bem com vari√°veis categ√≥ricas em forma de texto. Para isto, precisamos converter as vari√°veis categ√≥ricas em num√©ricas, para facilitar os c√°lculos matem√°ticos dos algoritmos.

As vari√°veis ordinais, que apresentam uma ordem l√≥gica, podem ser convertidas usando a mesma fun√ß√£o acima, por√©m com uma l√≥gica diferente: atribuindo valores num√©ricos sequenciais.

In [None]:
# Convertendo vari√°veis Categ√≥ricas Ordinais
conversao_variaveis = {
    'saldo_corrente': {
        'desconhecido': -1,
        '< 0 DM': 1,
        '1 - 200 DM': 2,
        '> 200 DM': 3,
    },
    'historico_credito': {
        'critico': 1,
        'ruim': 2,
        'bom': 3,
        'muito bom': 4,
        'perfeito': 5
    },
    'saldo_poupanca': {
        'desconhecido': -1,
        '< 100 DM': 1,
        '100 - 500 DM': 2,
        '500 - 1000 DM': 3,
        '> 1000 DM': 4,
    },
    'tempo_empregado': {
        'desempregado': 1,
        '< 1 ano': 2,
        '1 - 4 anos': 3,
        '4 - 7 anos': 4,
        '> 7 anos': 5,
    },
    'telefone': {
        'nao': 1,
        'sim': 2,
    }
}

data.replace(conversao_variaveis, inplace=True)
data.sample(5)

### OneHotEncoding para Vari√°veis N√£o Ordinais

Para vari√°veis categ√≥ricas podemos aplicar a t√©cnica de **OneHotEncoding**. Nesta t√©cnica, cada categoria se transforma em uma coluna de valores bin√°rios (0 ou 1). Por exemplo, o atributo `motivo` que possui 5 categorias, vai se transformar em 4 colunas distintas.

#### Exemplo

O atributo `motivo` possui 5 categorias:

1. moveis/eletrodomesticos
2. carro
3. negocios
4. educacao
5. renovacao

Ao aplicar a t√©cnica de OneHotEncoding, o DataFrame ficaria da seguinte forma.

| motivo | motivo_carro | motivo_negocios | motivo_educacao | motivo_renovacao |
| --- | --- | --- | --- | --- |
| carro | 1 | 0 | 0 | 0 |
| negocios | 0 | 1 | 0 | 0 |
| educacao | 0 | 0 | 1 | 0 |
| renovacao | 0 | 0 | 0 | 1 |
| moveis/eletrodomesticos | 0 | 0 | 0 | 0 |

Para evitar a Multicolinearidade, n√≥s configuramos a fun√ß√£o para dropar a primeira coluna, pois ela n√£o √© necess√°ria. Caso a observa√ß√£o n√£o se encaixe em nenhuma das 4 categorias acima, ela obviamente vai se encaixar na quinta, que no nosso caso √© a `moveis/eletrodomesticos` . 0 em todas as colunas significa que est√° nesta categoria.

In [None]:
# Gera a lista de vari√°veis categ√≥ricas
cols_cat = data.select_dtypes(include='object').columns.tolist()

# Removendo 'inadimplente' pois √© nossa vari√°vel Alvo
cols_cat.remove('inadimplente')

cols_cat

In [None]:
# Implementa o OneHotEncoding
data = pd.get_dummies(data, columns=cols_cat, drop_first=True)

data.head()

### Convertendo a Vari√°vel Alvo

A nossa vari√°vel alvo, `inadimplente` √© a √∫nica vari√°vel que ainda precisa ser convertida. Para classifica√ß√£o bin√°ria (duas classes) vamos dividir as classes em Classe 0 (n√£o) e Classe 1 (sim).

Ficando desta forma as entradas 0 para n√£o inadimplentes e 1 para clientes inadimplentes.

In [None]:
# Convertendo a vari√°vel alvo
conversao_alvo = {
    'inadimplente': {'nao': 0, 'sim': 1}
}

data.replace(conversao_alvo, inplace=True)
data['inadimplente']

## Lidando com Valores Faltantes

**Existem diversas formas de tratar valores faltantes.** N√≥s podemos remover as entradas, substituir os valores faltantes com a M√©dia ou Mediana das colunas, ou muitas outras abordagens.

Ao inv√©s de dropar/remover essas linhas com valores faltantes, iremos **substituir os valores faltantes** com a sua **M√©dia**.

In [None]:
# Imputando os valores nulos com a m√©dia
data = data.fillna(data.mean())

In [None]:
# Verifica valores nulos novamente
data.isnull().sum()

N√£o temos mais dados nulos/faltantes.

<center><strong>Neste ponto, finalizamos a prepara√ß√£o dos dados</strong></center>

<br>

## Divis√£o dos Dados

Iremos agora separar as caracter√≠sticas de cada paciente, as vari√°veis independentes, da nossa vari√°vel alvo, ou vari√°vel dependente.

Lembre-se que chamamos de `X` o conjunto de caracter√≠sticas (*features*) e chamamos de `y` a nossa resposta de interesse, nossa vari√°vel alvo a ser descoberta (*target*).

Ser√° necess√°rio tamb√©m adicionar uma constante de `1.0` √† matriz `X` de caracter√≠sticas para que o algoritmo possa realizar seus c√°lculos de forma precisa e eficiente.

In [None]:
# Vari√°veis independentes (caracter√≠sticas)
X = data.drop(['inadimplente'], axis=1)

# Vari√°vel dependente (alvo)
y = data['inadimplente']

Precisamos agora dividir a nossa base de dados entre Treino e Teste. J√° discutimos a import√¢ncia desta divis√£o, onde separamos uma parte dos dados (70% neste caso) para realizarmos o treino do modelo e uma outra parte (30%) para testarmos e vermos se o modelo de fato aprendeu, ou se apenas "decorou" respostas e se "ajustou demais" ao problema (*Overfitting*).

Como temos um certo desbalanceio na nossa vari√°vel alvo, √© interessante mantermos as mesmas propor√ß√µes de classes positivas e negativas tanto na base de treino quanto na de teste. A divis√£o √© aleat√≥ria, e n√£o devemos perder esta propor√ß√£o. 

Para isso, iremos fazer uso do argumento `stratify=y` da fun√ß√£o `train_test_split()` dispon√≠vel na biblioteca Scikit-learn. Este argumento ir√° manter as devidas propor√ß√µes das classes de `y` para treino e teste.

In [None]:
# Divis√£o dos dados em Treino e Teste
X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                                   test_size=0.30,
                                                   random_state=1,
                                                   stratify=y) # mant√©m as propor√ß√µes das classes

Lembram que as classes estavam desbalanceadas? Isso √© de se esperar, pois muito provavelmente apenas uma parcela pequena de clientes de um banco devem ser inadimplentes.

Nesse nosso caso, temos 70% de clientes n√£o inadimplentes (Classe 0) e 30% de clientes inadimplentes (Classe 1). Ao usarmos o argumento `stratify=y` na fun√ß√£o `train_test_split()`, n√≥s dizemos para a biblioteca manter essa propor√ß√£o quando fizer a divis√£o entre bases de treino e base de teste.

Vamos verificar estas propor√ß√µes.

In [None]:
# Verifica as propor√ß√µes de classes nos dados
print('### Propor√ß√£o de Classes em Treino ###')
print(f'Porcentagem de entradas Classe 0: {y_train.value_counts(normalize=True).values[0] * 100}%')
print(f'Porcentagem de entradas Classe 1: {y_train.value_counts(normalize=True).values[1] * 100}%')
print()

print('### Propor√ß√£o de Classes em Teste ###')
print(f'Porcentagem de entradas Classe 0: {y_test.value_counts(normalize=True).values[0] * 100}%')
print(f'Porcentagem de entradas Classe 1: {y_test.value_counts(normalize=True).values[1] * 100}%')

## Fun√ß√µes para Performance dos Modelos

Iremos agora declarar algumas fun√ß√µes √∫teis para monitorarmos a performance dos nossos modelos.

Se voc√™ precisa entender melhor como avaliamos modelos de classifica√ß√£o, recomendo fortemente a leitura do post [Medidas de Performance: Modelos de Classifica√ß√£o](https://brains.dev/2023/medidas-de-performance-modelos-de-classificacao/).

In [None]:
def performance_modelo_classificacao(
    model: object,
    flag: Optional[bool] = True):
    
    '''
    Fun√ß√£o para computar as diferentes m√©tricas de performance para modelos de classifica√ß√£o.

    model: modelo para prever os valores de X
    flag: se imprimimos ou n√£o os resultados
    '''
    
    # Lista para armazenar os resultados de Treino e Valida√ß√£o
    score_list = []
    
    # Predi√ß√£o em Treino e Valida√ß√£o
    pred_train = model.predict(X_train)
    pred_val = model.predict(X_test)
    
    # Acur√°cia do modelo
    train_acc = model.score(X_train, y_train)
    val_acc = model.score(X_test, y_test)
    
    # Recall do modelo 
    train_recall = recall_score(y_train, pred_train)
    val_recall = recall_score(y_test, pred_val)
    
    # Precis√£o do modelo
    train_prec = precision_score(y_train, pred_train)
    val_prec = precision_score(y_test, pred_val)
    
    # F1-Score do modelo
    train_f1 = f1_score(y_train, pred_train)
    val_f1 = f1_score(y_test, pred_val)
    
    # Popula a lista
    score_list.extend((train_acc, val_acc, train_recall, val_recall, train_prec, val_prec, train_f1, val_f1))
    
    # Imprime a lista se flag=True (default)
    if flag:
        print(f'Acur√°cia na base de Treino: {train_acc}')
        print(f'Acur√°cia na base de Teste: {val_acc}')
        print(f'\nRecall na base de Treino: {train_recall}')
        print(f'Recall na base de Teste: {val_recall}')
        print(f'\nPrecis√£o na base de Treino: {train_prec}')
        print(f'Precis√£o na base de Teste: {val_prec}')
        print(f'\nF1-Score na base de Treino: {train_f1}')
        print(f'F1-Score na base de Teste: {val_f1}')
        
    # Retorna a lista de valores em Treino e Valida√ß√£o
    return score_list

In [None]:
def matriz_confusao(
    model: object,
    X: pd.DataFrame,
    y_actual: pd.Series,
    labels: Optional[tuple] = (1, 0)):
    
    '''
    Plota a Matriz de Confus√£o com porcentagens.

    model: modelo para prever os valores de X
    X: atributos usados para a classfica√ß√£o
    y_actual: classifica√ß√£o real, vari√°vel alvo
    '''
    
    # Predi√ß√£o em Valida√ß√£o
    y_predict = model.predict(X)
    
    # Pega os dados da Matriz de Confus√£o
    cm = confusion_matrix(y_actual, y_predict, labels=[0, 1])
    df_cm = pd.DataFrame(cm, index=['Real - N√£o (0)', 'Real - Sim (1)'],
                        columns=['Previsto - N√£o (0)', 'Previsto - Sim (1)'])
    
    # List of labels for the Confusion Matrix
    group_counts = [f'{value:.0f}' for value in cm.flatten()]
    group_percentages = [f'{value:.2f}%' for value in (cm.flatten()/np.sum(cm))*100]
    
    labels = [f'{v1}\n{v2}' for v1, v2 in zip(group_counts, group_percentages)]
    labels = np.asarray(labels).reshape(2, 2)
    
    # Plot the Confusion Matrix
    plt.figure(figsize=(10, 7))
    sns.heatmap(df_cm, annot=labels, fmt='')
    plt.xlabel('Classe Prevista', fontweight='bold')
    plt.ylabel('Classe Verdadeira', fontweight='bold')
    plt.show()

In [None]:
def importancias_variaveis(model: object):
    '''
    model: modelo para prever os valores de X
    '''
    
    importances = model.feature_importances_
    indices = np.argsort(importances)
    feature_names = list(X.columns)
    
    plt.figure(figsize=(12,12))
    plt.barh(y=range(len(indices)), width=importances[indices], color='violet', align='center')
    plt.title('Import√¢ncia do Atributo', fontsize=16, fontweight='bold')
    plt.yticks(range(len(indices)), [feature_names[i] for i in indices])
    plt.xlabel('Import√¢ncia Relativa', fontweight='bold')
    plt.show()

## Treino dos Modelos de √Årvores de Decis√£o

O treino do nosso primeiro modelo vai ser extremamente simples. Depois iremos adicionar um pouco de complexidade.

N√≥s iremos usar a classe [sklearn.tree.DecisionTreeClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html) para construir de forma automatizada a nossa melhor √Årvore de Decis√£o.

Para isso iremos instanciar um objeto `DecisionTreeClassifier()` e fazermos com que ele se ajuste aos nossos dados de treino, que √© o nosso processo de treino, com o m√©todo `.fit()`.

### Criando e Treinando o Modelo

In [None]:
# Instanciando o Modelo
arvore_d = DecisionTreeClassifier(random_state=1)

# Treinando o modelo
arvore_d.fit(X_train, y_train)

### M√©tricas da √Årvore de Decis√£o

In [None]:
arvore_d_scores = performance_modelo_classificacao(arvore_d)

Perceberam um **forte** Overfitting? A √Årvore de Decis√£o cresceu sem controle e acertou 100% de todas as observa√ß√µes de treino, mas falhou na base de teste. Aparentemente o modelo est√° decorando as respostas da base de treino e sua performance real est√° similar a jogar cara ou coroa.

Vamos tentar visualizar isso na Matriz de Confus√£o.

### Matriz de Confus√£o para a √Årvore de Decis√£o

In [None]:
# Matriz de Confus√£o de treino
matriz_confusao(arvore_d, X_train, y_train)

In [None]:
# Matriz de Confus√£o de teste
matriz_confusao(arvore_d, X_test, y_test)

Perceberam que na primeira matriz tivemos 0 erros e na segunda muitos erros?

Vamos agora visualizar quais decis√µes essa √°rvore est√° tomando, e em que ordem.

### Visualizando a √Årvore de Decis√£o

In [None]:
feature_names = list(X_train.columns)

plt.figure(figsize=(20, 30))
tree.plot_tree(arvore_d, feature_names=feature_names, filled=True,
            fontsize=9, node_ids=True, class_names=True);

√â uma √°rvore extremamente complexa e profunda! Um modelo complexo demais tende ao Overfitting. Para evitar que nossas √Årvores de Decis√£o crescam sem controle, n√≥s vamos fazer uso de uma t√©cnica de **Poda**. Vamos fazer a **Pr√©-Poda**, para sermos mais exatos.

## √Årvore de Decis√£o com Pr√©-Poda

Vamos, primeiramente, controlar a profundidade desta √Årvore de Decis√£o a deixando mais simples. Para isso, vamos usar o par√¢metro `max_depth` quando instanciarmos o objeto do modelo.

### Criando e Treinando a √Årvore de Decis√£o Podada

In [None]:
# Instanciando o Modelo
arvore_d1 = DecisionTreeClassifier(random_state=1, max_depth=3)

# Treinando o modelo
arvore_d1.fit(X_train, y_train)

### M√©tricas da √Årvore de Decis√£o Podada

In [None]:
arvore_d1_scores = performance_modelo_classificacao(arvore_d1)

Agora parece que n√≥s temos um **Underfitting**, concordam? Talvez o modelo esteja simples demais para aprender algo suficiente da base de treino.

Vamos analisar novamente a Matriz de Confus√£o.

In [None]:
# Matriz de Confus√£o de treino
matriz_confusao(arvore_d1, X_train, y_train)

### Visualizando a √Årvore de Decis√£o Podada

In [None]:
feature_names = list(X_train.columns)

plt.figure(figsize=(15, 10))
tree.plot_tree(arvore_d1, feature_names=feature_names, filled=True,
            fontsize=9, node_ids=True, class_names=True);

De fato a nossa √Årvore de Decis√£o est√° bem simples. Aparentemente simples **demais** para nossos dados, causando assim um **Underfitting**.

Ajustar a profundidade m√°xima da √°rvore para tr√™s n√≠veis n√£o foi uma boa estrat√©gia. Voc√™s devem se lembrar que temos outros par√¢metros que podemos trabalhar para controlar o crescimento da √°rvore, certo? Se voc√™ n√£o lembra, leia o post [√Årvores de Decis√£o: Algoritmos Baseados em √Årvores](https://brains.dev/2023/arvores-de-decisao-algoritmos-baseados-em-arvores/).

Mas como encontrar os valores ideais de par√¢metros?

## Ajuste de Hiperpar√¢metros

O **Ajuste de Hiperpar√¢matros** (do Ingl√™s, *Hyperparameter Tuning*) √© o processo de realizar altera√ß√µes nos par√¢metros de um modelo com o intu√≠to de melhorar a sua performance.

Para isso podemos usar a classe [`GridSearchCV()`](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html), que far√° uma s√©rie de tentativas combinando diferentes par√¢metros definidos dentro de uma grade e implementando a Valida√ß√£o Cruzada (*Cross Validation*) para chegar at√© a melhor combina√ß√£o.

### Criando e Treinando a √Årvore de Decis√£o Tunada

In [None]:
# Escolhe o Algoritmo
algo = DecisionTreeClassifier(random_state=1)

# Grade de par√¢metros para combinar
parameters = {'max_depth': np.arange(1, 10),
             'min_samples_leaf': [1, 2, 5, 7, 10, 15, 20],
             'max_leaf_nodes': [2, 3, 5, 10],
             'min_impurity_decrease': [0.001, 0.01, 0.1]
             }

# M√©trica usada para comparar as combina√ß√µes de par√¢metros
acc_scorer = metrics.make_scorer(metrics.recall_score)

# Roda a Grid Search
grid_obj = GridSearchCV(algo, parameters, scoring=acc_scorer, cv=5)
grid_obj = grid_obj.fit(X_train, y_train)

# Cria o modelo com a melhor combina√ß√£o
arvore_d2 = grid_obj.best_estimator_

# Treina o modelo
arvore_d2.fit(X_train, y_train)

### M√©tricas da √Årvore de Decis√£o Tunada

In [None]:
arvore_d2_scores = performance_modelo_classificacao(arvore_d2)

Voc√™ deve ter notado que todas essas tentativas de diferentes combina√ß√µes de par√¢metros demora um pouco para executar. Mas vejam s√≥! Nossa profundidade ideal √© de 7 n√≠veis, com 10 n√≥s folhas. O algoritmo escolheu essa melhor combina√ß√£o dentro do espa√ßo amostral que oferecemos pra ele.

Genial, n√©? E nosso modelo teve uma certa melhora. Vamos ver a Matriz de Confus√£o?

### Matriz de Confus√£o para a √Årvore de Decis√£o Tunada

In [None]:
# Matriz de Confus√£o de treino
matriz_confusao(arvore_d2, X_train, y_train)

In [None]:
# Matriz de Confus√£o de teste
matriz_confusao(arvore_d2, X_test, y_test)

----------------

# Comparando os Modelos

Agora vamos listar todos os modelos para compararmos as m√©tricas de performance.

In [None]:
# Lista com todos os modelos
modelos = ['√Årvore de Decis√£o',
          '√Årvore de Decis√£o Podada', 
          '√Årvore de Decis√£o Tunada']

# Nomes das colunas
colunas = ['Treino_Acurarcia', 'Val_Acurarcia', 'Treino_Recall', 'Val_Recall',
          'Treino_Precisao', 'Val_Precisao', 'Treino_F1', 'Val_F1']

# DataFrame com todos os modelos e seus respectivos scores
modelos_scores = pd.DataFrame([arvore_d_scores, arvore_d1_scores, arvore_d2_scores], 
                             columns=colunas, index=modelos).apply(lambda x: round(x, 2))

modelos_scores.T

# Conclus√µes

- Todos os nossos modelos est√£o ou apresentando Overfitting ou apresentando Underfitting at√© o momento.

- N√£o conseguimos encontrar ainda um algoritmo que apresente uma performance aceit√°vel para o nosso objetivo com este projeto.

- Provavelmente precisaremos usar um algoritmo mais avan√ßado para este problema. Possivelmente as [Random Forests](https://brains.dev/2023/random-forests-algoritmos-baseados-em-arvores/) sejam uma boa escolha!

<br>

Caso tenha ficado com alguma d√∫vida, entre em contato conosco pelo site do [brains.dev](https://brains.dev). 

Colabore com a nossa comunidade trazendo conte√∫do de qualidade em Portugu√™s, seja conte√∫do pr√≥prio ou traduzido. Iremos ficar muito felizes de receber material de voc√™s.

Para conhecer mais sobre n√≥s e saber como colaborar, visite o post abaixo.

- [**Bem-vindos ao BRAINS**](https://brains.dev/2022/bem-vindos-ao-brains/)

√â sempre um prazer estar com voc√™s por aqui!

<br>

<center><h2>#NoBrains #NoGains üß†</h2></center>