<a href="https://colab.research.google.com/github/amadords/Projetos-Publicos/blob/master/%C3%81rvore_de_Decis%C3%A3o_(Algoritmo).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Árvore de Decisão**
---


[![LinkedIn](https://img.shields.io/badge/LinkedIn-DanielSousaAmador-cyan.svg)](https://www.linkedin.com/in/daniel-sousa-amador)
[![GitHub](https://img.shields.io/badge/GitHub-amadords-darkblue.svg)](https://github.com/amadords)
[![Medium](https://img.shields.io/badge/Medium-DanielSousaAmador-white.svg)](https://daniel-s-amador.medium.com/)


A **Árvore de Decisão** é um algoritmo de *Machine Learning* (Aprendizado de Máquina) *supervisionado*, ou seja, precisa de um acompanhamento humano, utilizado em tarefas de *classificação* e *regressão*.

O nome *Árvore* tem relação à sua estrutura e ela é construída a partir da indução de regras e são essas regras que vão construindo a estrutura, por isso o nome *Árvore de Decisão.*

Sua estrutura é:
* **Raiz**: Ponto de checagem inicial, ou nó inicial, que é a feature que melhor divide genericamente a base de dados. É a raiz que liga os demais elementos da árvore, que são os nós filhos (ramos e folhas que também tem ou podem ter seus filhos).
* **Ramos**: Caminho percorrido e tomada de decisão entre o inicial (raiz) e o resultado final (folhas).
* **Folhas**: São os resultados finais, ou seja a decisão tomada por aquele ramo.

> Cada um é chamado de nó, ou seja, *nó raiz, nós ramo e nó folha*.

![árvore](https://t4.ftcdn.net/jpg/02/67/60/39/240_F_267603945_0FB0gS1G3H1bPfGD4uh9iHTIzORm1jfs.jpg)

**Vantagens e Desvantagens:**

* **Vantagens**:
* *Fácil entendimento* e *Viabilização da exploração*: As regras seguidas pela árvore é de fácil acesso e podem ser utilizadas até mesmo para construir outros algoritmos utilizando apenas features mais importantes identificadas nesse processo.
* *Suporte a tipos diferentes de dados*: Ao contrário de modelos baseados em distância, por exemplo, árvores de decisão conseguem trabalhar com formatos categóricos e numéricos.
* *Mais robusta contra outliers*: Por trabalhar em cima do ganho de informação, valores *outlier não influenciam* ao ponto de atrapalhar o modelo.

* **Desvantagens**:
* *Maior propensão ao overfitting*: Pela facilidade em se ajustar aos dados, a árvore pode facilmente sofre sobreajuste, ou seja, aprender demais sobre os dados de treino e sofrer quando receber novos dados. Problema melhor resolvido pelas *Florestas Aleatórias* abordadas [aqui](https://bit.ly/2Sg9LM7).

O comparativo entre **Árvore de Decisão** e **Florestas Aleatórias** é feito [aqui](https://bit.ly/30mKZ1q).

Cada *Árvore de Decisão* é **construída** através das features que **melhor dividem** os dados para criar cada ramo. 

Os atributos são selecionados e escolhidos através do **cálculo de impureza**, ou seja, quanto mais homogênio os dados de determinado atributo, mais puro ele é e as **métricas** utilizadas nas árvores para divisão são:
* **Indice Gini**: Se a população for pura, ao selecionar aleatoriamente dois itens dentro dela, ambas devem ser da mesma classe e a probabilidade de isso acontecer é 1 (um), ou seja, 100%.
* **Ganho de Informação**: É o quanto é necessário de informação para explicar um nó. Um nó puro requer menos informações, porém quanto mais diferentes os dados, maior a impureza e, mais informação é necessária para explicar o nó.
* **Redução de Variância**: Enquanto os demais trata de variáveis categóricas, a *Redução de Variância* tem foco nas variáveis *numéricas* ou *ordinais* e utiliza o cálculo da variância, onde a menor variância será utilizada por ser mais homogênia e dai em diante, dos que sobram, as mais homogêneas irão ser utilizadas.
    * Cálculo da variância (populacional):.
$$
        Variância=\frac{(Soma\ de\ Todos\ os\ Valores - Média\ Simples\ dos\ Valores)^{2}}{Tamanho\ da\ População}
$$

**Como evitar o overfitting?**
* Limitando o *crescimento da árvore*, pois uma árvore pode se ajustar tão bem aos dados que pode ter um ramo para cada valor único do nível folha.
* Limitando a *profundidade máxima* da árvore bem como valor máximo de features a considerar para cada divisão.
* Limitando o *valor mínimo* de amostras para um atributo a considerar para a divisão.
* Limitando o *valor máximo* de níveis de folha.
* Fazendo a *poda* da árvore:
    * Pré-poda: Verificação de *ganho de informação* de um atributo durante a etapa de construção da árvore.
    * Pós-poda: Após a construção da árvore, ramos são selecionados e após sofrerem a poda, a acurácia para medir a eficácia do modelo.
    
    
**Árvore de Decisão** ou **Modelo Lineares**?
* Relacionamento forte entre variáveis dependentes e independente? Modelo Linear,
* Relacionamento fraco ou alta complexidade? Modelo baseado em Árvore.
* É necessária a compreensão e geração de informação? Modelo baseado em Árvore.
* Modelo baseado em Árvore ao invés de Árvore de Decisão precisamente é porque também pode ser utilizado o algoritmo de *Floresta Aleatória*.


**Parâmetros do Classificador:**
* **criterion**: Medida de qualidade de divisão.
* **splitter**: Estratégia utilizada para dividir o nó de decisão.
* **max_depth**: Controla a profundidade máxima da árvore, ou seja, até onde ela pode crescer, controlando assim também a complexidade da árvore.
* **min_samples_split**: Número de amostras mínimas para considerar um nó para divisão.
* **min_samples_leaf**: Número de amostras mínimas no nível folha.


A **base de dados** aqui utilizada é semelhante à utilizada em [classes desbalanceadas](https://bit.ly/3nj6EkW), contudo pré-processada (embora não necessário) para melhorar ainda mais a visualização e com apenas 11.162 linhas ao passo das 45.211 da outra base de dados, pois o intuito aqui é apenas mostrar o quão prático, rápido e intuitivo é utilizar o algoritmo. O foco neste notebook é visualizar o parâmetro **max_depth** em ação.

## Checklist

1. Importação e Leitura
2. Machine Learning
3. max_depth em Ação
4. Treinando o modelo com o `max_depth=4`
5. Features mais Importantes

# 1. Importação e Leitura

**Importações**

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn import tree

**Leitura da base de dados**

In [None]:
bank = pd.read_csv('https://raw.githubusercontent.com/amadords/data/main/bank-numeric.csv')
bank.head()

Unnamed: 0,age,balance,duration,campaign,previous,default_cat,housing_cat,loan_cat,recent_pdays,deposit_cat,job_blue-collar,job_entrepreneur,job_other,job_pink-collar,job_self-employed,job_technician,job_white-collar,marital_divorced,marital_married,marital_single,education_primary,education_secondary,education_tertiary,education_unknown,poutcome_failure,poutcome_success,poutcome_unknown
0,59,2343,1042,1,0,0,1,0,0.0001,1,0,0,0,0,0,0,1,0,1,0,0,1,0,0,0,0,1
1,56,45,1467,1,0,0,0,0,0.0001,1,0,0,0,0,0,0,1,0,1,0,0,1,0,0,0,0,1
2,41,1270,1389,1,0,0,1,0,0.0001,1,0,0,0,0,0,1,0,0,1,0,0,1,0,0,0,0,1
3,55,2476,579,1,0,0,1,0,0.0001,1,0,0,0,1,0,0,0,0,1,0,0,1,0,0,0,0,1
4,54,184,673,2,0,0,0,0,0.0001,1,0,0,0,0,0,0,1,0,1,0,0,0,1,0,0,0,1


# 2. Machine Learning

**Separando os dados**

In [None]:
bank_data = bank.drop('deposit_cat', 1) # ou axis=1
bank_target = bank.deposit_cat

**Dividindo em treino e teste em 70/30**

In [None]:
X_train, X_test, y_train, y_test = train_test_split(bank_data,bank_target,test_size=0.3)

# 3. max_depth em Ação

**Função para treinar o modelo com parâmetro max_depth**

In [None]:
# max_depth controla profundidade, logo a complexidade da árvore)
def compara_modelos(maxdepth): # o parâmetro é o próprio valor de maxdepth
    if maxdepth == 0: # se maxdepth for igual a zero
        dt = tree.DecisionTreeClassifier(random_state=1)# a árvore vai crescer até todas as folha se tornem puras
    else:   
        dt = tree.DecisionTreeClassifier(random_state=1, max_depth=maxdepth) # se diferente de 0
    dt.fit(X_train, y_train) # vai ser treinado
    train_score = dt.score(X_train, y_train) # score do treino
    test_score = dt.score(X_test, y_test) # score do teste
    return train_score,test_score # retorno dos scores
# quanto mais destoantes os valores, mais inviesado está

In [None]:
compara_modelos(0) # totalmente enviesado

(1.0, 0.729770080621081)

In [None]:
compara_modelos(2) # bom resultado, pois está parecido nos resultados

(0.7316011775246384, 0.7202149895491191)

In [None]:
compara_modelos(10) # começando a sofrer overfitting

(0.8617688467938052, 0.7790385189608838)

In [None]:
print('{:10} {:20} {:20}'.format('depth', 'Training score','Testing score'))
print('{:10} {:20} {:20}'.format('-----', '--------------','-------------'))
print('{:1}         {} '.format(2,str(compara_modelos(2))))
print('{:1}         {} '.format(3,str(compara_modelos(3))))
print('{:1}         {} '.format(4,str(compara_modelos(4))))
print('{:1}         {} '.format(10,str(compara_modelos(10))))
print('{:1}         {} '.format(15,str(compara_modelos(15))))
print('{:1}         {} '.format('Full',str(compara_modelos(0))))

depth      Training score       Testing score       
-----      --------------       -------------       
2         (0.7316011775246384, 0.7202149895491191) 
3         (0.7571995392294893, 0.7524634219169901) 
4         (0.789197491360553, 0.7841146610928635) 
10         (0.8617688467938052, 0.7790385189608838) 
15         (0.950211186484065, 0.7411167512690355) 
Full         (1.0, 0.729770080621081) 


Veja o quanto somente um parâmetro já traz bastante influência sobre o modelo.
* `max_depth=0` trouxe um modelo totalmente enviesado.
* `max_depth=2` já trouxe um modelo onde o resultado mostra que não há mais overfitting.
* `max_depth=10` já está iniciando o overfitting novamente.

Logo algo entre o `max_depth=2` e o `max_depth=10` será o melhor para o modelo. Cabe ao **Cientista de Dados** *avaliar* isso. Em nossa avaliação o `max_depth=4` foi o melhor pois trouxe melhor valor com menor variação entre o *treino* e *teste*.

# 4. Treinando o modelo com o `max_depth=4`

**Verificando as features mais importantes para o modelo de arvore de decisão treinado**

In [None]:
# Treinando o modelo utilizando o valor de max_depth igual a 4
dt = tree.DecisionTreeClassifier(max_depth=4)
dt.fit(X_train, y_train)

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                       max_depth=4, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort='deprecated',
                       random_state=None, splitter='best')

# 5. Features mais Importantes

**Array com nivel de importância**

In [None]:
dt.feature_importances_

array([0.        , 0.        , 0.67790156, 0.        , 0.00231712,
       0.        , 0.11015723, 0.        , 0.        , 0.        ,
       0.00103985, 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.20858424,
       0.        ])

**Valor por Features**

In [None]:
# Listando as features e sua importância para o modelo
fi = dt.feature_importances_
l = len(bank.columns)
for i in range(0,len(bank.columns)-1):
    print('{:.<20} {:3}'.format(bank.columns[i], fi[i]))
    
# pode ser um inicio para avaliar a seleção de features e exclusão daquelas que não influenciam
# mas utilizar outras abordagens também

age................. 0.0
balance............. 0.0
duration............ 0.6779015648016271
campaign............ 0.0
previous............ 0.002317117660463039
default_cat......... 0.0
housing_cat......... 0.11015722805947838
loan_cat............ 0.0
recent_pdays........ 0.0
deposit_cat......... 0.0
job_blue-collar..... 0.0010398531670563439
job_entrepreneur.... 0.0
job_other........... 0.0
job_pink-collar..... 0.0
job_self-employed... 0.0
job_technician...... 0.0
job_white-collar.... 0.0
marital_divorced.... 0.0
marital_married..... 0.0
marital_single...... 0.0
education_primary... 0.0
education_secondary. 0.0
education_tertiary.. 0.0
education_unknown... 0.0
poutcome_failure.... 0.20858423631137515
poutcome_success.... 0.0


# Obrigado!

Obrigado por ter disponibilizado um pouco do seu tempo e atenção aqui. Espero que, de alguma forma, tenha sido útil para seu crescimento. Se houver qualquer dúvida ou sugestão, não hesite em entrar em contato no [LinkedIn](https://www.linkedin.com/in/daniel-sousa-amador) e verificar meus outros projetos no [GitHub](https://github.com/amadords).

[![LinkedIn](https://img.shields.io/badge/LinkedIn-DanielSousaAmador-cyan.svg)](https://www.linkedin.com/in/daniel-sousa-amador)
[![GitHub](https://img.shields.io/badge/GitHub-amadords-darkblue.svg)](https://github.com/amadords)
[![Medium](https://img.shields.io/badge/Medium-DanielSousaAmador-white.svg)](https://daniel-s-amador.medium.com/)


<center><img width="90%" src="https://raw.githubusercontent.com/danielamador12/Portfolio/master/github.png"></center>