<a href="https://colab.research.google.com/github/amadords/Projetos-Publicos/blob/master/Comparativo_%C3%81rvore_de_Decis%C3%A3o_e_Floresta_Aleat%C3%B3ria.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Então... Árvore ou Floresta?**
---


[![LinkedIn](https://img.shields.io/badge/LinkedIn-DanielSousaAmador-cyan.svg)](https://www.linkedin.com/in/daniel-sousa-amador)
[![GitHub](https://img.shields.io/badge/GitHub-amadords-darkblue.svg)](https://github.com/amadords)
[![Medium](https://img.shields.io/badge/Medium-DanielSousaAmador-white.svg)](https://daniel-s-amador.medium.com/)




Se você leu sobre as **[Árvores](https://bit.ly/2Guqmcd)** e **[Florestas](https://bit.ly/2Sg9LM7)** deve ter ficado tentado a utilizar sempre o *Random Forest*, pois é uma melhoria das Árvores e, via de regra, evita mais facilmente problemas como o *sobreajuste*.

Geralmente, sim! o *Random Forest* vai se sair melhor, pois ele vai ter um pouco mais de maleabilidade, já que cria várias árvores, contudo nem sempre as árvores se sairão piores. 

Veja, quando estudantes aprendem técnicas de **Deep Learning** (Aprendizagem Profunda) é comum querer utilizar em tudo, até em problemas que o mais simples dos algoritmos (algoritmos lineares) podem resolver, então muitas vezes as árvores podem já resolver o problema, principalmente porque serve, muitas vezes, de *baseline*, ou seja, serve como ponto de partida o qual os algoritmos devem tentar minimamente ultrapassar seu resultado final. 

Muitas vezes você irá querer somente *extrair regras* e/ou tentar buscar quais são as *features mais importantes* para o seu modelo e, nesses casos, *normalmente é melhor utilizar Árvore*, pois as florestas irão criar várias árvores, com várias regras diferentes e, caso você necessite somente desse suporte, talvez seja melhor utilizar a Árvore.

**Dica**: Comece sempre pela *Árvore*, depois utilize também as *Florestas*, mas não comece diretamente pelas Florestas. Isso é apenas um *conselho* e *boa prática*.

![comparativo](https://image.freepik.com/fotos-gratis/boxe-profissional-dois-boxe-no-espaco-preto-esfumacado_155003-12726.jpg)

## O que faremos aqui?

**Comparativo** entre os dois algoritmos!

Já adianto que, o *Random Forest* se sairá melhor no exemplo abaixo, contudo, como dito acima, nem sempre isso acontece e cabe ao **Cientista de Dados** avaliar **SEMPRE** os resultados, inclusive fazendo **Tuning** do modelo.

## Tuning?

Calma, vamos fazer os comparativos e, quando chegarmos nele eu te explico, mas tuning é basicamente alterar os parâmetros do algoritmo para tentar melhorá-lo!


## Checklist
1. Leitura e Preparação de Dados
2. Random Forest
3. Decision Tree
4. Verificando Overfitting
5. Tuning do Modelo

**Importação das bibliotecas**

In [None]:
from sklearn.tree import export_graphviz
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import cross_val_predict
from sklearn.metrics import classification_report
from sklearn.model_selection import train_test_split
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 1. Leitura e Preparação de Dados

**Leitura dos dados**

In [None]:
df_edu = pd.read_csv('https://raw.githubusercontent.com/amadords/data/main/xAPI-Edu-Data.csv')

In [None]:
df_edu.head(3)

Unnamed: 0,gender,NationalITy,PlaceofBirth,StageID,GradeID,SectionID,Topic,Semester,Relation,raisedhands,VisITedResources,AnnouncementsView,Discussion,ParentAnsweringSurvey,ParentschoolSatisfaction,StudentAbsenceDays,Class
0,M,KW,KuwaIT,lowerlevel,G-04,A,IT,F,Father,15,16,2,20,Yes,Good,Under-7,M
1,M,KW,KuwaIT,lowerlevel,G-04,A,IT,F,Father,20,20,3,25,Yes,Good,Under-7,M
2,M,KW,KuwaIT,lowerlevel,G-04,A,IT,F,Father,10,7,0,30,No,Bad,Above-7,L


**Verificando classes**

In [None]:
df_edu['Class'].value_counts()

M    211
H    142
L    127
Name: Class, dtype: int64

**Verificando registros nulos**

In [None]:
df_edu.isnull().sum()

gender                      0
NationalITy                 0
PlaceofBirth                0
StageID                     0
GradeID                     0
SectionID                   0
Topic                       0
Semester                    0
Relation                    0
raisedhands                 0
VisITedResources            0
AnnouncementsView           0
Discussion                  0
ParentAnsweringSurvey       0
ParentschoolSatisfaction    0
StudentAbsenceDays          0
Class                       0
dtype: int64

**Codificando os atributos numéricos**

In [None]:
Features = df_edu
Cat_Colums = Features.dtypes.pipe(lambda Features: Features[Features=='object']).index
for col in Cat_Colums:
    label = LabelEncoder()
    Features[col] = label.fit_transform(Features[col])

**Separando dados**

In [None]:
dataset = df_edu.drop('Class',axis=1)
classes = df_edu['Class']

# 2. Random Forest

**Instanciando o classificador**

In [None]:
# random_state=1 para garantir o mesmo resultado em cada algoritmo (na separação dos dados)
# n_estimator=100
random_clf = RandomForestClassifier(random_state=1,n_estimators=100)

**Cross Validation**

In [None]:
resultados_random = cross_val_predict(random_clf, dataset, classes, cv=5)
print(classification_report(classes,resultados_random))

              precision    recall  f1-score   support

           0       0.65      0.64      0.65       142
           1       0.77      0.78      0.77       127
           2       0.63      0.63      0.63       211

    accuracy                           0.67       480
   macro avg       0.68      0.68      0.68       480
weighted avg       0.67      0.67      0.67       480



# 3. Decision Tree

**Métricas**

In [None]:
tree_clf = DecisionTreeClassifier(random_state=1) # random_state=1 para garantir a mesma semente
resultados_tree = cross_val_predict(tree_clf,dataset,classes,cv=5)
print(classification_report(classes,resultados_tree))

              precision    recall  f1-score   support

           0       0.50      0.61      0.55       142
           1       0.74      0.68      0.70       127
           2       0.54      0.49      0.52       211

    accuracy                           0.57       480
   macro avg       0.59      0.59      0.59       480
weighted avg       0.58      0.57      0.58       480



### Cross Validation?
Ou **Validação Cruzada**...

Sim! Em ambos algoritmos o utilizamos e ele serve para tentar avaliar a capacidade de um modelo em generalizar os dados e deve sempre ser usado em *modelagens preditavas*!

O **cross validation** particiona, ou seja, divide um conjunto de dados em partes a ser definido pelo *Cientista de Dados* em conjuntos menores ou subconjuntos onde, nenhum dado está repetido em nenhum outro subconjunto e o algoritmo utilizará parte dos dados para treinar, parte para testar. 

Exemplo: Se o **K-fold**, ou seja, a quantidade de particionamento dos dados for igual a 5, o algoritmo fará 5 testes e retornará o resultado para cada um deles.
* Teste 1: Treino com subconjuntos 1,2,3 e 4 e teste com o 5.
* Teste 2:Treino com subconjuntos 2,3,4 e 5 e teste com o 1.
* Teste 3: Treino com subconjuntos 1,3,4 e 5 e teste com o 2.
* Teste 4: Treino com subconjuntos 1,2,4 e 5 e teste com o 3.
* Teste 5:Treino com subconjuntos 1,2,3 e 5 e teste com o 4.

Isso mostra um resultado mais fiel do algoritmo, para evitar mascaração de resultados para melhor ou para pior.

# 4. Verificando Overfitting

Para verificar o overfitting, ou sobreajuste, iremos criar duas funções, uma para o *Random Forest* e outro para a *Decision Tree* que irão comparar vários modelos com o parâmetro **max_depth** e retornará a **acurárica** entre os dados de *treino* e *teste* e, assim vamos ver onde os modelos começam e terminam o sobreajuste.

**Dividindo os dados**

In [None]:
X_train, X_test, y_train, y_test = train_test_split(df_edu.drop('Class',axis=1),df_edu['Class'],test_size=0.3,random_state=1)

**Criando função para comparar os modelos de random forest**

In [None]:
def compara_modelos_random_forest(maxdepth):
    if maxdepth == 0:
        rf = RandomForestClassifier(n_estimators=100,random_state=1)
    else: 
        rf = RandomForestClassifier(n_estimators=100,random_state=1, max_depth=maxdepth)
    rf.fit(X_train, y_train)
    train_score = rf.score(X_train, y_train)
    test_score = rf.score(X_test, y_test)
    return train_score,test_score

In [None]:
print('{:10} {:20} {:20}'.format('depth', 'Training score','Testing score'))
print('{:10} {:20} {:20}'.format('-----', '--------------','-------------'))
print('{:1}         {} '.format(2,str(compara_modelos_random_forest(2))))
print('{:1}         {} '.format(3,str(compara_modelos_random_forest(3))))
print('{:1}         {} '.format(4,str(compara_modelos_random_forest(4))))
print('{:1}         {} '.format(10,str(compara_modelos_random_forest(10))))
print('{:1}         {} '.format(15,str(compara_modelos_random_forest(15))))
print('{:1}         {} '.format('Full',str(compara_modelos_random_forest(0))))

depth      Training score       Testing score       
-----      --------------       -------------       
2         (0.75, 0.6180555555555556) 
3         (0.8244047619047619, 0.6805555555555556) 
4         (0.8720238095238095, 0.7152777777777778) 
10         (1.0, 0.7569444444444444) 
15         (1.0, 0.7986111111111112) 
Full         (1.0, 0.7986111111111112) 


A partir de **max_depth=10** já está totalmente enviesado, aparentemente o melhor resultado é com o valor **max_depth=3**, pois a diferença entre a acertividade de *treino* e *teste* é de aproximadamente **14%**, enquanto os demais passam disso, ou, no caso do **max_depth=2** que também está no mesmo valor, a acertividade está mais baixa.

**Criando função para comparar os modelos de decision tree**

In [None]:
def compara_modelos_decision_tree(maxdepth):
    if maxdepth == 0:
        df = DecisionTreeClassifier(random_state=1)
    else: 
        df = DecisionTreeClassifier(random_state=1, max_depth=maxdepth)
    df.fit(X_train, y_train)
    train_score = df.score(X_train, y_train)
    test_score = df.score(X_test, y_test)
    return train_score,test_score

In [None]:
print('{:10} {:20} {:20}'.format('depth', 'Training score','Testing score'))
print('{:10} {:20} {:20}'.format('-----', '--------------','-------------'))
print('{:1}         {} '.format(2,str(compara_modelos_decision_tree(2))))
print('{:1}         {} '.format(3,str(compara_modelos_decision_tree(3))))
print('{:1}         {} '.format(4,str(compara_modelos_decision_tree(4))))
print('{:1}         {} '.format(10,str(compara_modelos_decision_tree(10))))
print('{:1}         {} '.format(15,str(compara_modelos_decision_tree(15))))
print('{:1}         {} '.format('Full',str(compara_modelos_decision_tree(0))))

depth      Training score       Testing score       
-----      --------------       -------------       
2         (0.6398809523809523, 0.6805555555555556) 
3         (0.7321428571428571, 0.7013888888888888) 
4         (0.7916666666666666, 0.7430555555555556) 
10         (0.9910714285714286, 0.6875) 
15         (1.0, 0.6944444444444444) 
Full         (1.0, 0.6944444444444444) 


A partir de **max_depth=10** já está totalmente enviesado, aparentemente o melhor resultado está entre os valores **max_depth=3** e **max_depth=4**, pois a diferença entre a acertividade de *treino* e *teste* é de aproximadamente **3%** e **5%**, respectivamente, enquanto os demais passam disso. Aquele tem uma difença menor em relação aos dados de *treino* e *teste*, contudo com acertividade inferior, então vale a pena cogitar utilizar o *max_depth=4*, uma vez que sua *acertividade* é melhor, embora o *erro* também seja maior.

# 5. Tuning do Modelo
Como expliquei, Tunning do modelo é a alteração dos parâmetros do algoritmo para que haja alguma melhora no seu resultado final.

O **Tuning** deve **SEMPRE** ser feito para que você possa tentar extrair o melhor do seu modelo.

Aqui utilizaremos o **GridSearchCV** da **sklearn.model_selection** para fazer o tuning. O Grid nos permite testar os parâmetros em várias combinações e irá nos permitir realmente encontrar os melhores parâmetros.

### Quando utilizar?
* Após você encontrar o melhor algoritmo e a razão disso é o custo computacional e temporal.
* Quanto *mais parâmetros* você colocar dentro do Grid, *mais demorado* será para o Grid retornar, então usá-lo com todos os parâmetros e todos os algoritmos não é uma boa prática, embora você possa querer fazer.

### Como usar?
* Para cada parâmetro você cria uma **lista de valores** que o algoritmo irá testar através de uma *análise combinatória* com os demais parâmetros.
* Após criar todas as listas, cria-se o **Dicionário** unindo todas as listas.
* O dicionário é bem intuitivo e utiliza o padrão **chave:valor**, assim como um dicionário onde se tem **palavra:explicação da palavra**.
* No dicionário a **chave** (key) será o nome do parâmetro do algoritmo e o **valor** (value) será a lista criada para aquele parâmetro.

**GridSearchCV para testes de Hyperparametros**

In [None]:
from sklearn.model_selection import GridSearchCV

In [None]:
# lista de possíveis valores de estimators ou quantidade de árvores da floresta.
valores_estimators = [10, 20, 50, 100, 150]
# lista de possíveis valores para o critério de divisão.
valores_criterion = ['gini','entropy']
# lista de possíveis valores para a profundidade máxima de cada árvore
valores_max_depth = [10, 20, 50, 100]
# lista de possíveis valores para os parametros min_samples_split e min_samples_leaf.
valores_min_samples_split = [2, 5, 10,15]
valores_min_samples_leaf = [1, 5, 10,15]

In [None]:
# definindo um dicionário que recebe as listas de parâmetros e valores
parametros_grid = dict(n_estimators=valores_estimators,
                       criterion=valores_criterion,
                       max_depth=valores_max_depth,
                       min_samples_split=valores_min_samples_split,
                       min_samples_leaf=valores_min_samples_leaf 
                      )

In [None]:
# visualizando o dicionário
parametros_grid

{'criterion': ['gini', 'entropy'],
 'max_depth': [10, 20, 50, 100],
 'min_samples_leaf': [1, 5, 10, 15],
 'min_samples_split': [2, 5, 10, 15],
 'n_estimators': [10, 20, 50, 100, 150]}

**Instanciando o GridSearch**

Passamos o modelo a ser utilizado, parametros, número de folds e scoring.

In [None]:
rf = RandomForestClassifier()
grid = GridSearchCV(rf, parametros_grid, cv=5, scoring='accuracy')

**Aplicando o GridSearch passando as features e classes**

In [None]:
grid.fit(df_edu.drop('Class',axis=1),df_edu['Class'])

GridSearchCV(cv=5, error_score=nan,
             estimator=RandomForestClassifier(bootstrap=True, ccp_alpha=0.0,
                                              class_weight=None,
                                              criterion='gini', max_depth=None,
                                              max_features='auto',
                                              max_leaf_nodes=None,
                                              max_samples=None,
                                              min_impurity_decrease=0.0,
                                              min_impurity_split=None,
                                              min_samples_leaf=1,
                                              min_samples_split=2,
                                              min_weight_fraction_leaf=0.0,
                                              n_estimators=100, n_jobs=None,
                                              oob_score=False,
                                              rando

### Retornos
* **grid.cv_results_**: trará todos os *resultados*.
* **grid.best_params_**: retornará os *melhores parâmetros* dentro dos definidos para o *tunning*.
* **grid.best_score_**: retorna o *melhor score*, ou seja, a melhor acurácia do modelo.

**Resultados**

In [None]:
grid.cv_results_

{'mean_fit_time': array([0.01833577, 0.02829838, 0.06594701, 0.1283946 , 0.18915715,
        0.01360168, 0.02670889, 0.06264515, 0.12474227, 0.18555307,
        0.01425366, 0.02506995, 0.0610867 , 0.12179561, 0.18202548,
        0.01300745, 0.02495756, 0.05991263, 0.11987729, 0.1903172 ,
        0.01342387, 0.02484183, 0.05972137, 0.11960592, 0.1771461 ,
        0.01309304, 0.02485433, 0.05996194, 0.12089462, 0.17704763,
        0.01309185, 0.02469759, 0.06087494, 0.1177597 , 0.17865787,
        0.0128428 , 0.02429032, 0.06008339, 0.11688786, 0.17624679,
        0.01267581, 0.02412977, 0.06235704, 0.13290181, 0.18257022,
        0.01281085, 0.02464528, 0.06155815, 0.11530566, 0.17289486,
        0.01314936, 0.02548509, 0.05962615, 0.11704512, 0.17458377,
        0.01372313, 0.02399955, 0.06075935, 0.11948581, 0.1706037 ,
        0.01348505, 0.02352324, 0.05634246, 0.11272035, 0.16617498,
        0.01312699, 0.02327175, 0.05662251, 0.1132834 , 0.16717787,
        0.01315417, 0.02319818,

**Melhores parâmetros**

In [None]:
grid.best_params_

{'criterion': 'gini',
 'max_depth': 50,
 'min_samples_leaf': 10,
 'min_samples_split': 15,
 'n_estimators': 100}

**Melhores scores**

In [None]:
grid.best_score_

0.7270833333333334

# Obrigado!

Obrigado por ter disponibilizado um pouco do seu tempo e atenção aqui. Espero que, de alguma forma, tenha sido útil para seu crescimento. Se houver qualquer dúvida ou sugestão, não hesite em entrar em contato no [LinkedIn](https://www.linkedin.com/in/daniel-sousa-amador) e verificar meus outros projetos no [GitHub](https://github.com/amadords).


[![LinkedIn](https://img.shields.io/badge/LinkedIn-DanielSousaAmador-cyan.svg)](https://www.linkedin.com/in/daniel-sousa-amador)
[![GitHub](https://img.shields.io/badge/GitHub-amadords-darkblue.svg)](https://github.com/amadords)
[![Medium](https://img.shields.io/badge/Medium-DanielSousaAmador-white.svg)](https://daniel-s-amador.medium.com/)


<center><img width="90%" src="https://raw.githubusercontent.com/danielamador12/Portfolio/master/github.png"></center>