# Random Forest
<p>Pertence a categoria de algoritmos <i>ensemble</i> que combinam vários modelos de aprendizado de máquina para criar
modelos mais poderosos. Esse modelo é eficaz para uma ampla gama de conjuntos de dados seja para classificação quanto para regressão, criando aleatóriamente várias árvores de decisão onde cada uma é encarregada de realizar uma predição.</p>
<p>A predição final é escolhida pelo método de votação por maioria. Por exemplo, no caso para classificação, cada classificador criado vota para uma classe dentre todas as classes de destino. A classe alvo que tiver maior número de votos é considerada como a prevista.</p>

## Vantagens

<ul>
<li>Fácil de interpretar</li>
<li>Pouco risco de <i>overfitting</i></li>
<li>Pode usar ambos dados categóricos e contínuos</li>
<li>Pode utilizar grandes conjuntos de dados e com alta dimensionalidade</li>
<li>Não é sensível a <i>outliers</i></li>
<li>Não paramétrico</li>
<li>Ótima predição frente a outros algoritmos de aprendizado de máquina</li>
<li>Não requer normalização dos dados</li>
<li>Consegue lidar com valores faltantes no conjunto de dados</li>
<li>Consegue lidar com conjunto de dados desbalanciados</li>
</ul>
## Desvantagens

<ul>
<li>Lento para realizar predição</li>
<li>Necessário poder computacional e recursos</li>
<li>Muitos parâmetros de configuração</li>
<li>Estado</li>


## Exemplo
<p>Vejamos um exemplo para criar modelo preditivo utilizando o algoritmo <i>Random Forest</i> para classificação de flores de íris.</p>

### Dataset: UCI Iris Dataset 

<p>Esse conjunto de dados de íris contém quatro variáveis (<i>features</i>) ​​que medem várias partes das flores da íris de três espécies relacionadas (<i>target</i>). A utilização desse conjunto de dados é muito comum pela comunidade de aprendizado de máquina, pois os dados exigem muito pouco pré-processamento, sendo ideal para o nosso exemplo onde o foco é na utilização do algoritmo.</p>

<p>Caso tenha interesse em conhecer mais sobre esse conjunto de dado, por favor vide <a href="https://scikit-learn.org/stable/datasets/toy_dataset.html#iris-dataset">aqui</a>.</p>


### Importação dos pacotes

In [2]:
import pandas as pd
import numpy as np
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import RandomizedSearchCV

### Carregamento do conjunto de dados

In [3]:
X, y = load_iris( return_X_y = True)

### Configuração dos parâmetros do algoritmo
<p><i>Random forest</i> contém vários parâmetros configuráveis e isso aumenta a complexidade de utilização.</p> Vejamos a seguir uma breve descrição dos parâmetros mais utilizados e também os valores mais adequados de utilização.

<ul>
<li><b>n_estimators</b>: quantidade de árvores de decisão para predição. Se o seu conjunto de dados for complexo pode exigir maior valor para esse parâmetro, além disso, quanto maior a quantidade de estimadores exigirá mais recursos e poder computacional.</li>
<li><b>criterion</b>: me a qualidade de divisão do nó na árvore, podendo ser o índice de Gini (impureza Gini <a href="https://towardsdatascience.com/what-is-gini-impurity-how-is-it-used-to-construct-decision-trees-75d01ed78812">mais detalhes</a>) e Entropia (ganho de informação <a href="https://towardsdatascience.com/entropy-how-decision-trees-make-decisions-2946b9c18c8">mais detalhes</a>).</li>
<li><b>bootstrap</b>: Se as amostras de <i>bootstrap</i> são usadas para construir árvores. Se for negativo, todo o conjunto de dados é usado para construir cada árvore do contrário, os dados são escolhidos estatisticamente levando a novas amostras.</li>
<li><b>max_depth</b>: número máximo de níveis para cada árvore.</li>
<li><b>max_features</b>: número máximo de características levadas em consideração para dividir o nó. Podendo ser valor da quantidade de características ou a fração, a raíz quadrada do número de características, logarítmo de base 2 do número de características. É interessante testar com <i>sqrt</i>, <i>log2</i>, <i>none</i> e fração entre 0 e 1 de 100 espaçados igualmente.</li>
<li><b>min_samples_leaf</b>: número mínimo de amostras na folha da árvore. Esse valor tende a ser pequeno.</li>
<li><b>min_samples_split</b>: número mínimo de amostras para dividir o nó, sendo melhor utilizar valores entre 0.05 (5%) a 1.0 (100%) da amostra de 10 espaços iguais.</li>
</ul>


In [4]:
max_depth = [int(x) for x in np.linspace(2, 100, num = 80)]
max_depth.append(None)
        
max_features = [x for x in np.linspace(0.1, 1, num = 80)]
max_features.extend(['sqrt', None, 'log2'])

params = {
    'n_estimators': range(100, 500, 10),
    'criterion': ['gini', 'entropy'],
    'bootstrap': [True, False],
    'max_depth': max_depth,
    'max_features': max_features,
    'min_samples_leaf': range(1, 10, 1),
    'min_samples_split': np.linspace(0.05, 1.0, 10, endpoint=True)}

### Inicia o treinamento da inteligência com espaço de busca

In [5]:
rfc_search = RandomizedSearchCV(RandomForestClassifier(), 
                                param_distributions=params, 
                                n_iter=500,
                                cv=3,
                                scoring = 'f1_macro',
                                verbose=False,
                                n_jobs=-1)

rfc_search.fit(X, y)

RandomizedSearchCV(cv=3, estimator=RandomForestClassifier(), n_iter=500,
                   n_jobs=-1,
                   param_distributions={'bootstrap': [True, False],
                                        'criterion': ['gini', 'entropy'],
                                        'max_depth': [2, 3, 4, 5, 6, 8, 9, 10,
                                                      11, 13, 14, 15, 16, 18,
                                                      19, 20, 21, 23, 24, 25,
                                                      26, 28, 29, 30, 31, 33,
                                                      34, 35, 36, 37, ...],
                                        'max_features': [0.1,
                                                         0.11139240506329115,
                                                         0.12278481012658228,
                                                         0.1341772151898734,
                                                         0.14556962025.

### Resultados
<p>Os resultados apresentados aqui dão uma ideia da qualidade do modelo gerado. Vale ressaltar que o propósito deste exemplo é no entendimento e configuração do algoritmo.</p>

In [7]:
classifier_rf = rfc_search.best_estimator_ 
print(f'Best params:\n{rfc_search.best_params_}')
print(f'Best score: {rfc_search.best_score_}')
print(f'Classifier: {classifier_rf}')

Best params:
{'n_estimators': 220, 'min_samples_split': 0.05, 'min_samples_leaf': 1, 'max_features': 0.7949367088607595, 'max_depth': 36, 'criterion': 'gini', 'bootstrap': True}
Best score: 0.9664230631972569
Classifier: RandomForestClassifier(max_depth=36, max_features=0.7949367088607595,
                       min_samples_split=0.05, n_estimators=220)
