#CEFET/RJ

**PPCIC - Programa de Pós-Graduação em Ciência da Computação**

**Mestrado em Ciência da Computação**

---

**Random Forests: Florestas Aleatórias**

**Disciplina**: Aprendizado de Máquina

**Professor**: Eduardo Bezerra

**Aluno**: Janio de Souza Lima

#1 O que são Florestas Aleatórias?

*Random Forests* é um método [ensemble learning](https://github.com/janiosl/python.ds/blob/master/ml/ensemble/ML_EnsembleLearning.ipynb) baseado em [Decision Trees](https://github.com/janiosl/python.ds/blob/master/ml/dTree/ML_DecisionTrees.ipynb), ou seja, o algoritmo é construído com base no treinamento de diversas árvores de decisão. As árvores individuais normalmente são treinadas em diferentes conjuntos de treinamento dos dados originais usando a técnica de *bagging* que realiza amostragens aleatórias sem reposição. Também é possível criar florestas aleatórias usando conjuntos de combinações lineares aleatórias dos atributos originais  [Han, 2012].

![random forest](https://upload.wikimedia.org/wikipedia/commons/7/76/Random_forest_diagram_complete.png)

Figura 1 - Ilustração de uma floresta aleatória ([Wikipedia](https://en.wikipedia.org/wiki/Random_forest))



##1.1 Implementação do Algoritmo com Scikit-Learn

In [None]:
#Carga do conjunto de dados
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_moons

X, y = make_moons(n_samples=500, noise=0.30, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

In [None]:
#Criação do objeto com o algoritmo RandomForestClassifier
from sklearn.ensemble import RandomForestClassifier

rnd_clf = RandomForestClassifier(n_estimators=500,
                                 max_leaf_nodes=16,
                                 n_jobs=-1)

Além da implementação acima, a floresta aletória também pode ser construída usado o *bagging classifier* da forma abaixo, obtendo os mesmos resultados.

In [None]:
#Criação do modelo
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier

bag_clf = BaggingClassifier(
    DecisionTreeClassifier(splitter='random', max_leaf_nodes=16),
    n_estimators=500,
    max_samples=1.0,
    bootstrap=True,
    random_state=42)

#2 Treinamento, Aplicação e Avaliação do Modelo

##2.1 Treinamento e realização de predições

In [None]:
#Treinamento do modelo
rnd_clf.fit(X_train, y_train)

RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='gini', max_depth=None, max_features='auto',
                       max_leaf_nodes=16, max_samples=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=500,
                       n_jobs=-1, oob_score=False, random_state=None, verbose=0,
                       warm_start=False)

In [None]:
#Predições
y_pred_rf = rnd_clf.predict(X_test)

In [None]:
#Conferência dos resultados
y_pred_rf

array([0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 1, 1, 0, 0, 1,
       0, 0, 0, 0, 1, 0, 1, 0, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 1, 0, 0,
       0, 0, 1, 0, 1, 0, 1, 1, 0, 0, 1, 0, 1, 1, 0, 1, 0, 1, 1, 0, 1, 0,
       0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 0,
       1, 1, 1, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 1, 1,
       1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0])

##2.2 Avaliação dos resultados do modelo treinado

In [None]:
#Geração do relatório de avaliação da classificação
from sklearn.metrics import classification_report
print(classification_report(y_test, y_pred_rf))

              precision    recall  f1-score   support

           0       0.87      0.97      0.91        61
           1       0.96      0.86      0.91        64

    accuracy                           0.91       125
   macro avg       0.92      0.91      0.91       125
weighted avg       0.92      0.91      0.91       125



Abaixo realizamos o treinamento e predição usando a implementação com o *bagging classifier* criado na etapa anterior para comparação dos resultados.

In [None]:
bag_clf.fit(X_train, y_train)

BaggingClassifier(base_estimator=DecisionTreeClassifier(ccp_alpha=0.0,
                                                        class_weight=None,
                                                        criterion='gini',
                                                        max_depth=None,
                                                        max_features=None,
                                                        max_leaf_nodes=16,
                                                        min_impurity_decrease=0.0,
                                                        min_impurity_split=None,
                                                        min_samples_leaf=1,
                                                        min_samples_split=2,
                                                        min_weight_fraction_leaf=0.0,
                                                        presort='deprecated',
                                                        random_state=None,
  

In [None]:
y_pred_bag = bag_clf.predict(X_test)
print(classification_report(y_test, y_pred_bag))

              precision    recall  f1-score   support

           0       0.88      0.97      0.92        61
           1       0.97      0.88      0.92        64

    accuracy                           0.92       125
   macro avg       0.92      0.92      0.92       125
weighted avg       0.92      0.92      0.92       125



#3 Avaliação de importância de características

É possível usar uma *random forest* para avaliar o peso das características. O código abaixo realiza esta tarefa

In [None]:
#Carga dos dados de exemplo
from sklearn.datasets import load_iris
iris = load_iris()

In [None]:
#Criação e treinamento do modelo
rnd_clf = RandomForestClassifier(n_estimators=500, n_jobs=-1)
rnd_clf.fit(iris['data'], iris['target'])

RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='gini', max_depth=None, max_features='auto',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=500,
                       n_jobs=-1, oob_score=False, random_state=None, verbose=0,
                       warm_start=False)

Exibição dos atributos e sua respectiva importância para o modelo treinado.

In [None]:
for name, score in zip(iris['feature_names'], rnd_clf.feature_importances_):
  print(name, score)

sepal length (cm) 0.10902096547886679
sepal width (cm) 0.023197950248631857
petal length (cm) 0.4273193040324781
petal width (cm) 0.44046178024002314


#Referências e Links

**Referências**

Han, Jiawei. Kamber, Micheline. Pei, Jian (2012) **Data Mining:** Concepts and techniques. Morgan Kaufmann, 3rd Edition.

McKinney, Wes (2018). **Python para Análise de Dados**: tratamento de dados com pandas, numpy e iPython. Traduzido por Lúcia A. Kinoshita. Novatec.

Géron, Aurélien (2019). **Mãos à Obra Aprendizagem de Máquina com Scikit-Learn & TensorFlow:** Conceitos, ferramentas e técnicas para a construção de sistemas inteligentes. Traduzido por Rafael Contatori. Alta Books.

Grus, Joel (2016). **Data Science do Zero:** Primeiras regras com Python. Traduzido por Welington Nascimento. Alta Books.

---
Conteúdos adicionais e explicações detalhadas do algoritmo em:

https://github.com/ageron/handson-ml2/blob/master/07_ensemble_learning_and_random_forests.ipynb

https://github.com/janiosl/python.ds/blob/master/ml/ensemble/ML_EnsembleLearning.ipynb

https://github.com/janiosl/python.ds/blob/master/ml/dTree/ML_DecisionTrees.ipynb

https://en.wikipedia.org/wiki/Random_forest