# Random Forest
Floresta aleatória (random forest) é um algoritmo de aprendizado de máquina supervisionado. É um dos algoritmos mais utilizados devido à sua precisão, simplicidade e flexibilidade. O fato de poder ser usado para tarefas de classificação e regressão, combinado com sua natureza não linear, torna-o altamente adaptável a uma variedade de dados e situações.

![](https://www.tibco.com/sites/tibco/files/media_entity/2021-05/random-forest-diagram.svg)

É chamado de “floresta” porque desenvolve uma floresta de árvores de decisão. Os dados dessas árvores são então mesclados para garantir as previsões mais precisas. Enquanto uma árvore de decisão individual tem um resultado e uma gama estreita de grupos, a floresta garante um resultado mais preciso, com um número maior de grupos e decisões. Ela tem o benefício adicional de trazer aleatoriedade ao modelo, encontrando o melhor recurso em um subconjunto aleatório de recursos. No geral, esses benefícios criam um modelo com ampla diversidade que muitos cientistas de dados favorecem.

**Por que Random Forest é tão famoso e amplamente adotado?**

Por ter suas origens na forma mais básica e inicial de um algoritmo de suporte a decisão (as árvores de decisão), fica muito fácil entender seu funcionamento.
Random Forests resolvem problemas tanto de regressão (ex.: prever valor de uma casa) quanto de classificação (e-mail é spam ou não é spam).
Apresenta bons resultados em diversos tipos de problema.
Tem bom desempenho.
Possui implementações nas mais diversas bibliotecas de inteligência artificial disponíveis atualmente

**O algoritmo possui 4 passos:**
1. Seleção aleatória de algumas features
2. Seleção da feature mais adequada para a posição de nó raiz

3. Geração dos nós filhos

4. Repete os passos acima até que se atinja a quantidade de árvores desejada

Depois que o modelo é gerado, as previsões são feitas a partir de “votações”. Cada mini árvore toma uma decisão a partir dos dados apresentados. A decisão mais votada é a resposta do algoritmo.

# Aplicando Random Forest
Vamos continuar do exemplo do nosso notebook de Árvore de Decisão. Veremos como se comporta a mesma abordagem, mas agora por Random Forest.

A seguir, faremos os mesmos passos para preparar os dados:

In [1]:
import pandas as pd
from sklearn.datasets import load_iris

data = load_iris()

# transformando em DataFrame
iris = pd.DataFrame(data.data)
iris.columns = data.feature_names
iris['target'] = data.target

iris['target']=  pd.Categorical.from_codes(iris.target, data.target_names)

X = iris.drop(['target'], axis=1)
y = iris['target']

# Criando o nosso modelo de Random Forest


In [2]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score

clf = RandomForestClassifier(random_state=42,
                           criterion='gini',
                           max_depth=10,
                           n_estimators=50,
                           n_jobs=-1)

clf.fit(X,y)


Validando o nosso modelo por meio de **Cross-validation**.

Lembremos que no exemplo anterior, com Árvore de Decisão, obtivemos um score de **0,953**.

In [3]:
scores_rf = cross_val_score(clf, X, y,
                            scoring='accuracy', cv=5)

print(scores_rf.mean())

0.9666666666666668


![](https://pyxis.nymag.com/v1/imgs/d6a/dc7/4a5001b7beea096457f480c8808572428b-09-roll-safe.rhorizontal.w700.jpg)

# Fazendo predições


In [4]:
Test_point = [[5.4,3.0,4.5,1.5],
             [6.5,2.8,4.6,1.5],
             [5.1,2.5,3.0,1.1],
             [5.1,3.3,1.7,0.5],
             [6.0,2.7,5.1,1.6],
             [6.0,2.2,5.0,1.5]]

print(clf.predict(Test_point))

['versicolor' 'versicolor' 'versicolor' 'setosa' 'versicolor' 'virginica']




---
Fontes:
* https://didatica.tech/o-que-e-e-como-funciona-o-algoritmo-randomforest/
* https://icmcjunior.com.br/random-forest/
* https://www.tibco.com/pt-br/reference-center/what-is-a-random-forest
* https://medium.com/cinthiabpessanha/random-forest-como-funciona-um-dos-algoritmos-mais-populares-de-ml-cc1b8a58b3b4

![](![image.png])