# Random forest.
Floresta aleatórias é um algoritmo de aprendizado supervisionado, que pode ser usado tanto para classificação quanto para regressão, é tambepm o algoritmo mais flexivel e fácil de usar. Uma floresta é composta por árvores, diz-se que quanto mais árvores tem, mais robusta é a floresta, florestas aleatórias criam árvore de decisão em amostras de dados selecionando-os aleatoriamene, obtém previsões de cada árvore e seleciona a melhor solução por meio de votação.

## Como funciona o algoritmo.
* Seleciona amostras aleatórias de um determinado conjunto conjunto de dados.
* Construa uma árvore de decisão para cada amostra e obtenha um resultado de previsão de cada árvore.
* Execute uma votação para cada resultado.
* Seleciona o resultado da previsão com mais votos como a previsão final.

![img](https://res.cloudinary.com/dyd911kmh/image/upload/f_auto,q_auto:best/v1526467744/voting_dnjweq.jpg)

## Vantagens.
* É considerado um método altamente preciso e robusto devido ao número de árvores de decisão que estão no processo.
* Ele não sofre problema de overfitting.
* O algoritmo pode ser usado em problemas de classificação e regressão.
* Podem lidar com valores ausentes.
* Você pode obter a importância relativa do recurso, o que ajuda a selecionar os recursos que contribuiem para o classificador.

## Desvantagens.
* Demora ao gerar previsões por que têm várias árvores de decisão. Sempre que ele faz uma previsão, todas as árvores da floresta têm que fazer uma previsão para o mesmo dado de entrada e, em seguida votar nele.
* O modelo é dificil de interpretar em comparação com uma árvore de decisão, onde você pode facilmente tomar uma decisão seguindo o caminho na árvore.

In [37]:
import pandas as pd
import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn import metrics


In [38]:
iris = datasets.load_iris()
print(iris)

{'data': array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
     

In [39]:
print(iris.target_names)

['setosa' 'versicolor' 'virginica']


In [40]:
print(iris.feature_names)

['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']


In [41]:
print(iris.data[0:5])

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]]


In [42]:
data = pd.DataFrame({
    'sepal length': iris.data[:,0],
    'sepal width':iris.data[:,1],
    'petal length':iris.data[:,2],
    'petal width':iris.data[:,3],
    'species':iris.target
})
data.head()

Unnamed: 0,sepal length,sepal width,petal length,petal width,species
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [43]:
X = data[['sepal length', 'sepal width', 'petal length', 'petal width']]
y = data['species']

X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.3)

In [44]:
clf = RandomForestClassifier(n_estimators=100)

clf.fit(X_train,y_train)

y_pred = clf.predict(X_test)

In [45]:
metrics.accuracy_score(y_test, y_pred)

0.9111111111111111

* Fazer uma previsão para m único item, por exemplo:
    * comprimento = 3
    * largura = 5
    * comprimento da pétala = 4 
    * largura da pétala = 2
    

In [46]:
clf.predict([[3,5,4,2]])

array([1])