# Florestas Aleatórias (Random Forests) são um método de aprendizado de máquina para classificação, regressão e outras tarefas que operam através da construção de múltiplas árvores de decisão na fase de treinamento. Para previsões de classificação, o output do modelo de Florestas Aleatórias é a classe escolhida pela maioria das árvores. No caso de regressão, é a média das saídas das árvores individuais.

## Como funciona

* Ensamble Learning: Florestas Aleatórias são um exemplo de "ensemble learning", onde múltiplos modelos (neste caso, árvores de decisão) são combinados para melhorar a robustez e a precisão das previsões.
* Construção de Múltiplas Árvores: Durante o treinamento, várias árvores de decisão são construídas. Cada árvore é treinada em um subconjunto aleatório dos dados, tornando cada árvore ligeiramente diferente das outras.
* Aleatoriedade na Seleção de Atributos: Quando uma árvore na floresta está crescendo, em cada divisão, um subconjunto aleatório de atributos é considerado. Isso aumenta a diversidade entre as árvores, contribuindo para um modelo mais robusto e menos suscetível a sobreajuste.
* Agregação de Resultados: As previsões de todas as árvores individuais são agregadas para formar a previsão final. Isso pode ser feito por meio de votação (para classificação) ou média (para regressão).

### Vantagens
* Alto Desempenho e Flexibilidade: Geralmente fornece uma precisão de previsão alta e pode ser usada tanto para classificação quanto para regressão.
* Robustez a Sobreajuste: Devido à construção de múltiplas árvores e à aleatoriedade introduzida no processo, as Florestas Aleatórias são menos propensas a sobreajuste do que uma única árvore de decisão.
* Lida Bem com Dados Grandes e Complexos: Pode manejar um grande número de recursos e funciona bem com datasets de alta dimensão.

### Desvantagens

* Complexidade e Interpretabilidade: São mais complexas e menos interpretáveis do que as árvores de decisão individuais.
* Desempenho em Tempo Real: Pode ser lenta para fazer previsões em tempo real devido à necessidade de agregar resultados de várias árvores.
* Uso de Recursos: Requer mais recursos computacionais devido à construção de múltiplas árvores.

#### Exemplo de código


In [1]:
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, classification_report

# Carregando o dataset Iris
iris = load_iris()
X = iris.data
y = iris.target


In [2]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [3]:
rf = RandomForestClassifier(random_state=42)
rf.fit(X_train, y_train)

In [4]:
y_pred = rf.predict(X_test)

# Matriz de Confusão
print(confusion_matrix(y_test, y_pred))

# Relatório de classificação
print(classification_report(y_test, y_pred))

[[19  0  0]
 [ 0 13  0]
 [ 0  0 13]]
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        19
           1       1.00      1.00      1.00        13
           2       1.00      1.00      1.00        13

    accuracy                           1.00        45
   macro avg       1.00      1.00      1.00        45
weighted avg       1.00      1.00      1.00        45

