# Randon Forest

é um poderoso modelo de aprendizado supervisionado usado tanto para problemas de classificação quanto de regressão. 

É uma extensão do algoritmo de Árvores de Decisão que melhora a precisão e reduz o overfitting.

Basicamente é um ensemble de várias Árvores de Decisão, onde cada árvore é treinada em um subconjunto aleatório dos dados e das características. 

O resultado final é a média ou a maioria dos votos das previsões de todas as árvores. 

Esse processo ajuda a aumentar a robustez e a precisão do modelo.

**Principais Vantagens**
* **Redução de Overfitting:** Como combina os resultados de múltiplas árvores, tende a ter uma menor variância em comparação com uma única árvore de decisão.
* **Precisão:** Normalmente resulta em uma precisão maior.
* **Flexibilidade:** Pode ser usado tanto para classificação quanto para regressão.
* **Estimativa da Importância das Variáveis:** Pode medir a importância de cada variável no processo de previsão.

**Passos do Algoritmo Random Forest**
* **Seleção Aleatória de Dados:** Cada árvore é treinada em um subconjunto aleatório do conjunto de dados de treinamento (com reposição, chamado de bootstrapping).
* **Seleção Aleatória de Características:** Para cada divisão em uma árvore, um subconjunto aleatório de características é escolhido.
* **Construção de Árvores de Decisão:** Cada árvore é construída até sua completude ou até atingir um critério de parada (por exemplo, profundidade máxima).
* **Agregação de Resultados:** Para classificação, o resultado final é a classe mais votada por todas as árvores. Para regressão, é a média das previsões de todas as árvores.

❇️ **Exemplo de Classificação com Random Forest**

In [1]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Carregar o conjunto de dados Iris
iris = load_iris()
X, y = iris.data, iris.target

# Dividir os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Padronizar os dados
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Criar e treinar o modelo Random Forest
rf = RandomForestClassifier(n_estimators=100, random_state=42)
rf.fit(X_train, y_train)

# Fazer previsões
y_pred = rf.predict(X_test)

# Avaliar o modelo
print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred))
print("Classification Report:\n", classification_report(y_test, y_pred))
print(f"Accuracy: {accuracy_score(y_test, y_pred):.2f}")

Confusion Matrix:
 [[19  0  0]
 [ 0 13  0]
 [ 0  0 13]]
Classification Report:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        19
           1       1.00      1.00      1.00        13
           2       1.00      1.00      1.00        13

    accuracy                           1.00        45
   macro avg       1.00      1.00      1.00        45
weighted avg       1.00      1.00      1.00        45

Accuracy: 1.00


❇️ **Exemplo de Regressão com Random Forest**

In [2]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error

# Vamos usar um conjunto de dados de exemplo
data = {
    'X': np.arange(1, 11),
    'y': np.array([1.1, 2.0, 3.2, 4.1, 5.3, 6.2, 7.4, 8.2, 9.3, 10.1])
}
df = pd.DataFrame(data)

# Dividir os dados em conjuntos de treinamento e teste
X = df[['X']]
y = df['y']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Criar e treinar o modelo Random Forest Regressor
rf_regressor = RandomForestRegressor(n_estimators=100, random_state=42)
rf_regressor.fit(X_train, y_train)

# Fazer previsões
y_pred = rf_regressor.predict(X_test)

# Avaliar o modelo
mse = mean_squared_error(y_test, y_pred)
print(f"Mean Squared Error: {mse:.2f}")


Mean Squared Error: 0.31


❇️ Exemplo

In [3]:
from sklearn.preprocessing import LabelEncoder

In [5]:
credito = pd.read_csv('Credit.csv')

In [26]:
#apenas valores sem cabeçalho com .values
previsores = credito.iloc[:, 0:20].values 
previsto = credito.iloc[:, 20].values

In [10]:
le = LabelEncoder()
colunas = [0,2,3,5,6,8,9,11,13,14,16,18,19]
for i in colunas:
    previsores[:, i] = le.fit_transform(previsores[:, i])

In [12]:
X1, X2, y1, y2 = train_test_split(previsores, 
                                  previsto,
                                  test_size=0.3,
                                  random_state=0)

In [13]:
floresta = RandomForestClassifier(n_estimators=100)

In [14]:
floresta.fit(X1, y1)

In [21]:
floresta.estimators_

[DecisionTreeClassifier(max_features='sqrt', random_state=482816385),
 DecisionTreeClassifier(max_features='sqrt', random_state=1659491573),
 DecisionTreeClassifier(max_features='sqrt', random_state=1871374230),
 DecisionTreeClassifier(max_features='sqrt', random_state=473041430),
 DecisionTreeClassifier(max_features='sqrt', random_state=141565064),
 DecisionTreeClassifier(max_features='sqrt', random_state=665931335),
 DecisionTreeClassifier(max_features='sqrt', random_state=1466662347),
 DecisionTreeClassifier(max_features='sqrt', random_state=593055620),
 DecisionTreeClassifier(max_features='sqrt', random_state=1537456616),
 DecisionTreeClassifier(max_features='sqrt', random_state=643809054),
 DecisionTreeClassifier(max_features='sqrt', random_state=1785278105),
 DecisionTreeClassifier(max_features='sqrt', random_state=1321183480),
 DecisionTreeClassifier(max_features='sqrt', random_state=1738002164),
 DecisionTreeClassifier(max_features='sqrt', random_state=36721555),
 DecisionTreeC

In [23]:
floresta.predict(X2)

array(['bad', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'bad', 'bad', 'bad', 'good', 'good', 'good', 'good',
       'good', 'good', 'bad', 'good', 'good', 'bad', 'good', 'good',
       'good', 'bad', 'good', 'good', 'good', 'bad', 'good', 'good',
       'good', 'good', 'good', 'bad', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'bad', 'bad', 'bad',
       'good', 'good', 'good', 'bad', 'good', 'good', 'good', 'good',
       'bad', 'good', 'good', 'good', 'bad', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'bad', 'good', 'good', 'good',
       'good', 'good', 'bad', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'bad', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'bad', 'good', 'good', 'good',
       'good', 'good', 'bad', 'bad', 'bad', 'good', 'good', 'bad', 'bad',
       'good', 'good',

In [24]:
confusion_matrix(y2, floresta.predict(X2))

array([[ 38,  48],
       [ 19, 195]])

In [25]:
accuracy_score(y2, floresta.predict(X2))

0.7766666666666666