# Random Forest
É uma técnica que aplica diversas árvores de decisão e utiliza métodos de __Ensemble__ para combinar os resultados dessas árvores e obter uma predição única. Para problemas de __classificação__, o resultado será a moda (classe mais votada) entre as árvores. Para problemas de __regressão__, o resultado será a média das previsões das árvores.

__Funcionamento:__
- __Criação de várias árvores de decisão:__ Cada uma das árvores criadas é gerada a partir de um subconjunto aleatório de dados de treino. Esse processo é chamado de __bagging__, em que amostras aleatórias com reposição são extraídas dos dados de treino para formar o conjunto de dados que será usado por cada árvore. Além disso, o objetivo do __bagging__ é reduzir a variância, de forma a garantir que árvores diferentes não sejam treinadas com exatamente os mesmos dados.  
- __Seleção aleatória dos atributos:__ Em cada divisão de um nó, o algoritmo seleciona aleatoriamente um subconjunto de atributos ao invés de considerar todos os atributos para a divisão em cada nó da árvore. Isso é uma forma de garantir que cada árvore seja diferente, fazendo com que aumente a diversidade entre as árvores e evita que elas captem o mesmo padrão nos dados.
- __Treinamento das árvores:__ Cada árvore é treinada de maneira independente, e cada árvore se torna "especialista" em diferentes partes dos dados.
- __Agregação dos resultados:__ No caso de problemas de __classificação__, a Random Forest combina as previsões das diferentes árvores por meio de votação majoritária. Para __regressão__, a previsão final é a média das previsões de todas as árvores.

__Vantagens:__
- __Redução de Overfitting:__ Por utilizar diversas árvores e combinar suas previsões, tende a ser mais robusto e menos propenso a overfitting.
- __Lida com dados de alta dimensionalidade:__ Lida bem com grandes números de variáveis.
- __Estabilidade:__ Pequenas variações presentes nos dados não afetam muito seu desempenho.
- __Capacidade de lidar com dados ausentes:__ Consegue fazer seu treinamento mesmo com dados faltantes, pois substitui esses dados por estimativas durante o processo de treinamento.

__Desvantagens:__
- Possui alto custo computacional principalmente para grandes conjuntos de dados.
- Difícil de interpretar.

# Codificação

In [2]:
# Importação do google drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [1]:
# Importações
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import pickle
import warnings
warnings.filterwarnings('ignore')
plt.style.use('ggplot')

from sklearn.model_selection import train_test_split, KFold, cross_val_score, GridSearchCV
from sklearn.metrics import confusion_matrix, accuracy_score, classification_report, f1_score, precision_score, recall_score
from sklearn.ensemble import RandomForestClassifier

In [3]:
alvo = pd.read_pickle('/content/drive/MyDrive/Udemy/ML com Python/1 - Aprendizado Supervisionado: Classificacao/heart.pkl')

# Variáveis previsoras onde as variáveis categóricas foram transformadas em numéricas manualmente, sem escalonamento
previsores = pd.read_pickle('/content/drive/MyDrive/Udemy/ML com Python/1 - Aprendizado Supervisionado: Classificacao/heart2.pkl')

# previsores_esc = pd.read_pickle('/content/drive/MyDrive/Udemy/ML com Python/1 - Aprendizado Supervisionado: Classificacao/heart3.pkl')

# Variáveis previsoras onde as variáveis categóricas foram transformadas em numéricas pelo LabelEncoder.
previsores2 = pd.read_pickle('/content/drive/MyDrive/Udemy/ML com Python/1 - Aprendizado Supervisionado: Classificacao/heart4.pkl')

# Variáveis previsoras onde as variáveis categóricas foram transformadas em numéricas pelo LabelEncoder e OneHotEncoder, sem escalonamento.
previsores3 = pd.read_pickle('/content/drive/MyDrive/Udemy/ML com Python/1 - Aprendizado Supervisionado: Classificacao/heart5.pkl')

# Variáveis previsoras onde as variáveis categóricas foram transformadas pelo LabelEncoder e OHE, com escalonamento.
previsores3_esc = pd.read_pickle('/content/drive/MyDrive/Udemy/ML com Python/1 - Aprendizado Supervisionado: Classificacao/heart6.pkl')

In [4]:
X_tr, X_ts, y_tr, y_ts = train_test_split(previsores, alvo, test_size=.3, random_state=0)

In [5]:
X_tr.shape, y_tr.shape

((641, 11), (641,))

In [6]:
X_tr.shape, y_tr.shape

((641, 11), (641,))

In [7]:
# Instanciar o modelo
rf = RandomForestClassifier(random_state=0)

# Ajuste do modelo aos dados de treino
rf.fit(X_tr, y_tr)

In [8]:
# Realizar as predições
predict_rf = rf.predict(X_ts)
predict_rf

array([1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1,
       1, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1,
       1, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 1, 1, 0, 1, 1,
       1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1,
       1, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 1, 1, 0, 1, 0, 0, 0, 1,
       0, 1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1,
       1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0,
       1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1, 1, 0, 0, 1, 0,
       1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1, 1, 1, 0, 0,
       1, 0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0, 1, 0, 0, 1, 0, 1, 1,
       1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 0, 1, 0, 1, 1, 0,
       1, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0,
       1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 1, 1])

In [9]:
y_ts

Unnamed: 0,HeartDisease
306,1
710,0
298,1
466,0
253,0
...,...
49,1
456,1
342,1
906,1


In [10]:
# Metricas de desempenho nos dados de teste
print(f'Acurácia: {accuracy_score(y_ts, predict_rf)*100:.2f}')
print(f'F1-score: {f1_score(y_ts, predict_rf)*100:.2f}')
print(f'Precisão: {precision_score(y_ts, predict_rf)*100:.2f}')
print(f'Recall: {recall_score(y_ts, predict_rf)*100:.2f}')

Acurácia: 85.51
F1-score: 87.18
Precisão: 86.62
Recall: 87.74


In [11]:
# Matriz de confusao nos dados de teste e predicao
confusion_matrix(y_ts, predict_rf)

array([[100,  21],
       [ 19, 136]])

In [12]:
# Report das metricas de desempenho nos dados de teste e predicao
print(classification_report(y_ts, predict_rf))

              precision    recall  f1-score   support

           0       0.84      0.83      0.83       121
           1       0.87      0.88      0.87       155

    accuracy                           0.86       276
   macro avg       0.85      0.85      0.85       276
weighted avg       0.85      0.86      0.85       276



In [13]:
# Verificação de overfitting

predict_rf_tr = rf.predict(X_tr)
print(f'Acurácia: {accuracy_score(y_tr, predict_rf_tr)*100:.2f}')

Acurácia: 100.00


In [14]:
# Matriz de confusao dos dados de treino
confusion_matrix(y_tr, predict_rf_tr)

array([[289,   0],
       [  0, 352]])

# Validação Cruzada e Teste de Diferentes Parâmetros

In [15]:
# KFold
kfold = KFold(n_splits = 10, shuffle=True, random_state=0)

In [16]:
# Aplicação da validação cruzada
result_rf = cross_val_score(rf, X_tr, y_tr, cv=kfold)
print(f'Acurácia: {result_rf.mean()*100:.2f} Desvio Padrão: {result_rf.std()*100:.2f}')

Acurácia: 86.42 Desvio Padrão: 3.65


In [17]:
# Validacao cruzada nos dados de TESTE
result_rf_test = cross_val_score(rf, X_ts, y_ts, cv=kfold)
print(f'Acurácia: {result_rf_test.mean()*100:.2f} Desvio Padrão: {result_rf_test.std()*100:.2f}')

Acurácia: 86.63 Desvio Padrão: 4.75


In [18]:
# Matriz de confusao nos dados de teste apos a aplicacao da validacao cruzada
print(confusion_matrix(y_ts, predict_rf))

[[100  21]
 [ 19 136]]


In [19]:
# Report das metricas de desempenho nos dados de teste apos aplicacao da validacao cruzada.
print(classification_report(y_ts, predict_rf))

              precision    recall  f1-score   support

           0       0.84      0.83      0.83       121
           1       0.87      0.88      0.87       155

    accuracy                           0.86       276
   macro avg       0.85      0.85      0.85       276
weighted avg       0.85      0.86      0.85       276



In [20]:
# Diferentes parâmetros a testar na Random Forest

params = {
    'n_estimators': [50, 100, 150],
    'criterion': ['gini', 'entropy'],
    'max_depth': [3, 4, 5],
    'min_samples_split': [2, 3, 4, 5],
    'min_samples_leaf': [1, 2, 3, 4, 5]
}

In [22]:
# Aplicacao dos parametros no GridSearch
grid_search = GridSearchCV(rf, param_grid=params, cv=kfold)

In [23]:
# Ajuste dos dados
grid_search.fit(X_tr, y_tr)

In [24]:
# Verificação dos melhores parâmetros
print(f'Melhores parâmetros: {grid_search.best_params_}')
print(f'Melhor acurácia (validacao cruzada no treino): {grid_search.best_score_}')

Melhores parâmetros: {'criterion': 'gini', 'max_depth': 5, 'min_samples_leaf': 3, 'min_samples_split': 2, 'n_estimators': 50}
Melhor acurácia (validacao cruzada no treino): 0.8611057692307693


# Aplicação dos melhores parâmtros aos dados de teste

In [25]:
# Otimizacao do modelo com os melhores parametros
best_rf = RandomForestClassifier(
    n_estimators=grid_search.best_params_['n_estimators'],
    criterion=grid_search.best_params_['criterion'],
    max_depth=grid_search.best_params_['max_depth'],
    min_samples_split=grid_search.best_params_['min_samples_split'],
    min_samples_leaf=grid_search.best_params_['min_samples_leaf'],
    random_state=0
)

In [26]:
# Ajuste dos dados de treino aos melhores parametros
best_rf.fit(X_tr, y_tr)

In [27]:
# Realizar as predições
predict_best_rf = best_rf.predict(X_ts)
predict_best_rf

array([1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1,
       1, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1,
       1, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 1, 0, 1, 1,
       1, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1,
       1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 1, 0, 1, 0, 0, 0, 1,
       0, 1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1,
       1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 0,
       1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1, 1, 0, 0, 1, 0,
       1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0,
       1, 0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 1, 0, 1, 1,
       1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 0,
       1, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 0,
       0, 0, 0, 0, 1, 0, 0, 1, 1, 1, 1, 1])

In [28]:
# Metricas de desempenho apos aplicacao dos melhores parametros
print(f'Acurácia (modelo otimizado): {accuracy_score(y_ts, predict_best_rf)*100:.2f}')
print(f'F1-score (modelo otimizado): {f1_score(y_ts, predict_best_rf)*100:.2f}')
print(f'Precisão (modelo otimizado): {precision_score(y_ts, predict_best_rf)*100:.2f}')
print(f'Recall (modelo otimizado): {recall_score(y_ts, predict_best_rf)*100:.2f}')

Acurácia (modelo otimizado): 85.14
F1-score (modelo otimizado): 86.64
Precisão (modelo otimizado): 87.50
Recall (modelo otimizado): 85.81


In [29]:
# Matriz de confusao apos aplicacao dos melhores parametros
confusion_matrix(y_ts, predict_best_rf)

array([[102,  19],
       [ 22, 133]])

In [30]:
# Report das metricas de desempenho apos aplicacao dos melhores parametros
print(classification_report(y_ts, predict_best_rf))

              precision    recall  f1-score   support

           0       0.82      0.84      0.83       121
           1       0.88      0.86      0.87       155

    accuracy                           0.85       276
   macro avg       0.85      0.85      0.85       276
weighted avg       0.85      0.85      0.85       276



In [31]:
# Verificação de overfitting

predict_best_rf_tr = best_rf.predict(X_tr)
print(f'Acurácia no treino (modelo otimizado): {accuracy_score(y_tr, predict_best_rf_tr)*100:.2f}')

Acurácia no treino (modelo otimizado): 90.33


In [32]:
# Matriz de confusao apos aplicacao dos melhores parametros.
confusion_matrix(y_tr, predict_best_rf_tr)

array([[249,  40],
       [ 22, 330]])

In [33]:
print(classification_report(y_ts, predict_best_rf))

              precision    recall  f1-score   support

           0       0.82      0.84      0.83       121
           1       0.88      0.86      0.87       155

    accuracy                           0.85       276
   macro avg       0.85      0.85      0.85       276
weighted avg       0.85      0.85      0.85       276



In [34]:
# Validacao cruzada nos dados de teste apos otimizacao do modelo.
result_best_rf_test = cross_val_score(best_rf, X_ts, y_ts, cv=kfold)
print(f'Acurácia (validação cruzada no teste - modelo otimizado): {result_best_rf_test.mean()*100:.2f} Desvio Padrão: {result_best_rf_test.std()*100:.2f}')

Acurácia (validação cruzada no teste - modelo otimizado): 86.23 Desvio Padrão: 3.85
