# **MÓDULO 32 - AULA 3**
# Random Forest - Classificação


Vamos implementar um modelo de classificação Random Forest utilizando a base de leads da nossa loja automobilistica, a mesma que usamos na aula de regressão logistica. Vamos explorar como o Random Forest pode melhorar a precisão das previsões e a robustez do modelo. Além disso, veremos como ajustar hiperparâmetros para otimizar o desempenho do modelo. Essa prática reforçará a teoria aprendida e demonstrará a aplicação prática desse algoritmo poderoso.

In [1]:
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.model_selection import RandomizedSearchCV


In [2]:
base = pd.read_csv("CARRO_CLIENTES (1).csv", delimiter=',')

In [3]:
# Substituindo os valores da coluna 'GENDER' por números específicos utilizando o replace
gender_mapping = {'Male': 0, 'Female': 1}
base['Gender'] = base['Gender'].replace(gender_mapping)

  base['Gender'] = base['Gender'].replace(gender_mapping)


In [4]:
# Separando em X (variáveis de entrada) e Y (variável de saída)
X = base.drop('Purchased', axis=1)  # X contém todas as colunas exceto 'Purchased'
Y = base['Purchased']  # Y contém apenas a coluna 'Purchased'

In [5]:
# Separar em base de treino e teste (usando 80% para treino e 20% para teste)
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=42)

Para essa aula testaremos nosso RF sem fazer a padronização dos dados, como fizemos na regressão logistica.

Random Forest geralmente se adapta melhor a dados despadronizados em comparação com a regressão logística. Isso ocorre porque o Random Forest é baseado em árvores de decisão, que são menos sensíveis à escala dos dados.

Aplicando nosso modelo sem ajustar hyperparametros:


In [6]:
# Iniciando o modelo Random Forest
rf_model = RandomForestClassifier(random_state=42)

In [7]:
# Treinando o modelo
rf_model.fit(X_train, Y_train)

In [8]:
# Fazendo previsões no conjunto de teste
Y_pred = rf_model.predict(X_test)

In [9]:
# Avaliando o modelo
accuracy = accuracy_score(Y_test, Y_pred)
report = classification_report(Y_test, Y_pred)
conf_matrix = confusion_matrix(Y_test, Y_pred)

print(f"Acurácia: {accuracy:.2f}")
print("Relatório de Classificação:\n", report)
print("Matriz de Confusão:\n", conf_matrix)

Acurácia: 0.91
Relatório de Classificação:
               precision    recall  f1-score   support

           0       0.91      0.93      0.92       112
           1       0.91      0.89      0.90        88

    accuracy                           0.91       200
   macro avg       0.91      0.91      0.91       200
weighted avg       0.91      0.91      0.91       200

Matriz de Confusão:
 [[104   8]
 [ 10  78]]


Precisão: Para ambas as classes, 91% das previsões positivas foram corretas.

Recall: Para a classe 0, 93% dos casos reais positivos foram identificados corretamente, enquanto para a classe 1, 89% foram identificados corretamente.

F1: Para a classe 0, o F1-Score é 0.92, e para a classe 1, é 0.90.

Verdadeiros Negativos: 104
Falsos positivos: 8
Falsos Negativos: 10
Verdadeiros Positivos: 78

Nosso objetivo é identificar possíveis compradores de carros a partir dos leads de clientes que entram no site, para enviar eventos promocionais.

**Falsos Positivos:** Clientes que são classificados como potenciais compradores (classe 1), mas que na verdade não comprarão um carro (classe 0).

Impacto: Enviar eventos promocionais para esses clientes que não têm intenção de comprar.
- Custo de envio de promoções e recursos de marketing desnecessários.

**Falsos Negativos:** Clientes que são classificados como não compradores (classe 0), mas que na verdade comprariam um carro (classe 1).

Impacto: Perder oportunidades de conversão porque os clientes que poderiam ser compradores não receberam eventos promocionais.
- Perda de receita potencial devido a oportunidades perdidas.


# Melhorando nosso Modelo.

**Definir o Espaço de Busca dos Hiperparâmetros:** Identificaremos os hiperparâmetros que desejamos otimizar.

Alguns hiperparâmetros importantes para o Random Forest incluem:

n_estimators: Número de árvores na floresta.

max_depth: Profundidade máxima das árvores.

min_samples_split: Número mínimo de amostras necessárias para dividir um nó.

min_samples_leaf: Número mínimo de amostras necessárias para estar em um nó folha.

max_features: Número de recursos a serem considerados para encontrar a melhor divisão.

In [10]:
# Definir o espaço de busca dos hiperparâmetros
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4],
    'max_features': ['sqrt', 'log2', None]
}

In [11]:
# Configurando o Randomized Search
random_search = RandomizedSearchCV(estimator=rf_model, param_distributions=param_grid,
                                   n_iter=100, cv=5, n_jobs=-1, verbose=2, random_state=42, scoring='accuracy')

**estimator=rf_model:**

Este parâmetro especifica o modelo base que será ajustado. No caso, rf_model é o modelo de Random Forest que você deseja otimizar.

**param_distributions=param_grid:**

Este parâmetro contém o dicionário de hiperparâmetros a serem amostrados. param_grid deve ser um dicionário onde as chaves são os nomes dos hiperparâmetros e os valores são listas de valores ou distribuições probabilísticas dos quais serão sorteados.


**n_iter=100:**

Este parâmetro define o número de combinações diferentes de hiperparâmetros a serem testadas. Com 100 iterações, o RandomizedSearchCV vai experimentar 100 combinações aleatórias dos hiperparâmetros especificados.


**cv=5:**
Este parâmetro define o número de dobras para a validação cruzada. cv=5 significa que os dados serão divididos em 5 partes, e o modelo será treinado e validado 5 vezes.



In [12]:
# Executando o Randomized Search
random_search.fit(X_train, Y_train)

Fitting 5 folds for each of 100 candidates, totalling 500 fits
[CV] END max_depth=10, max_features=log2, min_samples_leaf=4, min_samples_split=10, n_estimators=50; total time=   0.1s
[CV] END max_depth=10, max_features=log2, min_samples_leaf=4, min_samples_split=10, n_estimators=50; total time=   0.1s
[CV] END max_depth=10, max_features=log2, min_samples_leaf=4, min_samples_split=10, n_estimators=50; total time=   0.1s
[CV] END max_depth=10, max_features=log2, min_samples_leaf=4, min_samples_split=10, n_estimators=50; total time=   0.1s
[CV] END max_depth=10, max_features=log2, min_samples_leaf=4, min_samples_split=10, n_estimators=50; total time=   0.1s
[CV] END max_depth=10, max_features=log2, min_samples_leaf=1, min_samples_split=2, n_estimators=50; total time=   0.1s
[CV] END max_depth=10, max_features=log2, min_samples_leaf=1, min_samples_split=2, n_estimators=50; total time=   0.1s
[CV] END max_depth=10, max_features=log2, min_samples_leaf=1, min_samples_split=2, n_estimators=50;

In [13]:
# Obtendo os melhores hiperparâmetros através do método randomico
best_params = random_search.best_params_
print(f"Melhores Hiperparâmetros: {best_params}")

Melhores Hiperparâmetros: {'n_estimators': 50, 'min_samples_split': 10, 'min_samples_leaf': 1, 'max_features': 'log2', 'max_depth': 10}


**n_estimators -  50**

Descrição: Este parâmetro define o número de árvores na floresta.


**min_samples_split- 10**

Descrição: Este parâmetro define o número mínimo de amostras necessárias para dividir um nó.

**min_samples_leaf- 1**

Descrição: Este parâmetro especifica o número mínimo de amostras que um nó folha deve ter.


**max_features - 'log2'**

Descrição: Este parâmetro define o número de características a serem consideradas ao procurar a melhor divisão. Com log2, o modelo considera o logaritmo de base 2 do número total de características.

**max_depth: - 10**

Descrição: Este parâmetro especifica a profundidade máxima das árvores na floresta.

In [14]:
# Treinando o modelo com os melhores hiperparâmetros encontrados acima
best_rf_model = random_search.best_estimator_
best_rf_model.fit(X_train, Y_train)

In [15]:
Y_pred = best_rf_model.predict(X_test)

In [16]:
accuracy = accuracy_score(Y_test, Y_pred)
report = classification_report(Y_test, Y_pred)
conf_matrix = confusion_matrix(Y_test, Y_pred)

print(f"Acurácia: {accuracy:.2f}")
print("Relatório de Classificação:\n", report)
print("Matriz de Confusão:\n", conf_matrix)

Acurácia: 0.91
Relatório de Classificação:
               precision    recall  f1-score   support

           0       0.91      0.94      0.92       112
           1       0.92      0.88      0.90        88

    accuracy                           0.91       200
   macro avg       0.91      0.91      0.91       200
weighted avg       0.91      0.91      0.91       200

Matriz de Confusão:
 [[105   7]
 [ 11  77]]


# **MÓDULO 32 - AULA 4**
# Random Forest - Regressão


In [17]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

Vamos abordar um problema de previsão de preços de aluguel. O objetivo é prever o valor do aluguel de imóveis com base em diversas características como localização, número de quartos etc.

Random Forest é uma técnica versátil de aprendizado de máquina que pode ser utilizada tanto para problemas de regressão quanto para classificação assim como as árvores de decisão.

No caso da regressão, o Random Forest faz a previsão tomando a média das previsões de todas as árvores da floresta. Cada árvore individual faz uma estimativa para o valor contínuo do alvo, e o Random Forest combina essas estimativas, calculando a média para produzir a previsão final. Isso ajuda a suavizar as previsões e a reduzir a variabilidade, resultando em um modelo mais estável e preciso.

In [18]:
base_imov = pd.read_csv("ALUGUEL_MOD12 (1).csv", delimiter=';')

In [19]:
base_imov.describe()

Unnamed: 0,Valor_Aluguel,Valor_Condominio,Metragem,N_Quartos,N_banheiros,N_Suites,N_Vagas
count,7203.0,7203.0,7203.0,7203.0,7203.0,7203.0,7203.0
mean,2966.59614,811.538109,88.506178,2.300153,2.095932,1.01666,1.44176
std,2948.720385,796.564846,61.567505,0.826615,0.983812,0.874204,0.86993
min,480.0,0.0,30.0,1.0,1.0,0.0,0.0
25%,1350.0,395.0,52.0,2.0,2.0,1.0,1.0
50%,2000.0,592.0,67.0,2.0,2.0,1.0,1.0
75%,3200.0,980.0,100.0,3.0,2.0,1.0,2.0
max,25000.0,9500.0,880.0,10.0,8.0,5.0,9.0


In [20]:
X = base_imov.drop('Valor_Aluguel', axis=1)
y = base_imov['Valor_Aluguel']

In [21]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

In [22]:
# Notem que usamos o random forest regressor
rf_model_reg = RandomForestRegressor(random_state=42)

In [23]:
rf_model_reg.fit(X_train, y_train)

In [24]:
y_pred_reg = rf_model_reg.predict(X_test)

In [25]:
mse = mean_squared_error(y_test, y_pred_reg)
mae = mean_absolute_error(y_test, y_pred_reg)
r2 = r2_score(y_test, y_pred_reg)

In [26]:
print(f"RMSE: {mse ** 0.5}")
print(f"MAE: {mae}")
print(f"R²: {r2}")

RMSE: 1868.5191397162127
MAE: 967.2106445183597
R²: 0.6448590119607669


O RMSE é a raiz quadrada da média dos erros quadráticos.
Um RMSE de 1872.29 significa que, em média, a diferença entre os valores previstos e os valores reais é de aproximadamente 1872.29 unidades (provavelmente na mesma unidade que os preços de aluguel).

O MAE é a média dos erros absolutos.
Um MAE de 968.61 significa que, em média, a diferença entre os valores previstos e os valores reais é de aproximadamente 968.61 unidades.

O R² mede a proporção da variância nos dados de resposta que é explicada pelo modelo. Um R² de 0.6434 indica que aproximadamente 64.34% da variância nos preços de aluguel pode ser explicada pelas variáveis independentes (features) no modelo.

**Vamos tentar melhorar os hyperparametros:**

In [27]:
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_features': ['sqrt', 'log2'],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

In [29]:
rf_model_reg_best = RandomForestRegressor(random_state=42)

In [30]:
# Definindo o RandomizedSearchCV para regressão:
random_search_reg = RandomizedSearchCV(estimator=rf_model_reg_best, param_distributions=param_grid,
                                   n_iter=50, cv=5, n_jobs=-1, verbose=2, random_state=42, scoring='neg_mean_squared_error')

In [31]:
random_search_reg.fit(X_train, y_train)

Fitting 5 folds for each of 50 candidates, totalling 250 fits
[CV] END max_depth=30, max_features=log2, min_samples_leaf=4, min_samples_split=10, n_estimators=50; total time=   0.2s
[CV] END max_depth=30, max_features=log2, min_samples_leaf=4, min_samples_split=10, n_estimators=50; total time=   0.2s
[CV] END max_depth=30, max_features=log2, min_samples_leaf=4, min_samples_split=10, n_estimators=50; total time=   0.2s
[CV] END max_depth=30, max_features=log2, min_samples_leaf=2, min_samples_split=5, n_estimators=50; total time=   0.3s
[CV] END max_depth=30, max_features=log2, min_samples_leaf=2, min_samples_split=5, n_estimators=50; total time=   0.3s
[CV] END max_depth=30, max_features=log2, min_samples_leaf=2, min_samples_split=5, n_estimators=50; total time=   0.3s
[CV] END max_depth=30, max_features=log2, min_samples_leaf=2, min_samples_split=5, n_estimators=50; total time=   0.3s
[CV] END max_depth=30, max_features=log2, min_samples_leaf=2, min_samples_split=5, n_estimators=50; to

In [32]:
best_params_reg = random_search_reg.best_params_
print(f"Melhores Hiperparâmetros: {best_params_reg}")

Melhores Hiperparâmetros: {'n_estimators': 100, 'min_samples_split': 2, 'min_samples_leaf': 1, 'max_features': 'sqrt', 'max_depth': 10}


In [33]:
best_rf_model_rg = random_search_reg.best_estimator_
best_rf_model_rg.fit(X_train, y_train)

In [34]:
y_pred_reg2 = best_rf_model_rg.predict(X_test)

In [35]:
mse = mean_squared_error(y_test, y_pred_reg2)
mae = mean_absolute_error(y_test, y_pred_reg2)
r2 = r2_score(y_test, y_pred_reg2)

print(f"Melhores hiperparâmetros: {random_search.best_params_}")
print(f"RMSE: {mse ** 0.5}")
print(f"MAE: {mae}")
print(f"R²: {r2}")

Melhores hiperparâmetros: {'n_estimators': 50, 'min_samples_split': 10, 'min_samples_leaf': 1, 'max_features': 'log2', 'max_depth': 10}
RMSE: 1858.2495316204113
MAE: 975.2084855623924
R²: 0.6487520800860799
