# Aplicando o Random Forests

**Bibliotecas**

In [34]:
# Importar as bibliotecas necessárias
import pandas as pd
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
from sklearn.model_selection import train_test_split
import numpy as np

# Métricas dos modelos de classificação
from sklearn.metrics import (
    accuracy_score, 
    f1_score, 
    precision_score, 
    recall_score
)

# Métricas dos modelos de regressão
from sklearn.metrics import ( 
    mean_absolute_error, 
    mean_squared_error, 
    r2_score
)

---

PESQUISE. Explique a diferença entre `RandomForestClassifier` e `RandomForestRegressor`.

*Duplo clique aqui para ver a resposta*

<!--

A principal diferença entre `RandomForestClassifier` e `RandomForestRegressor` é o tipo de problema que eles resolvem. `RandomForestClassifier` é usado para problemas de classificação, enquanto `RandomForestRegressor` é usado para problemas de regressão.

Em problemas de classificação, o objetivo é prever a categoria de um dado. Por exemplo, podemos usar um `RandomForestClassifier` para prever se um email é spam ou não spam, ou se um paciente tem câncer ou não.

Em problemas de regressão, o objetivo é prever um valor contínuo. Por exemplo, podemos usar um `RandomForestRegressor` para prever o preço de uma casa, ou a quantidade de chuva que vai cair amanhã.

Além da diferença no tipo de problema, `RandomForestClassifier` e `RandomForestRegressor` também têm algumas diferenças na implementação. Por exemplo, `RandomForestClassifier` usa um método de votos para fazer suas previsões, enquanto `RandomForestRegressor` usa um método de média.

Aqui está uma tabela que resume as principais diferenças entre `RandomForestClassifier` e `RandomForestRegressor`:

| Característica | `RandomForestClassifier` | `RandomForestRegressor` |
|---|---|---|
| Problema resolvido | Classificação | Regressão |
| Método de predição | Votos | Média |
| Exemplos de uso | Spam ou não spam, câncer ou não | Preço de uma casa, quantidade de chuva |

>

*Sua resposta aqui*

---

PESQUISE. O que é um modelo de `ensemble`?

*Duplo clique aqui para ver a resposta*

<!--

Um modelo de "ensemble" (ou "conjunto") é uma técnica de aprendizado de máquina que combina vários modelos individuais em um único modelo preditivo mais forte. O objetivo é melhorar o desempenho, a estabilidade e a robustez do modelo. Em geral, modelos de ensemble tendem a produzir resultados melhores do que modelos individuais, porque eles capturam uma visão mais abrangente ou diversificada dos dados.

Existem várias abordagens para criar modelos de ensemble:
Bagging (Bootstrap Aggregating)

Nessa abordagem, múltiplas amostras do conjunto de treinamento são criadas através de reamostragem aleatória. Um modelo é treinado em cada uma dessas amostras e as previsões são então agregadas (pela média para regressão ou votação para classificação). Um exemplo clássico de um método de ensemble baseado em bagging é o Random Forest.
Boosting

Aqui, os modelos são treinados sequencialmente, cada um tentando corrigir os erros dos modelos anteriores. Cada modelo dá mais peso às instâncias que foram classificadas incorretamente pelos modelos anteriores. Exemplos incluem AdaBoost, Gradient Boosting e XGBoost.
Stacking

Neste método, vários tipos diferentes de modelos são treinados para o mesmo problema e suas previsões são usadas como entrada para um "meta-modelo" que faz a previsão final. A ideia é que o meta-modelo aprenda a melhor forma de combinar as previsões dos modelos individuais.
Voting

Neste caso simples, as previsões de múltiplos modelos são combinadas através de votação. Em problemas de classificação, por exemplo, a classe que recebe a maioria dos "votos" dos modelos individuais é escolhida como a previsão final.

Cada método de ensemble tem suas próprias vantagens e desvantagens, e a eficácia de um método em particular pode depender do problema específico que você está tentando resolver. Em geral, no entanto, modelos de ensemble são uma forma poderosa de melhorar o desempenho de suas aplicações de aprendizado de máquina.

>

---

## Ingestão

In [14]:
df = pd.read_csv("dataset-random-forests.csv")
df.head(2)

Unnamed: 0,unit_price,product_category,avg_website_visits_last_week,shipment_type,items_sold,sales_success
0,20.768405,Eletrônicos,4202.786171,Aérea,21.0,0
1,19.762028,Eletrônicos,4700.312489,Aérea,22.0,0


## Preparação dos Dados

In [15]:
# Converter as variáveis categóricas em numéricas usando one-hot encoding
df = pd.get_dummies(df, drop_first=True)
df.head(2)

Unnamed: 0,unit_price,avg_website_visits_last_week,items_sold,sales_success,product_category_Casa,product_category_Eletrônicos,product_category_Vestuário,shipment_type_Espacial,shipment_type_Marítima,shipment_type_Terrestre
0,20.768405,4202.786171,21.0,0,False,True,False,False,False,False
1,19.762028,4700.312489,22.0,0,False,True,False,False,False,False


PRATIQUE. Como o `LabelEncoder` pode codificar as variáveis categóricas?

*Duplo clique aqui para ver a resposta*

<!--

from sklearn.preprocessing import LabelEncoder

# Crie um objeto LabelEncoder
le = LabelEncoder()

# Codifique as variáveis categóricas
product_category_encoded = le.fit_transform(df["product_category"])
shipment_type_encoded = le.fit_transform(df["shipment_type"])

>

In [12]:
# Sua resposta aqui

### Alvo para a classificação

In [16]:
# Separar os atributos e rótulos
X = df.drop('sales_success', axis=1)
y = df['sales_success']

### Alvo para a regressão

In [29]:
# Se você executou a célula de cima, não faz sentido executar essa aqui

# Separar os atributos e rótulos
X = df.drop('items_sold', axis=1)
y = df['items_sold']

## Treinamento

**Separação entre treino e testes**

In [17]:
# Dividir os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

### Cria um classificador RandomForest

In [18]:
random_forest = RandomForestClassifier(n_estimators=100, random_state=42)

### Cria um regressor RandomForest

In [30]:
random_forest = RandomForestRegressor(n_estimators=100, random_state=42)

### Ajuste

In [31]:
# Treinar o modelo com os dados de treinamento
random_forest.fit(X_train, y_train)

## Predição e Testes

In [32]:
# Fazer previsões no conjunto de teste
y_pred = random_forest.predict(X_test)

### Métricas de Classificação

In [24]:
# Calcular acurácia
accuracy = accuracy_score(y_test, y_pred)
print(f"Acurácia: {accuracy}")

# Calcular precisão
precision = precision_score(y_test, y_pred, average='weighted')  # Defina o argumento `average` conforme apropriado
print(f"Precisão: {precision}")

# Calcular sensibilidade (recall)
recall = recall_score(y_test, y_pred, average='weighted')  # Defina o argumento `average` conforme apropriado
print(f"Sensibilidade (Recall): {recall}")

# Calcular F1-score
f1 = f1_score(y_test, y_pred, average='weighted')  # Defina o argumento `average` conforme apropriado
print(f"F1-Score: {f1}")

Acurácia: 1.0
Precisão: 1.0
Sensibilidade (Recall): 1.0
F1-Score: 1.0


PRATIQUE. Interprete o resultado das métricas acima.

*Duplo clique aqui para ver a resposta*

<!--

Os resultados das métricas indicam que o modelo é eficaz, fazendo previsões perfeitas nos dados de teste para as classes que você está tentando prever. Vamos interpretar cada métrica:

1. **Acurácia: 1.0**  
   Isso indica que 100% das previsões do modelo são corretas. Em outras palavras, o modelo não cometeu nenhum erro no conjunto de teste. A acurácia é frequentemente usada como uma métrica geral para classificação, mas é especialmente útil quando as classes estão bem balanceadas.

2. **Precisão: 1.0**  
   A precisão também está em 100%, o que significa que não houve falsos positivos. Cada vez que o modelo previu uma determinada classe, ele estava correto.

3. **Sensibilidade (Recall): 1.0**  
   Um valor de sensibilidade de 1.0 implica que não houve falsos negativos. Ou seja, o modelo identificou corretamente todas as instâncias da classe positiva.

4. **F1-Score: 1.0**  
   O F1-Score é a média harmônica entre precisão e sensibilidade. Um valor de 1.0 é o melhor valor possível e indica um equilíbrio perfeito entre precisão e sensibilidade.

### Alguns Pontos para Considerar:

1. **Conjunto de Teste Representativo**: Se o seu conjunto de teste não for representativo do mundo real ou dos dados que o modelo enfrentará em uma aplicação em produção, os resultados podem ser enganosamente otimistas.

2. **Overfitting**: Uma acurácia perfeita muitas vezes levanta uma bandeira vermelha de que o modelo pode ter sido superajustado (overfit) ao conjunto de treinamento. Isso significa que o modelo aprendeu o conjunto de treinamento "de cor" em vez de generalizar a partir dele.

3. **Dados Desbalanceados ou Facilidade da Tarefa**: Um resultado perfeito pode ser mais fácil de conseguir em tarefas muito simples ou em conjuntos de dados desbalanceados, onde até mesmo um modelo trivial pode atingir uma acurácia alta simplesmente prevendo a classe majoritária.

4. **Verificação Adicional**: É sempre bom fazer mais verificações ou validações cruzadas para ter certeza de que o resultado não é um falso positivo ou devido a algum tipo de erro ou viés nos dados.

>

### Métricas de Regressão

In [35]:
# Calculando MAE (Erro Médio Absoluto)
mae = mean_absolute_error(y_test, y_pred)
print(f"MAE: {mae}")

# Calculando MSE (Erro Quadrático Médio)
mse = mean_squared_error(y_test, y_pred)
print(f"MSE: {mse}")

# Calculando RMSE (Raiz do Erro Quadrático Médio)
rmse = np.sqrt(mse)
print(f"RMSE: {rmse}")

# Calculando R2 Score (Coeficiente de Determinação)
r2 = r2_score(y_test, y_pred)
print(f"R2 Score: {r2}")

MAE: 0.0018125000000000003
MSE: 0.00022562499999999991
RMSE: 0.015020818885799798
R2 Score: 0.9998226915520628


PRATIQUE. Interprete o resultado das métricas acima.

*Duplo clique aqui para ver a resposta*

<!--

Os valores das métricas de regressão indicam que o modelo tem um desempenho excepcionalmente bom nos dados de teste. Vamos interpretar cada uma delas:

1. **Erro Médio Absoluto (MAE: 0.0018)**  
   Este valor sugere que as previsões do modelo têm, em média, um erro absoluto de apenas 0.0018 unidades em relação aos valores reais. Este é um valor extremamente baixo, indicando que o modelo é muito preciso.

2. **Erro Quadrático Médio (MSE: 0.00023)**  
   Similar ao MAE, o MSE é uma métrica que também mostra o erro médio do modelo. No entanto, ao elevar os erros ao quadrado, o MSE dá maior peso aos erros grandes. Um valor tão baixo sugere que não só os erros são pequenos em média, mas também que erros grandes são raros ou inexistentes.

3. **Raiz do Erro Quadrático Médio (RMSE: 0.015)**  
   O RMSE é simplesmente a raiz quadrada do MSE e está na mesma unidade que a variável dependente. Um RMSE de 0.015 é também muito baixo, confirmando que o modelo faz previsões muito próximas aos valores reais.

4. **Coeficiente de Determinação (\( R^2 \) Score: 0.9998)**  
   Este valor está muito próximo de 1, o que é o melhor valor possível para \( R^2 \). Isso indica que aproximadamente 99.98% da variabilidade nos dados é explicada pelo modelo. Em outras palavras, o modelo é quase perfeito em capturar a relação subjacente entre as variáveis independentes e dependentes.

### Considerações

1. **Verificação Adicional**: Com métricas tão altas, seria prudente realizar uma verificação adicional para garantir que o modelo não esteja superajustado (overfitting) aos dados de treinamento.

2. **Dados de Teste Representativos**: Semelhante à situação com métricas de classificação, assegure-se de que seu conjunto de teste seja representativo para evitar conclusões enganosamente otimistas.

3. **Complexidade do Modelo**: Se o modelo é muito complexo e o conjunto de dados é pequeno, os resultados podem ser devido ao overfitting. Você pode tentar usar validação cruzada para avaliar a robustez do modelo.

4. **Domínio do Problema**: Sempre é bom interpretar essas métricas à luz do domínio do problema. Em alguns casos, mesmo pequenos erros podem ser críticos, enquanto em outros cenários, eles podem ser negligenciáveis.

>