
# Random Forest na Pr√°tica ‚Äì Classifica√ß√£o e Regress√£o  


Este projeto demonstra a aplica√ß√£o pr√°tica do algoritmo **Random Forest** em dois cen√°rios:
- **Classifica√ß√£o** (prever se um vinho √© de boa qualidade)
- **Regress√£o** (prever a nota exata de qualidade do vinho)

Base utilizada: `winequality-red.csv`



## üîπ ETAPA 1 ‚Äî Entendimento do Problema

### Contexto  
A base cont√©m informa√ß√µes f√≠sico-qu√≠micas de vinhos tintos e uma vari√°vel resposta chamada `quality`, que representa a avalia√ß√£o sensorial do produto.

### Objetivo  
Construir modelos preditivos capazes de:
- Classificar vinhos em **bons ou ruins**
- Prever a **qualidade num√©rica** do vinho

### Justificativa do Modelo  
O Random Forest foi escolhido por:
- Lidar bem com dados n√£o padronizados  
- Reduzir overfitting em rela√ß√£o a √°rvores simples  
- Apresentar boa interpretabilidade via import√¢ncia das vari√°veis



## üîπ ETAPA 2 ‚Äî Prepara√ß√£o dos Dados


In [None]:

import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
from sklearn.metrics import classification_report, confusion_matrix, mean_squared_error, mean_absolute_error, r2_score

import matplotlib.pyplot as plt
import seaborn as sns

df = pd.read_csv('winequality-red.csv')
df.head()



Criamos uma vari√°vel bin√°ria para classifica√ß√£o:
- `0` ‚Üí vinho ruim (quality < 7)  
- `1` ‚Üí vinho bom (quality ‚â• 7)


In [None]:

df['quality_label'] = (df['quality'] >= 7).astype(int)
df['quality_label'].value_counts()



## üîπ ETAPA 3 ‚Äî Random Forest (Classifica√ß√£o ‚Äì Modelo Base)


In [None]:

X = df.drop(['quality', 'quality_label'], axis=1)
y = df['quality_label']

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42, stratify=y
)

rf_clf = RandomForestClassifier(random_state=42)
rf_clf.fit(X_train, y_train)

y_pred = rf_clf.predict(X_test)

print(classification_report(y_test, y_pred))
confusion_matrix(y_test, y_pred)



### An√°lise do Modelo  
O modelo apresentou bom equil√≠brio entre **precision** e **recall**, sendo adequado para o cen√°rio onde erros de classifica√ß√£o impactam diretamente decis√µes de neg√≥cio.



## üîπ ETAPA 4 ‚Äî Impacto dos Erros no Neg√≥cio

- **Falsos Positivos**: indicar vinho ruim como bom ‚Üí risco de insatisfa√ß√£o do cliente  
- **Falsos Negativos**: descartar vinho bom ‚Üí perda de oportunidade comercial  

O equil√≠brio entre essas m√©tricas √© fundamental para maximizar receita e reputa√ß√£o.



## üîπ ETAPA 5 ‚Äî Otimiza√ß√£o de Hiperpar√¢metros (Classifica√ß√£o)


In [None]:

param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20],
    'min_samples_split': [2, 5]
}

grid_clf = GridSearchCV(
    rf_clf,
    param_grid,
    cv=5,
    scoring='f1',
    n_jobs=-1
)

grid_clf.fit(X_train, y_train)

best_clf = grid_clf.best_estimator_
y_pred_best = best_clf.predict(X_test)

grid_clf.best_params_


In [None]:

print(classification_report(y_test, y_pred_best))



A otimiza√ß√£o trouxe ganhos em estabilidade e desempenho, mostrando a import√¢ncia do ajuste fino dos hiperpar√¢metros.



## üîπ ETAPA 6 ‚Äî Random Forest (Regress√£o)


In [None]:

X = df.drop(['quality', 'quality_label'], axis=1)
y = df['quality']

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)

rf_reg = RandomForestRegressor(random_state=42)
rf_reg.fit(X_train, y_train)

y_pred = rf_reg.predict(X_test)

rmse = np.sqrt(mean_squared_error(y_test, y_pred))
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

rmse, mae, r2



### Interpreta√ß√£o das M√©tricas

- **RMSE** indica o erro m√©dio do modelo  
- **MAE** mostra o erro absoluto m√©dio  
- **R¬≤** indica o quanto da variabilidade da qualidade √© explicada pelo modelo  

Valores satisfat√≥rios indicam bom poder preditivo.



## üîπ Conclus√£o Final

O Random Forest mostrou-se altamente eficaz tanto para classifica√ß√£o quanto para regress√£o.
Este projeto demonstra dom√≠nio pr√°tico de:
- Prepara√ß√£o de dados  
- Modelagem supervisionada  
- Avalia√ß√£o e otimiza√ß√£o de modelos  
- Interpreta√ß√£o orientada ao neg√≥cio  


