# Random Forest - WINE QUALITY


Nesta projeto, o objetivo foi trabalhar com uma base de dados de avaliações de vinhos e prever a pontuação dos vinhos utilizando o algoritmo de Random Forest para classificação multiclasse. O projeto demonstra o uso de técnicas de Machine Learning para análise de dados de vinhos, desde a preparação dos dados até a avaliação do modelo.

*Objetivos*

- Preprocessar a base de dados de vinhos.

- Analisar e explorar os dados para identificar padrões relevantes.

- Treinar um modelo de Random Forest para prever a pontuação dos vinhos.

- Avaliar o desempenho do modelo utilizando métricas apropriadas para classificação multiclasse.

- Ajustar hiperparâmetros do modelo para melhorar o desempenho.

- Visualizar insights e resultados.


Tecnologias Utilizadas: Python 3.x
Bibliotecas: pandas, numpy, scikit-learn, matplotlib, seaborn

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.model_selection import RandomizedSearchCV
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
df = pd.read_csv("winequality-red.csv", delimiter=',')

df.head(10)

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
5,7.4,0.66,0.0,1.8,0.075,13.0,40.0,0.9978,3.51,0.56,9.4,5
6,7.9,0.6,0.06,1.6,0.069,15.0,59.0,0.9964,3.3,0.46,9.4,5
7,7.3,0.65,0.0,1.2,0.065,15.0,21.0,0.9946,3.39,0.47,10.0,7
8,7.8,0.58,0.02,2.0,0.073,9.0,18.0,0.9968,3.36,0.57,9.5,7
9,7.5,0.5,0.36,6.1,0.071,17.0,102.0,0.9978,3.35,0.8,10.5,5


**Conhecendo a Base:**

Características dos Vinhos (Features)

Fixed Acidity: Acidez fixa do vinho.

Volatile Acidity: Acidez volátil do vinho.

Citric Acid: Quantidade de ácido cítrico no vinho.

Residual Sugar: Açúcar residual presente no vinho.

Chlorides: Nível de cloretos no vinho.

Free Sulfur Dioxide: Dióxido de enxofre livre no vinho.

Total Sulfur Dioxide: Quantidade total de dióxido de enxofre no vinho.

Density: Densidade do vinho.

pH: Nível de pH do vinho.

Sulphates: Quantidade de sulfatos no vinho.

Alcohol: Teor alcoólico do vinho.



**Variável de Saída (Target):**

Quality: Pontuação do vinho baseada em dados sensoriais, variando de 0 a 10.


# 1 - PRE PROCESSAMENTO:

A) Os tipos de dados.


B) Dados faltantes.

In [None]:
import pandas as pd

df = pd.read_csv("winequality-red.csv", delimiter=',')

# Opção 1: Mostrar apenas os tipos de dados das colunas
print(df.dtypes)

# Opção 2: Mostrar informações completas do DataFrame, incluindo tipos de dados e valores nulos
print(df.info())


fixed acidity           float64
volatile acidity        float64
citric acid             float64
residual sugar          float64
chlorides               float64
free sulfur dioxide     float64
total sulfur dioxide    float64
density                 float64
pH                      float64
sulphates               float64
alcohol                 float64
quality                   int64
dtype: object
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1599 entries, 0 to 1598
Data columns (total 12 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   fixed acidity         1599 non-null   float64
 1   volatile acidity      1599 non-null   float64
 2   citric acid           1599 non-null   float64
 3   residual sugar        1599 non-null   float64
 4   chlorides             1599 non-null   float64
 5   free sulfur dioxide   1599 non-null   float64
 6   total sulfur dioxide  1599 non-null   float64
 7   density               1599 non-

**Não há dados nulos!**

**DataTypes Ok!**

# 2 - SEGUNDA ETAPA DO PRE PROCESSAMENTO.

A) Função describe.

B) Balanceamento da váriavel Target.

C)  As features "fortes" na correlação para nosso modelo.



In [None]:
print(df.describe())

       fixed acidity  volatile acidity  citric acid  residual sugar  \
count    1599.000000       1599.000000  1599.000000     1599.000000   
mean        8.319637          0.527821     0.270976        2.538806   
std         1.741096          0.179060     0.194801        1.409928   
min         4.600000          0.120000     0.000000        0.900000   
25%         7.100000          0.390000     0.090000        1.900000   
50%         7.900000          0.520000     0.260000        2.200000   
75%         9.200000          0.640000     0.420000        2.600000   
max        15.900000          1.580000     1.000000       15.500000   

         chlorides  free sulfur dioxide  total sulfur dioxide      density  \
count  1599.000000          1599.000000           1599.000000  1599.000000   
mean      0.087467            15.874922             46.467792     0.996747   
std       0.047065            10.460157             32.895324     0.001887   
min       0.012000             1.000000         

Insigth: Aqui já vejo algunas colunas com outliers, como fixed acidity,volatile acidity, citric acid, residual sugar,  chlorides,  free sulfur dioxide,  total sulfur dioxide, sulphates,      alcohol  e quality.

#Buscando Outliers:

  - Boxplots:

In [None]:
import pandas as pd
import plotly.express as px

# Carregar os dados
df = pd.read_csv("winequality-red.csv", delimiter=',')

# Colunas que você quer analisar
cols = [
    'fixed acidity', 'volatile acidity', 'citric acid', 'residual sugar',
    'chlorides', 'free sulfur dioxide', 'total sulfur dioxide',
    'sulphates', 'alcohol', 'quality'
]

# Criar boxplots individuais para cada coluna
for col in cols:
    fig = px.box(df, y=col, title=f'Boxplot de {col}', points='all')
    fig.show()


**Insigth:** Pelos boxplots eu notei a maioria com Outliers de UpperFence e outros como Cloridratos e Qualidade com Outliers tanto com Upper e DownFence.

Como vou usar o Random Forest, não preciso remover ou tratar os outliers nas features.

# Distribuiçao da Variavel Target:

- Target: Qualidade | Melhor forma para observar é atraves de um grafico de histograma.

In [None]:
# Plotar a distribuição da variável target
fig = px.histogram(df, x='quality', title='Distribuição da Variável Target (Quality)',
                   color_discrete_sequence=['green'])
fig.show()


Os dados estão se distribuindo muito proximo a uma curva normal, vou realizar a contagem de cada coluna:

In [None]:
# Contagem de valores para cada classe
count_classes = df['quality'].value_counts().sort_index()
percent_classes = df['quality'].value_counts(normalize=True).sort_index() * 100

# Exibir os resultados
print("Contagem de cada classe:\n", count_classes)
print("\nPorcentagem de cada classe:\n", percent_classes.round(2))


Contagem de cada classe:
 quality
3     10
4     53
5    681
6    638
7    199
8     18
Name: count, dtype: int64

Porcentagem de cada classe:
 quality
3     0.63
4     3.31
5    42.59
6    39.90
7    12.45
8     1.13
Name: proportion, dtype: float64


Classes majoritárias:

5 (42,6%) e 6 (39,9%) → juntas representam mais de 80% dos dados.

Classes minoritárias:

3 (0,63%), 4 (3,31%) e 8 (1,13%) → são muito poucas observações.

Isso indica desbalanceamento significativo, especialmente nas extremidades.

Classes intermediárias:

7 (12,45%) → ainda pequena comparada às centrais, mas não tão extrema quanto 3, 4 ou 8.


**Implicações para o Random Forest:**

Random Forest consegue lidar razoavelmente com desequilíbrios, mas classes com poucos exemplos (3, 4, 8) podem ter baixa acurácia de previsão.

Estratégias possíveis:

Usar class_weight='balanced' ao criar o Random Forest → dá mais peso para classes minoritárias.

Oversampling (ex.: SMOTE) → gerar mais exemplos das classes minoritárias.

Aceitar o desequilíbrio → se a performance nas classes minoritárias não for crítica.

**Minha escolha:**

Quero buscar um modelo mais robusto, vou usar class_weight='balanced' ao criar o ML.

# Variáveis mais fortes:

In [None]:
# Calcular a matriz de correlação
corr = df.corr()

# Criar o heatmap com gradiente roxo → branco
fig = px.imshow(corr,
                text_auto=True,
                aspect="auto",
                color_continuous_scale=['purple', 'white'],  # gradiente roxo para branco
                title='Mapa de Correlação das Variáveis')
fig.show()



**Insigth:**
As variáveis que se correlacionam bem com a target:
0.47 - Alcool
0.35 - Volatilidade de Acidez
0.25 - Sulfato
0.22 - Acido Citrico

# Novo DF com as variáveis mais importantes:

In [None]:
import pandas as pd

# Carregar os dados
df = pd.read_csv("winequality-red.csv", delimiter=',')

# Selecionar apenas as colunas mais correlacionadas com a target
cols_selecionadas = ['alcohol', 'volatile acidity', 'sulphates', 'citric acid', 'quality']

# Criar um novo DataFrame
df_top_corr = df[cols_selecionadas].copy()

# Visualizar as primeiras linhas
print(df_top_corr.head())

# Salvar como CSV, se desejar
df_top_corr.to_csv("wine_top_corr.csv", index=False)


   alcohol  volatile acidity  sulphates  citric acid  quality
0      9.4              0.70       0.56         0.00        5
1      9.8              0.88       0.68         0.00        5
2      9.8              0.76       0.65         0.04        5
3      9.8              0.28       0.58         0.56        6
4      9.4              0.70       0.56         0.00        5


# 3 - Preparação Final dos Dados

A) X(Features) e Y(Target)

B) Base em treino e teste.


# Separação em X e Y.

In [None]:

# Carregar o DataFrame salvo
df = pd.read_csv("wine_top_corr.csv")

# Separar as features (X) e a target (y)
X = df.drop('quality', axis=1)  # todas as colunas menos a target
y = df['quality']               # apenas a target

# Verificar as dimensões
print("Dimensões de X:", X.shape)
print("Dimensões de y:", y.shape)

# Visualizar as primeiras linhas de X e y
print(X.head())
print(y.head())


Dimensões de X: (1599, 4)
Dimensões de y: (1599,)
   alcohol  volatile acidity  sulphates  citric acid
0      9.4              0.70       0.56         0.00
1      9.8              0.88       0.68         0.00
2      9.8              0.76       0.65         0.04
3      9.8              0.28       0.58         0.56
4      9.4              0.70       0.56         0.00
0    5
1    5
2    5
3    6
4    5
Name: quality, dtype: int64


# B)Separação em Base e Treino.

Random Forest não exige normalização, então a divisão padrão funciona bem: 70% treino / 30% teste.

In [None]:
from sklearn.model_selection import train_test_split

# Divisão em treino (70%) e teste (30%)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42, stratify=y
)

# Verificar o tamanho dos conjuntos
print("Tamanho X_train:", X_train.shape)
print("Tamanho X_test:", X_test.shape)
print("Tamanho y_train:", y_train.shape)
print("Tamanho y_test:", y_test.shape)
#seu código aqui

Tamanho X_train: (1119, 4)
Tamanho X_test: (480, 4)
Tamanho y_train: (1119,)
Tamanho y_test: (480,)


# 4 - Modelagem

A) Inicie e treine o modelo de Random Forest

B) Aplique a base de teste o modelo.


# A) Treino Random Forest.

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
from sklearn.model_selection import train_test_split
import pandas as pd

# Carregar o DataFrame
df = pd.read_csv("wine_top_corr.csv")

# Separar features e target
X = df.drop('quality', axis=1)
y = df['quality']

# Dividir em treino e teste (70% treino / 30% teste)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42, stratify=y
)

# Criar o modelo Random Forest com class_weight='balanced'
rf = RandomForestClassifier(n_estimators=100, random_state=42, class_weight='balanced')

# Treinar o modelo
rf.fit(X_train, y_train)

# Fazer previsões no conjunto de teste
y_pred = rf.predict(X_test)

# Avaliar o modelo
print("Acurácia:", accuracy_score(y_test, y_pred))
print("\nMatriz de Confusão:\n", confusion_matrix(y_test, y_pred))
print("\nRelatório de Classificação:\n", classification_report(y_test, y_pred))


Acurácia: 0.6291666666666667

Matriz de Confusão:
 [[  0   0   2   1   0   0]
 [  0   1  10   5   0   0]
 [  0   0 155  45   4   0]
 [  0   0  54 125  13   0]
 [  0   0   1  38  20   1]
 [  0   0   0   3   1   1]]

Relatório de Classificação:
               precision    recall  f1-score   support

           3       0.00      0.00      0.00         3
           4       1.00      0.06      0.12        16
           5       0.70      0.76      0.73       204
           6       0.58      0.65      0.61       192
           7       0.53      0.33      0.41        60
           8       0.50      0.20      0.29         5

    accuracy                           0.63       480
   macro avg       0.55      0.33      0.36       480
weighted avg       0.63      0.63      0.61       480




Precision is ill-defined and being set to 0.0 in labels with no predicted samples. Use `zero_division` parameter to control this behavior.


Precision is ill-defined and being set to 0.0 in labels with no predicted samples. Use `zero_division` parameter to control this behavior.


Precision is ill-defined and being set to 0.0 in labels with no predicted samples. Use `zero_division` parameter to control this behavior.



**Alguns Insigths sobre o treinamento:**
n_estimators=100 → 100 árvores na floresta (pode aumentar para melhorar a performance)

class_weight='balanced' → dá mais peso às classes minoritárias

stratify=y na divisão garante que o desbalanceamento original seja mantido em treino e teste

classification_report mostra precisão, recall e F1-score por classe

**RELATÓRIO:**

- Acurácia: 0.63 → significa que o modelo acertou ~63% das previsões.

- Matriz de Confusão:

Classes 3 e 4: praticamente não foram previstas corretamente → efeito do desbalanceamento extremo.

Classes 5 e 6: boa taxa de acerto → são as classes majoritárias.

Classes 7 e 8: desempenho médio/baixo → poucas amostras.



**Conclusão:** Random Forest está acertando bem nas classes centrais, mas tem dificuldade com classes minoritárias.



# B) Teste Random Forest.

In [None]:
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

# Fazer previsões no conjunto de teste
y_pred_test = rf.predict(X_test)

# Avaliar o modelo
print("Acurácia no Teste:", accuracy_score(y_test, y_pred_test))
print("\nMatriz de Confusão:\n", confusion_matrix(y_test, y_pred_test))
print("\nRelatório de Classificação:\n", classification_report(y_test, y_pred_test))


Acurácia no Teste: 0.6291666666666667

Matriz de Confusão:
 [[  0   0   2   1   0   0]
 [  0   1  10   5   0   0]
 [  0   0 155  45   4   0]
 [  0   0  54 125  13   0]
 [  0   0   1  38  20   1]
 [  0   0   0   3   1   1]]

Relatório de Classificação:
               precision    recall  f1-score   support

           3       0.00      0.00      0.00         3
           4       1.00      0.06      0.12        16
           5       0.70      0.76      0.73       204
           6       0.58      0.65      0.61       192
           7       0.53      0.33      0.41        60
           8       0.50      0.20      0.29         5

    accuracy                           0.63       480
   macro avg       0.55      0.33      0.36       480
weighted avg       0.63      0.63      0.61       480




Precision is ill-defined and being set to 0.0 in labels with no predicted samples. Use `zero_division` parameter to control this behavior.


Precision is ill-defined and being set to 0.0 in labels with no predicted samples. Use `zero_division` parameter to control this behavior.


Precision is ill-defined and being set to 0.0 in labels with no predicted samples. Use `zero_division` parameter to control this behavior.



**RELATÓRIO DE TESTE:**

- Acurácia no Teste: 0.63 → significa que o modelo acertou ~63% das previsões.

- Matriz de Confusão:

Classes 3 e 4: praticamente não foram previstas corretamente → efeito do desbalanceamento extremo.

Classes 5 e 6: boa taxa de acerto → são as classes majoritárias.

Classes 7 e 8: desempenho médio/baixo → poucas amostras.

# 5 - Avaliação



A)

- Acurácia: 0.63

O modelo acertou aproximadamente 63% das previsões.

Para um problema multiclasse desbalanceado, a acurácia não conta toda a história, porque as classes majoritárias (5 e 6) dominam os acertos.

- Precision (Precisão):

Mede a qualidade das previsões de cada classe.

Classes 5 e 6 tiveram precisões razoáveis (0.70 e 0.58), indicando que quando o modelo prediz essas classes, ele acerta mais da metade das vezes.

Classes minoritárias (3, 4, 8) tiveram precision baixa ou muito instável, mostrando previsões pouco confiáveis para essas classes.

- Recall (Revocação):

Mede a capacidade do modelo de identificar corretamente todos os exemplos de uma classe.

Classes centrais (5 e 6) apresentam recall relativamente alto (0.76 e 0.65).

Classes extremas (3, 4, 8) têm recall muito baixo (0 a 0.20), ou seja, o modelo quase não consegue identificar os poucos exemplos dessas classes.

- F1-score:

Combina precision e recall.

Classes 5 e 6 possuem F1 razoável (0.73 e 0.61), enquanto as minoritárias têm F1 muito baixo (0.00 a 0.29).

Isso reforça que o modelo performou bem nas classes majoritárias e mal nas minoritárias.

**Insight geral:**

O modelo está aprendendo melhor onde há mais exemplos (classes centrais) e não consegue generalizar para as classes com poucas amostras.

Isso é típico em problemas multiclasse desbalanceados, mesmo usando class_weight='balanced'.



Não esquecer que: Para prever qualidade do vinho, em um dataset desbalanceado:

F1-score (macro ou weighted) é a métrica mais importante.

macro avg → média não ponderada, trata todas as classes igualmente, destaca performance ruim em classes minoritárias.

weighted avg → média ponderada pelo suporte, mostra performance geral considerando que algumas classes são maiores.

Recall também é crítico para classes extremas (3 e 8), caso seja importante não perder vinhos de qualidade muito baixa ou muito alta.

B)

Sim, o modelo teve dificuldade para prever as classes 3, 4, 7 e 8.

A matriz de confusão mostra que essas classes foram quase sempre classificadas como 5 ou 6, que são as majoritárias.

Relação com o balanceamento:

O problema está diretamente ligado ao desbalanceamento dos dados:

Classes 3, 4 e 8 têm menos de 20 exemplos cada, enquanto 5 e 6 somam mais de 80% do dataset.

Mesmo usando class_weight='balanced', o modelo não consegue criar splits eficazes para classes com tão poucos exemplos.

Estratégias como oversampling (SMOTE) ou coleta de mais dados das classes minoritárias ajudariam a melhorar a performance.

**SOLUÇÃO:**

Aumentar o número de árvores (n_estimators=200~500)

Tentar oversampling das classes minoritárias (SMOTE, ADASYN)

Ajustar max_depth, min_samples_leaf para melhorar generalização

# 5 - Melhorando os Hyperparametros

A) n_estimators	[200, 300]
max_depth	[10, 20, None]
min_samples_split	[2, 5]
min_samples_leaf	[1, 2]
max_features	['sqrt', 'log2']

B) Novo treinamento:

In [None]:
# Carregar os dados
df = pd.read_csv("wine_top_corr.csv")
X = df.drop('quality', axis=1)
y = df['quality']

# Dividir em treino e teste
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42, stratify=y
)

# Modelo base
rf = RandomForestClassifier(random_state=42, class_weight='balanced')

# Grid de hiperparâmetros (reduzido)
param_grid = {
    'n_estimators': [200, 300],
    'max_depth': [10, 20, None],
    'min_samples_split': [2, 5],
    'min_samples_leaf': [1, 2],
    'max_features': ['sqrt', 'log2']
}

# Random Search
random_search = RandomizedSearchCV(
    estimator=rf,
    param_distributions=param_grid,
    n_iter=10,          # número de combinações aleatórias a testar
    cv=3,               # validação cruzada 3-fold
    n_jobs=-1,          # usa todos os núcleos da CPU
    scoring='f1_macro', # f1_macro para balancear classes
    random_state=42,
    verbose=2
)

# Treinar
random_search.fit(X_train, y_train)

# Melhor modelo
best_rf = random_search.best_estimator_
print("Melhores hiperparâmetros encontrados:", random_search.best_params_)

# Avaliar no teste
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

y_pred = best_rf.predict(X_test)
print("Acurácia no Teste:", accuracy_score(y_test, y_pred))
print("Matriz de Confusão:\n", confusion_matrix(y_test, y_pred))
print("Relatório de Classificação:\n", classification_report(y_test, y_pred))


Fitting 3 folds for each of 10 candidates, totalling 30 fits
Melhores hiperparâmetros encontrados: {'n_estimators': 300, 'min_samples_split': 2, 'min_samples_leaf': 2, 'max_features': 'sqrt', 'max_depth': None}
Acurácia no Teste: 0.6416666666666667
Matriz de Confusão:
 [[  0   1   1   1   0   0]
 [  0   3   9   4   0   0]
 [  0   3 151  46   4   0]
 [  0   1  49 127  15   0]
 [  0   0   1  31  26   2]
 [  0   0   0   2   2   1]]
Relatório de Classificação:
               precision    recall  f1-score   support

           3       0.00      0.00      0.00         3
           4       0.38      0.19      0.25        16
           5       0.72      0.74      0.73       204
           6       0.60      0.66      0.63       192
           7       0.55      0.43      0.49        60
           8       0.33      0.20      0.25         5

    accuracy                           0.64       480
   macro avg       0.43      0.37      0.39       480
weighted avg       0.63      0.64      0.63       


Precision is ill-defined and being set to 0.0 in labels with no predicted samples. Use `zero_division` parameter to control this behavior.


Precision is ill-defined and being set to 0.0 in labels with no predicted samples. Use `zero_division` parameter to control this behavior.


Precision is ill-defined and being set to 0.0 in labels with no predicted samples. Use `zero_division` parameter to control this behavior.



Melhores Hiperparametros: {'n_estimators': 300, 'min_samples_split': 2, 'min_samples_leaf': 2, 'max_features': 'sqrt', 'max_depth': None}

**Insigths:**

O quê melhorou:

- Acurácia e F1 das classes centrais (5 e 6) melhoraram.

- Classes minoritárias médias (7) tiveram aumento de F1 (0.41 → 0.49).

Pontos fracos:

- Classes extremas (3, 4, 8) continuam com F1 muito baixo.

- O desbalanceamento ainda limita a capacidade do modelo de aprender essas classes.


**Solução para otimizar:**

O Random Search ajustou hiperparâmetros que ajudaram a melhorar um pouco a generalização.

Para melhorar o desempenho em classes minoritárias extremas, ainda seria interessante aplicar oversampling (SMOTE/ADASYN) ou coletar mais dados.

Para melhorar as previsões, acho que poderia ser feito:

- Balanceamento com SMOTE

- Ajuste fino de hiperparâmetros com foco nas métricas F1-score macro e recall para classes minoritárias (São nossas metricas de maior interesse).

- Usar RandomizedSearchCV primeiro, depois Grid Search ao redor dos melhores valores.

- Criar ou Buscar novas variáveis, variáveis de maior qualidade para o nosso modelo, de forma a reduzir ruídos indesejaveis.

