In [1]:
# Import necessary packages
import pandas as pd
import random
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
from copy import deepcopy as cp
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import (
    train_test_split,
    StratifiedKFold)
from sklearn.metrics import (
    accuracy_score,
    precision_score,
    recall_score,
    f1_score,
    classification_report,
    confusion_matrix,
    roc_curve,
    auc,
    RocCurveDisplay
)

sns.set_style("ticks")
sns.set_context("paper")

random_state = 42

In [2]:
wines = pd.read_csv("data/winequalityN.csv")

FileNotFoundError: ignored

In [None]:
wines.isnull().sum().sort_values

In [None]:
wines.dropna(axis=0,inplace=True)

In [None]:
vars = [
   'fixed acidity',
   'volatile acidity',
   'citric acid',
   'residual sugar',
   'chlorides',
   'free sulfur dioxide',
   'total sulfur dioxide',
   'density',
   'pH',
   'sulphates',
   'alcohol'
]


- **fixed acidity:** a maioria dos ácidos envolvidos com vinho (não evaporam prontamente)
- **volatile acidity:** a quantidade de ácido acético no vinho, que em níveis muito altos pode levar a um gosto desagradável de vinagre
- **volatile acidity:** a quantidade de ácido acético no vinho, que em níveis muito altos pode levar a um gosto desagradável de vinagre
- **citric acid:** encontrado em pequenas quantidades, o ácido cítrico pode adicionar "leveza" e sabor aos vinhos
- **residual sugar:** a quantidade de açúcar restante após a fermentação é interrompida, é raro encontrar vinhos com menos de 1 grama / litro e vinhos com mais de 45 gramas / litro são considerados doces
- **chlorides:** a quantidade de sal no vinho free sulfur dioxide: a forma livre de SO2 existe em equilíbrio entre o SO2 molecular (como gás dissolvido) e o íon bissulfito; impede o crescimento microbiano e a oxidação do vinho
- **total sulfur dioxide:** Quantidade de formas livres e encadernadas de S02; em baixas concentrações, o SO2 é quase indetectável no vinho, mas nas concentrações de SO2 acima de 50 ppm, o SO2 se torna evidente no nariz e no sabor do vinho.
- **density:** a densidade do vinho é próxima a da água, dependendo do percentual de álcool e teor de açúcar
- **pH:** descreve se o vinho é ácido ou básico numa escala de 0 (muito ácido) a 14 (muito básico); a maioria dos vinhos está entre 3-4 na escala de pH
- **sulphates:** um aditivo de vinho que pode contribuir para os níveis de gás de dióxido de enxofre (S02), que age como um antimicrobiano e antioxidante
- **alcohol:** o percentual de álcool no vinho

In [None]:
sns.pairplot(data=wines,hue="type");

______________________________

White Wines

In [None]:
white_wines = wines[wines['type'] == "white"].copy()

In [None]:
#white_wines.dropna(axis=0,inplace=True)

In [None]:
white_wines.reset_index(inplace=True)

Crie uma nova variável, chamada "opinion" que será uma variável categórica igual à 0, quando quality for menor e igual à 5

In [None]:
white_wines["opinion"] = (white_wines.quality > 5).astype(int)
white_wines["opinion"]

In [None]:
white_wines.isnull().sum().sort_values

Descreva as variáveis presentes na base. Quais são as variáveis? Quais são os tipos de variáveis (discreta, categórica, contínua)?

In [None]:
white_wines.info()

In [None]:
white_wines.head()

In [None]:
white_wines.columns

____________________________________________

Quais são os tipos de variáveis

In [None]:
types = [
        ("Type", "Categórica"),
        ("Fixed_Acidity", "Discreta"),
        ("Fixed_Acidity", "Discreta"),
        ("Volatile_Acidity", "Contínua"),
        ("Citric_Acid", "Contínua"),
        ("Residual_Sugar", "Contínua"),
        ("Chlorides", "Contínua"),
        ("Free_Sulfur_Dioxide", "Discreta"),
        ("Total_Sulfur_Dioxide", "Discreta"),
        ("Density", "Contínua"),
        ("pH", "Contínua"),
        ("Sulphates", "Contínua"),
        ("Alcohol", "Contínua"),
        ("Quality", "Discreta"),
        ("Opinion", "Categórica")
]

In [None]:
df = pd.DataFrame(types,columns=["Variável","Tipo"])
df = df.set_index(["Variável"])


In [None]:
df

Quais são as médias e desvios padrões

In [None]:
white_wines.describe()

In [None]:
sns.set(font_scale=1.3,rc={"figure.figsize":(20,20)})
eixo = white_wines.hist(bins=20, color="blue")

In [None]:
correlation = white_wines.corr()
correlation
sns.set(rc = {'figure.figsize':(14,9)})
plot = sns.heatmap(correlation, annot = True, fmt=".1f", linewidths=1, linecolor='black')
plot;

In [None]:
plt.figure(figsize=(10,8))
sns.boxplot(data=white_wines,x="opinion",y="quality");

____________________________________

Para criar um modelo de classificação eficaz, você pode seguir as seguintes etapas:

Coleta e preparação dos dados: Inicie coletando os dados relevantes para o seu problema de classificação. Em seguida, verifique a qualidade dos dados, limpe-os, remova valores ausentes, normalize as características e trate quaisquer inconsistências ou valores atípicos.

Análise exploratória dos dados: Realize uma análise exploratória dos dados para obter insights valiosos sobre as características, distribuições e relacionamentos dos dados. Visualize os dados usando gráficos, tabelas e estatísticas descritivas. Isso ajudará a entender melhor o problema, identificar padrões e determinar quais características podem ser mais relevantes para a classificação.

Divisão dos dados em conjuntos de treinamento, validação e teste: Separe os dados em três conjuntos distintos: treinamento, validação e teste. O conjunto de treinamento será usado para treinar o modelo, o conjunto de validação ajudará a ajustar os hiperparâmetros do modelo e o conjunto de teste será usado para avaliar o desempenho final do modelo. A proporção típica é de 70-80% para treinamento, 10-15% para validação e 10-15% para teste, mas isso pode variar dependendo do tamanho do conjunto de dados disponível.

Seleção de características: Se você tiver muitas características, pode ser útil realizar uma seleção de características para identificar as mais relevantes para o problema de classificação. Isso pode ser feito usando métodos estatísticos, como análise de correlação ou teste de significância, ou usando algoritmos de seleção de características, como a análise de componentes principais (PCA) ou a seleção baseada em árvores de decisão.

Escolha do algoritmo de classificação: Com base no seu problema de classificação e nos dados disponíveis, escolha o algoritmo de classificação mais adequado. Alguns algoritmos comuns incluem árvores de decisão, regressão logística e SVM.

Treinamento do modelo: Use o conjunto de treinamento para treinar o modelo selecionado. Isso envolve alimentar os dados ao algoritmo de classificação e ajustar os parâmetros internos do modelo para otimizar seu desempenho. Durante o treinamento, o modelo aprenderá a mapear as características dos dados para suas respectivas classes.

Validação e ajuste de hiperparâmetros: Use o conjunto de validação para avaliar o desempenho do modelo e ajustar seus hiperparâmetros. Os hiperparâmetros são configurações que controlam o comportamento do algoritmo de classificação, como a profundidade máxima de uma árvore de decisão ou o tamanho do lote em uma rede neural. Experimente diferentes valores de hiperparâmetros e avalie seu impacto no desempenho do modelo usando métricas apropriadas.

_______________________________________________

In [None]:
X = white_wines[vars]
y = white_wines['opinion']

In [None]:
# Vamos dividir a base entre treino e teste
X_train, X_test, y_train, y_test = train_test_split(X.values,
                                                    y.values,
                                                    test_size=0.2, # 20 % da base
                                                    random_state=171,
                                                    stratify=y)

# Vamos criar a escala

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Vamos treinar!

model = LogisticRegression()
model.fit(X_train_scaled, y_train)

# Vamos avaliar!!!

y_prob = model.predict_proba(X_train_scaled)
y_pred = model.predict(X_train_scaled)

y_pred_test = model.predict(X_test_scaled)

print(f" F1-Score é {f1_score(y_train, y_pred):.2}")
print(f" F1-Score é {f1_score(y_test, y_pred_test):.2}")

Treinando com K-Folds

In [None]:
cv = StratifiedKFold(n_splits=10)


f1_score_test_list = []
model_list =[]
accuracy_list = []
precision_list = []
recall_list = []
 
for fold, (train_idx, test_idx) in enumerate(cv.split(X, y)):
    X_train = X.loc[train_idx, :].values
    y_train = y[train_idx]
    X_test = X.loc[test_idx, :].values
    y_test = y[test_idx]

    # Escala
    scaler = StandardScaler()
    X_train_scaled = scaler.fit_transform(X_train)
    X_test_scaled = scaler.transform(X_test)

    # Treino
    model = LogisticRegression()
    model.fit(X_train_scaled, y_train)
    y_prob = model.predict_proba(X_train_scaled)
    y_pred = model.predict(X_train_scaled)

    y_pred_test = model.predict(X_test_scaled)
    print(f"========================= FOLD {fold} ==========================")
    print(f" F1-Score é {f1_score(y_train, y_pred):.2}")
    print(f" F1-Score é {f1_score(y_test, y_pred_test):.2}") 
    f1_score_test_list.append(f1_score(y_test, y_pred_test))
    model_list.append(model)
    accuracy_list.append(accuracy_score(y_test, y_pred_test))
    precision_list.append(precision_score(y_test, y_pred_test))
    recall_list.append(recall_score(y_test, y_pred_test))
print()
print()
print("========================= Questão 4.b ==========================")
print(f" F1-Score Médio é {np.mean(f1_score_test_list): .5} +- {np.std(f1_score_test_list): .2} ")
print(f" Acurácia Médio é {np.mean(accuracy_list): .5} +- {np.std(accuracy_list): .2} ")
print(f" Precisão Média é {np.mean(precision_list): .5} +- {np.std(precision_list): .2} ")
print(f" Sensibilidade/Recall Médio é {np.mean(recall_list): .5} +- {np.std(recall_list): .2} ")
best_model = model_list[np.argmax(f1_score_test_list)]

In [None]:
print(classification_report(y_test,y_pred_test))

______________________________________

# Curva Roc - Código

In [None]:
def logit_train(X, y, test_size : float = 0.2, random_state=42, stratify=None, **logit_kwargs):
    """
    Method for training a model using logit regression.
    """
    random.seed(random_state) # "GLOBAL"/ LOCAL
    np.random.seed(random_state)

    X_train, X_test, y_train, y_test = train_test_split(X,
                                                        y,
                                                        test_size=test_size,
                                                        random_state=random_state, # LOCAL
                                                        stratify=stratify)
    scaler = StandardScaler() # LOCAL
    X_train_scaled = scaler.fit_transform(X_train)
    X_test_scaled = scaler.transform(X_test)
    model = LogisticRegression(**logit_kwargs, random_state=random_state)
    model.fit(X_train_scaled, y_train)

    return {
        'model': model,
        'scaler': scaler,
        'X_train': X_train,
        'X_train_scaled': X_train_scaled,
        'X_test': X_test,
        'X_test_scaled': X_test_scaled,
        'y_train': y_train,
        'y_test': y_test
    }

class LogitTrainResults:
    def __init__(self, results):
        self.model = results['model']
        self.scaler = results['scaler']
        self.X_train = results['X_train']
        self.X_train_scaled = results['X_train_scaled']
        self.X_test = results['X_test']
        self.X_test_scaled = results['X_test_scaled']
        self.y_train = results['y_train']
        self.y_test = results['y_test']

    def accuracy_train(self):
        y_pred = self.model.predict(self.X_train_scaled)
        return accuracy_score(self.y_train, y_pred)

    def accuracy_test(self):
        y_pred = self.model.predict(self.X_test_scaled)
        return accuracy_score(self.y_test, y_pred)

    def plot_roc(self, X, y, estimator_name : str = "treino", **kwargs):
        y_hat = self.model.predict_proba(X)
        fpr, tpr, thresholds = roc_curve(y, y_hat[:, 1], pos_label=1)
        auc_score = auc(fpr, tpr)

        return RocCurveDisplay(fpr=fpr,
                               tpr=tpr,
                               roc_auc=auc_score,
                               estimator_name = estimator_name).plot(**kwargs)

    def plot_roc_train(self, **kwargs):
        self.plot_roc(self.X_train_scaled, self.y_train, estimator_name="treino", **kwargs)

    def plot_roc_test(self, **kwargs):
        self.plot_roc(self.X_test_scaled, self.y_test, estimator_name="teste", **kwargs)

In [None]:
X = white_wines[vars]
y = white_wines['opinion']
stratify = y
random_state = 42
test_size = 0.1

X_train_cv, X_test, y_train_cv, y_test = train_test_split(X.values,
                                                          y.values,
                                                          test_size=test_size,
                                                          random_state=random_state,
                                                          stratify=stratify)

In [None]:
def interpolation(fpr, tpr):
    interp_fpr = np.linspace(0, 1, 100)
    interp_tpr = np.interp(interp_fpr, fpr, tpr)
    interp_tpr[0] = 0.
    return interp_fpr, interp_tpr

def train_cv(model, cv):
    fig, ax = plt.subplots(1, 1, figsize=(14, 14))
    fprs_list = []
    tprs_list = []
    auc_list  = []
    scaler_list = []
    for fold, (train, val) in enumerate(cv.split(X_train_cv, y_train_cv)):
        X_train = X_train_cv[train, :]
        scaler = StandardScaler()
        X_train_scaled = scaler.fit_transform(X_train)
        scaler_list.append(scaler)
        y_train = y_train_cv[train]
        X_val = X_train_cv[val, :]
        X_val_scaled = scaler.transform(X_val)
        y_val = y_train_cv[val]

        model.fit(X_train_scaled, y_train)

        viz = RocCurveDisplay.from_estimator(
            model,
            X_val_scaled,
            y_val,
            ax = ax,
            alpha=0.3,
            lw=1
        )
        interp_fpr, interp_tpr = interpolation(viz.fpr, viz.tpr)
        fprs_list.append(interp_fpr)
        tprs_list.append(interp_tpr)
        auc_list.append(viz.roc_auc) 

    mean_fpr = np.mean(fprs_list, axis=0)
    mean_tpr = np.mean(tprs_list, axis=0)
    mean_auc = np.mean(auc_list)
    std_auc = np.std(auc_list)

    ax.plot(
        mean_fpr,
        mean_tpr,
        color='blue',
        lw=2,
        label=r"Mean ROC (AUC = %.2f $\pm$ %.2f)" %(mean_auc, std_auc)
    )


    ax.plot(np.linspace(0, 1, 100),
            np.linspace(0, 1, 100),
            color='g',
            ls=":",
            lw=0.5)
    ax.legend()

Curva ROC Regressão Logística

In [None]:

cv = StratifiedKFold(n_splits=10)
model_1 = LogisticRegression(max_iter=10000, random_state=random_state)
train_cv(model_1, cv)

______________________________________________________

In [None]:
from sklearn.tree import (
    DecisionTreeClassifier, 
    plot_tree
)

In [None]:
StratifiedKFold(n_splits=10)

In [None]:
X_train_cv, X_test, y_train_cv, y_test = train_test_split(X.values,
                                                          y.values,
                                                          test_size=0.2, # 20 % da base
                                                          random_state=42,
                                                          stratify=y)

def train(X, y, model_klass, model_kwargs = {}):
    cv = StratifiedKFold(n_splits=10)
    
    f1_score_val_list = []
    f1_score_train_list = []
    model_list =[]
    scaler_list = []
    model_list =[]
    accuracy_list = []
    precision_list = []
    recall_list = []
    
    # Validação cruzada só em Training Data
    for fold, (train_idx, val_idx) in enumerate(cv.split(X, y)):
        X_train = X[train_idx, :]
        y_train = y[train_idx]
        X_val = X[val_idx, :]
        y_val = y[val_idx]

        # Escala
        scaler = StandardScaler()
        X_train_scaled = scaler.fit_transform(X_train)
        X_val_scaled = scaler.transform(X_val)

        scaler_list.append(scaler)

        # Treino
        model = model_klass(**model_kwargs)
        model.fit(X_train_scaled, y_train)
        y_pred = model.predict(X_train_scaled)

        y_pred_val = model.predict(X_val_scaled)
        print(f"========================= FOLD {fold} ==========================")
        print(f"Meu resultado para treino de F1-Score é {f1_score(y_train, y_pred):.2}")
        print(f"Meu resultado para validação de F1-Score é {f1_score(y_val, y_pred_val):.2}")
        print(f"Meu resultado para validação de Recall é {recall_score(y_train, y_pred):.2}") 
        print(f"Meu resultado para validação de Acurácia é {accuracy_score(y_train, y_pred):.2}")
        print(f"Meu resultado para validação de Precisão é {precision_score(y_train, y_pred):.2}")
        
        f1_score_val_list.append(f1_score(y_val, y_pred_val))
        f1_score_train_list.append(f1_score(y_train, y_pred))
        accuracy_list.append(accuracy_score(y_train, y_pred))
        precision_list.append(precision_score(y_train, y_pred))
        recall_list.append(recall_score(y_train, y_pred))
        model_list.append(model)

    print()
    print("-------------------------------------------------------------------------------------")
    print()
    print(f" F1-Score Médio de treino é {np.mean(f1_score_train_list): .5} +- {np.std(f1_score_train_list): .2} ")
    print(f" F1-Score Médio de validação é {np.mean(f1_score_val_list): .5} +- {np.std(f1_score_val_list): .2} ")
    print(f" Recall Médio é {np.mean(recall_list): .5} +- {np.std(recall_list): .2} ")
    print(f" Acurácia Média é {np.mean(accuracy_list): .5} +- {np.std(accuracy_list): .2} ")
    print(f" Precisão Média é {np.mean(precision_list): .5} +- {np.std(precision_list): .2} ")

    print()

    best_model_idx = np.argmax(f1_score_val_list)
    print(f"Meu melhor fold é: {best_model_idx} ")
    best_model = model_list[best_model_idx]

    # Fazer a inferência em Test Data
    best_scaler = scaler_list[best_model_idx]
    X_test_scaled = best_scaler.transform(X_test)
    y_pred_test = model.predict(X_test_scaled)

    print()
    print(f" F1-Score para o conjunto de teste é: {f1_score(y_test, y_pred_test):.2} ")
    return best_model, best_scaler

In [None]:
tree_model = train(X_train_cv, y_train_cv, DecisionTreeClassifier, model_kwargs={'min_samples_leaf': 50})[0]

In [None]:
import matplotlib.pyplot as plt
fig, ax = plt.subplots(1, 1, figsize=(60, 60))
plot_tree(tree_model, filled=True);

Curva ROC Árvore de Decisão

In [None]:
train_cv(tree_model, cv)

__________________________________

In [None]:
from sklearn.svm import SVC
SVM = train(X_train_cv, y_train_cv, SVC, model_kwargs={'gamma': 2, 'C': 1, 'kernel': 'rbf'})[0]

Curva ROC SVM

In [None]:
train_cv(SVM, cv)

____________________________

In [None]:
train_cv(model_1, cv), train_cv(tree_model, cv), train_cv(SVM, cv);

_______________________________

Comparando os resultados dos três modelos disponíveis (Árvore de Decisão, Regressão Logística e SVM), podemos observar o seguinte:

**1. Árvore de Decisão:**

- F1-Score Médio de treino: 0.84 +- 0.0043
- F1-Score Médio de validação: 0.82 +- 0.015
- Recall Médio: 0.86 +- 0.015
- Acurácia Média: 0.79 +- 0.0049
- Precisão Média: 0.83 +- 0.0091
- AUC Médio: 0.81 +- 0.02

**2. Regressão Logística:**

- F1-Score Médio: 0.82 +- 0.032
- Acurácia Média: 0.74 +- 0.042
- Precisão Média: 0.77 +- 0.035
- Recall Médio: 0.87 +- 0.06
- AUC Médio: 0.80 +- 0.02

**3. SVM:**

- F1-Score Médio de treino: 0.99 +- 0.00051
- F1-Score Médio de validação: 0.85 +- 0.0063
- Recall Médio: 1.0 +- 0.0011
- Acurácia Média: 0.99 +- 0.00068
- Precisão Média: 0.99 +- 0.00067
- AUC Médio: 0.87 +- 0.01

Considerando os resultados apresentados, **o modelo de SVM demonstra um desempenho geral superior em comparação com os outros modelos**. Ele possui altas pontuações em todas as métricas avaliadas, incluindo F1-Score, Recall, Acurácia, Precisão e AUC. Além disso, o modelo de SVM também apresenta menor variação nas métricas, o que indica maior consistência em seu desempenho.

Com base no resultado do melhor modelo, podemos ainda fazer a seguinte análise:

**1. F1-Score Médio:** O F1-Score é uma métrica que combina precisão e recall, fornecendo uma medida geral do desempenho do modelo. Um valor de F1-Score médio de treino de 0.99 indica que o modelo teve um desempenho muito bom na classificação dos dados de treinamento. No entanto, é importante observar que a diferença de 0.00051 indica que pode haver alguma variação no desempenho do modelo em diferentes execuções.

**2. F1-Score Médio de Validação:** O F1-Score médio de validação de 0.85 indica o desempenho médio do modelo ao classificar dados não vistos durante o treinamento. Embora seja um valor decente, é notável que o desempenho do modelo em validação é menor do que o desempenho em treinamento. A diferença de 0.0063 sugere alguma variação no desempenho do modelo em diferentes conjuntos de validação.

**3. Recall Médio:** O recall mede a proporção de instâncias positivas que foram corretamente identificadas pelo modelo. Um valor de recall médio de 1.0 indica que o modelo conseguiu recuperar corretamente todas as instâncias positivas durante o treinamento, o que é um bom resultado.

**4. Acurácia Média:** A acurácia mede a proporção de instâncias corretamente classificadas pelo modelo em relação ao total de instâncias. Um valor de acurácia média de 0.99 indica que o modelo teve um desempenho muito bom na classificação geral dos dados de treinamento.

**5. Precisão Média:** A precisão mede a proporção de instâncias classificadas como positivas que são realmente positivas. Um valor de precisão média de 0.99 indica que o modelo teve um desempenho muito bom em evitar falsos positivos durante o treinamento.

**6. Curva ROC:** A média AUC (Área Sob a Curva ROC) de 0.87 com uma variação de +/- 0.01 indica que o modelo de SVM tem um desempenho razoável na classificação dos dados. Uma AUC de 0.87 indica que o modelo possui uma boa capacidade de distinguir entre classes positivas e negativas. 

Em geral, o modelo de SVM apresentou um desempenho impressionante nos dados de treinamento, com alta precisão, recall, acurácia e F1-Score. No entanto, é importante considerar a diferença observada nos resultados de validação, o que pode indicar uma certa variação no desempenho em diferentes conjuntos de dados não vistos durante o treinamento. Portanto, é recomendável avaliar o desempenho do modelo em um conjunto de teste independente para obter uma avaliação mais precisa de sua capacidade de generalização.

_________________________________________________

In [None]:
red_wines = wines[wines['type'] == "red"].copy()

In [None]:
red_wines.dropna(axis=0,inplace=True)

In [None]:
red_wines.reset_index()

In [None]:
red_wines.isnull().sum().sort_values

Criando uma nova variável, chamada "opinion" que será uma variável categórica igual à 0, quando quality for menor e igual à 5

In [None]:
number_of_wines = red_wines.shape[0]
red_wines['opinion'] =  np.zeros((number_of_wines, 1))
red_wines.loc[red_wines.quality > 5, "opinion"] = 1

In [None]:
red_wines.columns

In [None]:
X_red = red_wines[vars]
y_red = red_wines['opinion']

In [None]:
best_white_model, best_white_scaler = train(X_train_cv, y_train_cv, SVC, model_kwargs={'gamma': 2, 'C': 1, 'kernel': 'rbf'})

In [None]:
X_red_scaled = best_white_scaler.transform(X_red)

In [None]:
y_red_pred = best_white_model.predict(X_red_scaled)
y_red_pred

In [None]:
print(f"O F1-Score é {f1_score(y_red, y_red_pred):.5}")
print(f"O Recall é {recall_score(y_red, y_red_pred):.5}") 
print(f"A Acurácia é {accuracy_score(y_red, y_red_pred):.5}")
print(f"A Precisão é {precision_score(y_red, y_red_pred):.5}")

_________________________________

### Com a escolha do melhor modelo, use os dados de vinho tinto, presentes na base original e faça a inferência. Utilize o mesmo critério utilizado com os vinhos brancos, para comparar o desempenho do modelo. Ele funciona da mesma forma para essa nova base? Justifique.

Funciona bem diferente, e isso pode ser explicado pelo fato do modelo ser treinado com os dados dos vinhos brancos e agora tentar prever com os dados dos tintos, com características bem diferentes.

**1.  Resultados do Vinho Tinto:**

- O F1-Score é 0.69668
- O Recall é 1.0
- A Acurácia é 0.53484
- A Precisão é 0.53455

**2. Resultados do Vinho Branco:**


-  F1-Score Médio de treino é  1.0 +-  0.0012 
-  F1-Score Médio de validação é  0.79 +-  0.02 
-  Recall Médio é  1.0 +-  0.0015 
-  Acurácia Média é  0.99 +-  0.0013 
-  Precisão Média é  0.99 +-  0.0018 

_______________________________________________