# Using Supervised Machine Learning

🔗 Dataset: https://www.kaggle.com/datasets/uciml/red-wine-quality-cortez-et-al-2009

# 1. Classificação:
A partir de um conjunto de características, deve-se prever qual a classe pertence a nova observação.

In [None]:
#Importando as bibliotecas
import pandas as pd
import numpy as np

In [None]:
#Carregando os dados
df = pd.read_csv("/content/sample_data/winequality-red.csv", sep=',', header=0)

In [None]:
#Visualizando as 5 primeiras linhas
df.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


In [None]:
#Renomeando as colunas a partir de um dicionário
pt_br = {"fixed acidity": "acidez_fixa",
         "volatile acidity": "acidez_volatil",
         "citric acid": "acido_citrico",
         "residual sugar": "acucar_residual",
         "chlorides": "cloretos",
         "free sulfur dioxide": "dioxido_de_enxofre_livre",
         "total sulfur dioxide": "dioxido_de_enxofre_total",
         "density": "densidade",
         "sulphates": "sulfatos",
         "alcohol": "alcool",
         "quality": "qualidade"}

df.rename(pt_br, axis=1, inplace=True)

In [None]:
#Estatísticas básicas dos valores numéricos
df.describe()

In [None]:
#Descrições das variáveis
df.info()

In [None]:
#Construindo a classe qualitativa: alta (1) e baixa (0)
df['qualidade_class'] = df['qualidade'].apply(lambda x: 1 if 6 <= x <= 10 else 0)


# Teste e Treino

In [None]:
from sklearn.model_selection import train_test_split

X = df.drop(['qualidade', 'qualidade_class'], axis=1) # Features
y = df['qualidade_class'] # Target

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

print("Tamanho do X_train:", X_train.shape)
print("Tamanho do X_test:", X_test.shape)
print("Tamanho do y_train:", y_train.shape)
print("Tamanho do y_test:", y_test.shape)

# 1.1 Árvore de decisão

Obs: Não deixe de conferir a documentação para maiores informações deste modelo! https://scikit-learn.org/stable/modules/tree.html#decision-trees

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import plot_tree
import matplotlib.pyplot as plt

In [None]:
# Criando o modelo de Árvore de Decisão
modelo_arvore = DecisionTreeClassifier(random_state=42)

# Treinando o modelo
modelo_arvore.fit(X_train, y_train)

# Testando o modelo
y_pred_arvore = modelo_arvore.predict(X_test)

In [None]:
# Visualizando a árvore de decisão
plt.figure(figsize=(20, 10))
plot_tree(modelo_arvore, filled=True, feature_names=X.columns, class_names=[str(q) for q in sorted(y.unique())])
plt.show()

# 1.2 KNN

Obs: Não deixe de conferir a documentação para maiores informações deste modelo! https://scikit-learn.org/stable/modules/neighbors.html#nearest-neighbors-classification

In [None]:
from sklearn.neighbors import KNeighborsClassifier

In [None]:
# O número de vizinhos (n_neighbors) é um hiperparâmetro que pode ser ajustado (atenção na próxima aula)
modelo_knn = KNeighborsClassifier(n_neighbors=5, metric='euclidean')

# Treinando o modelo KNN
modelo_knn.fit(X_train, y_train)

# Fazendo previsões
y_pred_knn = modelo_knn.predict(X_test)

In [None]:
from sklearn.model_selection import cross_val_score

# Lista para armazenar a média das acurácias para cada valor de K
cv_scores = []

# Valores de K a serem testados (geralmente um intervalo de 1 a um número razoável)
k_range = range(1, 31) # Testando K de 1 a 30

# Loop para testar cada valor de K
for k in k_range:
    knn = KNeighborsClassifier(n_neighbors=k)
    # Realizando a validação cruzada com 5 folds
    scores = cross_val_score(knn, X_train, y_train, cv=5, scoring='accuracy')
    # Armazenando a média das acurácias para este K
    cv_scores.append(scores.mean())

# Encontrando o K com a melhor acurácia média
best_k = k_range[cv_scores.index(max(cv_scores))]

print(f"O melhor número de vizinhos (K) encontrado é: {best_k}")

# Opcional: Visualizar a relação entre K e a acurácia
plt.plot(k_range, cv_scores)
plt.xlabel('Número de Vizinhos (K)')
plt.ylabel('Acurácia Média da Validação Cruzada')
plt.title('Acurácia vs. Número de Vizinhos para KNN')
plt.show()

# 2. Regressão
A partir de um conjunto de características, deve-se prever o valor contínuo que possui a nova observação.

Obs: Não deixe de conferir a documentação da biblioteca. Temos outras funções interessantes como o coeficiente e o intercepto, além de uma explicação da regressão. Confira aqui ➡️ https://scikit-learn.org/stable/modules/linear_model.html#ordinary-least-squares

In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
X1 = df.drop(['qualidade', 'qualidade_class'], axis=1) # Features
y1 = df['qualidade'] # Target

X1_train, X1_test, y1_train, y1_test = train_test_split(X1, y1, test_size=0.25, random_state=42)

print("Tamanho do X_train:", X1_train.shape)
print("Tamanho do X_test:", X1_test.shape)
print("Tamanho do y_train:", y1_train.shape)
print("Tamanho do y_test:", y1_test.shape)

In [None]:
# Criando o modelo de Regressão Linear
modelo_regressao = LinearRegression()

# Treinando o modelo
modelo_regressao.fit(X1_train, y1_train)

# Realizando previsões no conjunto de teste
y_pred_regressao = modelo_regressao.predict(X1_test)

In [None]:
# Visualizar a relação entre as variáveis e a qualidade
plt.figure(figsize=(16, 10))
for i, col in enumerate(df.columns[:-1]): # Exclui a coluna 'qualidade'
    plt.subplot(3, 4, i + 1) # Cria subplots (3 linhas, 4 colunas)
    plt.scatter(df[col], df['qualidade'], alpha=0.5)
    plt.title(f'{col} vs Qualidade')
    plt.xlabel(col)
    plt.ylabel('Qualidade')
plt.tight_layout() # Ajusta o layout para evitar sobreposição
plt.show()

# 3. Métricas de avaliação

Obs: Não deixe de conferir a documentação da biblioteca. https://scikit-learn.org/stable/modules/model_evaluation.html#metrics-and-scoring-quantifying-the-quality-of-predictions

In [None]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, classification_report, r2_score, mean_absolute_error, root_mean_squared_error

In [None]:
# Métricas para Árvore de Decisão
print("Métricas para Árvore de Decisão:")
print("Acurácia:", accuracy_score(y_test, y_pred_arvore))
print("Precisão:", precision_score(y_test, y_pred_arvore))
print("Recall:", recall_score(y_test, y_pred_arvore))
print("F1 Score:", f1_score(y_test, y_pred_arvore))
print("\nClassification Report para Árvore de Decisão:\n", classification_report(y_test, y_pred_arvore))

# Métricas para KNN
print("\nMétricas para KNN:")
print("Acurácia:", accuracy_score(y_test, y_pred_knn))
print("Precisão:", precision_score(y_test, y_pred_knn))
print("Recall:", recall_score(y_test, y_pred_knn))
print("F1 Score:", f1_score(y_test, y_pred_knn))
print("\nClassification Report para KNN:\n", classification_report(y_test, y_pred_knn))

In [None]:
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

# Matriz de Confusão para Árvore de Decisão
cm_arvore = confusion_matrix(y_test, y_pred_arvore)
disp_arvore = ConfusionMatrixDisplay(confusion_matrix=cm_arvore, display_labels=sorted(y.unique()))
disp_arvore.plot()
plt.title("Matriz de Confusão - Árvore de Decisão")
plt.show()

# Matriz de Confusão para KNN
cm_knn = confusion_matrix(y_test, y_pred_knn)
disp_knn = ConfusionMatrixDisplay(confusion_matrix=cm_knn, display_labels=sorted(y.unique()))
disp_knn.plot()
plt.title("Matriz de Confusão - KNN")
plt.show()


In [None]:
# Métricas para Regressão Linear
print("\nMétricas para Regressão Linear:")
print("R² Score:", r2_score(y1_test, y_pred_regressao))
print("Mean Absolute Error:", mean_absolute_error(y1_test, y_pred_regressao))
print("Root Mean Squared Error:", root_mean_squared_error(y1_test, y_pred_regressao))