In [15]:
from sklearn.linear_model import SGDRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, mean_squared_error
import pandas as pd

# carrega os dados
data = pd.read_csv('https://github.com/liviaalmada/ml2023/blob/master/llistas/modelos_lineares/winequality-white.csv?raw=true', delimiter=';')

# separa os dados em variáveis de entrada (X) e saída (y)
X = data.drop(columns=['quality'])
y = data['quality']

# divide os dados em conjuntos de treino e teste (80% para treino, 20% para teste)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# cria o modelo de regressão linear com o algoritmo SGDRegressor
model = SGDRegressor(random_state=3)

# treina o modelo com os dados de treino
model.fit(X_train, y_train)

# faz as previsões com os dados de treino e teste
y_train_pred = model.predict(X_train)
y_test_pred = model.predict(X_test)

# calcula o erro absoluto médio e o erro quadrático médio para os dados de treino e teste
mae_train = mean_absolute_error(y_train, y_train_pred)
mae_test = mean_absolute_error(y_test, y_test_pred)
mse_train = mean_squared_error(y_train, y_train_pred)
mse_test = mean_squared_error(y_test, y_test_pred)

# exibe os resultados
print('Erro absoluto médio (MAE) para o conjunto de treino: {:.2f}'.format(mae_train))
print('Erro absoluto médio (MAE) para o conjunto de teste: {:.2f}'.format(mae_test))
print('Erro quadrático médio (MSE) para o conjunto de treino: {:.2f}'.format(mse_train))
print('Erro quadrático médio (MSE) para o conjunto de teste: {:.2f}'.format(mse_test))

Erro absoluto médio (MAE) para o conjunto de treino: 875054153532.87
Erro absoluto médio (MAE) para o conjunto de teste: 890575550116.21
Erro quadrático médio (MSE) para o conjunto de treino: 864772141948720444866560.00
Erro quadrático médio (MSE) para o conjunto de teste: 902391392313853234642944.00


Ao analisar os resultados dos erros médios absolutos e quadráticos no conjunto de treino e teste, notamos que houve um ligeiro aumento desses valores no conjunto de teste em relação ao conjunto de treino. Essa discrepância era esperada, já que o modelo foi treinado especificamente com os dados do conjunto de treino e, portanto, é natural que ele tenha mais dificuldade em generalizar para dados desconhecidos no conjunto de teste. Porém, é importante destacar que os erros nos dois conjuntos são bastante próximos, o que indica que o modelo não está sofrendo de overfitting, ou seja, ele não está se ajustando excessivamente aos dados do conjunto de treino e perdendo capacidade de generalização. Diante disso, podemos concluir que o modelo apresentou um bom desempenho em ambos os conjuntos de dados.