# Regressor Linear

Este é um exemplo de como utilizar um modelo de regressão linear simples treinado via SGD (Stochastic Gradient Descent ou Gradiente Descendente Estocástico).

Neste exemplo, utilizaremos parte de uma base de dados de vinhos discriminados segundo sua qualidade. A ideia é, então, treinar um regressor para predizer a qualidade do vinho com base nas características este possui.
Os dados em formato csv podem ser encontrados na plataforma UCI - Machine Learning <https://archive.ics.uci.edu/ml/datasets/wine+quality>, onde mais detalhes podem ser obtidos e os dados podem ser baixados diretamente.

Utilizamos a biblioteca pandas para baixar e abrir o arquivo, que nesse caso usa ";" como seperador.

In [1]:
import pandas as pd

wine = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv', sep=';')

As linhas representam amostras de vinhos, 11 características físico-químicas e qualidade respectivas.

In [2]:
wine.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


Assim, separamos os dados em X (vetores de entrada do modelo) e y (qualidade do vinho que gostaríamos de ajustar via regressão linear)

In [3]:
X = wine.drop('quality',axis=1)
y = wine['quality']

A biblioteca Scikit-Learn (ou sklearn <https://scikit-learn.org/stable/index.html>) aceita como entrada diferentes tipos de dados. Em geral, quaisquer métodos aceitam como entrada listas, arrays numpy e dataframes pandas. Para mais detalhes, lembre-se de verificar a documentação do método de interesse.

Utilizamos o helper train_test_split para separar os dados em conjunto de treinamento (sobre os quais o modelo vai efetivamente treinar) e conjunto de teste (que será utilizado para avaliar a qualidade do modelo) na proporção 80%-20%.

In [4]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test= train_test_split(X, y, test_size=0.2, random_state=777)

A seguir, padronizamos* os dados afim de facilitar a convergência do modelo utilizando o helper da biblioteca sklearn. 

*Normalização e padronização podem ser etapas importantes de pré-processamento, a depender dos dados (especialmente quando forem tabulares) e do algoritmo de treinamento. <https://www.analyticsvidhya.com/blog/2020/04/feature-scaling-machine-learning-normalization-standardization/>

In [5]:
from sklearn.preprocessing import scale

X_train = scale(X_train)
y_train = scale(y_train)

X_test = scale(X_test)
y_test = scale(y_test)

Treinamos nosso regressor usando erro quadrático, coeficiente de aprendizado constante e igual a 0.01. 

Cada atributo da classe SGDRegressor poderá mudar completamente a velocidade e qualidade do aprendizado, portanto recomendo a leitura da documentação e das referências que a mesma mencionar caso decida experimentar outras possibilidades.

In [6]:
from sklearn.linear_model import SGDRegressor

regressor = SGDRegressor(loss='squared_error', learning_rate='constant', eta0=0.01, max_iter=1000, tol=1e-3)
regressor.fit(X_train, y_train)

SGDRegressor(learning_rate='constant')

Por fim geramos predições utilizando o modelo treinado e conjunto de teste e avaliamos a qualidade do modelo. (Aqui, optou-se por usar MAE e MSE como métricas).

In [7]:
pred = regressor.predict(X_test)

In [8]:
from sklearn import metrics

print('MAE:', metrics.mean_absolute_error(y_test, pred))
print('MSE:', metrics.mean_squared_error(y_test, pred))

MAE: 0.6876033932758178
MSE: 0.7295720014908119
