# Regressão Linear e Polinomial

* Tópicos abordados:
    * Apresentação da biblioteca Scikit Learn;
    * Problemas de regressão em aprendizagem de máquina;
    * Regressão linar;
    * Regressão logística;
    * Mean Squared Error (MSE) - Erro Quadrático Médio;
    * Stochastic gradient descent (SGD) - Método do Gradiente Estocástico.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import shap
from sklearn.datasets import load_boston, load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression, SGDRegressor
from sklearn.preprocessing import PolynomialFeatures
from sklearn.metrics import mean_squared_error

In [None]:
pd.options.display.max_columns = None

In [None]:
sns.set(font_scale=1.4)
sns.set_style({'font.family': 'serif',
               'fontname': 'Times New Roman'})

## 1) Regressão Linear

### 1.1) Primeiros passos

In [None]:
boston_data = load_boston()

In [None]:
boston_df = pd.DataFrame(boston_data['data'], 
                         columns=boston_data['feature_names'])

In [None]:
boston_df.head()

In [None]:
boston_df['PRICES'] =  boston_data['target']
boston_df.head()

In [None]:
boston_df.shape

In [None]:
plt.figure(figsize = (15,8))

ax = sns.scatterplot(data=boston_df, 
                     x='PRICES', 
                     y='RM')

ax.set_xlabel('Valor da casa por 10.000 dólares')
ax.set_ylabel('Qtd. de quartos')

plt.show()

In [None]:
plt.figure(figsize = (15,8))

ax = sns.scatterplot(data=boston_df, 
                     x='PRICES', 
                     y='RM',
                     hue='AGE',
                     size='AGE', 
                     sizes=(20, 200))

ax.set_xlabel('Valor da casa por 10.000 dólares')
ax.set_ylabel('Qtd. de quartos')

plt.legend(title='Idade', loc='upper left')

plt.show()

#### 1.1.1) Criando um modelo a partir de uma única feature

In [None]:
X = boston_df['RM'].values.reshape(-1, 1)
y = boston_df['PRICES'].values

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.25,
                                                    random_state=0)

In [None]:
print('Amostras de treino:')
print(f' * X_train: {X_train.shape}')
print(f' * y_train: {y_train.shape}')

print('Amostras de teste:')
print(f' * X_test: {X_test.shape}')
print(f' * y_test: {y_test.shape}')

In [None]:
linreg_model = SGDRegressor(loss='squared_loss',
                            learning_rate='constant',
                            max_iter=10,
                            eta0=0.01,
                            verbose=1,
                            tol=None,
                            random_state=0)

In [None]:
linreg_model.fit(X_train, y_train)

In [None]:
print(f'RM = {int(linreg_model.coef_)}')
print(f'CONST = {int(linreg_model.intercept_)}')

In [None]:
y_pred = linreg_model.predict(X_test)

In [None]:
print(f'MSE = {mean_squared_error(y_test, y_pred)}')

In [None]:
plt.figure(figsize = (15,8))

plt.scatter(boston_df['PRICES'], boston_df['RM'])
plt.plot(y_pred, X_test, color='r')

plt.xlabel('Valor da casa por 10.000 dólares')
plt.ylabel('Qtd. de quartos')

plt.show()

#### 1.1.2) Atividade prática: 

* Altere o parâmetro `max_iter` para mais e para menos. 
    * O que você percebe? 
    * O que acontece com o valor da métrica de avaliação do modelo?

#### 1.1.3) Criando um modelo a partir de múltiplas features

In [None]:
boston_df

In [None]:
X = boston_df.loc[:,'CRIM':'LSTAT'].values
y = boston_df['PRICES'].values

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.25,
                                                    random_state=0)

In [None]:
print('Amostras de treino:')
print(f' * X_train: {X_train.shape}')
print(f' * y_train: {y_train.shape}')

print('Amostras de teste:')
print(f' * X_test: {X_test.shape}')
print(f' * y_test: {y_test.shape}')

In [None]:
linreg_model = SGDRegressor(loss='squared_loss',
                            learning_rate='constant',
                            max_iter=10,
                            eta0=0.01,
                            verbose=1,
                            tol=None,
                            random_state=0)

In [None]:
linreg_model.fit(X_train, y_train)

In [None]:
for f, c in zip(boston_df.columns[:-1], linreg_model.coef_.tolist()):
    print(f'{f} = {int(c)}')

print(f'CONST = {int(linreg_model.intercept_)}')

In [None]:
y_pred = linreg_model.predict(X_test)

In [None]:
print(f'MSE = {mean_squared_error(y_test, y_pred)}')

In [None]:
explainer = shap.Explainer(linreg_model.predict, X_test)
shap_values = explainer(X_train)

In [None]:
plt.figure(figsize = (15,8))
ax = shap.summary_plot(shap_values, 
                       boston_df.columns,
                       plot_type='bar')
plt.show()

#### 1.1.4) Atividade prática:

* Crie o seu modelo de regressão linear por meio de múltiplas features.
* Qual foi o valor do parâmetro `max_iter`? 
* Qual foi o valor da sua métrica de avaliação do modelo?

---

In [None]:
diabetes_data = load_diabetes()

In [None]:
diabetes_df = pd.DataFrame(diabetes_data['data'], 
                           columns=diabetes_data['feature_names'])

In [None]:
diabetes_df.head()

In [None]:
diabetes_df['PROGRESSION'] = diabetes_data['target']
diabetes_df.head()

In [None]:
diabetes_df.shape

In [None]:
X = diabetes_df.loc[:,'age':'s6'].values
y = diabetes_df['PROGRESSION'].values

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.25,
                                                    random_state=0)

In [None]:
print('Amostras de treino:')
print(f' * X_train: {X_train.shape}')
print(f' * y_train: {y_train.shape}')

print('Amostras de teste:')
print(f' * X_test: {X_test.shape}')
print(f' * y_test: {y_test.shape}')

In [None]:
linreg_model = LinearRegression()

In [None]:
linreg_model.fit(X_train, y_train)

In [None]:
for f, c in zip(diabetes_df.columns[:-1], linreg_model.coef_.tolist()):
    print(f'{f} = {int(c)}')

print(f'CONST = {int(linreg_model.intercept_)}')

In [None]:
y_pred = linreg_model.predict(X_test)

In [None]:
print(f'MSE = {mean_squared_error(y_test, y_pred)}')

In [None]:
explainer = shap.Explainer(linreg_model.predict, X_test)
shap_values = explainer(X_train)

In [None]:
plt.figure(figsize = (15,8))
ax = shap.summary_plot(shap_values, 
                       diabetes_df.columns,
                       plot_type='bar')
plt.show()

## 2) Regressão polinomial

In [None]:
expec_vida_df = pd.read_csv('../input/lifeexpectancy/life-expectancy.csv')

In [None]:
expec_vida_df.head()

In [None]:
expec_vida_EUA_df = expec_vida_df[expec_vida_df['Code'] == 'USA']
expec_vida_EUA_df.head()

In [None]:
plt.figure(figsize = (10,6))

ax = sns.scatterplot(data=expec_vida_EUA_df, 
                     x='Year', 
                     y='Life expectancy (years)')

ax.set_xlabel('Anos')
ax.set_ylabel('Expectativa de vida (idade)')

plt.show()

In [None]:
X = expec_vida_EUA_df['Life expectancy (years)'].values.reshape(-1, 1)
y = expec_vida_EUA_df['Year'].values

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.25,
                                                    random_state=0)

In [None]:
print('Amostras de treino:')
print(f' * X_train: {X_train.shape}')
print(f' * y_train: {y_train.shape}')

print('Amostras de teste:')
print(f' * X_test: {X_test.shape}')
print(f' * y_test: {y_test.shape}')

In [None]:
linreg_model = LinearRegression()
linreg_model.fit(X, y)
y_pred_lin = linreg_model.predict(X)

In [None]:
polyreg_model = PolynomialFeatures(degree=3)
X_poly = polyreg_model.fit_transform(X)
linreg_model = LinearRegression()
linreg_model.fit(X_poly, y)
y_pred_log = linreg_model.predict(polyreg_model.fit_transform(X))

In [None]:
plt.figure(figsize = (10,6))

plt.scatter(y, X)
plt.plot(y_pred_lin, X, color='g')
plt.plot(y_pred_log, X, color='r')

ax.set_xlabel('Anos')
ax.set_ylabel('Expectativa de vida (idade)')

plt.show()

### 2.1) Atividade prática: 

* Altere o parâmetro `degree` para mais e para menos. 
    * O que você percebe?

### 2.2) Atividade prática: 

* Verifique os resultados que podem ser obtidos ao se analisar o Brasil e o Canadá.
    * Filtre os dados, gerando um novo DataFrame;
    * Verifique as diferenças entre a regressão linear e polinomial
    * Que valor foi escolido para o parâmetro `degree`?

#### 2.2.1) Brasil

#### 2.2.2) Canadá