# Live: Regressão - Minerando Dados

### Importando as bibliotecas necessárias

In [None]:
import numpy as np

import pandas as pd

from pandas import Series, DataFrame

from sklearn.model_selection import train_test_split

In [None]:
pd.__version__

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
!pip install google.colab

### Carregando a base de dados

In [None]:
df = pd.read_csv('drive/My Drive/Blog/Lives/Live-Regressao/train.csv')

In [None]:
df.head()

### Selecionando os atributos

In [None]:
df[['Outlet_Establishment_Year','Item_MRP','Item_Outlet_Sales']][:5]

In [None]:
X = df[['Outlet_Establishment_Year','Item_MRP']]

#### Separando os conjuntos de treino e teste


In [None]:
x_train, x_test, y_train, y_test = train_test_split( X, df.Item_Outlet_Sales, test_size=0.3)

#### Verificando o shape dos dados

In [None]:
x_train.shape, y_train.shape

In [None]:
x_test.shape, y_test.shape

### Instânciando a Regressão Linear

In [None]:
from sklearn.linear_model import LinearRegression

lreg = LinearRegression()

### Treinando o modelo

In [None]:
lreg.fit(x_train,y_train)

###  Predizendo os valores para o conjunto de teste

In [None]:
pred = lreg.predict(x_test)

###  Calculando o MSE (Mean Square Error)


In [None]:
mse = np.mean((pred - y_test)**2)
mse

### Calculando os Coeficientes


In [None]:
coeff = DataFrame(x_train.columns)

coeff['Coeficientes'] = Series(lreg.coef_)

coeff

### Calculando o r-squared

In [None]:
lreg.score(x_test,y_test)

### Regressão Linear com mais variáveis.

#### Verificando o atributo Item Weight

In [None]:
df['Item_Weight'].head()

#### Verificando e tratando registros nulos

In [None]:
df['Item_Weight'].isnull().sum()

In [None]:
df['Item_Weight'].fillna((df['Item_Weight'].mean()), inplace=True)

#### Selecionando novamente os 3 atributos

In [None]:
X = df.loc[:,['Outlet_Establishment_Year','Item_MRP','Item_Weight']]

#### Separando os conjuntos de treino e teste

In [None]:
x_train, x_test, y_train, y_test = train_test_split( X, df.Item_Outlet_Sales, test_size=0.3)

#### Treinando novamente o modelo

In [None]:
lreg.fit(x_train,y_train)

#### Executando a predição e calculando o MSE

In [None]:
pred = lreg.predict(x_test)

mse = np.mean((pred - y_test)**2)

mse

#### Verificando os coeficientes

In [None]:
coeff = DataFrame(x_train.columns)

coeff['Coeficientes'] = Series(lreg.coef_)

coeff

#### Calculando o r-squared

In [None]:
lreg.score(x_test,y_test)

### Pre-processamento nos dados para aplicar a Regressão


#### Tratando Missing Values

In [None]:
df['Item_Visibility'] = df['Item_Visibility'].replace(0,np.mean(df['Item_Visibility']))

df['Outlet_Establishment_Year'] = 2013 - df['Outlet_Establishment_Year']

df['Outlet_Size'].fillna('Small',inplace=True)

#### Convertendo atributos catégoricos em numéricos

In [None]:
df.Item_Fat_Content.value_counts()

In [None]:
df.Item_Type.value_counts()

In [None]:
df.Outlet_Size.value_counts()

#### Importando o LabelEncoder

In [None]:
from sklearn import preprocessing
le = preprocessing.LabelEncoder()

#### Função para aplicar o LabelEncoder em cada atributo

In [None]:
def generate_labelencoder(atts):
  for attr in atts:
    df[attr] = le.fit_transform(df[attr])
  return df

In [None]:
df = generate_labelencoder(['Item_Fat_Content','Item_Type','Outlet_Identifier','Outlet_Size'])

#### Verificando os dados após a transformação

In [None]:
df.head()

In [None]:
df.head()

#### Excluindo os atributos de identificador de item e quantidade de vendas

In [None]:
X = df

In [None]:
df.head()

#### Separando os conjuntos de dados em treino e teste

In [None]:
x_train, x_test, y_train, y_test = train_test_split( X, df.Item_Outlet_Sales, test_size=0.3)

#### Treinando o modelo com os atributos selecionados e transformados

In [None]:
lreg = LinearRegression()
lreg.fit(x_train,y_train)

#### Realizando a predição e calculando as métricas

In [None]:
pred_cv = lreg.predict(x_test)

#### MSE

In [None]:
mse = np.mean((pred_cv - y_test)**2)
mse

#### R - Squared

In [None]:
lreg.score(x_test,y_test)

### Regularização

#### Verificando a magnitude dos coeficientes

In [None]:
predictors = x_train.columns

coef = Series(lreg.coef_,predictors).sort_values()

coef.plot(kind='bar', title='Modal Coefficients') 

### Ridge Regression

#### Importando e instânciando a classe Ridge

In [None]:
from sklearn.linear_model import Ridge

ridgeReg = Ridge(alpha=0.05, normalize=True)

#### Treinando o modelo

In [None]:
ridgeReg.fit(x_train,y_train)

#### Realizando a predição e calculando as métricas

In [None]:
pred = ridgeReg.predict(x_test)

mse = np.mean((pred - y_test)**2)

mse

In [None]:
ridgeReg.score(x_test,y_test)

### Verificação do impacto nos coeficientes de forma gráfica

In [None]:
def plot_coeficientes_ridge(alpha):
  ridgeReg = Ridge(alpha=alpha, normalize=True)
  
  ridgeReg.fit(x_train,y_train)
  
  predictors = x_train.columns
  
  coef = Series(ridgeReg.coef_,predictors).sort_values()
  
  print(coef)
  
  coef.plot(kind='bar', title='Ridge Coefficients')

#### alpha = 0.01

In [None]:
plot_coeficientes_ridge(0.01)

#### alpha = 0.5

In [None]:
plot_coeficientes_ridge(0.5)

#### alpha = 10

In [None]:
plot_coeficientes_ridge(10)

### Pontos Importantes

*   O parametro alpha controla a penalização e consequentemente a magnitude dos coeficientes é reduzida.
*   Encolhendo os coeficientes temos uma redução na complexidade do modelo.



### Lasso Regression

#### Importando e instânciando a classe Ridge

In [None]:
from sklearn.linear_model import Lasso

In [None]:
lassoReg = Lasso(alpha=0.05, normalize=True)

#### Treinando o modelo

In [None]:
lassoReg.fit(x_train,y_train)

#### Realizando a predição e calculando as métricas

In [None]:
pred = lassoReg.predict(x_test)

In [None]:
mse = np.mean((pred - y_test)**2)
mse

In [None]:
lassoReg.score(x_test,y_test)

#### Verificação do impacto nos coeficientes de forma gráfica

In [None]:
def plot_coeficientes_lasso(alpha):
  lassoReg = Lasso(alpha=alpha, normalize=True)
  
  lassoReg.fit(x_train,y_train)
  
  predictors = x_train.columns
  
  coef = Series(lassoReg.coef_,predictors).sort_values()
  
  print(coef)
  
  coef.plot(kind='bar', title='Lasso Coefficients')

#### alpha = 0.01

In [None]:
plot_coeficientes_lasso(0.01)

#### alpha = 0.5

In [None]:
plot_coeficientes_lasso(0.5)

#### alpha = 1

In [None]:
plot_coeficientes_lasso(1)

### Pontos Importantes

*   Mesmo com pequenos valores de alpha a magnitude dos coeficientes diminui muito.
*   O Lasso seleciona alguns atributos enquanto outros são reduzidos a zero (Feature Selection).

### Elastic Net Regression



#### Importando o objeto da ElasticNet

In [None]:
from sklearn.linear_model import ElasticNet

#### Instanciando a classe e treinando o modelo

In [None]:
ENreg = ElasticNet(alpha=1, l1_ratio=0.5, normalize=False)
ENreg.fit(x_train,y_train)

#### Realizando as predicoes e calculando as métricas

In [None]:
pred = ENreg.predict(x_test)

In [None]:
mse = np.mean((pred - y_test)**2)

mse

In [None]:
ENreg.score(x_test,y_test)

### Pontos Importantes

*   A ElasticNet trabalha como uma combinacao entre a Ridge e a Lasso.
*   É interessante quando temos um grande dataset

In [None]:
def plot_coeficientes_elastic(alpha,l1):
  ENreg = ElasticNet(alpha=alpha, l1_ratio=l1, normalize=False)
  
  ENreg.fit(x_train,y_train)
  
  predictors = x_train.columns
  
  coef = Series(ENreg.coef_,predictors).sort_values()
  
  print(coef)
  
  coef.plot(kind='bar', title='Elastic Coefficients')

In [None]:
plot_coeficientes_elastic(1,0.5)

In [None]:
plot_coeficientes_elastic(1,1)

### Verificando de forma grafica os resultados

#### Importando as bibliotecas

In [None]:
import matplotlib.pyplot as plt
import pandas as pd

In [None]:
%matplotlib inline

predicoes = pd.DataFrame(pred[:100])


y_teste2= pd.DataFrame(y_test.values[:100])


plt.style.use("ggplot")
plt.figure(figsize=(12,8))
plt.xlabel('..')
plt.ylabel('Valor de Vendas')
plt.title('Valores reais vs preditos')

plt.plot(y_teste2.index,predicoes)
plt.plot(y_teste2.index,y_teste2)

plt.legend(['Predições','Valores Reais'])
plt.show()