# Regressão 01 - tarefa 03 - transformações em X e Y

Carregue os pacotes necessários e a base de gorjetas.

### I. Modelo no valor da gorjeta

1. Crie a matriz de design (e a matriz y) utilizando o Patsy, para um modelo em ```tip```, explicada por ```sex, smoker, diner e net_bill```.  
2. Remova as variáveis não significantes.  
3. observe o gráfico de resíduos em função de ```net_bill```  
4. teste transformar ```net_bill``` no log e um polinômio. Escolha o melhor modelo.

In [None]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns
from seaborn import load_dataset

import patsy
import statsmodels.api as sm
import statsmodels.formula.api as smf

%matplotlib inline

In [None]:
tips = load_dataset(name='tips')

tips['tip_pct'] = tips['tip'] / (tips['total_bill'] - tips['tip'])
tips['net_bill'] = tips['total_bill'] - tips['tip']

tips

#### 1. Crie a matriz de design (e a matriz y) utilizando o Patsy, para um modelo em tip, explicada por sex, smoker, diner e net_bill. 

In [None]:
y, X = patsy.dmatrices(formula_like='tip ~ sex + smoker + time + net_bill', 
                       data=tips)

In [None]:
x

In [None]:
y

### 2. Remova as variáveis não significantes.


In [None]:
y, X = patsy.dmatrices(formula_like='tip ~ net_bill', 
                       data=tips
modelo_sm1 = sm.O)
LS(y, X).fit()
modelo_sm1.summary()

### 3. Observe o gráfico de resíduos em função de net_bill

In [None]:
sns.scatterplot(x='net_bill', 
                y=modelo_sm1.resid, 
                data=tips)
plt.axhline(y=0, 
            color='r', 
            linestyle='--')

plt.show()

### 4. Teste transformar net_bill no log e um polinômio. Escolha o melhor modelo.


In [None]:
y, X = patsy.dmatrices(formula_like='tip ~ np.log(net_bill)', 
                       data=tips)

modelo_sm1_log = sm.OLS(y, X).fit()
modelo_sm1_log.summary()

In [None]:
y, X = patsy.dmatrices(formula_like='tip ~ net_bill + np.power(net_bill, 2)', 
                       data=tips)

modelo_sm1_pow = sm.OLS(y, X).fit()
modelo_sm1_pow.summary()

In [None]:
print('`modelo_sm1_log` R-squared:', modelo_sm1_log.rsquared)
print('`modelo_sm1_pow` R-squared:', modelo_sm1_pow.rsquared)

### II. Modelo no valor do percentual da gorjeta

1. Crie a matriz de design (e a matriz y) utilizando o Patsy, para um modelo no log de ```tip```, explicado por ```sex, smoker, diner e net_bill```.
2. Remova as variáveis não significantes.
3. Observe o gráfico de resíduos em função de ```net_bill```
4. Teste transformar ```net_bill``` no log e um polinômio. Escolha o melhor modelo.
5. Do modelo final deste item, calcule o $R^2$ na escala de ```tip``` (sem o log). Compare com o modelo do item 1. Qual tem melhor coeficiente de determinação?

### 1. Crie a matriz de design (e a matriz y) utilizando o Patsy, para um modelo no log de tip, explicado por sex, smoker, diner e net_bill.

In [None]:
1. Crie a matriz de design (e a matriz y) utilizando o Patsy, para um modelo no log de tip, explicado por sex, smoker, diner e net_bill.

### 2. Remova as variáveis não significantes.

In [None]:
y, X = patsy.dmatrices(formula_like='np.log(tip) ~ net_bill', 
                       data=tips)

modelo_sm2 = sm.OLS(y, X).fit()
modelo_sm2.summary()

### 3. Observe o gráfico de resíduos em função de net_bill


In [None]:
sns.scatterplot(x='net_bill', 
                y=modelo_sm2.resid, 
                data=tips)
plt.axhline(y=0, 
            color='r', 
            linestyle='--')

plt.show()

### 4. Teste transformar net_bill no log e um polinômio. Escolha o melhor modelo.


In [None]:
y, X = patsy.dmatrices(formula_like='np.log(tip) ~ np.log(net_bill)', 
                       data=tips)

modelo_sm2_log = sm.OLS(y, X).fit()
modelo_sm2_log.summary()

In [None]:
y, X = patsy.dmatrices(formula_like='np.log(tip) ~ net_bill + np.power(net_bill,2)', 
                       data=tips)

modelo_sm2_pow = sm.OLS(y, X).fit()
modelo_sm2_pow.summary()

In [None]:
print('`modelo_sm2_log` R-squared:', modelo_sm2_log.rsquared)
print('`modelo_sm2_pow` R-squared:', modelo_sm2_pow.rsquared)

### 5. Do modelo final deste item, calcule o 𝑅2 na escala de tip (sem o log). Compare com o modelo do item 1. Qual tem melhor coeficiente de determinação?

In [None]:
tips['pred_tip_log'] = np.exp(modelo_sm2_log.fittedvalues)

print('`modelo_sm2_log` R-squared:',
      tips[['pred_tip_log', 'tip']].corr().iloc[0,1]**2)

tips['pred_tip_pow'] = np.exp(modelo_sm2_pow.fittedvalues)
print('`modelo_sm2_pow` R-squared:',
      tips[['pred_tip_pow', 'tip']].corr().iloc[0,1]**2)

O modelo **modelo_sm2_log** obteve o resultado inferior, com 32,8% de coeficiente de determinação em comparação com o modelo **modelo_sm1_pow** que obteve o resultado de 33,4%.

### III. Previsão de renda

Vamos trabalhar a base que você vai usar no projeto do final deste ciclo.

Carregue a base ```previsao_de_renda.csv```.

|variavel|descrição|
|-|-|
|data_ref                | Data de referência de coleta das variáveis |
|index                   | Código de identificação do cliente|
|sexo                    | Sexo do cliente|
|posse_de_veiculo        | Indica se o cliente possui veículo|
|posse_de_imovel         | Indica se o cliente possui imóvel|
|qtd_filhos              | Quantidade de filhos do cliente|
|tipo_renda              | Tipo de renda do cliente|
|educacao                | Grau de instrução do cliente|
|estado_civil            | Estado civil do cliente|
|tipo_residencia         | Tipo de residência do cliente (própria, alugada etc)|
|idade                   | Idade do cliente|
|tempo_emprego           | Tempo no emprego atual|
|qt_pessoas_residencia   | Quantidade de pessoas que moram na residência|
|renda                   | Renda em reais|

1. Ajuste um modelo de regressão linear simples para explicar ```renda``` como variável resposta, por ```tempo_emprego``` como variável explicativa. Observe que há muitas observações nessa tabela. Utilize os recursos que achar necessário.
2. Faça uma análise de resíduos. Com os recursos vistos neste módulo, como você melhoraria esta regressão?
3. Ajuste um modelo de regressão linear múltipla para explicar ```renda``` (ou uma transformação de ```renda```) de acordo com as demais variáveis.
4. Remova as variáveis não significantes e ajuste novamente o modelo. Interprete os parâmetros
5. Faça uma análise de resíduos. Avalie a qualidade do ajuste.

### 1. Ajuste um modelo de regressão linear simples para explicar renda como variável resposta, por tempo_emprego como variável explicativa. Observe que há muitas observações nessa tabela. Utilize os recursos que achar necessário.


In [None]:
reg = smf.ols(formula='renda ~ tempo_emprego', 
              data=previsao_de_renda
             ).fit()

reg.summary()

In [None]:
previsao_de_renda['renda_predict'] = reg.predict(previsao_de_renda)

print('R-squared:', 
      previsao_de_renda[['renda_predict', 'renda']].corr().iloc[0,1]**2
     )

In [None]:
plt.figure(figsize=(14,7))

sns.regplot(x='tempo_emprego', 
            y='renda', 
            data=previsao_de_renda, 
            label='renda')
plt.plot(previsao_de_renda['tempo_emprego'], 
         previsao_de_renda['renda_predict'], 
         'r+', 
         label='renda_predict')

plt.legend()

plt.xticks(ticks=np.arange(stop=previsao_de_renda['tempo_emprego'].max(), 
                           step=1))
plt.yticks(ticks=np.arange(stop=previsao_de_renda['renda'].max(), 
                           step=25000))

plt.show()

### 2. Faça uma análise de resíduos. Com os recursos vistos neste módulo, como você melhoraria esta regressão?


In [None]:
plt.figure(figsize=(14,7))

previsao_de_renda['res'] = reg.resid

sns.scatterplot(x='tempo_emprego', 
                y='res', 
                data=previsao_de_renda)
plt.axhline(y=0, 
            color='r', 
            linestyle='--')

plt.xticks(ticks=np.arange(stop=previsao_de_renda['tempo_emprego'].max(), 
                           step=1))

plt.show()

In [None]:
reg = smf.ols(formula='np.log(renda) ~ np.log(tempo_emprego)', 
              data=previsao_de_renda
             ).fit()

reg.summary()

In [None]:
previsao_de_renda['renda_predict'] = np.exp(reg.predict(previsao_de_renda))

print('`renda_predict` R-squared:', 
      previsao_de_renda[['renda_predict', 'renda']].corr().iloc[0,1]**2
     )

In [None]:
plt.figure(figsize=(14,7))

sns.regplot(x='tempo_emprego', 
            y='renda', 
            data=previsao_de_renda, 
            label='renda')

plt.plot(previsao_de_renda['tempo_emprego'], 
         previsao_de_renda['renda_predict'], 
         'r+', 
         label='renda_predict')

plt.legend()

plt.xticks(ticks=np.arange(stop=previsao_de_renda['tempo_emprego'].max(), step=1))

plt.show()

In [None]:
plt.figure(figsize=(14,7))

previsao_de_renda['res'] = reg.resid

sns.scatterplot(x='tempo_emprego', 
                y='res', 
                data=previsao_de_renda)
plt.axhline(y=0, 
            color='r', 
            linestyle='--')

plt.xticks(ticks=np.arange(stop=previsao_de_renda['tempo_emprego'].max(), 
                           step=1))

plt.show()

### 3. Ajuste um modelo de regressão linear múltipla para explicar renda (ou uma transformação de renda) de acordo com as demais variáveis.


In [None]:
reg_mult = smf.ols(
    formula='''
            renda ~ sexo 
                    + posse_de_veiculo 
                    + posse_de_imovel 
                    + qtd_filhos 
                    + tipo_renda 
                    + educacao 
                    + estado_civil 
                    + tipo_residencia 
                    + idade 
                    + tempo_emprego 
                    + qt_pessoas_residencia
            ''', 
    data=previsao_de_renda
).fit()

reg_mult.summary()

### 4. Remova as variáveis não significantes e ajuste novamente o modelo. Interprete os parâmetros

In [None]:
reg_mult = smf.ols(
    formula='''
            np.log(renda) ~ sexo 
                            + posse_de_imovel 
                            + idade 
                            + tempo_emprego
            ''', 
    data=previsao_de_renda
).fit()

reg_mult.summary()

### 5. Faça uma análise de resíduos. Avalie a qualidade do ajuste.


In [None]:
previsao_de_renda['res_log'] = reg_mult.resid

plt.figure(figsize=(14,7))
sns.scatterplot(x='tempo_emprego', 
                y='res_log', 
                data=previsao_de_renda)
plt.axhline(y=0, 
            color='r', 
            linestyle='--')
plt.xticks(ticks=np.arange(stop=previsao_de_renda['tempo_emprego'].max(), 
                           step=1))

plt.show()

In [None]:
previsao_de_renda['renda_predict_log'] = np.exp(reg_mult.predict(previsao_de_renda))


In [None]:
print('`renda_predict` R-squared:', 
      round(previsao_de_renda[
          ['renda_predict', 'renda']
      ].corr().iloc[0,1]**2 * 100, 
            2), 
      '%'
     )
print('`renda_predict_log` R-squared:', 
      round(previsao_de_renda[
          ['renda_predict_log', 'renda']
      ].corr().iloc[0,1]**2 * 100, 
            2), 
      '%'
     )

plt.figure(figsize=(14,7))
plt.plot(previsao_de_renda['tempo_emprego'], 
         previsao_de_renda['renda'], 
         '.', 
         label='renda')
plt.plot(previsao_de_renda['tempo_emprego'], 
         previsao_de_renda['renda_predict'], 
         'y+', 
         alpha=.3, 
         label='renda_predict')
plt.plot(previsao_de_renda['tempo_emprego'], 
         previsao_de_renda['renda_predict_log'], 
         'r+', 
         alpha=.3, 
         label='renda_predict_log')
plt.legend()
plt.xticks(ticks=np.arange(stop=previsao_de_renda['tempo_emprego'].max(), 
                           step=1))
plt.show()

In [None]:
previsao_de_renda[['sexo', 
                   'posse_de_imovel', 
                   'idade', 
                   'tempo_emprego',
                   'renda','renda_predict','renda_predict_log', 
                   'res', 'res_log']]