# Regressão 01 - tarefa 01

### 1. Explorando a base de gorjetas

a. Na aula fizemos uma regressão de ```tip``` explicada por ```net_bill```. Carregue os pacotes e a base, crie as variáveis necessárias como na aula, e reproduza esta regressão.

b. Reproduza também o gráfico de dispersão dessas duas variáveis.

In [None]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns
from seaborn import load_dataset

import statsmodels.formula.api as smf

from sklearn.metrics import r2_score

%matplotlib inline

In [None]:
tips = load_dataset(name='tips')

tips['tip_pct'] = tips['tip'] / (tips['total_bill'] - tips['tip'])
tips['net_bill'] = tips['total_bill'] - tips['tip']

tips = tips[tips['tip_pct']<.5]
tips

In [None]:
reg_tip = smf.ols(formula='tip ~ net_bill', 
                  data=tips
                 ).fit()

reg_tip.summary()

In [None]:
tips['tip_predict'] = round(reg_tip.predict(tips),2)
tips

In [None]:
plt.figure(figsize=(14,7))

sns.regplot(x='net_bill', y='tip', data=tips, label='tip')

plt.plot(tips['net_bill'], tips['tip_predict'], 'r+', label='tip_predict')

x = tips['net_bill']
y = x * reg_tip.params.net_bill
plt.plot(x, y, '-y', label='beta')

plt.legend()
plt.xlim(left=0)
plt.ylim(bottom=0)

plt.xticks(ticks=np.arange(stop=tips['net_bill'].max(), step=1))
plt.yticks(ticks=np.arange(stop=tips['tip'].max(), step=1))

plt.show()

### 2. Mudança de perspectiva

Agora ajuste um modelo de regressão de ```tip_pct``` por ```net_bill```. Construa o gráfico de dispersão correspondente.

In [None]:
reg_tip_pct = smf.ols(formula='tip_pct ~ net_bill', 
                      data=tips
                     ).fit()

reg_tip_pct.summary()

In [None]:
tips['tip_pct_predict'] = reg_tip_pct.predict(tips)

In [None]:
tips[['net_bill','tip','tip_predict','tip_pct','tip_pct_predict']]

In [None]:
plt.figure(figsize=(14,7))

sns.regplot(x='net_bill', y='tip_pct', data=tips, label='tip_pct')
plt.plot(tips['net_bill'], tips['tip_pct_predict'], 'r+', label='tip_pct_predict')

plt.legend()
plt.xlim(left=0)
plt.ylim(bottom=0)

plt.xticks(ticks=np.arange(stop=tips['net_bill'].max(), step=1))
plt.yticks(ticks=np.arange(stop=tips['tip_pct'].max(), step=.05))

plt.show()

### 3. Comente

Compare os dois gráficos e comente (de forma objetiva e suscinta) a relação entre eles e a diferença do ajuste. Podemos comparar diretamente os $R^2$s?

In [None]:
Resposta:

Nota-se em ambos os gráficos que a maior parte das observações se concentra nos menores valores líquidos da conta, ou seja,
a quantidade de dados diminui à medida que o valor da conta aumenta. A primeira análise do gráfico de dispersão difere da 
segunda ao indicar uma correlação positiva, o que significa que à medida que os valores de net_bill aumentam, os valores de tip 
também tendem a aumentar, enquanto os dados da segunda análise indicam uma correlação inversa ou negativa entre net_bill e 
tip_pct, sugerindo que quando net_bill aumenta, tip_pct tende a diminuir. Ambos os modelos apresentam um baixo coeficiente de 
determinação (𝑅2), porém o primeiro modelo tem um melhor ajuste aos dados, possibilitando uma melhor predição do que o segundo
modelo.

### 4. Ajuste do modelo em outra escala

Com o modelo no item 3, obtenha a preditiva do valor da gorjeta:
  1. obtenha o valor predito ```pred``` para ```tip_pct``` (dica, veja o atributo ```reg.fittedvalues```)
  2. obtenha o valor predito para ```tip``` como ```tip_pct * net_bill```
  3. calcule o $R^2$ do modelo para ```tip```
  4. compare esse $R^2$ com o do item 1

In [None]:
reg_tip_pct.fittedvalues

In [None]:
reg_tip_pct.fittedvalues * tips.net_bill

In [None]:
r2 = r2_score(y_true=tips['tip'], 
              y_pred=reg_tip_pct.fittedvalues * tips.net_bill)

print("Coeficiente de determinação (𝑅2) do modelo para tip:", r2)

In [None]:
print('Coeficiente de determinação (𝑅2) dos valores preditos para `tip` como tip_pct(predict) * net_bill:', 
      round(r2 * 100, 2), '%')

print('Coeficiente de determinação (𝑅2) do modelo `reg_tip`:', 
      round(reg_tip.rsquared * 100, 2), '%')

print('Coeficiente de determinação (𝑅2) do modelo `reg_tip_pct`:', 
      round(reg_tip_pct.rsquared * 100, 2), '%')