# Regressão 01 - tarefa 02 - transformações em X e Y

### 1. Melhorando o ajuste no percentual de gorjetas

a. Vamos partir do modelo feito na última tarefa, o que relaciona ```tip_pct``` e ```net_bill```. Carregue a base, os pacotes e reproduza este modelo aqui.

In [10]:
# Importando os pacotes necessários
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
import statsmodels.formula.api as smf
from sklearn.metrics import r2_score

# Carregando a base de dados
tips = sns.load_dataset("tips")

# Criando as variáveis necessárias
tips['tip_pct'] = tips['tip'] / (tips['total_bill'] - tips['tip'])
tips['net_bill'] = tips['total_bill'] - tips['tip']

# Ajustando o modelo de regressão de tip_pct explicado por net_bill
model_tip_pct = smf.ols(formula='tip_pct ~ net_bill', data=tips).fit()

# Resumo da regressão
print(model_tip_pct.summary())

                            OLS Regression Results                            
Dep. Variable:                tip_pct   R-squared:                       0.091
Model:                            OLS   Adj. R-squared:                  0.088
Method:                 Least Squares   F-statistic:                     24.31
Date:                Fri, 09 Aug 2024   Prob (F-statistic):           1.52e-06
Time:                        20:23:49   Log-Likelihood:                 108.00
No. Observations:                 244   AIC:                            -212.0
Df Residuals:                     242   BIC:                            -205.0
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      0.3053      0.023     13.166      0.0

### 2. ajuste o modelo de ```tip_pct``` em função do logaritmo de ```net_bill```.

In [4]:
# Transformando net_bill usando logaritmo
tips['log_net_bill'] = np.log(tips['net_bill'])

# Ajustando o modelo de regressão de tip_pct explicado por logaritmo de net_bill
model_tip_pct_log = smf.ols(formula='tip_pct ~ log_net_bill', data=tips).fit()

# Resumo da regressão
print(model_tip_pct_log.summary())

                            OLS Regression Results                            
Dep. Variable:                tip_pct   R-squared:                       0.202
Model:                            OLS   Adj. R-squared:                  0.198
Method:                 Least Squares   F-statistic:                     61.16
Date:                Fri, 09 Aug 2024   Prob (F-statistic):           1.62e-13
Time:                        20:20:40   Log-Likelihood:                 123.81
No. Observations:                 244   AIC:                            -243.6
Df Residuals:                     242   BIC:                            -236.6
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                   coef    std err          t      P>|t|      [0.025      0.975]
--------------------------------------------------------------------------------
Intercept        0.6181      0.054     11.444   

###  3. ajuste o modelo de ```tip_pct``` em função de um polinômio de segundo grau em ```net_bill```.

In [6]:
# Criando as variáveis polinomiais de segundo grau
tips['net_bill_squared'] = tips['net_bill'] ** 2

# Ajustando o modelo de regressão de tip_pct explicado por net_bill e net_bill^2
model_tip_pct_poly = smf.ols(formula='tip_pct ~ net_bill + net_bill_squared', data=tips).fit()

# Resumo da regressão
print(model_tip_pct_poly.summary())

                            OLS Regression Results                            
Dep. Variable:                tip_pct   R-squared:                       0.158
Model:                            OLS   Adj. R-squared:                  0.151
Method:                 Least Squares   F-statistic:                     22.55
Date:                Fri, 09 Aug 2024   Prob (F-statistic):           1.06e-09
Time:                        20:21:55   Log-Likelihood:                 117.25
No. Observations:                 244   AIC:                            -228.5
Df Residuals:                     241   BIC:                            -218.0
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                       coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------------
Intercept            0.4851      0.047  

###  4. ajuste um modelo no log do ```tip_pct``` em função de ```net_bill```. Calcule o $R^2$ também em ```tip_pct```

In [12]:
# Transformando tip_pct usando logaritmo
tips['log_tip_pct'] = np.log(tips['tip_pct'])

# Ajustando o modelo de regressão de log(tip_pct) explicado por net_bill
model_log_tip_pct = smf.ols(formula='log_tip_pct ~ net_bill', data=tips).fit()

# Valores preditos para log(tip_pct)
log_tip_pct_pred = model_log_tip_pct.fittedvalues

# Calculando o R^2 para log(tip_pct)
r2_log_tip_pct = r2_score(tips['log_tip_pct'], log_tip_pct_pred)

# Calculando os valores preditos para tip_pct
tip_pct_pred = np.exp(log_tip_pct_pred)  # Revertendo a transformação logarítmica

# Calculando o R^2 para tip_pct
r2_tip_pct = r2_score(tips['tip_pct'], tip_pct_pred)

# Resultados
print(f'R² do modelo para log(tip_pct): {r2_log_tip_pct:.4f}')
print(f'R² do modelo para tip_pct: {r2_tip_pct:.4f}')

R² do modelo para log(tip_pct): 0.2353
R² do modelo para tip_pct: 0.0868


###  5. ajuste um modelo no log do ```tip_pct``` em função do log de ```net_bill```. Calcule o $R^2$ também em ```tip_pct```.

In [14]:
# Transformando tip_pct e net_bill usando logaritmo
tips['log_tip_pct'] = np.log(tips['tip_pct'])
tips['log_net_bill'] = np.log(tips['net_bill'])

# Ajustando o modelo de regressão de log(tip_pct) explicado por log(net_bill)
model_log_tip_pct_log_net_bill = smf.ols(formula='log_tip_pct ~ log_net_bill', data=tips).fit()

# Valores preditos para log(tip_pct)
log_tip_pct_pred = model_log_tip_pct_log_net_bill.fittedvalues

# Calculando o R² para log(tip_pct)
r2_log_tip_pct = r2_score(tips['log_tip_pct'], log_tip_pct_pred)

# Calculando os valores preditos para tip_pct
tip_pct_pred = np.exp(log_tip_pct_pred)  # Revertendo a transformação logarítmica

# Calculando o R² para tip_pct
r2_tip_pct = r2_score(tips['tip_pct'], tip_pct_pred)

# Resultados
print(f'R² do modelo para log(tip_pct): {r2_log_tip_pct:.4f}')
print(f'R² do modelo para tip_pct: {r2_tip_pct:.4f}')

R² do modelo para log(tip_pct): 0.2935
R² do modelo para tip_pct: 0.2277


###  6. qual modelo resultou no melhor ajuste?

**O R² do modelo para log(tip_pct) em função do log de net_bill que foi: 0.2935**