# Regressão 01 - tarefa 02 - transformações em X e Y

### 1. Melhorando o ajuste no percentual de gorjetas

a. Vamos partir do modelo feito na última tarefa, o que relaciona ```tip_pct``` e ```net_bill```. Carregue a base, os pacotes e reproduza este modelo aqui.

In [3]:
import pandas as pd
import seaborn as sns
import numpy as np
import statsmodels.formula.api as smf

# Carregando a base de dados "tips"
tips = sns.load_dataset("tips")

# Criando as variáveis auxiliares
tips['net_bill'] = tips['total_bill'] - tips['tip']
tips['tip_pct'] = tips['tip'] / tips['net_bill']

# Ajustando o modelo de regressão tip_pct ~ net_bill
reg = smf.ols('tip_pct ~ net_bill', data=tips).fit()

# Exibindo o resumo do modelo
print(reg.summary())


                            OLS Regression Results                            
Dep. Variable:                tip_pct   R-squared:                       0.091
Model:                            OLS   Adj. R-squared:                  0.088
Method:                 Least Squares   F-statistic:                     24.31
Date:                Mon, 07 Apr 2025   Prob (F-statistic):           1.52e-06
Time:                        16:42:37   Log-Likelihood:                 108.00
No. Observations:                 244   AIC:                            -212.0
Df Residuals:                     242   BIC:                            -205.0
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      0.3053      0.023     13.166      0.0

### 2. ajuste o modelo de ```tip_pct``` em função do logaritmo de ```net_bill```.

In [4]:
# Criar a nova variável: logaritmo de net_bill
tips['log_net_bill'] = np.log(tips['net_bill'])

# Ajustar o modelo: tip_pct ~ log(net_bill)
reg_log = smf.ols('tip_pct ~ log_net_bill', data=tips).fit()

# Exibir o resumo do modelo ajustado
print(reg_log.summary())

                            OLS Regression Results                            
Dep. Variable:                tip_pct   R-squared:                       0.202
Model:                            OLS   Adj. R-squared:                  0.198
Method:                 Least Squares   F-statistic:                     61.16
Date:                Mon, 07 Apr 2025   Prob (F-statistic):           1.62e-13
Time:                        16:42:46   Log-Likelihood:                 123.81
No. Observations:                 244   AIC:                            -243.6
Df Residuals:                     242   BIC:                            -236.6
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                   coef    std err          t      P>|t|      [0.025      0.975]
--------------------------------------------------------------------------------
Intercept        0.6181      0.054     11.444   

###  3. ajuste o modelo de ```tip_pct``` em função de um polinômio de segundo grau em ```net_bill```.

In [5]:
# Criar os termos polinomiais
tips['net_bill_sq'] = tips['net_bill'] ** 2

# Ajustar o modelo: tip_pct ~ net_bill + net_bill^2
reg_poly2 = smf.ols('tip_pct ~ net_bill + net_bill_sq', data=tips).fit()

# Exibir o resumo do modelo ajustado
print(reg_poly2.summary())

                            OLS Regression Results                            
Dep. Variable:                tip_pct   R-squared:                       0.158
Model:                            OLS   Adj. R-squared:                  0.151
Method:                 Least Squares   F-statistic:                     22.55
Date:                Mon, 07 Apr 2025   Prob (F-statistic):           1.06e-09
Time:                        16:43:08   Log-Likelihood:                 117.25
No. Observations:                 244   AIC:                            -228.5
Df Residuals:                     241   BIC:                            -218.0
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                  coef    std err          t      P>|t|      [0.025      0.975]
-------------------------------------------------------------------------------
Intercept       0.4851      0.047     10.332      

###  4. ajuste um modelo no log do ```tip_pct``` em função de ```net_bill```. Calcule o $R^2$ também em ```tip_pct```

In [6]:
# Evitar valores nulos ou negativos para aplicar log
tips = tips[tips['tip_pct'] > 0].copy()

# Criar variável log(tip_pct)
tips['log_tip_pct'] = np.log(tips['tip_pct'])

# Ajustar o modelo: log(tip_pct) ~ net_bill
reg_log_tip = smf.ols('log_tip_pct ~ net_bill', data=tips).fit()

# Exibir o resumo do modelo ajustado
print(reg_log_tip.summary())

# Obter predições na escala logarítmica
pred_log = reg_log_tip.fittedvalues

# Voltar para escala original
pred_tip_pct = np.exp(pred_log)

# Calcular R² manualmente na escala de tip_pct
from sklearn.metrics import r2_score
r2_original = r2_score(tips['tip_pct'], pred_tip_pct)

print(f"\nR² na escala original de tip_pct: {r2_original:.4f}")


                            OLS Regression Results                            
Dep. Variable:            log_tip_pct   R-squared:                       0.235
Model:                            OLS   Adj. R-squared:                  0.232
Method:                 Least Squares   F-statistic:                     74.48
Date:                Mon, 07 Apr 2025   Prob (F-statistic):           8.27e-16
Time:                        16:43:29   Log-Likelihood:                -106.00
No. Observations:                 244   AIC:                             216.0
Df Residuals:                     242   BIC:                             223.0
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     -1.2749      0.056    -22.872      0.0

###  5. ajuste um modelo no log do ```tip_pct``` em função do log de ```net_bill```. Calcule o $R^2$ também em ```tip_pct```.

In [7]:
# Certificar-se de que os logs possam ser calculados (sem zeros ou negativos)
tips = tips[(tips['tip_pct'] > 0) & (tips['net_bill'] > 0)].copy()

# Criar variáveis logarítmicas
tips['log_tip_pct'] = np.log(tips['tip_pct'])
tips['log_net_bill'] = np.log(tips['net_bill'])

# Ajustar o modelo: log(tip_pct) ~ log(net_bill)
reg_loglog = smf.ols('log_tip_pct ~ log_net_bill', data=tips).fit()

# Exibir o resumo do modelo
print(reg_loglog.summary())

# Predição na escala log
pred_loglog = reg_loglog.fittedvalues

# Voltar para escala original
pred_tip_pct_loglog = np.exp(pred_loglog)

# Calcular R² na escala original de tip_pct
from sklearn.metrics import r2_score
r2_loglog_original = r2_score(tips['tip_pct'], pred_tip_pct_loglog)

print(f"\nR² na escala original de tip_pct (modelo log-log): {r2_loglog_original:.4f}")


                            OLS Regression Results                            
Dep. Variable:            log_tip_pct   R-squared:                       0.293
Model:                            OLS   Adj. R-squared:                  0.291
Method:                 Least Squares   F-statistic:                     100.5
Date:                Mon, 07 Apr 2025   Prob (F-statistic):           5.20e-20
Time:                        16:43:56   Log-Likelihood:                -96.357
No. Observations:                 244   AIC:                             196.7
Df Residuals:                     242   BIC:                             203.7
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                   coef    std err          t      P>|t|      [0.025      0.975]
--------------------------------------------------------------------------------
Intercept       -0.3942      0.133     -2.961   

###  6. qual modelo resultou no melhor ajuste?

O modelo log-log apresenta maior poder explicativo tanto na escala transformada quanto quando retornamos à escala original. Isso indica que a relação entre o percentual da gorjeta e a conta líquida se ajusta melhor por uma função de potência.