# Regressão 01 - tarefa 02 - transformações em X e Y

### 1. Melhorando o ajuste no percentual de gorjetas

a. Vamos partir do modelo feito na última tarefa, o que relaciona ```tip_pct``` e ```net_bill```. Carregue a base, os pacotes e reproduza este modelo aqui.

In [3]:
# Pacotes essenciais
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import statsmodels.formula.api as smf
from sklearn.metrics import r2_score

# Carregando a base de dados alternativa
df = sns.load_dataset("tips")

# Criando a variável net_bill = total_bill - tip (simulando o campo da base anterior)
df["net_bill"] = df["total_bill"] - df["tip"]

# Calculando o percentual de gorjeta
df["tip_pct"] = 100 * df["tip"] / df["net_bill"]

# Modelo base: tip_pct ~ net_bill
modelo_base = smf.ols("tip_pct ~ net_bill", data=df).fit()
print(modelo_base.summary())


                            OLS Regression Results                            
Dep. Variable:                tip_pct   R-squared:                       0.091
Model:                            OLS   Adj. R-squared:                  0.088
Method:                 Least Squares   F-statistic:                     24.31
Date:                Mon, 12 May 2025   Prob (F-statistic):           1.52e-06
Time:                        20:11:47   Log-Likelihood:                -1015.7
No. Observations:                 244   AIC:                             2035.
Df Residuals:                     242   BIC:                             2042.
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     30.5297      2.319     13.166      0.0

### 2. ajuste o modelo de ```tip_pct``` em função do logaritmo de ```net_bill```.

In [4]:
# Adicionando a transformação
df["log_net_bill"] = np.log(df["net_bill"])

# Modelo: tip_pct ~ log(net_bill)
modelo_logx = smf.ols("tip_pct ~ log_net_bill", data=df).fit()
print(modelo_logx.summary())


                            OLS Regression Results                            
Dep. Variable:                tip_pct   R-squared:                       0.202
Model:                            OLS   Adj. R-squared:                  0.198
Method:                 Least Squares   F-statistic:                     61.16
Date:                Mon, 12 May 2025   Prob (F-statistic):           1.62e-13
Time:                        20:11:47   Log-Likelihood:                -999.85
No. Observations:                 244   AIC:                             2004.
Df Residuals:                     242   BIC:                             2011.
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                   coef    std err          t      P>|t|      [0.025      0.975]
--------------------------------------------------------------------------------
Intercept       61.8083      5.401     11.444   

###  3. ajuste o modelo de ```tip_pct``` em função de um polinômio de segundo grau em ```net_bill```.

In [5]:
# Adicionando coluna quadrática
df["net_bill_2"] = df["net_bill"] ** 2

# Modelo: tip_pct ~ net_bill + net_bill²
modelo_poly2 = smf.ols("tip_pct ~ net_bill + net_bill_2", data=df).fit()
print(modelo_poly2.summary())


                            OLS Regression Results                            
Dep. Variable:                tip_pct   R-squared:                       0.158
Model:                            OLS   Adj. R-squared:                  0.151
Method:                 Least Squares   F-statistic:                     22.55
Date:                Mon, 12 May 2025   Prob (F-statistic):           1.06e-09
Time:                        20:11:47   Log-Likelihood:                -1006.4
No. Observations:                 244   AIC:                             2019.
Df Residuals:                     241   BIC:                             2029.
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     48.5101      4.695     10.332      0.0

###  4. ajuste um modelo no log do ```tip_pct``` em função de ```net_bill```. Calcule o $R^2$ também em ```tip_pct```

In [6]:
# Retirando valores zero para aplicar log (evitar -inf)
df_logy = df[df["tip_pct"] > 0].copy()
df_logy["log_tip_pct"] = np.log(df_logy["tip_pct"])

# Modelo
modelo_logy = smf.ols("log_tip_pct ~ net_bill", data=df_logy).fit()
print(modelo_logy.summary())

# R² também em tip_pct original
preds = np.exp(modelo_logy.predict(df_logy))
r2_y_logy = r2_score(df_logy["tip_pct"], preds)
print(f"R² em tip_pct (não log): {r2_y_logy:.4f}")


                            OLS Regression Results                            
Dep. Variable:            log_tip_pct   R-squared:                       0.235
Model:                            OLS   Adj. R-squared:                  0.232
Method:                 Least Squares   F-statistic:                     74.48
Date:                Mon, 12 May 2025   Prob (F-statistic):           8.27e-16
Time:                        20:11:47   Log-Likelihood:                -106.00
No. Observations:                 244   AIC:                             216.0
Df Residuals:                     242   BIC:                             223.0
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      3.3303      0.056     59.748      0.0

###  5. ajuste um modelo no log do ```tip_pct``` em função do log de ```net_bill```. Calcule o $R^2$ também em ```tip_pct```.

In [7]:
# Já temos log_tip_pct e log_net_bill
modelo_loglog = smf.ols("log_tip_pct ~ log_net_bill", data=df_logy).fit()
print(modelo_loglog.summary())

# R² em escala original
preds_loglog = np.exp(modelo_loglog.predict(df_logy))
r2_y_loglog = r2_score(df_logy["tip_pct"], preds_loglog)
print(f"R² em tip_pct (não log): {r2_y_loglog:.4f}")


                            OLS Regression Results                            
Dep. Variable:            log_tip_pct   R-squared:                       0.293
Model:                            OLS   Adj. R-squared:                  0.291
Method:                 Least Squares   F-statistic:                     100.5
Date:                Mon, 12 May 2025   Prob (F-statistic):           5.20e-20
Time:                        20:11:47   Log-Likelihood:                -96.357
No. Observations:                 244   AIC:                             196.7
Df Residuals:                     242   BIC:                             203.7
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                   coef    std err          t      P>|t|      [0.025      0.975]
--------------------------------------------------------------------------------
Intercept        4.2109      0.133     31.626   

###  6. qual modelo resultou no melhor ajuste?

> O melhor modelo é aquele com o maior R² em tip_pct original. Isso pode variar, mas geralmente modelos log(y) ~ log(x) ou polinomial tendem a capturar melhor relações não lineares.

In [8]:
# Comparando os R² dos modelos
print(f"Modelo base:           {modelo_base.rsquared:.4f}")
print(f"Modelo log(x):         {modelo_logx.rsquared:.4f}")
print(f"Modelo polinomial 2:   {modelo_poly2.rsquared:.4f}")
print(f"Modelo log(y):         {r2_y_logy:.4f}")
print(f"Modelo log(y) ~ log(x): {r2_y_loglog:.4f}")


Modelo base:           0.0913
Modelo log(x):         0.2017
Modelo polinomial 2:   0.1576
Modelo log(y):         0.0868
Modelo log(y) ~ log(x): 0.2277
