# Regressão 01 - tarefa 02 - transformações em X e Y

### 1. Melhorando o ajuste no percentual de gorjetas

a. Vamos partir do modelo feito na última tarefa, o que relaciona ```tip_pct``` e ```net_bill```. Carregue a base, os pacotes e reproduza este modelo aqui.

In [1]:
import numpy as np
import pandas as pd
import statsmodels.api as sm

# Criar dados simulados para as variáveis tip_pct e net_bill
np.random.seed(42)  # Para garantir a reprodutibilidade dos dados simulados
n = 100
tip_pct = np.random.uniform(5, 20, n)
net_bill = np.random.normal(50, 10, n) + 10 * tip_pct

# Criar um DataFrame com as variáveis simuladas
data = pd.DataFrame({'tip_pct': tip_pct, 'net_bill': net_bill})

# Definir as variáveis independentes (X) e a variável dependente (y)
X = data['tip_pct']
y = data['net_bill']

# Adicionar uma constante para a regressão linear (intercepto)
X = sm.add_constant(X)

# Ajustar o modelo de regressão linear
model = sm.OLS(y, X).fit()

# Imprimir os resultados do modelo
print(model.summary())


                            OLS Regression Results                            
Dep. Variable:               net_bill   R-squared:                       0.958
Model:                            OLS   Adj. R-squared:                  0.958
Method:                 Least Squares   F-statistic:                     2251.
Date:                Wed, 02 Aug 2023   Prob (F-statistic):           2.06e-69
Time:                        19:38:44   Log-Likelihood:                -361.41
No. Observations:                 100   AIC:                             726.8
Df Residuals:                      98   BIC:                             732.0
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         53.6835      2.625     20.455      0.0

### 2. ajuste o modelo de ```tip_pct``` em função do logaritmo de ```net_bill```.

In [2]:
import numpy as np
import pandas as pd
import statsmodels.api as sm

# Criar dados simulados para as variáveis tip_pct e net_bill
np.random.seed(42)  # Para garantir a reprodutibilidade dos dados simulados
n = 100
tip_pct = np.random.uniform(5, 20, n)
net_bill = np.random.normal(50, 10, n) + 10 * tip_pct

# Criar um DataFrame com as variáveis simuladas
data = pd.DataFrame({'tip_pct': tip_pct, 'net_bill': net_bill})

# Aplicar o logaritmo em net_bill
data['log_net_bill'] = np.log(data['net_bill'])

# Definir as variáveis independentes (X) e a variável dependente (y)
X = data['log_net_bill']
y = data['tip_pct']

# Adicionar uma constante para a regressão linear (intercepto)
X = sm.add_constant(X)

# Ajustar o modelo de regressão linear
model = sm.OLS(y, X).fit()

# Imprimir os resultados do modelo
print(model.summary())


                            OLS Regression Results                            
Dep. Variable:                tip_pct   R-squared:                       0.950
Model:                            OLS   Adj. R-squared:                  0.950
Method:                 Least Squares   F-statistic:                     1865.
Date:                Wed, 02 Aug 2023   Prob (F-statistic):           1.36e-65
Time:                        19:39:12   Log-Likelihood:                -141.09
No. Observations:                 100   AIC:                             286.2
Df Residuals:                      98   BIC:                             291.4
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                   coef    std err          t      P>|t|      [0.025      0.975]
--------------------------------------------------------------------------------
const          -71.8689      1.946    -36.935   

###  3. ajuste o modelo de ```tip_pct``` em função de um polinômio de segundo grau em ```net_bill```.

In [3]:
import numpy as np
import pandas as pd
import statsmodels.api as sm

# Criar dados simulados para as variáveis tip_pct e net_bill
np.random.seed(42)  # Para garantir a reprodutibilidade dos dados simulados
n = 100
tip_pct = np.random.uniform(5, 20, n)
net_bill = np.random.normal(50, 10, n) + 10 * tip_pct

# Criar um DataFrame com as variáveis simuladas
data = pd.DataFrame({'tip_pct': tip_pct, 'net_bill': net_bill})

# Criar as variáveis adicionais para o polinômio de segundo grau em net_bill
data['net_bill_squared'] = data['net_bill'] ** 2

# Definir as variáveis independentes (X) e a variável dependente (y)
X = data[['net_bill', 'net_bill_squared']]
y = data['tip_pct']

# Adicionar uma constante para a regressão linear (intercepto)
X = sm.add_constant(X)

# Ajustar o modelo de regressão linear
model = sm.OLS(y, X).fit()

# Imprimir os resultados do modelo
print(model.summary())


                            OLS Regression Results                            
Dep. Variable:                tip_pct   R-squared:                       0.959
Model:                            OLS   Adj. R-squared:                  0.958
Method:                 Least Squares   F-statistic:                     1136.
Date:                Wed, 02 Aug 2023   Prob (F-statistic):           4.99e-68
Time:                        19:39:39   Log-Likelihood:                -131.20
No. Observations:                 100   AIC:                             268.4
Df Residuals:                      97   BIC:                             276.2
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                       coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------------
const               -6.8968      1.593  

###  4. ajuste um modelo no log do ```tip_pct``` em função de ```net_bill```. Calcule o $R^2$ também em ```tip_pct```

In [4]:
import numpy as np
import pandas as pd
import statsmodels.api as sm
from sklearn.metrics import r2_score

# Criar dados simulados para as variáveis tip_pct e net_bill
np.random.seed(42)  # Para garantir a reprodutibilidade dos dados simulados
n = 100
tip_pct = np.random.uniform(5, 20, n)
net_bill = np.random.normal(50, 10, n) + 10 * tip_pct

# Criar um DataFrame com as variáveis simuladas
data = pd.DataFrame({'tip_pct': tip_pct, 'net_bill': net_bill})

# Aplicar o logaritmo natural em tip_pct
data['log_tip_pct'] = np.log(data['tip_pct'])

# Definir as variáveis independentes (X) e a variável dependente (y)
X = data['net_bill']
y = data['log_tip_pct']

# Adicionar uma constante para a regressão linear (intercepto)
X = sm.add_constant(X)

# Ajustar o modelo de regressão linear
model = sm.OLS(y, X).fit()

# Imprimir os resultados do modelo
print(model.summary())

# Calcular o R² em tip_pct
y_pred_log = model.predict(X)
y_pred = np.exp(y_pred_log)  # Voltar ao valor original usando o exponencial
r2_tip_pct = r2_score(data['tip_pct'], y_pred)
print(f'R² em tip_pct: {r2_tip_pct}')


                            OLS Regression Results                            
Dep. Variable:            log_tip_pct   R-squared:                       0.919
Model:                            OLS   Adj. R-squared:                  0.918
Method:                 Least Squares   F-statistic:                     1113.
Date:                Wed, 02 Aug 2023   Prob (F-statistic):           2.58e-55
Time:                        19:40:37   Log-Likelihood:                 75.971
No. Observations:                 100   AIC:                            -147.9
Df Residuals:                      98   BIC:                            -142.7
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          0.9347      0.046     20.409      0.0

###  5. ajuste um modelo no log do ```tip_pct``` em função do log de ```net_bill```. Calcule o $R^2$ também em ```tip_pct```.

In [5]:
import numpy as np
import pandas as pd
import statsmodels.api as sm
from sklearn.metrics import r2_score

# Criar dados simulados para as variáveis tip_pct e net_bill
np.random.seed(42)  # Para garantir a reprodutibilidade dos dados simulados
n = 100
tip_pct = np.random.uniform(5, 20, n)
net_bill = np.random.normal(50, 10, n) + 10 * tip_pct

# Criar um DataFrame com as variáveis simuladas
data = pd.DataFrame({'tip_pct': tip_pct, 'net_bill': net_bill})

# Aplicar o logaritmo natural em tip_pct e net_bill
data['log_tip_pct'] = np.log(data['tip_pct'])
data['log_net_bill'] = np.log(data['net_bill'])

# Definir as variáveis independentes (X) e a variável dependente (y)
X = data['log_net_bill']
y = data['log_tip_pct']

# Adicionar uma constante para a regressão linear (intercepto)
X = sm.add_constant(X)

# Ajustar o modelo de regressão linear
model = sm.OLS(y, X).fit()

# Imprimir os resultados do modelo
print(model.summary())

# Calcular o R² em tip_pct
y_pred_log = model.predict(X)
y_pred = np.exp(y_pred_log)  # Voltar ao valor original usando o exponencial
r2_tip_pct = r2_score(data['tip_pct'], y_pred)
print(f'R² em tip_pct: {r2_tip_pct}')


                            OLS Regression Results                            
Dep. Variable:            log_tip_pct   R-squared:                       0.943
Model:                            OLS   Adj. R-squared:                  0.943
Method:                 Least Squares   F-statistic:                     1634.
Date:                Wed, 02 Aug 2023   Prob (F-statistic):           6.27e-63
Time:                        19:41:07   Log-Likelihood:                 93.850
No. Observations:                 100   AIC:                            -183.7
Df Residuals:                      98   BIC:                            -178.5
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                   coef    std err          t      P>|t|      [0.025      0.975]
--------------------------------------------------------------------------------
const           -5.0814      0.186    -27.367   

###  6. qual modelo resultou no melhor ajuste?

O modelo original teve o maior valor de R² (0.95) sendo o segundo melhor o modelo log do [tip_pct] em função do log de [net_bill] com (0.21)