# Teste da razão de verossimilhança generalizada
## SME0812 Modelos Lineares
### por Cibele Russo

#### ICMC/USP - São Carlos SP

In [52]:
from scipy.stats import f

def f_test_linear_hypothesis(Y, X_full, C, m):
    """
    Teste F para hipóteses lineares gerais H0: Cβ = m.

    Y : vetor resposta (n x 1)
    X_full : matriz de preditoras do modelo completo (n x p)
    C : matriz de restrição (q x p)
    m : vetor de restrição (q x 1)
    
    Retorna:
    - estatística F
    - p-valor
    """
    n, p = X_full.shape
    q = C.shape[0]

    # Ajuste do modelo completo
    modelo_irrestrito = sm.OLS(Y, X_full).fit()
    beta_hat = modelo_irrestrito.params.values.reshape(-1, 1)
    mse = modelo_irrestrito.mse_resid
    XtX_inv = np.linalg.inv(X_full.T @ X_full)

    # Estatística F
    num = (C @ beta_hat - m).T @ np.linalg.inv(C @ XtX_inv @ C.T) @ (C @ beta_hat - m) / q
    F = num / mse
    p_valor = 1 - f.cdf(F, q, n - p)

    return F.item(), p_valor[0,0]


In [54]:
import pandas as pd
import numpy as np

df = pd.read_csv('https://raw.githubusercontent.com/cibelerusso/IntroducaoaInferenciaEstatistica/main/Dados/kc_house_data.csv')
df.head()

df.rename(columns={
    'id': 'id',
    'date': 'data',
    'price': 'preco',
    'bedrooms': 'quartos',
    'bathrooms': 'banheiros',
    'sqft_living': 'area_util',
    'sqft_lot': 'area_total',
    'floors': 'andares',
    'waterfront': 'frente_para_agua',
    'view': 'vista',
    'condition': 'condicao',
    'grade': 'classificacao',
    'sqft_above': 'area_sobre_o_nivel_do_chao',
    'sqft_basement': 'area_porao',
    'yr_built': 'ano_construcao',
    'yr_renovated': 'ano_reforma',
    'zipcode': 'cep',
    'lat': 'latitude',
    'long': 'longitude',
    'sqft_living15': 'area_util_vizinhanca',
    'sqft_lot15': 'area_total_vizinhanca'
}, inplace=True)

df['preco_transformado'] = (pow(df['preco'],-0.234) - 1)/(-0.234)


In [55]:
# Ajusta o modelo de regressão linear múltipla para o preço das casas com duas preditoras
from sklearn.model_selection import train_test_split
from statsmodels.formula.api import ols

modelo = ols('preco_transformado ~ area_util', data=df)
res = modelo.fit()


In [56]:
print(res.summary())

                            OLS Regression Results                            
Dep. Variable:     preco_transformado   R-squared:                       0.456
Model:                            OLS   Adj. R-squared:                  0.456
Method:                 Least Squares   F-statistic:                 1.809e+04
Date:                Tue, 22 Apr 2025   Prob (F-statistic):               0.00
Time:                        15:54:34   Log-Likelihood:                 56032.
No. Observations:               21613   AIC:                        -1.121e+05
Df Residuals:                   21611   BIC:                        -1.120e+05
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      4.0327      0.000   1.32e+04      0.0

In [57]:
import numpy as np

# Hipótese: H0: β1 = 0
C = np.array([[0, 1]])
m = np.array([0])

Y = df['preco_transformado']

X = sm.add_constant(df[['area_util']])

# Executa o teste
estat, p = likelihood_ratio_test(Y, X, C, m)
print(f"Estatística do teste: {estat:.4f}")
print(f"p-valor: {p:.4f}")

# Executa o teste
estat, p = f_test_linear_hypothesis(Y, X, C, m)

print(estat)
print(p)


print(f"Estatística do teste: {estat:.4f}")
print(f"p-valor: {p:.4f}")




Estatística do teste: 13143.1903
p-valor: 0.0000
18087.661906801077
1.1102230246251565e-16
Estatística do teste: 18087.6619
p-valor: 0.0000


In [58]:
# Ajusta o modelo de regressão linear múltipla para o preço das casas com duas preditoras
from sklearn.model_selection import train_test_split
from statsmodels.formula.api import ols

modelo = ols('preco_transformado ~ area_util + classificacao', data=df)
res = modelo.fit()
print(res.summary())


                            OLS Regression Results                            
Dep. Variable:     preco_transformado   R-squared:                       0.529
Model:                            OLS   Adj. R-squared:                  0.529
Method:                 Least Squares   F-statistic:                 1.214e+04
Date:                Tue, 22 Apr 2025   Prob (F-statistic):               0.00
Time:                        15:54:36   Log-Likelihood:                 57598.
No. Observations:               21613   AIC:                        -1.152e+05
Df Residuals:                   21610   BIC:                        -1.152e+05
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                    coef    std err          t      P>|t|      [0.025      0.975]
---------------------------------------------------------------------------------
Intercept         3.9835      0.001   4455.258

In [59]:
import pandas as pd
import numpy as np

df = pd.read_csv('https://raw.githubusercontent.com/cibelerusso/IntroducaoaInferenciaEstatistica/main/Dados/kc_house_data.csv')
df.head()

df.rename(columns={
    'id': 'id',
    'date': 'data',
    'price': 'preco',
    'bedrooms': 'quartos',
    'bathrooms': 'banheiros',
    'sqft_living': 'area_util',
    'sqft_lot': 'area_total',
    'floors': 'andares',
    'waterfront': 'frente_para_agua',
    'view': 'vista',
    'condition': 'condicao',
    'grade': 'classificacao',
    'sqft_above': 'area_sobre_o_nivel_do_chao',
    'sqft_basement': 'area_porao',
    'yr_built': 'ano_construcao',
    'yr_renovated': 'ano_reforma',
    'zipcode': 'cep',
    'lat': 'latitude',
    'long': 'longitude',
    'sqft_living15': 'area_util_vizinhanca',
    'sqft_lot15': 'area_total_vizinhanca'
}, inplace=True)

df['preco_transformado'] = (pow(df['preco'],-0.234) - 1)/(-0.234)


In [60]:
import numpy as np

# Hipótese: H0: β1 = 0
C = np.array([[0, 1, 0]])
m = np.array([0])

Y = df['preco_transformado']

X = sm.add_constant(df[['area_util', 'classificacao']])

# Executa o teste
estat, p = f_test_linear_hypothesis(Y, X, C, m)
print(f"Estatística do teste: {estat:.4f}")
print(f"p-valor: {p:.4f}")

Estatística do teste: 2423.9189
p-valor: 0.0000


In [65]:
import numpy as np

# Hipótese: H0: β0 = 4
C = np.array([[1, 0, 0]])
m = np.array([3.982])

Y = df['preco_transformado']

X = sm.add_constant(df[['area_util', 'classificacao']])

# Executa o teste
estat, p = f_test_linear_hypothesis(Y, X, C, m)
print(f"Estatística do teste: {estat:.4f}")
print(f"p-valor: {p:.4f}")

Estatística do teste: 2.8098
p-valor: 0.0937


# Considerando uma amostra


In [77]:
import pandas as pd
from sklearn.model_selection import train_test_split
from statsmodels.formula.api import ols

# Cria uma amostra aleatória dos dados (20% dos dados, por exemplo)
df_amostra = df.sample(frac=0.1, random_state=42)  # Ajuste o frac conforme desejar

# Ajusta o modelo de regressão linear múltipla com duas preditoras
modelo = ols('preco_transformado ~ area_util + classificacao', data=df_amostra)
res = modelo.fit()

# Exibe o resumo do modelo
print(res.summary())


                            OLS Regression Results                            
Dep. Variable:     preco_transformado   R-squared:                       0.538
Model:                            OLS   Adj. R-squared:                  0.538
Method:                 Least Squares   F-statistic:                     1257.
Date:                Tue, 22 Apr 2025   Prob (F-statistic):               0.00
Time:                        16:11:39   Log-Likelihood:                 5738.3
No. Observations:                2161   AIC:                        -1.147e+04
Df Residuals:                    2158   BIC:                        -1.145e+04
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                    coef    std err          t      P>|t|      [0.025      0.975]
---------------------------------------------------------------------------------
Intercept         3.9796      0.003   1408.878

In [80]:
import numpy as np

# Hipótese: H0: β0 = 4
C = np.array([[1, 0, 0]])
m = np.array([3.98])

Y = df_amostra['preco_transformado']

X = sm.add_constant(df_amostra[['area_util', 'classificacao']])

# Executa o teste
estat, p = f_test_linear_hypothesis(Y, X, C, m)
print(f"Estatística do teste: {estat:.4f}")
print(f"p-valor: {p:.4f}")

Estatística do teste: 0.0220
p-valor: 0.8820
