# **UNIVERSIDAD TORCUATO DI TELLA**
## **MAESTRÍA EN ECONOMETRÍA**

---

### **TRABAJO PRÁCTICO DE ECONOMETRÍA**

- **Profesor:** González-Rozada, Martín  
- **Ayudante:** Lening, Iara  
- **Alumno:** Guzzi, David Alexander  (Legajo n°: 24H1970, DNI: 37.703.649)  

**Ciclo Lectivo:** Tercer Trimestre, 2024  

---

#### **1. PROPIEDADES DE MUESTRA FINITA DE FGLS (MCGE).**

Considere el siguiente modelo:

$$
\begin{equation}
y_i = \beta_0 + \beta_1 x_i + u_i, \quad i = 1, 2, \dots, 5N
\tag{1}
\end{equation}
$$

Donde:

- $\beta_0 = -3$
- $\beta_1 = 0.8$
- $u_j \sim N(0, \omega \cdot I_{N \times N})$, con la matriz $\Omega$ definida como:

$$
\Omega = \begin{bmatrix}
4 & 0 & 0 & 0 & 0 \\
0 & 9 & 0 & 0 & 0 \\
0 & 0 & 16 & 0 & 0 \\
0 & 0 & 0 & 25 & 0 \\
0 & 0 & 0 & 0 & 36
\end{bmatrix}
$$

- $x_j \sim U[1, 50]$.

In [36]:
# Importación de librerías.
import numpy as np
import pandas as pd
import statsmodels.api as sm
from scipy.stats import t

# Semilla para la generación de números aleatorios.
np.random.seed(3649)

# Configuración de pandas (4 decimales).
pd.set_option('display.float_format', '{:.4f}'.format)

In [3]:
def fgls_estimation(x: np.ndarray, y: np.ndarray) -> tuple[float, float, float]:

    """
    Realiza una estimación de Feasible Generalized Least Squares (FGLS para un modelo lineal 
    con errores heterocedásticos.

    Parámetros:
    x : array-like
        Variable regresora.
    y : array-like
        Variable de respuesta.

    Retorna:
    beta0_fgls : float
        Intercepto estimado.
    beta1_fgls : float
        Coeficiente estimado para el regresor.
    se_beta1_fgls : float
        Error estándar del coeficiente estimado para el regresor.
    """

    # 1. Estimar modelo inicial y ~ x por OLS y obtener las estimaciones de los parámetros del modelo.
    X = np.column_stack((np.ones_like(x), x)) 
    beta_ols = np.linalg.inv(X.T @ X) @ X.T @ y 

    # 2. Calcular los residuos del modelo, elevarlos al cuadrado y obtener el logaritmo de los mismos.
    u_hat = y - X @ beta_ols
    u_hat2 = u_hat ** 2  
    log_u_hat2 = np.log(u_hat2)

    # 3. Dada la forma funcional de la heterocedasticidad de White para este modelo, sigma2 ~ x + x2, 
    # se estima por OLS usando u_hat2 como proxy de sigma2.
    X_aux = np.column_stack((x, x**2))
    gamma_hat = np.linalg.inv(X_aux.T @ X_aux) @ X_aux.T @ log_u_hat2
    
    # 4. Usar las estimaciones de la regresión auxiliar y obtener las varianzas ajustadas (no consistentes).
    log_sigma2_hat = X_aux @ gamma_hat
    sigma2_hat = np.exp(log_sigma2_hat)

    # 5. Transformar las variables de la forma funcional de la heterocedasticidad de White dividiéndolas por sigma2_hat y estimar por OLS.
    X_aux2 = np.column_stack((x / sigma2_hat,  x**2 / sigma2_hat))
    u_hat2_over_sigma2_hat = u_hat2 / sigma2_hat
    gamma_hat2 = np.linalg.inv(X_aux2.T @ X_aux2) @ X_aux2.T @ u_hat2_over_sigma2_hat

    # 6. Usar las estimaciones de la segunda regresión auxiliar y obtener las varianzas ajustadas (consistentes).
    sigma2_tilde = np.maximum(X_aux @ gamma_hat2, 1e-6) #Se asegura positividad de las varianzas. 
    omega_tilde_inv = np.linalg.inv(np.diag(sigma2_tilde)) #Se construye matriz omega inversa.  
    
    # 7. Aplicar GLS en la regresión de y ~ x, utilizando como ponderador la matriz omega estimada.
    # Obs.: También se podría usar uno sobre la raíz cuadrada de sigma2 tilde como ponderador en la regresión de y ~ x.
    
    # Se obtienen las estimaciones de los parámetros.
    beta_fgls = np.linalg.inv(X.T @ omega_tilde_inv @ X) @ X.T @ omega_tilde_inv @ y
    
    # Se obtienen las estimaciones de los errores estándar de los parámetros.
    residuals_fgls = y - X @ beta_fgls
    s2_fgls = (residuals_fgls.T @ omega_tilde_inv @ residuals_fgls) / ( X.shape[0] - X.shape[1])
    var_beta_fgls = s2_fgls * np.linalg.inv(X.T @ omega_tilde_inv @ X)
    se_beta1_fgls = np.sqrt(np.diag(var_beta_fgls))[1]   
    
    return beta_fgls[0], beta_fgls[1], se_beta1_fgls

In [None]:
def simulate_fgls(n_samples: int, n_observations_list: list[int], beta_0_true: float, beta_1_true: float, beta1_H0: float) -> pd.DataFrame:
    
    """
    Simula la estimación de FGLS para distintos tamaños de muestra y evalúa la validez de un test de hipótesis.

    Parameters:
    n_samples : int
        Número de simulaciones a realizar para cada tamaño de muestra.
    n_observations_list : list of int
        Lista con los distintos tamaños de muestra a evaluar.
    beta_0_true : float
        Valor verdadero del intercepto en la simulación.
    beta_1_true : float
        Valor verdadero del coeficiente del regresor en la simulación.
    beta1_H0 : float
        Valor hipotético de beta_1 bajo H0 para el test de hipótesis.

    Returns:
    results_df : pandas.DataFrame
        DataFrame con estadísticas de los coeficientes estimados y tasas de rechazo del test de hipótesis.
        Columnas:
        - 'n_observations': Tamaño de la muestra.
        - 'mean_beta0': Media de las estimaciones de beta_0.
        - 'median_beta0': Mediana de las estimaciones de beta_0.
        - 'std_beta0': Desviación estándar de las estimaciones de beta_0.
        - 'mean_beta1': Media de las estimaciones de beta_1.
        - 'median_beta1': Mediana de las estimaciones de beta_1.
        - 'std_beta1': Desviación estándar de las estimaciones de beta_1.
        - 'test_size_1pct': Proporción de rechazos de H0 al 1% de significancia.
        - 'test_size_5pct': Proporción de rechazos de H0 al 5% de significancia.
    """

    
    results = []
    for n_obs in n_observations_list:
        sample_results = []
        
        for _ in range(n_samples):
            # Generación de datos.
            x = np.random.uniform(1, 50, n_obs) # x ~ U[1, 50]
            u = np.random.normal(scale=x) # u ~ N(0, omega), con varianza heterocedástica dependiendo de x.
            y = beta_0_true + beta_1_true * x + u
            
            # Estimación FGLS.
            beta_0_hat, beta_1_hat, se_beta1_hat = fgls_estimation(x, y)
            
            # Test de hipótesis para beta_1 = beta1_H0.
            t_stat = (beta_1_hat - beta1_H0) / se_beta1_hat
            p_value = 2 * (1 - t.cdf(abs(t_stat), df=n_obs - 2))
            reject_1pct = p_value < 0.01 # Rechazar H0 al 1% de significancia.
            reject_5pct = p_value < 0.05 # Rechazar H0 al 5% de significancia.
            
            sample_results.append([beta_0_hat, beta_1_hat, reject_1pct, reject_5pct])
        
        # Convertir a DataFrame.
        df_results = pd.DataFrame(sample_results, columns=['beta_0_hat', 'beta_1_hat', 'reject_1pct', 'reject_5pct'])
        
        # Calcular estadísticas.
        mean_beta0 = df_results['beta_0_hat'].mean()
        mean_beta1 = df_results['beta_1_hat'].mean()
        median_beta0 = df_results['beta_0_hat'].median()
        median_beta1 = df_results['beta_1_hat'].median()
        std_beta0 = df_results['beta_0_hat'].std()
        std_beta1 = df_results['beta_1_hat'].std()
        test_1pct = df_results['reject_1pct'].mean() #Equivale a la proporción de rechazos de las 5000 simulaciones al 1% de significancia.
        test_5pct = df_results['reject_5pct'].mean() #Equivale a la proporción de rechazos de las 5000 simulaciones al 5% de significancia.
        
        results.append([n_obs, mean_beta0, median_beta0, std_beta0, mean_beta1, median_beta1, std_beta1, test_1pct, test_5pct])
    
    results_df = pd.DataFrame(results, columns=['n_observations', 'mean_beta0', 'median_beta0', 'std_beta0', 'mean_beta1', 'median_beta1', 'std_beta1', 'test_1pct', 'test_5pct'])
    
    return results_df

In [37]:
def simulate_gls(n_samples: int, n_observations: int, beta_0_true: float, beta_1_true: float, beta1_H0: float, omega: np.ndarray) -> pd.DataFrame:
    """
    Simula la estimación de GLS para un determinado tamaño de muestra y evalúa la validez de un test de hipótesis.

    Parameters:
    n_samples : int
        Número de simulaciones a realizar para cada tamaño de muestra.
    n_observations : int
        Tamaño de la muestra.
    beta_0_true : float
        Valor verdadero del intercepto en la simulación.
    beta_1_true : float
        Valor verdadero del coeficiente del regresor en la simulación.
    beta1_H0 : float
        Valor hipotético de beta_1 bajo H0 para el test de hipótesis.
    omega : np.ndarray
        Matriz de varianzas y covarianzas de los errores.

    Returns:
    results_df : pd.DataFrame
        DataFrame con estadísticas de los coeficientes estimados y tasas de rechazo del test de hipótesis.
        Columnas:
        - 'n_observations': Tamaño de la muestra.
        - 'mean_beta0': Media de las estimaciones de beta_0.
        - 'median_beta0': Mediana de las estimaciones de beta_0.
        - 'std_beta0': Desviación estándar de las estimaciones de beta_0.
        - 'mean_beta1': Media de las estimaciones de beta_1.
        - 'median_beta1': Mediana de las estimaciones de beta_1.
        - 'std_beta1': Desviación estándar de las estimaciones de beta_1.
        - 'test_size_1pct': Proporción de rechazos de H0 al 1% de significancia.
        - 'test_size_5pct': Proporción de rechazos de H0 al 5% de significancia.
    """
    
    sample_results = []

    # Descomposición de Cholesky de omega
    omega = np.diag(omega)
    P = np.linalg.cholesky(omega)
    P_inv = np.linalg.inv(P)

    # Simulación de M muestras
    for _ in range(n_samples):
        # 1. Generar muestra.
        x = np.random.uniform(1, 50, n_observations)  # x ~ U[1, 50]
        u = np.random.multivariate_normal(mean=np.zeros(n_observations), cov=omega)  # u ~ N(0, omega)
        y = beta_0_true + beta_1_true * x + u

        # 2. Transformar para GLS.
        y_tilde = P_inv @ y
        X = np.column_stack((np.ones(n_observations), x))  # Matriz de diseño original
        X_tilde = P_inv @ X

        # 3. Ajustar modelo transformado con OLS para obtener estimadores y desvío estándar de los mismos.
        beta_hat = np.linalg.inv(X_tilde.T @ X_tilde) @ (X_tilde.T @ y_tilde)
        residuals = y_tilde - X_tilde @ beta_hat
        s2 = (residuals @ residuals) / (n_observations - X_tilde.shape[1])
        var_beta_hat = s2 * np.linalg.inv(X_tilde.T @ X_tilde)
        se_beta1_hat = np.sqrt(np.diag(var_beta_hat))[1]

        # 4. Test de hipótesis para beta_1 = beta1_H0 (tamaño del test).
        t_stat = (beta_hat[1] - beta1_H0) / se_beta1_hat
        p_value = 2 * (1 - t.cdf(abs(t_stat), df=n_observations - 2))
        reject_1pct = p_value < 0.01  # Rechazar H0 al 1% de significancia.
        reject_5pct = p_value < 0.05  # Rechazar H0 al 5% de significancia.

        sample_results.append([beta_hat[0], beta_hat[1], reject_1pct, reject_5pct])

    # Convertir a DataFrame.
    df_results = pd.DataFrame(sample_results, columns=['beta_0_hat', 'beta_1_hat', 'reject_1pct', 'reject_5pct'])

    # Calcular estadísticas.
    results = {
        'n_observations': n_observations,
        'mean_beta0': df_results['beta_0_hat'].mean(),
        'median_beta0': df_results['beta_0_hat'].median(),
        'std_beta0': df_results['beta_0_hat'].std(),
        'mean_beta1': df_results['beta_1_hat'].mean(),
        'median_beta1': df_results['beta_1_hat'].median(),
        'std_beta1': df_results['beta_1_hat'].std(),
        'test_size_1pct': df_results['reject_1pct'].mean(),
        'test_size_5pct': df_results['reject_5pct'].mean()
    }

    return pd.DataFrame([results])

**Ejercicios.**
1. Genere **5000 muestras de 5N = 5 observaciones** de corte transversal a partir del modelo (1):
     
   **a)** Para cada muestra estime por **FGLS** los parámetros del modelo y realice un test de hipótesis para contrastar que $H_0$ : $\beta_1$  = 0.8. Reporte **tamaño del test** al 1% y 5% y el **poder del test** cuando $\beta_1$ = 0 y $\beta_1$ = 0.4. Adicionalmente, reporte la media, mediana y desvio estándar de las estimaciones de $\beta_0$ y $\beta_1$.

   **b)** Utilice la **descomposición de Cholesky** para encontrar una matriz $\Omega = P P'$ y aplique la transformación correspondiente a **GLS** al modelo (1) y estime el modelo por **OLS**, comente si cambia algún resultado.

2. Repita el punto anterior (sólo el inciso a)) con **5N = 10**.

3. Repita el punto anterior (sólo el inciso a)) con **5N = 30**.

4. Repita el punto anterior (sólo el inciso a)) con **5N = 100**.

5. Repita el punto anterior (sólo el inciso a)) con **5N = 200**.

6. Repita el punto anterior (sólo el inciso a)) con **5N = 500**.

7. Describa detalladamente las **propiedades de muestra finita de FGLS** de acuerdo a lo que observó de los cuatro puntos anteriores. En especial, explique **cómo cambia el tamaño y el poder de los tests** a medida que aumenta el tamaño de muestra.

**Ejercicios 1a, 2, 3, 4, 5, 6.**

In [None]:
# Se generan 5.000 muestras para 5N = 5, 10, 30, 100, 200, 500. Se fija beta_0 = -3 y beta_1 = 0.8, y se obtienen estadísticas descriptivas. Se evalúa H0: beta_1 = 0.8 (tamaño del test). 
simulate_fgls(n_samples=5000, n_observations_list=[5, 10, 30, 100, 200, 500], beta_0_true=-3, beta_1_true=0.8, beta1_H0=0.8)


In [None]:
# Adicionalmente, se generan 5.000 muestras para 5N = 700, 1000, 1200, 1500, 2000 para observar en qué tamaño de muestra se obtiene un tamaño de test más cercano al nivel de significancia.
simulate_fgls(n_samples=5000, n_observations_list=[700, 1000, 1200, 1500, 2000], beta_0_true=-3, beta_1_true=0.8, beta1_H0=0.8)


Unnamed: 0,n_observations,mean_beta0,median_beta0,std_beta0,mean_beta1,median_beta1,std_beta1,test_1pct,test_5pct
0,700,-3.02,-3.0115,1.8553,0.8116,0.7993,1.6837,0.0292,0.069
1,1000,-3.0054,-2.9938,1.6094,0.8088,0.8,1.4567,0.0236,0.0606
2,1200,-2.9859,-2.9945,1.1024,0.7919,0.8,0.9931,0.0166,0.0584
3,1500,-2.9848,-3.0003,0.817,0.7858,0.8009,0.741,0.0146,0.0528
4,2000,-2.9913,-2.9926,0.2693,0.7976,0.7992,0.1837,0.0112,0.0472


In [None]:
# Se generan 5.000 muestras para 5N = 5, 10, 30, 100, 200, 500. Se fija beta_0 = -3 y beta_1 = 0.8, y se obtienen estadísticas descriptivas. Se evalúa H0: beta_1 = 0.4 (poder del test). 
simulate_fgls(n_samples=5000, n_observations_list=[5, 10, 30, 100, 200, 500], beta_0_true=-3, beta_1_true=0.8, beta1_H0=0.4)

Unnamed: 0,n_observations,mean_beta0,median_beta0,std_beta0,mean_beta1,median_beta1,std_beta1,test_1pct,test_5pct
0,5,9.2582,-2.6233,893.4464,0.4592,0.7869,22.238,0.1182,0.2262
1,10,18.4817,-2.9402,994.5864,0.3145,0.7957,23.2917,0.1344,0.247
2,30,-14.9002,-2.9858,630.7914,1.0043,0.8017,13.5219,0.201,0.3766
3,100,-4.3804,-3.0011,88.5079,0.8393,0.8005,3.1786,0.6884,0.8616
4,200,-2.9602,-2.997,8.5433,0.8055,0.8,2.8978,0.96,0.9864
5,500,-2.9962,-2.9792,2.0976,0.8099,0.7984,1.7883,0.9964,0.9974


In [None]:
# Se generan 5.000 muestras para 5N = 5, 10, 30, 100, 200, 500. Se fija beta_0 = -3 y beta_1 = 0.8, y se obtienen estadísticas descriptivas. Se evalúa H0: beta_1 = 0 (poder del test). 
simulate_fgls(n_samples=5000, n_observations_list=[5, 10, 30, 100, 200, 500], beta_0_true=-3, beta_1_true=0.8, beta1_H0=0)

Unnamed: 0,n_observations,mean_beta0,median_beta0,std_beta0,mean_beta1,median_beta1,std_beta1,test_1pct,test_5pct
0,5,1.7059,-3.086,1245.7746,0.509,0.7938,33.4404,0.1472,0.276
1,10,75.3163,-2.9185,4386.8609,-0.9077,0.7989,98.9208,0.2142,0.3862
2,30,-11.959,-3.0124,559.0582,0.9417,0.7998,11.6853,0.6186,0.7944
3,100,-3.3895,-2.9896,35.6139,0.7892,0.7953,3.2351,0.9848,0.9896
4,200,-3.0301,-2.9915,3.4799,0.8054,0.7994,2.1781,0.995,0.9962
5,500,-3.0554,-3.0077,2.0244,0.8435,0.7993,1.778,0.9968,0.9974


**Ejercicio 1b.**

In [38]:
simulate_gls(n_samples=5000, n_observations=5, beta_0_true=-3, beta_1_true=0.8, beta1_H0=0.8, omega=[4, 9, 16, 25, 36])

Unnamed: 0,n_observations,mean_beta0,median_beta0,std_beta0,mean_beta1,median_beta1,std_beta1,test_size_1pct,test_size_5pct
0,5,-2.9583,-2.8909,4.6492,0.7981,0.7964,0.162,0.0068,0.046


#### **2. PROPIEDADES DE MUESTRA FINITA DEL TEST DE WHITE Y DE LA CORRECIÓN POR HETEROCEDASTICIDAD.**

Consideremos el siguiente modelo:

$$
y_i = \beta_0 + \beta_1 x_{1i} + \beta_2 x_{2i} + \sqrt{v_i} u_i, \quad i = 1, \dots, n \tag{2}
$$

Para $n = 20$, $x_1$ se determina como una secuencia de 18 puntos espaciados uniformemente entre -1 y 1 con puntos extremos dados por -1.1 y 1.1, mientras que  $x_2$ son cuantiles de una distribución normal estándar elegidos aleatoriamente. La generación de los datos de la variable dependiente se hace con  $\beta_0 = \beta_1  = \beta_2$ = 1.

Existen tres diseños:

1. **Diseño 0**: $u_i \sim N(0,1)$, y $v_i = 1$ (Normalidad y homocedasticidad);

2. **Diseño 1**: $u_i \sim N(0,1)$, y $v_i = e^{0.25 x_{1i} + 0.25 x_{2i}}$ (Normalidad y heterocedasticidad);

3. **Diseño 2**: $u_i \sim t_5$, y $v_i = e^{0.25 x_{1i} + 0.25 x_{2i}}$ (No-normalidad y heterocedasticidad).

Todas las simulaciones se basan en **5.000 replicaciones**.




##### **2.1. TEST DE HETEROCEDASTICIDAD DE WHITE.**

**Ejercicios.**

**a)** Para el **diseño 0**, genere 5.000 muestras de $n = 20$ observaciones a partir del modelo (2). Para cada muestra, **estime por OLS** los parámetros del modelo y realice el **test de hipótesis de White** para contrastar que $H_0$ : No hay heterocedasticidad. Reporte el **tamaño del test** al 1%, 5%, 10%.

**b)** Para los **diseños 1 y 2**, genere 5.000 muestras de $n = 20$ observaciones a partir del modelo (2) y reporte el **poder del test cuando el diseño utilizado es el modelo poblacional verdadero**.

**c)** Repita el punto anterior con $n = 60$.

**d)** Repita el punto anterior con $n = 100$.

**e)** Repita el punto anterior con $n = 200$.

**f)** Repita el punto anterior con $n = 400$.

**g)** Repita el punto anterior con $n = 600$.

**h)** Describa detalladamente las **propiedades de muestra finita del test de White** de acuerdo a lo observado en los puntos anteriores.


##### **2.2. CORRECIÓN DE LA MATRIZ DE VARIANZAS Y COVARIANZAS EN PRESENCIA DE HETEROCEDASTICIDAD.**