# REGRESIÓN LINEAL

* Para este análisis necesitamos instalar un par de librerías.
* La librería pyreadstat permite leer archivos.dta en python y construir DataFrames a partir de los datos.
* La librería statsmodels nos permitirá utilizar el modelo de regresión lineal

In [None]:
#Corre esta celda solo una vez
#
#!pip install statsmodels

In [None]:
import pandas as pd #librería para manipulación de datos
import matplotlib #librería para graficar
from matplotlib import pyplot as plt #librería para graficar
import statsmodels.api as sm #librería para análisis estadístico
from IPython.display import Image # Para imagénes
import numpy as np # Algunas funciones matemáticas
from statsmodels.formula.api import ols # Para pruebas de hipotesis

#
import warnings
warnings.filterwarnings('ignore')

## Aplicación del Método de MCO: Retornos a Escala en la Industria Eléctrica

Esta aplicación tiene su origen en el trabajo de Nerlove (1963). Este es un estudio clásico de los retornos a escala en una industria regulada. Nerlove ofreció una buena descripción de la industria eléctrica, dicha descripción es válida para el momento en que se escribió:
* Los oferentes/generadores de electricidad son monopolios locales privados.
* Las tarifas o precios minoristas de la eléctricidad son establecidos por un ente regulador.
* Los precios de los factores productivos están dados y no son modificables por las empresas en el corto plazo, ya que existen diversos contratos de largo plazo (por ejemplo, los contratos laborales).

Respecto de los datos, estos consisten en 145 empresas ubicadas en 44 estados en EUA en el año 1955, ya que son para los únicos estados para los que existe información. El estudio utilizó información de aproximadamente el 80% de la electricidad producida.

Visto por la forma de producción, Nerlove identicó que existían 3 métodos de producción de electricidad: 
* Motores de conbustión interna.
* Hidroeléctricas.
* Termoeléctricas.

Al respecto, Nerlove muestra que en los 50's cerca del 70% de la electricidad era producida por las empresas termoeléctricas. El combustible pincipal empleado en dichas termoeléctricas era carbón (66.4%), seguido de petróleo (14.5%) y gasolina (19.1%).


## Variables: 
Las variables consideradas son: costos totales, precios de los factores (salarios, precios de combustibles, renta o precio del capital), y el producto. Aunque las empresas son dueñas del capital, en el modelo se supone que dichas empresas se comportan como si estas pagaran una renta de capital, por lo que se imputa un precio por el costo de capital.

No obstante, para mayores detalles refierase al documento original de Nerlove, donde se describe con mayor detalle la forma en que fue construída la base de datos. Los datos de producción, combustibles y costos laborales fueron obtenidos de la Federal Power Commision (1956).

## Motivación económica:
La motivación para el analísis es que mediante un enfoque econométrico se puede construir una curva de costo promedio (AC, por sus siglas en inglés) para cada empresa, misma que es diferente de la promedio de la industria. Esto es, la empresas enfrentan diferentes precios por los factores productivos y por lo tanto diferentes costos totales, medios y marginales.

Para enfocarnos en la conexión entre la eficiencia de producción y el producto, asumimos que todas las empresas enfrentan mas o menos los mismos precios de los factores, y la única razón por la que las curvas de costo medio (AC) y de costo marginal (MC) difieren entre las empresas es la diferencia en la eficiencia productiva. Las curvas de AC y de MC tienen pendiente positiva para reflejar retornos a escala decrecientes. 

Si vemos la siguiente Figura, las curvas de AC y MC de la empresa A estan a la izquierda de las de la empresa B porque la empresa A es menos eficiente que B. Esto es derivado de que la industria es competida, ambas empresas enfrentan el mismo precio $p$. Dado que la cantidad está determinada por la intersección de MC y el precio de mercado, las combinaciones de cantidad / producto y el AC para las dos empresas e ilustra en la Figura.

<img src="Hayashi_p62.PNG" style="width: 600px;"> 

De esta forma, la curva que resulta de conectar los puntos A y B puede tener una pendiente negativa, dando la impresión de un escenario de rendimientos crecientes a escala en la industria, ya que la agregación de todos los puntos de las empresas individuales conformaran la curva de costos promedio de la industria. 

La parametrización de la función de costos parte de una función de producción del tipo Cobb - Douglas:
$$Q_i = A_i x^{\alpha_1}_{i1} x^{\alpha_2}_{i2} x^{\alpha_3}_{i3}$$

Donde $Q_i$ es la producción de la empresa $i$, $x_{i1}$ es el insumo de trabajo para la empresa $i$, $x_{i2}$ es el insumo capital para la empresa $i$, y $x_{i3}$ es el insumo de combustible para la empresa $i$. El término $A_i$ captura las direncias no observables en la eficiencia de producción (este término también es conocido como el de heterogenidad de las empresas). 

Asimismo, la suma de los paramétros: $\alpha_1 + \alpha_2 + \alpha_3 = r$ indica el grado de retornos a escala. Dado esto último, asumiremos que el grado de retornos a escala es constante (esto no significa que existen retornos a escala constantes, ya que para ello se debería cumplir que $r = 1$). Adicionalmente, en el modelo se supone que dada la naturaleza de propiedad de las empresas generadoras, el problema que cada una ellas enfrenta es uno de minimización de costos (véase Nerlove (1963) para una discusión sobre las restricciones relacionadas con este supuesto).


En este sentido, el problema que cada empresa enfrenta es el de minimizar sus costos de producción, sujeto a la cantidad producida, es decir:
$$\min_{x_{i1}, \ldots, x_{iK}} \sum_{k = 1}^{K} p_{ik}x_{ik}$$
s.a.
$$Q_i = f(x_{i1}, \ldots, x_{iK}, A_i)$$

Resolviendo el problema anterior:
$$ln(C_i) = \mu_i +  \frac{1}{r} ln(Q_i) + \frac{\alpha_1}{r} ln(p_{i1}) + \frac{\alpha_2}{r} ln(p_{i2}) + \frac{\alpha_3}{r} ln(p_{i3})$$

Donde $\mu_i = ln \left[ r \left( A_i \alpha^{\alpha_1}_{1} \alpha^{\alpha_2}_{2} \alpha^{\alpha_3}_{3} \right)^{-1/r} \right]$. 

La ecuación es conocida como una ecuación log-lineal, de la cual se puede interpretar a sus pendientes como elasticidades. Es decir, el cambio porcentual en el costo total cuando se incremnta en 1% el precio de cualquiera de los factores. 

Si definimos a $\mu = \mathbb{E} [\mu_i]$ y a $\varepsilon_i = \mu_i - \mu$, de tal forma que $\mathbb{E} [\varepsilon_i] = 0$. De esta forma $\varepsilon_i$ se puede interpretar como la eficiencia productiva de las empresas. Considerando lo anterior plateamos la expresión:
$$ln(C_i) = \beta_1 +  \beta_2 ln(Q_i) + \beta_3 ln(p_{i1}) + \beta_4 ln(p_{i2}) + \beta_5 ln(p_{i3}) + \varepsilon_i$$

Donde:
$$\beta_1 = \mu$$

$$\beta_2 = \frac{1}{r}$$

$$\beta_3 = \frac{\alpha_1}{r}$$

$$\beta_4 = \frac{\alpha_2}{r}$$

$$\beta_5 = \frac{\alpha_3}{r}$$

De esta forma podemos decir que $y_i = ln(C_i)$ y que:
$$\mathbf{X}'_i = [ln(Q_i), ln(p_{i1}), ln(p_{i2}), ln(p_{i3})]$$

Esta función tmabién es conocida como una función trans-log o trans-logarítmica, de la cual podemos recuperar una forma estimada de la función de costos original:

<img src="Nerlove.PNG" style="width: 500px;"> 

# Plan de la clase:
* ### Regresión lineal
* ### Media condicional descrita por:
$$ln(C_i) = \beta_1 +  \beta_2 ln(Output_i) + \beta_3 ln(plabor_{i1}) + \beta_4 ln(pfuel_{i2}) + \beta_5 ln(pkap_{i3}) + \varepsilon_i$$

### Metadatos: La base de datos contiene 145 observaciones  de las siguientes variables:
**Datos de Demanda de Gasolina:**
* **totcost:** costs in 1970, MM USD

* **output:** output billion KwH
* **plabor:** price of labor
* **pfuel:** price of fuel
* **pkap:** price of capital

In [None]:
# Leer desde DATA

dataframe = pd.read_stata('nerlove63.dta')


In [None]:
#
dataframe.columns

In [None]:
#
dataframe.head(5)

### **Estadisticas y tablas resumen**

In [None]:
#
dataframe.describe().round(2)

In [None]:
#
dataframe.dtypes

In [None]:
#
dataframe.isnull().values.any()

### **Generando nuevas variables**

In [None]:
#Creamos la variable Ltotcost aplicando logaritmo a totcost y guardamos el resultado en la nueva columna Ltotcost

dataframe['Ltotcost'] = np.log(dataframe['totcost'])
dataframe['Loutput'] = np.log(dataframe['output'])
dataframe['Lplabor'] = np.log(dataframe['plabor'])
dataframe['Lpfuel'] = np.log(dataframe['pfuel'])
dataframe['Lpkap'] = np.log(dataframe['pkap'])
dataframe['avgcost'] = dataframe["totcost"]/dataframe["output"]

In [None]:
#
dataframe['One'] = 1

In [None]:
#
dataframe.head()

### **Estadisticas Descriptivas**

In [None]:
# 
print(plt.style.available)

In [None]:
#
plt.style.use('seaborn-v0_8-white')
dataframe['totcost'].hist(color = 'darkblue')
plt.ylabel("Freq")
plt.xlabel("totcost MM USD")
plt.title("Histograma totcost MM USD")
plt.show()

In [None]:
#
plt.style.use('seaborn-v0_8-white')
dataframe['totcost'].plot.kde()
plt.title("Densidad totcost MM USD")
plt.show()

### ** Regresion:**

In [None]:
#
plt.style.use('seaborn-v0_8-white')
plt.scatter(dataframe.output, dataframe.avgcost, s = 10, color ="red")
plt.title("Gráfico de dispersión Output vs Avg cost")
plt.show()

In [None]:
#
Y = dataframe["Ltotcost"]
X = dataframe[["One","Loutput", "Lplabor", "Lpfuel", "Lpkap"]]
#X2 = sm.add_constant(X)
est = sm.OLS(Y,X)
est2 = est.fit()
print(est2.summary())

In [None]:
#
Y = dataframe["Ltotcost"]
X = dataframe[["Loutput", "Lplabor", "Lpfuel", "Lpkap"]]
X2 = sm.add_constant(X)
est = sm.OLS(Y,X2).fit()
print(est.summary())

In [None]:
# # Estimación (FINAL):
Y = dataframe["Ltotcost"]
X = dataframe[["One","Loutput", "Lplabor", "Lpfuel", "Lpkap"]]
est = sm.OLS(Y,X).fit()
print(est.summary())

In [None]:
#
dir(est)

Estimadores:
$$\hat{\boldsymbol \beta} = (\mathbf{X'X})^{-1}\mathbf{X'Y}$$

In [None]:
#
est.params

La especificación más común de la prueba de hipótesis en el análisis de regresión es:
$$H_0: \beta_k = 0$$
$$H_a: \beta_k \neq 0$$

Lo que en términos de una prueba $t$ es la siguiente:
$$t = \frac{\hat{\beta}_k - 0}{\sqrt{\hat{\sigma}^2 (\mathbf{X}'\mathbf{X})^{-1}_{kk}}} \sim t_{n - k}$$

In [None]:
#
est.tvalues

La hipotésis nula de una prueba global se puede escribir como:
$$H_0: \beta_1 = \beta_2 = \ldots = \beta_K = 0$$
$$H_a: No H_0$$

Esta prueba se le conoce como prueba global, ya que prueba si en conjunto todas las variables independientes tienen un efecto nulo en $\mathbf{Y}$. Notemos que la prueba implica que la estadística $F$ de prueba será:
$$F = \frac{(\mathbf{R} \boldsymbol{\hat{\beta}} - \mathbf{r})'[\mathbf{R} \hat{\sigma}^2 (\mathbf{X}'\mathbf{X})^{-1}\mathbf{R}']^{-1}(\mathbf{R} \boldsymbol{\hat{\beta}} - \mathbf{r})}{J} \sim F_{J, n - K}$$    

La matriz $\mathbf{R}$ y vector $\mathbf{r}$:
$$\mathbf{R} = \left[ 
            \begin{array}{c c c c}
                0 & 0 & \ldots & 0 \\ 0 & 1 & \ldots & 0 \\ 0 & 0 & \ldots & 0 \\ \vdots & \vdots & \cdots & \vdots \\ 0 & 0 & \ldots & 1 \\
            \end{array}
            \right]$$

$$\mathbf{r} = \left[ 
            \begin{array}{c}
                0 \\ 0 \\ 0 \\ \vdots \\ 0 \\
            \end{array} 
            \right]$$


In [None]:
#
est.fvalue

Alternativamente:

In [None]:
#
R = np.array(([0,0,0,0,0], [0,1,0,0,0], [0,0,1,0,0], [0,0,0,1,0], [0,0,0,0,1]))
R

In [None]:
#
print(est.f_test(R))

En el caso que nos ocupa queremos probar si la suma de los coeficientes asociados los factores productivos es 1, es decir, la función de costos exibe rendimientos constantes a escala:
$$H_0: \beta_3 + \beta_4 + \beta_5 = 1$$
$$H_1: \beta_3 + \beta_4 + \beta_5 \neq 1$$

Existen dos alternativas para probar la hipótesis. Partamos de que:
La matriz $\mathbf{R}$ y vector $\mathbf{r}$:
$$\mathbf{R} = \left[ 
            \begin{array}{c c c c c}
                0 & 0 & 1 & 1 & 1 
            \end{array}
            \right]$$

$$\mathbf{r} = 1$$


In [None]:
#
formula = 'Ltotcost ~  One + Loutput + Lplabor + Lpfuel + Lpkap'
results = ols(formula, dataframe).fit()
# Se pueden incluir tantas restricciones queramos, agregando una coma (,) segido de la restricción
hypotheses = 'Lplabor + Lpfuel + Lpkap = 1'

$$H_0 = \beta_3 + \beta_4 + \beta_5 = 1$$
$$H_0 = \beta_3 + \beta_4 + \beta_5 - 1 = 0$$

Lo que en términos de una prueba $t$ es la siguiente:
$$t = \frac{\mathbf{R} \hat{\beta} - 1}{\sqrt{\hat{\sigma}^2 R (\mathbf{X}'\mathbf{X})^{-1} R'}} \sim t_{n - k}$$

In [None]:
# 1:
t_test = results.t_test(hypotheses)
print(t_test)

$$F = \frac{(\mathbf{R} \boldsymbol{\hat{\beta}} - \mathbf{1})'[\mathbf{R} \hat{\sigma}^2 (\mathbf{X}'\mathbf{X})^{-1}\mathbf{R}']^{-1}(\mathbf{R} \boldsymbol{\hat{\beta}} - \mathbf{1})}{1} \sim F_{1, n - K}$$    


In [None]:
# 2:
f_test = results.f_test(hypotheses)
print(f_test)

$$H_0 = \beta_3 + \beta_4 + \beta_5 = 1, \beta_2 = 0$$
$$H_1 = No H_0$$

In [None]:
# Otro ejemplo: 
hypotheses_2 = 'Lplabor + Lpfuel + Lpkap = 1, Loutput = 0'
f_test = results.f_test(hypotheses_2)
print(f_test)

### Matriz correctora de heterocedásticidad

En los casos en que existe un término de error heterocedástico podemos corregir el problema mediante la matriz de White, la cual asume que la varianza asintórica de $\hat{\boldsymbol{\beta}}$ estará dada por:
\begin{equation}
    \widehat{AVar(\hat{\boldsymbol{\beta}})} = (\mathbf{X}'\mathbf{X})^{-1} (\mathbf{X}'\mathbf{W}\mathbf{X}) (\mathbf{X}'\mathbf{X})^{-1}
    \label{Beta_Var_Asint}
\end{equation}

In [None]:
# Calculamos Residuales:

resid = Y - est.predict()

resid

In [None]:
# graficamos Resids Vs Variables Dependientes:
plt.style.use('ggplot')
plt.scatter( dataframe.Loutput , resid , s = 15, color ="red")
plt.title("Gráfico de dispersión LOutput vs Resids")
#
plt.show()

In [None]:
# graficamos Resids Vs Variables Dependientes:
plt.style.use('ggplot')
plt.scatter( dataframe.Lplabor , resid , s = 15, color ="red")
plt.title("Gráfico de dispersión Lplabor vs Resids")
#
plt.show()

In [None]:
# graficamos Resids Vs Variables Dependientes:
plt.style.use('ggplot')
plt.scatter( dataframe.Lpfuel , resid , s = 15, color ="red")
plt.title("Gráfico de dispersión Lpfuel vs Resids")
#
plt.show()

In [None]:
# graficamos Resids Vs Variables Dependientes:
plt.style.use('ggplot')
plt.scatter( dataframe.Lpkap , resid , s = 15, color ="red")
plt.title("Gráfico de dispersión Lpkap vs Resids")
#
plt.show()

In [None]:
print(est.summary())

In [None]:
# # Estimación (FINAL-Corregida):
Y = dataframe["Ltotcost"]
X = dataframe[["One","Loutput", "Lplabor", "Lpfuel", "Lpkap"]]
est_H = sm.OLS(Y,X).fit(cov_type = "HC0")
print(est_H.summary())

### Opciones:

* HC0: White's (1980) heteroskedasticity robust standard errors.
* HC1: MacKinnon and White's (1985) heteroskedasticity robust standard errors.
* HC2: MacKinnon and White's (1985) heteroskedasticity robust standard errors.
* HC3: MacKinnon and White's (1985) heteroskedasticity robust standard errors.

## Cómo se ve la curva de costos medios estimados:

In [None]:
# Rcuperamos de la regresión el valor del Log del costo estimado
LY_pred = est.predict(X)
# Anti-log:
Y = np.exp(LY_pred)
# Colocamos en el Data Frame:
dataframe['totcost_e'] = Y
dataframe['avgcost_e'] = dataframe["totcost_e"]/dataframe["output"]
dataframe.head()

In [None]:
# graficamos resultados:
plt.style.use('ggplot')
plt.scatter(dataframe.output, dataframe.avgcost, s = 15, color ="red")
plt.scatter(dataframe.output, dataframe.avgcost_e, s = 15, color ="blue")
plt.title("Gráfico de dispersión Output vs Avg cost / Avg cost estimado")
#
plt.show()

## Para este caso, ¿Es posible determinar la Escala Mínima Eficiente (EME)?

La respuesta es NO. La razón es la siguiente.

La EME se determina resolviendo:

$$\frac{\partial CME}{\partial Q_i} = \frac{\partial \frac{C_i}{Q_i}}{\partial Q_i} = \frac{\partial \frac{e^{ln(C_i)}}{Q_i}}{\partial Q_i}$$

Resolviendo la derivada, obtenemos
$$\frac{\partial CME}{\partial Q_i} = \frac{e^{ln(C_i)}}{Q_i^2} [\beta_2 - 1]$$

Es claro que no es posible encontar un $Q_i^*$ que resuelva:

$$\frac{e^{ln(C_i)}}{Q_i^2} [\beta_2 - 1] = 0 $$

Una alternativa es usar la expresión que está abajo en el ejercicio.

In [None]:
# graficamos resultados:
plt.scatter(dataframe.Loutput, dataframe.avgcost, s = 15, color ="red")
plt.scatter(dataframe.Loutput, dataframe.avgcost_e, s = 15, color ="blue")
plt.title("Gráfico de dispersión Output vs Avg cost / Avg cost estimado")
#
plt.show()

# Ejercicio:

Estimar:
$$ln(C_i) = \beta_1 +  \beta_2 ln(Q_i) + \beta_3 (ln(Q_i))^2 + \beta_4 ln(p_{i1}) + \beta_5 ln(p_{i2}) + \beta_6 ln(p_{i3}) + \varepsilon_i$$

Probar si:
$$H_0: \beta_4 + \beta_5 + \beta_6 = 1$$
$$H_1: \beta_4 + \beta_5 + \beta_6 \neq 1$$

Note que en este caso si es posible estimar la EME. Es una ecuación similar a la del caso de Coca-Cola que conversamos y tendría una forma como

$$Q^* = e^{(1- \beta_1)/\beta2}$$

La manera de llegar a este resultado es similar al procedimiento mostrado arriba.

In [None]:
# Read DataFrame:
dataframe.head()

In [None]:
#
dataframe["Loutput_2"] = dataframe["Loutput"]**2

In [None]:
#
dataframe.head()

In [None]:
# Definición de variables:
Y = dataframe["Ltotcost"]
X = dataframe[["One", ]]
#
X

In [None]:
# Estimación:
est = sm.OLS(Y,X)
est2 = est.fit()
print(est2.summary())

In [None]:
#
formula = 'Ltotcost ~  One + '
results = ols(formula, dataframe).fit()

# Se pueden incluir tantas restricciones queramos, agregando una coma (,) segido de la restricción
hypotheses = ' +  +  = 1'
t_test = results.t_test(hypotheses)
print(t_test)