# REGRESIÓN LINEAL

* Para este análisis necesitamos instalar un par de librerías.
* La librería pyreadstat permite leer archivos.dta en python y construir DataFrames a partir de los datos.
* La librería statsmodels nos permitirá utilizar el modelo de regresión lineal

In [None]:
#Corre esta celda solo una vez
!pip install pyreadstat
!pip install statsmodels

In [None]:
import pyreadstat #librería para leer  formato.dta
import pandas as pd #librería para manipulación de datos
import matplotlib #librería para graficar
from matplotlib import pyplot as plt #librería para graficar
import statsmodels.api as sm #librería para análisis estadístico
from IPython.display import Image # Para imagénes

## Aplicación del Método de MCO: Retornos a Escala en laIndustria Eléctrica

Esta aplicación tiene su origen en el trabajo de Nerlove (1963). Este es un estudio clásico de los retornos a escala en una industria regulada. Nerlove ofreció una buena descripción de la industria eléctrica, dicha descripción es válida para el momento en que se escribió:
* Los oferentes/generadores de electricidad son monopolios locales privados.
* Las tarifas o precios minoristas de la eléctricidad son establecidos por un ente regulador.
* Los precios de los factores productivos están dados y no son modificables por las empresas en el corto plazo, ya que existen diversos contratos de largo plazo (por ejemplo, los contratos laborales).

Respecto de los datos, estos consisten en 145 empresas ubicadas en 44 estados en EUA en el año 1955, ya que son para los únicos estados para los que existe información. El estudio utilizó información de aproximadamente el 80% de la electricidad producida.

Visto por la forma de producción, Nerlove identicó que existían 3 métodos de producción de electricidad: 
* Motores de conbustión interna.
* Hidroeléctricas.
* Termoeléctricas.

Al respecto, Nerlove muestra que en los 50's cerca del 70% de la electricidad era producida por las empresas termoeléctricas. El combustible pincipal empleado en dichas termoeléctricas era carbón (66.4%), seguido de petróleo (14.5%) y gasolina (19.1%).


## Variables: 
Las variables consideradas son: costos totales, precios de los factores (salarios, precios de combustibles, renta o precio del capital), y el producto. Aunque las empresas son dueñas del capital, en el modelo se supone que dichas empresas se comportan como si estas pagaran una renta de capital, por lo que se imputa un precio por el costo de capital.

No obstante, para mayores detalles refierase al documento original de Nerlove, donde se describe con mayor detalle la forma en que fue construída la base de datos. Los datos de producción, combustibles y costos laborales fueron obtenidos de la Federal Power Commision (1956).

## Motivación económica:
La motivación para el analísis es que mediante un enfoque econométrico se puede construir una curva de costo promedio (AC, por sus siglas en inglés) para cada empresa, misma que es diferente de la promedio de la industria. Esto es, la empresas enfrentan diferentes precios por los factores productivos y por lo tanto diferentes costos totales, medios y marginales.

Para enfocarnos en la conexión entre la eficiencia de producción y el producto, asumimos que todas las empresas enfrentan mas o menos los mismos precios de los factores, y la única razón por la que las curvas de costo medio (AC) y de costo marginal (MC) difieren entre las empresas es la diferencia en la eficiencia productiva. Las curvas de AC y de MC tienen pendiente positiva para reflejar retornos a escala decrecientes. 

Si vemos la siguiente Figura, las curvas de AC y MC de la empresa A estan a la izquierda de las de la empresa B porque la empresa A es menos eficiente que B. Esto es derivado de que la industria es competida, ambas empresas enfrentan el mismo precio $p$. Dado que la cantidad está determinada por la intersección de MC y el precio de mercado, las combinaciones de cantidad / producto y el AC para las dos empresas e ilustra en la Figura.

<img src="Hayashi_p62.PNG"> 

De esta forma, la curva que resulta de conectar los puntos A y B puede tener una pendiente negativa, dando la impresión de un escenario de rendimientos crecientes a escala en la industria, ya que la agregación de todos los puntos de las empresas individuales conformaran la curva de costos promedio de la industria. 

La parametrización de la función de costos parte de una función de producción del tipo Cobb - Douglas:
$$Q_i = A_i x^{\alpha_1}_{i1} x^{\alpha_2}_{i2} x^{\alpha_3}_{i3}$$

Donde $Q_i$ es la producción de la empresa $i$, $x_{i1}$ es el insumo de trabajo para la empresa $i$, $x_{i2}$ es el insumo capital para la empresa $i$, y $x_{i3}$ es el insumo de combustible para la empresa $i$. El término $A_i$ captura las direncias no observables en la eficiencia de producción (este término también es conocido como el de heterogenidad de las empresas). 

Asimismo, la suma de los paramétros: $\alpha_1 + \alpha_2 + \alpha_3 = r$ indica el grado de retornos a escala. Dado esto último, asumiremos que el grado de retornos a escala es constante (esto no significa que existen retornos a escala constantes, ya que para ello se debería cumplir que $r = 1$). Adicionalmente, en el modelo se supone que dada la naturaleza de propiedad de las empresas generadoras, el problema que cada una ellas enfrenta es uno de minimización de costos (véase Nerlove (1963) para una discusión sobre las restricciones relacionadas con este supuesto).


En este sentido, el problema que cada empresa enfrenta es el de minimizar sus costos de producción, sujeto a la cantidad producida, es decir:
$$\min_{x_{i1}, \ldots, x_{iK}} \sum_{k = 1}^{K} p_{ik}x_{ik}$$
s.a.
$$Q_i = f(x_{i1}, \ldots, x_{iK}, A_i)$$

Resolviendo el problema anterior:
$$ln(C_i) = \mu_i +  \frac{1}{r} ln(Q_i) + \frac{\alpha_1}{r} ln(p_{i1}) + \frac{\alpha_2}{r} ln(p_{i2}) + \frac{\alpha_3}{r} ln(p_{i3})$$

Donde $\mu_i = ln \left[ r \left( A_i \alpha^{\alpha_1}_{1} \alpha^{\alpha_2}_{2} \alpha^{\alpha_3}_{3} \right)^{-1/r} \right]$. 

La ecuación es conocida como una ecuación log-lineal, de la cual se puede interpretar a sus pendientes como elasticidades. Es decir, el cambio porcentual en el costo total cuando se incremnta en 1% el precio de cualquiera de los factores. 

Si definimos a $\mu = \mathbb{E} [\mu_i]$ y a $\varepsilon_i = \mu_i - \mu$, de tal forma que $\mathbb{E} [\varepsilon_i] = 0$. De esta forma $\varepsilon_i$ se puede interpretar como la eficiencia productiva de las empresas. Considerando lo anterior plateamos la expresión:
$$ln(C_i) = \beta_1 +  \beta_2 ln(Q_i) + \beta_3 ln(p_{i1}) + \beta_4 ln(p_{i2}) + \beta_5 ln(p_{i3}) + \varepsilon_i$$

Donde:
$$\beta_1 = \mu$$

$$\beta_2 = \frac{1}{r}$$

$$\beta_3 = \frac{\alpha_1}{r}$$

$$\beta_4 = \frac{\alpha_2}{r}$$

$$\beta_5 = \frac{\alpha_3}{r}$$

De esta forma podemos decir que $y_i = ln(C_i)$ y que:
$$\mathbf{X}'_i = [ln(Q_i), ln(p_{i1}), ln(p_{i2}), ln(p_{i3})]$$

Esta función tmabién es conocida como una función trans-log o trans-logarítmica, de la cual podemos recuperar una forma estimada de la función de costos original:

<img src="Nerlove.PNG"> 

# Plan de la clase:
* ### Regresión lineal
* ### Media condicional descrita por:
$$ln(C_i) = \beta_1 +  \beta_2 ln(Output_i) + \beta_3 ln(plabor_{i1}) + \beta_4 ln(pfuel_{i2}) + \beta_5 ln(pkap_{i3}) + \varepsilon_i$$

### Metadatos: La base de datos contiene 145 observaciones  de las siguientes variables:
**Datos de Demanda de Gasolina:**
* **totcost:** costs in 1970, MM USD

* **output:** output billion KwH
* **plabor:** price of labor
* **pfuel:** price of fuel
* **pkap:** price of capital

In [None]:
dtafile = 'C:/Users/JESICA/Downloads/Regresión R/nerlove63.dta'
dataframe, meta = pyreadstat.read_dta(dtafile)

In [None]:
dataframe.columns

In [None]:
dataframe.head(5)

### **Estadisticas y tablas resumen**

In [None]:
dataframe.describe().round(2)

In [None]:
dataframe.dtypes

In [None]:
dataframe.isnull().values.any()

In [None]:
for i in dataframe.columns:
        print([i])
        print(dataframe[i].value_counts())

### **Generando nuevas variables**

In [None]:
import numpy as np
#Creamos la variable Ltotcost aplicando logaritmo a totcost y guardamos el resultado en la nueva columna Ltotcost
dataframe['Ltotcost'] = np.log2(dataframe['totcost'])
dataframe['Loutput'] = np.log2(dataframe['output'])
dataframe['Lplabor'] = np.log2(dataframe['plabor'])
dataframe['Lpfuel'] = np.log2(dataframe['pfuel'])
dataframe['Lpkap'] = np.log2(dataframe['pkap'])
dataframe['avgcost']=dataframe["totcost"]/dataframe["output"]

In [None]:
dataframe['One']=1

In [None]:
dataframe.head()

### **Estadisticas Descriptivas**

In [None]:
plt.style.use('ggplot')
dataframe ['totcost'].hist(color='green')
plt.ylabel("Freq")
plt.xlabel("totcost MM USD")
plt.title("Histograma totcost MM USD")
plt.show()

In [None]:
dataframe ['totcost'].plot.kde()
plt.title("Densidad totcost MM USD")
plt.show()

### ** Regresion:**

In [None]:
plt.scatter(dataframe.output, dataframe.avgcost, s=150, color ="red")
plt.title("Gráfico de dispersión Output vs Avg cost")
plt.show()

In [None]:
import statsmodels.api as sm
Y=dataframe["Ltotcost"]
X=dataframe[["One","Loutput", "Lplabor", "Lpfuel", "Lpkap"]]
X2 = sm.add_constant(X)
est = sm.OLS(Y,X2)
est2 = est.fit()
print(est2.summary())