# TAREA:


# Regresion Lineal 
## Basado en Christensen, L y W. Greene (1976), "Economies of Scale in U.S. Electric Power Generation", Journal of Political Economy, Vol. 84, No. 4, pp. 655-676

A continuación, resuleva cada una las instrucciones que se le señalan

In [None]:
# Importamos Dependencias o Bibliotecas necesarias:
import pyreadstat # librería para leer formato ".dta"
import pandas as pd # librería para manipulación de datos
import numpy as np # Librería para operaciones matemáticas
import matplotlib # Librería para graficar
from matplotlib import pyplot as plt # Librería para graficar
import statsmodels.api as sm # Librería para análisis estadístico
from IPython.display import Image # Librería para importar imagénes
from statsmodels.formula.api import ols # Librería para pruebas de hipotesis

### La base de datos contiene información de 100 empresa de generación eléctrica, reportada en las siguientes variables:

* **firmid:** ID de la empresa
* **costs:** Total costs in MM USD
* **output:** output billion KwH
* **plabor:** price of labor
* **pfuel:** price of fuel
* **pkap:** price of capital
* **labshr:** participación del trabajo en el costo
* **kapshr:** participación del capital en el costo

## 1. Importe la base de DATOS:

In [None]:
# Ruta al archivo:
dtafile = 'Data/cgreene76.dta'
# La función read_dat devuelve dos objetos: el dataframe y los metadatos
dataframe , meta = pyreadstat.read_dta(dtafile)

In [None]:
# Muestre los datos importados
print(dataframe.head(10))


# Considere una función de costos del tipo translog, escrita como:

$$ln(C) = \alpha_0 +  \alpha_Y ln(Y) + \frac{1}{2} \gamma_{YY} (ln(Y))^2 + \sum_k \alpha_k ln(P_{k}) + \frac{1}{2} \sum_k \sum_j \gamma_{kj} ln(P_k) ln(P_j) + \sum_k \gamma_{Yk} ln(Y) ln(P_k) + \varepsilon_i$$

Este ecuación es equivalente a la que Christensen y Greene denominan Modelo A. Donde:
$\gamma_{kj} = \gamma_{jk}$, $C$ es el costo total, $Y$ es el producto, $P_k$'s son los precios de los factores. 

## 2. Realice las transformaciones necesarias en los datos para estimar la ecuación anterior:

In [None]:
dataframe['Ltotcost'] = np.log(dataframe['costs'])
dataframe['Loutput'] = np.log(dataframe['output'])
dataframe["Loutput_2"] = dataframe["Loutput"]**2
dataframe['Lplabor'] = np.log(dataframe['plabor'])
dataframe['Lpfuel'] = np.log(dataframe['pfuel'])
dataframe['Lpkap'] = np.log(dataframe['pkap'])
dataframe['Lpprod'] = np.dot(dataframe['plabor'] , dataframe['pfuel'])
dataframe['Lptcostfuel'] = np.dot(dataframe['Loutput'] , dataframe['pfuel'])
dataframe['avgcost'] = dataframe["costs"]/dataframe["output"]
dataframe['One'] = 1


In [None]:
# Muestre su data frame con las variables adicionales necesarias
.head()

## 3. Realice la estimación de la regresión de la función translog: 

In [None]:
# Definición de vector y matriz: Y y X
Y = ["Ltotcost"]
X = dataframe[["One","Loutput","Loutput_2", "Lplabor", "Lpfuel", "Lpkap","Lpprod","Loutpfuel"]]

#
X

In [None]:
# Resporte de la estimación:
est = sm.OLS(Y,X)
est2 = est.fit()
print(est2.summary())
print("\n Parametros \n ",est2.params)
print("\n Valores \n", est2.tvalues)
print("\n Fvalue \n", est2.fvalue)


## 4. Pruebe cada una de las siguientes hipótesis 

En cada caso escriba sus conclusiones respecto a la prueba y qué significado tiene para la estimación, de acuerdo con el trabajo de Christensen y Greene (1976)

In [None]:
# Establecemos la formula de la ecuación estimada:
formula = 'Ltotcost ~  One + Loutput  + Lplabor + Lpfuel + Lpkap + Lpprod + Loutpfuel'
results = ols(formula, DataFrame).fit()




### 4.1
$$H_0: \sum_k \alpha_k = 1$$

In [None]:
# Establecemos la hipótesis
hypotheses_2 = 'Lplabor + Lpfuel + Lpkap = 1'


In [None]:
# Prueba de la hipótesis:
t_test = results.t_test(hypotheses)
print(t_test)
f_test = results.f_test(hypotheses)
print(f_test)


### 4.2
$$H_0: \sum_k \gamma_{Yk} = 0$$

In [None]:
# Establecemos la hipótesis
hypotheses_2 = 'Lplabor + Lpfuel + Lpkap = 1, Loutpfuel = 0'


In [None]:
# Prueba de la hipótesis:
t_test = results.t_test(hypotheses_2)
print(t_test)
f_test = results.f_test(hypotheses_2)
print(f_test)

### 4.3
$$H_0: \sum_{k} \gamma_{kj} = \sum_{j} \gamma_{kj} = \sum_{k} \sum_{j} \gamma_{kj} = 0$$

In [None]:
# Establecemos la hipótesis
hypotheses_3 = 'Lplabor + Lpfuel + Lpkap = 1, Lpprod = 0'


In [None]:
# Prueba de la hipótesis:
t_test = results.t_test(hypotheses_3)
print(t_test)
f_test = results.f_test(hypotheses_3)
print(f_test)

## 5. Dadas sus conclusiones en las pruebas de hipótesis anteriores, ¿considere si debe ajustar la función de costos del tipo translog descrita anteriormente?, en su caso ajuste la siguiente expresión a la forma que debería estimar:

$$ln(C) = \alpha_0 +  \alpha_Y ln(Y) + \frac{1}{2} \gamma_{YY} (ln(Y))^2 + \sum_k \alpha_k ln(P_{k}) + \frac{1}{2} \sum_k \sum_j \gamma_{kj} ln(P_k) ln(P_j) + \sum_k \gamma_{Yk} ln(Y) ln(P_k) + \varepsilon_i$$

## Estime la nueva propuesta

In [None]:
# Definición de vector y matriz: Y y X
Y = ["Ltotcost"]
X = [["One","Loutput", "Lplabor", "Lpfuel", "Lpkap", , , ,]]
#
X

In [None]:
# Resporte de la estimación:
est = sm.OLS(Y,X)
est2 = est.fit()
print(est2.summary())

## 6. Determine el valor del Costo Total Estimado y el Costo Medio Estimado considerado cualquiera de las estimaciones que considere pertinente

In [None]:
# Rcuperamos de la regresión el valor del Log del costo estimado
LY_pred = est2.predict(X)
# Anti-log:
Y = np.exp(LY_pred)
# Colocamos en el Data Frame:
dataframe['avgcost'] = dataframe["costs"]/dataframe["output"]
dataframe['totcost_e'] = Y
dataframe['avgcost_e'] = dataframe["totcost_e"]/dataframe["output"]
dataframe.head()


## 7. Gráfique su estimación de Costo Medio y el Costo Medio observado

In [None]:
# graficamos resultados:

plt.scatter(dataframe.output, dataframe.avgcost, s = 15, color ="red")
plt.scatter(dataframe.output, dataframe.avgcost_e, s = 15, color ="blue")
plt.title("Gráfico de dispersión Output vs Avg cost / Avg cost estimado")
#
#
plt.show()

# Guarde la imagen en un archivo PNG:
save()

## 8. Guarde el Data Frame en un archivo CSV:

In [None]:
dataframe.to_csv('guardar.csv')