# Problema 1: Regresión Polinomial

En clase ya vimos un caso particular de este tipo de modelos: la regresión cuadrática. En general, un modelo de regresión polinomial se puede expresar como:

$$Y_i = \beta_0 + \beta_1 \ X_i +\beta_2 \ X_i^2 + ... + \beta_n \ X_i^n + u_i. $$

En este ejercicio veremos la importancia de la elección del grado $n$ del polinomio en la regresión.

**1.**<br/>
a) Utilizando la función `random.normal` de `numpy` genera un arreglo de 40 números aleatorios $X$ con distribución $\mathcal{N}(2,3)$. Esta será la variable aleatoria $X$ que utilizaremos en los siguientes puntos.<br/>
b) Calcula la variable dependiente $Y$ mediante la siguiente ecuación polinomial: $Y = X - 2X^2 + \frac{1}{2}X^3 + U$ donde $U$, de manera análoga al inciso anterior, es una variable aleatoria con distribución $\mathcal{N}(-3,3)$.

**2.**<br/>
a)Utilizando la función `OLS` de `statsmodels.api` que vimos en clase, genera una regresión polinomial para polinomios de grado $n=1,2,3,4,7,10,15,20\ y\ 30$. **Hint:** Análogo al ejercicio de regresión logarítmica que vimos en el laboratorio, transforma la variable dependiente ($X$), generando una nueva columna en el dataframe para cada transformación: $X^2, X^3,...,X^{30}$ (todos los enteros entre 2 y 30) y selecciona las variables a utilizar en cada una de las regresiones lineales según el valor de $n$ (por ejemplo, para $n=10$ debes incluir  todas las columnas desde X hasta X^10, i.e. X,X^2,X^3,...,X^10).<br/> 
b)Grafica los datos y las regresiones generadas en el inciso anterior. 

**3.** Utilizando las funciones `mean_squared_error` y `r2_score` de `sklearn.metrics` calcula la raíz del error cuadrático medio (RMSE) y el coeficiente de determinación ($R^2$)de los resultados de la regresión.<br/>

**4.** Debido a que estamos utilizando una muestra pequeña de datos, puede existir algún sesgo en nuestras estimaciones.<br/> 
a) Repite el inciso 1, generando arreglos $X2$ y $Y2$ con las mismas fórmulas, pero ahora con 100 números aleatorios. 
 
b) Repide el inciso 3, comparando las predicciones de las regresiones del inciso 2 con los arreglos $X2$ y $Y2$.
 
 
**5.** En una misma ventana, grafica los valores del RMSE que calculaste en los incisos 3 y 4b) en función del grado $n$ del polinomio. ¿Qué puedes concluir de esta gráfica? ¿Como podrías utilizar la gráfica deducir el grado del polinomio utilizado si no lo conocieras?

# Problema 2: Ajuste de Distribuciones

En este inciso verificaremos la ley de los grandes números para las estimaciones de parámetros de distintas distribuciones. Utilizaremos la librería de `scipy.stats` para este problema. Puedes revisar [aquí](https://docs.scipy.org/doc/scipy/reference/stats.html) las diferentes funciones de la librería.

**1.** Utilizando la función `norm.rvs`, genera un arreglo de $n$ números con distribución normal $\mathcal{N}(\mu,\sigma^2)$, donde $\mu$ y $\sigma$ son parámetros que puedes elegir de manera arbitraria y $n$ toma valores igualmente espaciados entre 3 y 3000. **Hint:** Utiliza la función `linspace` de `numpy` y asegúrate de que los valores generados sean enteros. <br/>
**2.** Utiliza la función `norm.fit` para obtener $\mu$ y $\sigma^2$ de los datos generados en el inciso anterior.  <br/>
**3.** Utiliza la función `norm.pdf` para graficar la función de densidad de probabilidad y, en la misma ventana grafica el histograma de la función (normalizado). Para este inciso sólo toma 2 valores de $n$ (uno chico y uno grande).  <br/>
**4.** Grafica en una misma ventana los parámetros de la distribución en función de todos los valores de $n$. ¿Qué puedes decir a cerca del comportamiento de estos parámetros?  <br/>
**5.** Repite los incisos 1,2,3 y 4 con las siguientes distribuciones: exponencial, chi-cuadrada, beta y gamma. <br/>

# Problema 3: Regresión Discontinua


Recordar el uso de regresión discontinua: Este método se usa para estimar un efecto causal en los casos en que una prueba aleatoria no es posible.


La Regresión discontinua se usa cuando algún tipo de corte determina quién entra en un grupo en lugar de otro. En lugar de analizar el efecto del predictor en el resultado para toda la población, comparamos los resultados previstos en ambos lados del corte.

Este problem set se fundamenta en el paper de Joshua Angrist and Victor Lavy (REVISARLO): "[Using Maimonides Rule' to Estimate the Effect of Class Size on Scholastic Achievement](http://qje.oxfordjournals.org/content/114/2/533.short)." En este paper los autores señalan que no es posible aleatorizar la asignación en el tamaño de la clase pero pudieron *aprovechar* una regla en las escuelas israelíes que dividía las clases en tamaños más pequeños si la inscripción era de 41 o más. 
Esto ofreció a Angrist y Lavy un experimento natural para su pregunta de investigación, ya que podríamos esperar que los grupos cercanos a 40 alumnos fueran muy similares a los de 42.


**El análisis de Regresión Discontinua** utiliza observaciones lejos del *cuttoff* junto con otras más cercanas "con el objetivo de *proyectar* el efecto estimado del tratamiento en el *cuttoff*". 

**1.** Adicional a los supuestos del modelo de regresión lineal, menciona como validarías (comprobar) que se cumplen los supuestos en el modelo de regresión discontinua de Angrist & Levy:

* A) El cuttoff es tan bueno como aleatorizar.
   
* B) Supuesto: El modelo está bien especificado, inclusive al limitar las observaciones de "ancho de banda (bandwidth)" en ambos lados del corte.

### Variables del modelo
En este análisis, examinos un dataset que incluye datos del nivel de escolaridad para:
* *size*: tamaño de los grupos de 5 año
* *intended_classsize*: Promedio destinado al tamaño de clase por cada escuela
* *observed_classize*: Promedio obserdado del tamaño de la clase por cada escuela
* *read*: Promedio de lectura obtenido

**2.** Carga las siguientes librerías y comenta en una línea su uso

In [41]:
import codecs                 
import json                       
import pandas as pd              
import numpy as np                
import matplotlib.pyplot as plt  
import seaborn as sns             
from dateutil import *          
import math                      
import statsmodels.formula.api as smf  
import statsmodels.api as sm       
from collections import Counter   
import scipy

**3.** Utiliza la función `read_csv` de `pandas` para cargar el archivo `class_size.csv` que viene incluido en la carpeta de este ejercicio (utiliza el parámetro `delimiter` para separar adecuadamente las columnas). Tambien se incluye en formato de SAS por si quieren probar otros tipos de archivos. <br/>
**4.** Obten media, desviación estándar, quartiles para las variables: read, size, intended_classize y observed_classize.

La variable (*csize*) se utilizará como variable que los individuos no pueden controlar. Antes de iniciar una regresión discontinua, se debe contruir el "ancho" o ventana de tiempo. En este caso será grupos con clase >= 36 y <= 46. El modelo será:

$$ read = b_0 + b_1 csize+ b_2 small + u. $$

**5.** Interpreta y comenta cada una de las funciones del siguiente código y córrelo:

In [None]:
###Función 1
def small(size):
    if(size>=41):
        return 1
    return 0

###Función 2
def first(group):
    groups = {1: 0, 2:0,
              3: 1, 4:1}
    return groups[group]

###Función 3
class_df['small'] = class_df['size'].map(small)
class_df['csize'] = class_df['size'].map(lambda x: x-41)

###Función 4
class_df[(class_df['size']>=36) & (class_df['size']<=46)].boxplot("read", "csize")
plt.show()

**6.** Describe e interpreta los resultados del Boxplot. ¿Qué información relevante aporta esta visualización en la validación del modelo de regresión discontinua?

**7.** Con el dataset del incisio anterior, corre la regresión discontinua con variables dependiendes csize y small. Variable independiente read.

**8.** Utiliza la función plt.figure, plt.scatter para visualizar la regresión discontinua antes y después del punto de corte para las variables read y classize. El gráfico debe visualizar el punto de corte generado por el tamaño de la clase.

**9.** Reporta el coeficiente de la variable small. Interpreta el efecto marginal de la variable small sobre el promedio de lectura.

**10.** Los efectos del tamaño de la clase en los promedios de lectura son estadísticamente significativos?. Reporta resultados para (p<0.05). Intepreta intuitivamente la prueba de Durbin-Watson que aparece en la tabla de resultados de la regresión.

# Problema 4: Variables Instrumentales

En estadística, econometría, epidemiología y campos afines, el método de variables instrumentales (IV) se utiliza para estimar las relaciones causales cuando no se pueden realizar experimentos controlados, o cuando un tratamiento no se administra exitosamente a cada unidad de un experimento aleatorio.

**1.** Menciona los dos requerimientos para utilizar variables instrumentales (IV) en modelos lineales.

En este caso, utilizaremos el grado universitario (COLLEGE) para predecir la probabilidad de participación cívica (REGISTER), medida mediante el registro de votantes. El grado universitario no está aleatorizado, y la flecha que indica la causalidad puede apuntar en sentido opuesto, así que lo único que podemos hacer con la regresión es estrablecer una correlación.

Importa:

In [None]:
import codecs                     
import json                       
import pandas as pd               
import numpy as np               
import matplotlib.pyplot as plt   
import seaborn as sns             
from dateutil import *           
import math                       
import statsmodels.formula.api as smf  
import statsmodels.api as sm      
from collections import Counter   
import scipy

**2.** Lee el archivo `iv.csv` (para este punto ya deberías estar familiarizado con los comandos para hacer esto). Obtén los estadísticos básicos: media, desviación estándar y cuartiles para: 'register','college', 'distance'.

**3.** Utiliza el método `corr` de los DataFrames de Pandas para obtener una matriz de correlaciones de las variables del inciso anterior.

**4.** Corre una regresión lineal de REGISTER (Y) vs. COLLEGE(X) y reporta los resultados de la regresión. ¿El coeficiente de COLLEGE es estadísticamente significativo? Interpéta el coeficiente.

En una regresión lineal de dos etapas (2SLSR) haremos una regresión de COLLEGE vs. DISTANCE y utilizaremos los resultados del modelo para predecir REGISTER. 

**5.** ETAPA 1: Realiza una regresión de COLLEGE (Y) vs. DISTANCE (X). Guarda los resultados predichos en el dataframe inicial como `college_fitted`. **Hint:** Utiliza `lin_mod.predict` como vimos en clase.

**6.** ETAPA 2: Realiza una regresión de REGISTER (Y) vs. COLLEGE_FITTED(X) y reporta los resultados en una tabla. Compara los valores de $R^2$ y la probabilidad $P$ e interpreta el coeficiente de COLLEGE_FITTED.

Es de esperarse que exista una relación entre el grupo étnico al que pertenece una persona y la distancia que tiene que viajar a la universidad así como una relación enre el grupo étnico y el registro de votantes. Aunque el grupo étnico no cumple los requerimientos para considerarlo una variable instrumental, es  importante incluir covariables en ambasetapas de la regresión.

**7.** Repite los incisos 5 y 6, i.e. la regresión en 2 etapas, pero ahora utiliza el siguiente modelo de especificación: REGISTER ~ COLLEGE + BLACK + HISPANIC + OTHERRACE, tomando igualmente, la variable DISTANCE como la variable instrumental.

**8.** Compara los modelos. Elije uno de ellos y justifica tu elección.