## 1. Introducción
En este reto, analizaremos el experimento de **bono para el reempleo** de Pensilvania. Este fue llevado acabo en la década de 1980 por el Departamento de Trabajo de los Estados Unidos con el objetivo de evaluar cuál es el efecto de incentivar a las personas desempleadas con diferentes esquemas de compensación para acelerar su búsqueda de trabajo y con ello  disminuir las solicitudes al seguro de desempleo.

## 2. Diseño del experimento
Durante la fase inicial se construyeron diferentes grupos, los cuales fueron seleccionados de forma aleatoria:

- **Grupo Control:** Personas desempleadas que reclamaron el seguro y que recibieron un trato tradicional sin incentivos.
- **Grupo experimental:** Personas desempleadas, que reclamaron el seguro, y que se les ofreció un incentivo económico (bono) en caso de encontrar un empleo en un rango de tiempo específico (periodo); siempre y cuando también se mantuviera el empleo durante una duración específica.

El grupo experimental está conformado por varios subgrupos, los cuales se diferenciaron en 3 aspectos clave:
- Monto del bono ofrecido.
- Duración del periodo para encontrar empleo.
- Si el bono disminuía o no progresivamente, dependiendo del período que tomaba encontrar empleo.
- Si se le ofrece o no un taller para encontrar empleo.

Lo anterior construye un total de 6 subgrupos experimentales que pueden contrastarse con el grupo control.

En esta ocasión **nos concentraremos sólo en el grupo experimental "T4"(treatment 4)**, el cual comparado con el grupo control, podemos resumirlo en la siguiente tabla:

| Grupo           | Monto del bono    | Tiempo de búsqueda (periodo) | ¿Se impartió un taller? |
|------------------|-----------------|-----------------------|----------------|
| 0 (Grupo Control)| 0 (No aplica)               | 0 (No aplica)                     | No             |
| 4 (Grupo Experimental)      | Alto            | Largo                  | Si            |

Todo el desarrollo puede extrapolarse a cada uno de los grupos restantes. Los datos los encuentras en el csv adjunto de nombre "experiment.csv".

### El objetivo de este reto es estimar el efecto del tratamiento en la duración del desempleo

### 2.1 Lectura y entendimiento de la información

In [3]:
# Importamos las librerias necesarias
import pandas as pd
import os
import statsmodels.formula.api as smf
import statsmodels.api as sm
from sklearn.linear_model import LogisticRegression
import numpy as np
import patsy
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.metrics import roc_auc_score

In [4]:
# Cargamos la información de la fuente de datos del experimento
Penn = pd.read_csv('experiment.csv',sep=',')

# Filtramos y nos quedamos con los grupos que nos interesan, donde:
# Control: 0
# Experimental: 4
Penn = Penn[ (Penn['tg'] == 4) | (Penn['tg'] == 0) ]

In [5]:
# Columnas de la tabla
Penn.columns

Index(['abdt', 'tg', 'inuidur1', 'inuidur2', 'female', 'black', 'hispanic',
       'othrace', 'dep', 'q1', 'q2', 'q3', 'q4', 'q5', 'q6', 'recall',
       'agelt35', 'agegt54', 'durable', 'nondurable', 'lusd', 'husd', 'muld'],
      dtype='object')

La tabla contiene 23 variables (columnas), las cuales se describen de la siguiente manera:

- **abdt:** Representa el tiempo cronológico de inscripción de cada participante en el experimento.

- **tg:** Indica el grupo experimental al que pertenece cada participante.
  - Si tg = 0, el participante está en el grupo de control.
  - Si tg = 1, el participante está en el grupo 1, y así sucesivamente.

- **inuidur1:** Mide la duración (en semanas) del primer período de desempleo.

- **inuidur2:** Otra medida de la duración (en semanas) del primer período de desempleo. Esta variable no fue utilizada en el análisis.

- **female:** Variable dummy que indica el sexo del participante. Toma el valor de 1 si el participante es mujer, y 0 si es hombre.

- **black:** Variable dummy que indica si el participante es de raza negra (1 = sí, 0 = no).

- **hispanic:** Variable dummy que indica si el participante es de origen hispano (1 = sí, 0 = no).

- **othrace:** Variable dummy que indica si el participante pertenece a otra raza (no blanca, no negra y no hispana; 1 = sí, 0 = no).

- **dep:** Número de dependientes de cada participante.
  - Si el participante tiene 2 o más dependientes, toma el valor de 2.
  - De lo contrario, será 0 o 1, según corresponda.

- **q1 - q6:** Seis variables dummy que indican el trimestre del experimento en el cual se inscribió cada participante.

- **recall:** Toma el valor de 1 si el participante respondió "sí" cuando se le preguntó si esperaba ser reincorporado a su empleo anterior.

- **agelt35:** Toma el valor de 1 si la edad del participante es menor a 35 años, y 0 en caso contrario.

- **agegt54:** Toma el valor de 1 si la edad del participante es mayor a 54 años, y 0 en caso contrario.

- **durable:** Toma el valor de 1 si la ocupación del participante se encontraba en el sector de manufactura de bienes duraderos, y 0 en caso contrario.

- **nondurable:** Toma el valor de 1 si la ocupación del participante se encontraba en el sector de manufactura de bienes no duraderos, y 0 en caso contrario.

- **lusd:** Toma el valor de 1 si el participante presentó su reclamo en las ciudades de Coatesville, Reading o Lancaster, y 0 en caso contrario. Estas áreas se caracterizan por tasas bajas de desempleo y períodos cortos de desempleo.

- **husd:** Toma el valor de 1 si el participante presentó su reclamo en las ciudades deLewistown, Pittston o Scranton, y 0 en caso contrario. Estas áreas se caracterizan por tasas altas de desempleo y períodos cortos de desempleo.

- **muld:** Toma el valor de 1 si el participante presentó su reclamo en las ciudades de Philadelphia-North, Philadelphia-Uptown, McKeesport, Erie o Butler, y 0 en caso contrario. Estas áreas se caracterizan por tasas moderadas de desempleo y períodos largos de desempleo.

In [6]:
Penn.head()

Unnamed: 0,abdt,tg,inuidur1,inuidur2,female,black,hispanic,othrace,dep,q1,...,q5,q6,recall,agelt35,agegt54,durable,nondurable,lusd,husd,muld
0,10824,0,18,18,0,0,0,0,2,0,...,0,0,0,0,0,0,0,1,0,
3,10824,0,1,1,0,0,0,0,0,0,...,0,0,0,0,0,0,1,0,0,
4,10747,0,27,27,0,0,0,0,0,0,...,0,0,0,0,0,0,1,0,0,
11,10607,4,9,9,0,0,0,0,0,0,...,0,0,1,0,0,0,0,0,1,
12,10831,0,27,27,0,0,0,0,1,0,...,0,0,0,1,1,0,1,0,0,


In [7]:
# Transformamos nuestra variable del grupo experimental al target
Penn['T4'] = (Penn[['tg']]==4).astype(int)

# Creamos variable categorica para dep
Penn['dep'] = Penn['dep'].astype( 'category' )
Penn.head()

Unnamed: 0,abdt,tg,inuidur1,inuidur2,female,black,hispanic,othrace,dep,q1,...,q6,recall,agelt35,agegt54,durable,nondurable,lusd,husd,muld,T4
0,10824,0,18,18,0,0,0,0,2,0,...,0,0,0,0,0,0,1,0,,0
3,10824,0,1,1,0,0,0,0,0,0,...,0,0,0,0,0,1,0,0,,0
4,10747,0,27,27,0,0,0,0,0,0,...,0,0,0,0,0,1,0,0,,0
11,10607,4,9,9,0,0,0,0,0,0,...,0,1,0,0,0,0,0,1,,1
12,10831,0,27,27,0,0,0,0,1,0,...,0,0,1,1,0,1,0,0,,0


En nuestro análisis consideraremos modelos de regresión de la forma:
$$
Y = D \alpha_1 + W \beta + \epsilon
$$

Donde:

- $Y$ : Es el logaritmo natural de la duración del desempleo. Se aplica el algorimo para estandarizar los tiempos de desemplo e interpretar mejor los resultados y comparaciones.
- $D$: Es un indicador de tratamiento, que señala si un individuo pertenece a un grupo de tratamiento específico. En nuestro caso seria 1 (variable T4) si una persona pertenece al grupo experimental y 0 en caso de no ser asi.
-$W$: Es el vector de variables restantes que incluye:
  - Variables dummy para los grupos de edad.
  - Género.
  - Raza.
  - Número de dependientes.
  - Trimestre del experimento.
  - Localización dentro del estado.
  - Existencia de expectativas de reincorporación al empleo.
  - Tipo de ocupación.
- $\alpha_1$: No confundir con un coeficiente de la regresion común, este representa el efecto promedio de aplicar el tratamiento a la población experimental.
- $\beta$: Son  todos los demás coeficientes de la regresión, es decir, los pesos que se le asigna a cada variable en funcion de $Y$
- ϵ: Es el término de error aleatorio.


### 3. Análisis

##### Usa la función LogisticRegression() para ajustar una regresión logística y ver si la asignación al tratamiento "depende" de las covariables. Para ello considera la siguiente formulación:

In [None]:
X_logit = patsy.dmatrix("""(female + black + othrace + C(dep) + q2 + q3 + q4 +
                      q5 + q6 + agelt35 + agegt54 + durable + lusd + husd)**2 - 1""",
                  data=Penn, return_type='dataframe')
y_logit = Penn["T4"]

- Determina la influencia calculando el área bajo la curva ROC (AUC).
- Revisa las distribuciones de la propensity score en ambos grupos: control y tratamiento. ¿Qué observas?

- **Bajo el enfoque clásico de 2 muestras** ajusta el modelo:
  $$Y = D \alpha_1 + \epsilon$$

- a) ¿Cuál es la estimación para el efecto causal del tratamiento sobre la duración del desempleo?
- b) ¿Qué interpretación tiene este número?
- c) Consideras importante ajustar un modelo de la forma:
$$
Y = D \alpha_1 + W \beta + \epsilon
$$ ?
- d) Justifica la respuesta al inciso anterior y en caso afirmativo corre el modelo correspondiente.
- e) ¿Qué puedes decir del efecto causal del tratamiento sobre la duración del desempleo en este caso?

In [None]:
X_logit = patsy.dmatrix("""(female + black + othrace + C(dep) + q2 + q3 + q4 +
                      q5 + q6 + agelt35 + agegt54 + durable + lusd + husd)**2 - 1""",
                  data=Penn, return_type='dataframe')
y_logit = Penn["T4"]


- a) ¿Cuál es el valor del área bajo la curva ROC (AUC)?
- b) Grafica la distribución de la "propensity score" en ambos grupos: control y tratamiento. Qué observas?
- c) Ajusta un modelo "simple" de la forma
$$
Y = D \alpha_1 + \epsilon
$$
- d) ¿Cuál es el valor estimado del efecto causal en este modelo y cómo lo interpretas?
- e) ¿Consideras pertinente ajustar un modelo incluyendo las covariables W? Justifica tu respuesta. En caso afirmativo, ejecuta el modelo:
$$
Y = D \alpha_1 + W \beta + \epsilon
$$

- f) ¿Cuál es el valor estimado del efecto causal en este modelo y cómo lo interpretas?

In [None]:
# Nota: puedes pasarla a ols las siguientes fórmulas en el parámetro formula:
# formula_lr = "np.log(inuidur1) ~ T4"
# formula_alr = """np.log(inuidur1) ~ T4 + female + black + othrace + C(dep) +
#                  q2 + q3 + q4 + q5 + q6 + agelt35 + agegt54 + durable + lusd + husd"""