## El dataset de LaLonde

Estos datos se han vuelto famosos para ejemplificar y entrenar lo difícil que puede ser entender los efectos. Provienen de un artículo escrito por Robert LaLonde en 1986, y que trata de entender lso efectos de un programa de entrenamiento laboral, un par de años después que ese entrenamiento concluyera. 

El dataset son solo hombres. Tiene una columna **treat**, por _treatment_, que marca con un 1 aquellas personas que si completaron el programa. **age** es la edad en años, **educ** son los años de educación de la persona, **black** e **hispan** se refiere a la raza, **married** al estado civil, **nodegree** asigna un 1 a quienes no tienen un grado universitario, **re74** y **re75** son los salarios reales de las personas en los años 1974 y 1975 (antes del programa), y **re78** son los salarios el año 1978, después de que terminara el programa. 


In [3]:
import pandas as pd

lalonde = pd.read_csv('lalonde.csv', index_col=0)
lalonde.head()

Unnamed: 0_level_0,treat,age,educ,black,hispan,married,nodegree,re74,re75,re78
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
NSW1,1,37,11,1,0,1,1,0.0,0.0,9930.046
NSW2,1,22,9,0,1,0,1,0.0,0.0,3595.894
NSW3,1,30,12,1,0,0,0,0.0,0.0,24909.45
NSW4,1,27,11,1,0,0,1,0.0,0.0,7506.146
NSW5,1,33,8,1,0,0,1,0.0,0.0,289.7899


## Primer análisis: medias (average treatment effect), test t para ver si dos series vienen de la misma distribución. 

Veamos primero la idea más obvia que se nos puede ocurrir: si queremos ver que el programa funciona, veamos el salario promedio de la gente que recibió el programa y los que no? 

In [10]:
lalonde.groupby("treat").mean()["re78"]

treat
0    6984.169742
1    6349.143530
Name: re78, dtype: float64

!El grupo sin entrenamiento obtiene mayor salario! ¿Será que el programa en realida dhace mal? O, tal vez, esta diferencia podría ser simplemente por cómo se distribuyeron los grupos. Para ver si es estadísticamente significativa, vamos a hacer un test t. 

In [67]:
from scipy.stats import ttest_ind

lalonde_t0 = lalonde[lalonde["treat"]==0]
lalonde_t1 = lalonde[lalonde["treat"]==1]

ttest_ind(lalonde_t0["re78"], lalonde_t1["re78"])


Ttest_indResult(statistic=0.9663522254463778, pvalue=0.3342496685909654)

Lo primero que retorna la función es el estadístico t, y lo segundo es el valor de significancia. A un 33%, no podemos deducir que los salarios son significativamente distintos, y por lo tanto, tal vez deberíamos concluír en vez que en realidad no hay diferencia entre los que toman el programa y los que no. 

Esto sigue siendo extraño, y vamos a tratar de hacer algo mejor. Contemos cuantos individuos hay por grupo. 

In [15]:
lalonde.groupby("treat").count()

Unnamed: 0_level_0,age,educ,black,hispan,married,nodegree,re74,re75,re78
treat,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
0,429,429,429,429,429,429,429,429,429
1,185,185,185,185,185,185,185,185,185


Ahora cuantos hay con salario = 0 (es decir, que no tenían trabajo). Vemos que son más de la mitad de los que si recibieron el _treatment_ (el programa de entrenamiento laboral). Además, si consideramos los salarios el 74 y el 75, el grupo con _treatment_ 1 parte desde un salario mucho más bajo. 

In [14]:
lalonde[lalonde["re74"]<=0].groupby("treat").count()

Unnamed: 0_level_0,age,educ,black,hispan,married,nodegree,re74,re75,re78
treat,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
0,112,112,112,112,112,112,112,112,112
1,131,131,131,131,131,131,131,131,131


In [11]:
lalonde.groupby("treat").mean()[["re74","re75","re78"]]

Unnamed: 0_level_0,re74,re75,re78
treat,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,5619.236506,2466.484443,6984.169742
1,2095.573689,1532.055314,6349.14353


Por todo esto, ¿pareciera ser que el programa si funciona? Después de todo, los individuos del programa logran subir su salario mucho más que los individuos que no asisten al programa. 

Ahora, se podría decir también que no tenemos mucho fundamento para admitir esto, puesto que quizás las personas que asistieron al programa tenían de por sí un mayor potencial para subir su salario. Por supuesto, no podemos saber a ciencia cierta qué hubiese pasado si las personas que no tomaron el programa (_treatment_ = 0) en realidad lo toman. Pero podemos hacer varias cosas adicionales. 

Por ejemplo, podemos estimar una regresion lineal que tome en cuenta algunas variables, y que trate de predecir el salario del año 1978. Lo primero sería usar solo la variable **treat**


In [8]:
from sklearn import datasets, linear_model
from sklearn.metrics import mean_squared_error, r2_score

X = lalonde[["treat"]]
y = lalonde["re78"]

# Crea un objeto regresión
regr = linear_model.LinearRegression()
regr.fit(X,y)

print('Coeficientes: \n', regr.coef_)
print('Beta0: \n', regr.intercept_)

Coeficientes: 
 [-635.02621204]
Beta0: 
 6984.169742307693


Nos da que el efecto es negativo, es decir, que un incremento en **treat** debería contribuir de forma negativa al salario. Pero eso ya lo vimos cuando tomamos las medias (nota que la diferencia en las medias es exactamente lo mismo que el coeficiente de acá. ¿Puedes ver por qué?). 

Una cosa un poco más útil sería _controlar_ por algunas variables. Para esto, estimamos una regresión con algunos parámetros adicionales, en nuestro caso los salarios anteriores, y vemos el signo del coeficiente. 

In [9]:

X = lalonde[["treat","re74","re75"]]
y = lalonde["re78"]

# Crea un objeto regresión
regr = linear_model.LinearRegression()
regr.fit(X,y)

print('Coeficientes: \n', regr.coef_)
print('Beta0: \n', regr.intercept_)

Coeficientes: 
 [7.98127034e+02 3.48177080e-01 2.20770746e-01]
Beta0: 
 4483.152775135084


Ahora el signo es positivo: cuando los salarios se mantienen constantes, un incremento en **treat** produce un  incremento importante en el salario. Ahora bien, podría ser que los salarios también dependieran de algo más, por ejemplo, es razonable pensar que los hombres con salarios bajos son más propensos para tomar el programa de entrenamiento. 

## Matching y propensity score

De forma un poco más avanzada, uno puede intentar _simular_ que los grupos **treat**=0 y **treat**=1 hayan sido dispuestos de forma aleatoria. En esta actividad vamos a ver una forma de hacerlo: vamos a hacerles matching y luego estratificar en cinco quintiles, usando lo que se conoce como el __propensity score__. 

Lo primero que vamos a hacer es usar dos clasificadores: regresión logística y random forest, para poder predecir que tan probable era que una persona recibiera el _treatment_, en este caso, el programa de entrenamiento laboral. 

In [45]:
from sklearn import linear_model
from sklearn.model_selection import cross_val_predict
from sklearn.model_selection import cross_val_score

logistic = linear_model.LogisticRegression()

X = lalonde[["age", "educ", "black", "hispan", "married", "nodegree", "re74", "re75"]]
y = lalonde["treat"]

logistic = linear_model.LogisticRegression()

precision = cross_val_score(logistic, X, y, cv = 10, scoring = "precision")
recall = cross_val_score(logistic, X, y, cv = 10, scoring = "recall")

print("precision: "+str(precision.mean()))
print("recall: "+str(recall.mean()))


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver opt

precision: 0.6265300596376447
recall: 0.6461988304093567


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [35]:
from sklearn.ensemble import RandomForestClassifier

rforest = RandomForestClassifier(max_depth = 2)


precision = cross_val_score(rforest, X, y, cv =10, scoring = "precision")
recall = cross_val_score(rforest, X, y, cv = 10, scoring = "recall")

print("precision: "+str(precision.mean()))
print("recall: "+str(recall.mean()))



precision: 0.6812616713352007
recall: 0.46315789473684205


## Ejercicio 1

¿Cuál de los clasificadores parece el mejor? Valdrá la pena probar con un KNN y ver que pasa?

Ahora vamos a usar predict_proba para pedir la probabilidad de que una persona tenga el _treatment_ (osea que su variable treatment sea 1). Esta probabilidad es el propensity score. 

In [48]:
logistic.fit(X,y) # entrenamos el modelo ahora si con todos los datos

prediction = logistic.predict_proba(X) 

# ahora le agregamos a nuestro dataframe el score. 

lalonde['propensity_score'] = pd.Series(prediction[:,1], index = lalonde.index)
lalonde.head()

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


Unnamed: 0_level_0,treat,age,educ,black,hispan,married,nodegree,re74,re75,re78,propensity_score
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
NSW1,1,37,11,1,0,1,1,0.0,0.0,9930.046,0.432245
NSW2,1,22,9,0,1,0,1,0.0,0.0,3595.894,0.133262
NSW3,1,30,12,1,0,0,0,0.0,0.0,24909.45,0.724404
NSW4,1,27,11,1,0,0,1,0.0,0.0,7506.146,0.660355
NSW5,1,33,8,1,0,0,1,0.0,0.0,289.7899,0.696809


Ahora vamos a dividir nuestro dataset en cinco quintiles, de acuerdo al propensity score. Esto va a significar poder agrupar por individuos que se parezcan más o menos en cuanto a qué tan probable era que recibieran el _treatment_. 

In [52]:
quintiles = lalonde['propensity_score'].quantile([0, .2, .4, .6, .8, 1])
quintiles

0.0    0.008379
0.2    0.060138
0.4    0.126356
0.6    0.198206
0.8    0.677507
1.0    0.781261
Name: propensity_score, dtype: float64

In [59]:
lalondeq1 = lalonde[lalonde["propensity_score"]<0.060138]
lalondeq2 = lalonde[(lalonde["propensity_score"]>=0.060138) & (lalonde["propensity_score"]<0.126356)]
lalondeq3 = lalonde[(lalonde["propensity_score"]>=0.126356) & (lalonde["propensity_score"]<0.198206)]
lalondeq4 = lalonde[(lalonde["propensity_score"]>=0.198206) & (lalonde["propensity_score"]<0.677507)]
lalondeq5 = lalonde[lalonde["propensity_score"]>=0.677507]

## Ejercicio 2

Mira estos cinco quintiles. ¿En cuales la media del ingreso en el año 78 es más grande para el grupo _treatment_ = 1? ¿Hay alguno en que todavía sea más grande el de _treatment_ = 0? ¿Por qué crees que es eso? 


## Ejercicio 3

Ahora calcula estadísticos t para cada quintil. Cuenta, además, cuantos indviduos hay por quintil. ¿Hay algo que podamos decir con propiedad? 
