In [34]:
import pandas as pd
import numpy as np

np.random.seed()


In [50]:
n = 2000
d = [np.random.randint(0,2) for i in range(n)] # Genera dummies con valor 1 y 0
y_0 = [1 + 0 + np.random.normal(0,0.5,1)[0] for i in range(n)]
y_1 = [1 + 1 + np.random.normal(0,0.5,1)[0] for i in range(n)]


# Crea la base de datos con los valores que tendrían los datos en cada caso.
df = pd.DataFrame({'d': d, 
                'y_0': y_0,
                'y_1': y_1})


df['y'] = np.where(df['d'] == 1, df['y_1'], df['y_0'])
df

Unnamed: 0,d,y_0,y_1,y
0,1,1.051024,1.790892,1.790892
1,0,0.568279,2.496533,0.568279
2,1,0.417450,2.266626,2.266626
3,0,0.934301,1.903171,0.934301
4,0,1.378153,1.819349,1.378153
...,...,...,...,...
1995,0,1.494016,2.040761,1.494016
1996,0,2.698172,1.892675,2.698172
1997,1,0.859832,3.007408,3.007408
1998,1,1.025239,2.643208,2.643208


Cuando hacemos una estimación de diferencia de medias, nos queda un espacio de sesgo de selección
\begin{equation}
E(Y_i | D_i = 1) - E(Y_i | D_i = 0)
\end{equation}

In [51]:
df[df['d'] == 1]['y'].mean() - df[df['d'] == 0]['y'].mean()

1.002241352060223

El resultado puede ser diferente que una diferencia de contrafactuales. Es decir, ¿Cuál sería la diferencia si pudiéramos observar el efecto cuando $D_i = 1$ y $D_i = 0$ en la misma persona $i$? Esta diferencia la representamos con 
\begin{equation}
E(Y_{1i} | D_i = 1) - E(Y_{1i} | D_i = 0)
\end{equation}

In [52]:
(df['y_1']-df['y_0']).mean()

1.0251730822968126

En este caso no existe casi diferencia. La razón es que hay una selección aleatoria que hace que
\begin{equation}
E(Y_{1i} | D_i = 1) - E(Y_{0i} | D_i = 1)
\end{equation}
Pero imagina que no fuera así, que hubiera una variable que estuviera afectando al valor de $Y_i$. Entonces tendríamos un problema de _selección_.

## Media Condicional
La media condicional divide el valor de la media en función del valor de otra variable. Por ejemplo,

$$
E[Y_i|D_i=1]
$$

describe el valor promedio de $Y_i$ sólo en aquellos casos en los que $D_i$ es igual a $1$.

Veamos un ejemplo en python generando una base de datos simple en pandas con números aleatorios.

In [32]:
import pandas as pd
import numpy as np

np.random.seed()

n = 100
df = pd.DataFrame({"d": np.random.randint(0,2,n)})
df['y'] = 1 + 2 * df['d'] + np.random.normal(0,1,n)

df.head()

Unnamed: 0,d,y
0,1,1.812209
1,1,3.614428
2,1,2.846227
3,1,5.648956
4,0,0.018101


In [34]:
print(df[df['d'] == 1]['y'].mean())
print(df[df['d'] == 0]['y'].mean())

2.8988268919610283
0.981774510289381
