# El modelo de resultados potenciales

Para entender la econometría necesitas comprender el multiverso.

El multiverso se basa en la interpretación de Hughes Everett (1957) de la mecánica cuántica (Busch, *et al*., 2007). Pero la interpretación popular es que cada decisión que tomamos genera un universo nuevo.

Hay un universo en el que aún estás con tu ex.

Le vamos a llamar a ese universo un **contrafactual**, porque se opone a la realidad. Naturalmente, el hubiera no existe y no podemos obtener datos de los contrafactuales. Sólo podemos imaginarlo.

## En un universo, fuiste a Harvard

¿Habrías tenido mejor vida si hubieras atendido clases en Harvard?

Medir la felicidad en la vida es muy difícil. Nos tendremos que conformar con tus ingresos. ¿Tendrías hoy mejores ingresos si hubieras ido a Harvard?

No podemos comparar los ingresos de un egresado de Harvard con alguien que no fue. Los estudiantes de Harvard tienen (suponemos) más ingresos, mejores conexiones y un estilo de vida diferente a los que no asistieron. Decimos a esto que son **fundamentalmente** diferentes.

## El error de novatos

Si cometes este error estás *banneado* de por vida de mi clase.

Supongamos que deseas saber el **efecto** que tiene entrar en una escuela más selectiva en los ingresos. Decides entonces que es buena idea evaluar la diferencia entre los ingresos de las personas que fueron a una escuela selectiva y los egresados de una no selectiva.

$$
E[Y_1]-E[Y_0]
$$

La $E$ denota la **esperanza** o valor esperado de lo que está entre paréntesis. Normalmente denotamos con $Y$ el **resultado** o la variable en la que esperamos ver un efecto. En este caso es el ingreso. 

El subíndice $1$ o $0$ nos indica el **grupo** al que pertenece la variable. Normalmente $1$ indica el **grupo de tratamiento** y $0$ el **grupo de control**.

Tratamiento y control son parte del lenguaje en los estudios clínicos. Cuando quieres hacer un experimento para saber si una medicina funciona, divides a tus sujetos en dos grupos y a uno le aplicas la medicina y al otro no. Luego mides los resultados.

Imaginemos que esta base de datos identifica a 180 alumnos, la mitad de ellos entró a una escuela selectiva y la otra mitad no lo hizo. ¿Cuál es el valor que representa la ecuación de arriba?

In [29]:
import pandas as pd
import numpy as np
import random

# Creando un diccionario con 'id' como claves y range(179) como valores
alumnos = {'id': list(range(180))}

# Creando el DataFrame
df = pd.DataFrame(alumnos)

# La semilla ayuda a tener el mismo resultado
random.seed(42)
np.random.seed(42)

# La habilidad es aleatoria. 
df['habilidad'] = [np.random.normal(0, 1) for _ in range(len(df))]
ruido_habilidad = np.random.normal(0, 0.2, len(df))

# Añadiendo la columna 'selectivas' con una elección aleatoria de 0 o 1 para cada fila
df['selectivas'] = (df['habilidad'] + ruido_habilidad > 0.5).astype(int)


# Añadiendo la columna 'ingresos' con el cálculo especificado
df['ingresos'] = 1000 + df['selectivas'] * 250 + df['habilidad'] * 250 + np.random.normal(0, 280, len(df))

# Mostrando las primeras filas del DataFrame
df.head()


Unnamed: 0,id,habilidad,selectivas,ingresos
0,0,0.496714,1,1519.595562
1,1,-0.138264,0,1394.60082
2,2,0.647689,0,1131.469293
3,3,1.52303,1,1743.236746
4,4,-0.234153,0,1134.701974


El código de arriba le podrá dar una pista a los más avanzados del problema. Los ingresos en esta tabla dependen de asistir a una escuela selectiva. Veamos la diferencia de promedios.

In [30]:
df[df['selectivas'] == 1]['ingresos'].mean() - df[df['selectivas'] == 0]['ingresos'].mean()

676.1391841200144