## Introducción a la Inferencia Causal

Usos frecuentes:
- Análisis de impacto de las políticas. [Wendy](https://ar.linkedin.com/in/wendy-brau/es) trabaja en el Banco Mundial realizando esto
- Experimentos en física. Identificar relaciones causales más probables en base a IA

In [3]:
# Importamos las librerías a utilizar
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

# Para regresión lineal hay distintas opciones:
from sklearn.linear_model import LinearRegression # sci-kit learn
import statsmodels.api as sm # stats models



¿Para que sirve?
- Decisiones
  - Política
  - Marketing
  - Tratamientos
- Establecer causalidad

**¿Cuándo y cómo podemos establecer causalidad? Condiciones necesarias y suficientes**
¿Por qué es distinto predecir que establecer efecto causal?
Métodos y ejemplos de aplicación

Conocimientos estadísticos básicos son necesarios, además de regresiones lineares para estimaciones. Se puede complementar con este [curso](https://github.com/institutohumai/cursos-python/tree/master/MatematicasParaIA)

## ¿Qué es la causalidad?

### 1. ¿Por qué importa?

**Toma de decisiones en escenarios contrafácticos: comparación de escenarios**
- Evaluación de campañas de Marketing. Ej. UBER, MICROSOFT
- Evaluación de políticas públicas e impacto. Ej. WORLD BANK

**Inteligencia Artificial**
- El razonamiento naturalmente se funda en relaciones causales
no correlacionales
- *ontológicas* vs *epistémicas*

### 2. ¿Qué es?

**¿Qué no es?... correlación no es causalidad**
- Correlación espuria
- Correlación y Coeficiente de correlación de Pearson no es lo mismo
  - Datasaurio y el cuarteto de Anscombe. Estadísticos descriptivos iguales
  - Es necesario en todos los casos el dataviz
  - Correlación de Pearson solo es válido en distribuciones normales o correlaciones lineales
- La probabilidad condicional es la correlación. Dependencia e independencia estadística
  - Independiente


$$p(X, Y) = p(X) p(Y)$$
  
$$ p(X|Y = y) = p(X)$$
$$ p(Y|X = x) = p(Y)$$

$$\renewcommand{\indep}{\perp \!\!\! \perp} X \indep Y$$

**Cuando hablamos de correlación, no nos referimos solamente a la correlación lineal** sino que **dos variables $X$, $Y$ están correlacionadas en alguna medida siempre que $p(X, Y) \neq p(X) p(Y)$**.


Distribución de probabilidad conjunta no alcanza para tener una representación completa del problema de inferencia al que nos enfrentemos.

> Si existe correlación es más probable establecer las causalidades

- Principio de Causa Común de Reichenbach

### Los mundos contrafácticos

La causa existe si hay un efecto

### La Paradoja de Simpson


<center><img src="imgs/simpson_calculos_renales.png" style="margin:auto" height=150/></center>

* A es preferible a ver en cada caso pero no en ambos.


Notemos que la mayoría de las personas que recibieron el tratamiento A tenían cálculos renales grandes (lo cual en sí es una condición de salud menos favorable) mientras que la mayoría de las personas que recibieron el tratamiento B tenían cálculos renales pequeños

In [10]:
#@title {display-mode: "form"}
import os
from graphviz import Digraph
from IPython.display import display

# Establece el PATH si es necesario
os.environ['PATH'] += os.pathsep + '.venv/lib/python3.12/site-packages/graphviz'

# Especificamos engine='neato' para poder usar argumento `pos` en nodos
dot = Digraph(engine='neato')
dot.node('T', 'Tratamiento', pos='1,1!')
dot.node('Y', 'Resultado', pos='3,1!')
dot.node('X', 'Tamaño de los cálculos', pos='2,2!')
dot.edges(['TY', 'XY', 'TX'])
display(dot)

ExecutableNotFound: failed to execute PosixPath('dot'), make sure the Graphviz executables are on your systems' PATH

<graphviz.graphs.Digraph at 0x7861497b5cd0>