# Variables categóricas

Por último analizaremos el impacto de incluir variables categóricas en nuestros modelos.

Esta es una pregunta bastante común en problemas de modelado. ¿Qué tanto cambia el resultado a través de diferentes categorías?
Las categorías son variables discretas sin un orden específico. Por ejemplo:

- Sexo: masculino, femenino.
- Continente: América, Asia, África.
- Universidad: ITESO, Tecnológico de Monterrey, UDG.

Hay que tener cuidado, ya que en muchos contextos, este tipo de variables se codifican como variables numéricas (one-hot encoding, label encoding, entre otros) y se suelen tratar en los modelos como variables continuas, lo cual puede llevar a conclusiones incorrectas.

> **Objetivos:**
> - Incluir variables categóricas en nuestros análisis.

> **Referencias:**
> 
> - Statistical Rethinking: A Bayesian Course with Examples in R and Stan (2nd edition) - Richard McElreath.

## 1. Variables binarias

Comenzamos analizando el caso en que la variable categórica presenta dos posibilidades; como masculino y femenino. Usemos los datos de altura de la población !Kung San, usados en el tema pasado.

In [None]:
# Importar pandas


In [None]:
# Leer datos Howell1


In [None]:
# Método describe


La variable `male` en nuestro conjunto de datos es una variable indicadora (o dummy). Aunque numéricas, las variables indicadoras no tienen el significado de que "uno (1) es más que cero (0)", y solo indican la presencia de cierta característica.

Hay varias maneras de usar este tipo de variables en un modelo. Una de ellas es incluir el indicador como una característica lineal:

$$
\begin{align}
\begin{array}{lcl}
h_i & \sim & \text{Normal}(\mu_i, \sigma) \\
\mu_i & = & \alpha + \beta_m m_i \\
\alpha & \sim & \text{Normal}(178, 20) \\
\beta_m & \sim & \text{Normal}(0, 10) \\
\sigma & \sim & \text{Uniform}(0, 50) \\
\end{array}
\end{align}
$$

donde $h$ representa la altura y $m$ la variable dummy indicando que el individuo es masculino. Notemos que en este caso $\beta_m$ es la **diferencia esperada** entre hombres y mujeres:

- Cuando $m_i=1$, entonces $\mu_i=\alpha+\beta_m$.
- Cuando $m_i=0$, entonces $\mu_i=\alpha$

Esto puede ser complejo, dado que si no tenemos una idea de la diferencia en tamaño, ¿Cómo asignamos la previa?

Otra complicación de este enfoque es que se supone que hay más incertidumbre en la altura de los hombres que de las mujeres, lo cual puede o no ser cierto.

Otro enfoque disponible es usar una variable índice, la cual contiene enteros que corresponden a las diferentes categorías.

Con esto:

$$
\begin{align}
\begin{array}{lcl}
h_i & \sim & \text{Normal}(\mu_i, \sigma) \\
\mu_i & = & \alpha_{SEX[i]} \\
\alpha_j & \sim & \text{Normal}(178, 20) \quad \text{for } j=0,1 \\
\sigma & \sim & \text{Uniform}(0, 50) \\
\end{array}
\end{align}
$$

In [None]:
# Importar pymc y arviz


In [None]:
# Modelo para hombres y mujeres - mu tiene shape = 2


In [None]:
# Summary


Para evaluar la diferencia, podríamos extraer las muestras de `mu[0]` y `mu[1]` para restarlas. Sin embargo, en `pymc` resulta más fácil definir una variable determista con la diferencia.

In [None]:
# Modelo con diferencia (hace sentido usar pm.Deterministic)


In [None]:
# Summary


Con esto podemos observar la diferencia esperada en altura entre una mujer y un hombre de la población !Kung San.

## 2. Múltiples categorías

Con el enfoque anterior, lo podemos extender al caso de múltiples categorías. 

Retomemos el ejemplo del contenido energético de la leche:

In [None]:
# Leer Milk data


Generemos una variable índice para el *clado*.

> Un clado es una agrupación que contiene un antepasado común y todos los descendientes (vivos y extintos) de ese antepasado.

In [None]:
# Clades to int dict


In [None]:
# Map clade -> clade_id


In [None]:
# Standardize function
def standardize(y: pd.Series) -> pd.Series:
    return (y - y.mean()) / y.std()

In [None]:
# Estandarizamos la energía


Ahora, el modelo:

$$
\begin{align}
\begin{array}{lcl}
K_i & \sim & \text{Normal}(\mu_i, \sigma) \\
\mu_i & = & \alpha_{CLADE[i]} \\
\alpha_j & \sim & \text{Normal}(0, 0.5) \quad \text{for } j=0,1,2,3 \\
\sigma & \sim & \text{Exponential}(1) \\
\end{array}
\end{align}
$$

In [None]:
# Modelo (alpha tiene shape = 4)


In [None]:
# Plot forest
