# Examen 1 - Modelos Gráficos Probabilísticos

![](https://upload.wikimedia.org/wikipedia/commons/1/18/Bayes%27_Theorem_MMB_01.jpg)

## 1. Sobreventa en aerolíneas (50 puntos)

Supongamos que usted es la (el) encargad@ de la estrategia comercial de una aerolínea. Dado que las cancelaciones en los boletos y los pasajeros que no se presentan el día del vuelo es un asunto bastante recurrente, usted se plantea sobrevender los vuelos. La idea de la sobreventa es simple:

> Vendemos más boletos de los que en realidad tenemos capacidad, esperando que después de las cancelaciones, las personas que se presenten el día del vuelo coincidan con el número de asientos disponibles del avión.

Para simplificar un poco todo el problema, consideremos un vuelo arbitrario. Dada la naturaleza de este problema, se tiene gran incertidumbre en **cuantas personas se presentarán el día del vuelo**, por lo que usaremos un modelo probabilístico para modelar esta situación. Supongamos que:

- Nuestro avión tiene una capacidad $C$ de asientos.
- La demanda es lo suficientemente alta como para que todos los boletos que ponemos a la venta $B$ se vendan. En una estrategia de sobreventa, $B > C$.
- La probabilidad de que una persona arbitraria se presente al vuelo es $\theta$.
- El número de personas que se presentan al vuelo es $X$.

Con lo anterior, podemos modelar la variable aleatoria $X$ del número de personas que se presentan al vuelo como una distribución $\text{Binomial}(B, \theta)$. Es decir, la probabilidad de que se presenten $i$ personas al vuelo es:

$$
p(X = i) = \left(\begin{array}{c}B \\ i \end{array}\right) \theta^i (1 - \theta)^{B-i}.
$$

Con estas definiciones, podemos hablar también en términos de negocio. Por ejemplo, ¿cuál sería el costo de la sobreventa?

Simplificando nuevamente el problema, supongamos que la tarifa de cada boleto es $T$ y es la misma para todos los $B$ boletos. Supongamos que en el caso de que una persona se presente al vuelo, y no pueda abordar, le devolvemos su dinero (o equivalentemente lo abordamos en el siguiente vuelo disponible) más $k$ veces el costo del boleto, es decir $(k + 1) T$. Entonces, los costos por sobreventa son:

$$
c_{ob} = T (k + 1) \max(X - C, 0)
$$

Finalmente, los ingresos del vuelo descontando los costos por sobreventa son:

$$
I = T B - T (k + 1) \max(X - C, 0).
$$

### 1.1. (25 puntos) Máxima verosimilitud

1. (8 puntos) Supongamos que tenemos un avión con capacidad de $C=200$ pasajeros, y hacemos una sobreventa de $B=220$ boletos. Al vuelo se presentan $208$ personas. Bajo estas condiciones, ¿Cuál es el estimador de máxima verosimilitud para $\theta$?

2. (7 puntos) Graficar la pmf $\text{Binomial}(B, \theta)$ con $B=220$ boletos y la $\theta$ estimada en el punto anterior.

3. (10 puntos) Considerando una tarifa $T=1000$, y que por cada pasajero que se presente y sea dejado fuera del vuelo devolvemos una vez la tarifa $k=1$, ¿Cuál sería el costo por sobreventa?, ¿Cuál sería el ingreso descontando dicho costo?, ¿En retrospectiva, habrías ofertado una sobreventa menor?

### 1.2. (25 puntos) Selección de previas

Alejándonos un poco del punto anterior, queremos hacer una modelación Bayesiana. Para esto debemos seleccionar una distribución previa adecuada, dependiendo del conocimiento previo que tengamos acerca de la probabilidad de que una persona se presente en el vuelo $\theta$.

1. (15 puntos) Supongamos que, en principio, no tenemos información alguna sobre $\theta$.
   - ¿Qué previa modela esta situación?
   - Supongamos que tenemos un avión con capacidad de $C=200$ pasajeros, y hacemos una sobreventa de $B=220$ boletos. Al vuelo se presentan $207$ personas. Utilice una tabla de actualización Bayesiana para encontrar la distribución posterior de $\theta$.
   - Graficar la previa y la posterior.
   - Considerando una tarifa $T=1000$, y que por cada pasajero que se presente y sea dejado fuera del vuelo devolvemos una vez la tarifa $k=1$, ¿Cuál sería el costo por sobreventa?, ¿Cuál sería el ingreso descontando dicho costo?, ¿En retrospectiva, habrías ofertado una sobreventa menor?

2. (20 puntos) Usando la posterior del punto anterior como previa, supongamos ahora que hacemos una sobreventa de $B=215$ boletos, y se presentan $198$ personas.
   - Utilice una tabla de actualización Bayesiana para encontrar la distribución posterior de $\theta$.
   - Graficar la previa y la posterior.
   - Considerando una tarifa $T=1000$, y que por cada pasajero que se presente y sea dejado fuera del vuelo devolvemos una vez la tarifa $k=1$, ¿Cuál sería el costo por sobreventa?, ¿Cuál sería el ingreso descontando dicho costo?, ¿En retrospectiva, habrías ofertado una sobreventa menor?

## 2. Regresión lineal Bayesiana (50 puntos)

Considere el dataset de [Abalone](https://archive.ics.uci.edu/dataset/1/abalone).

![](https://live.staticflickr.com/1617/23572255964_84b6472789_b.jpg)

> La edad del abulón se determina cortando la concha a través del cono, tiñéndola y contando el número de anillos a través de un microscopio, una tarea aburrida y que consume mucho tiempo. Se utilizan otras mediciones, que son más fáciles de obtener, para predecir la edad. Puede ser necesaria información adicional, como patrones climáticos y ubicación (y por lo tanto disponibilidad de alimentos) para resolver el problema.

> De los datos originales se eliminaron los ejemplos con valores faltantes (la mayoría con el valor predicho faltante), y los rangos de los valores continuos se han escalado para su uso con modelos matemáticos (dividiéndolos por 200).

Dataset de Abalone:
Nash, W., Sellers, T., Talbot, S., Cawthorn, A., & Ford, W. (1994). Abalone [Dataset]. UCI Machine Learning Repository. https://doi.org/10.24432/C55C7W.

### 2.1. (10 puntos)

Lleve a cabo un análisis exploratorio de datos, donde explore potenciales relaciones entre las variables y la variable objetivo (Edad: Rings + 1.5).

### 2.2. (10 puntos)

Usaremos un modelo lineal para la tarea de predicción. Puedes incluir características no lineales en tu modelo (polinomiales o cualquier función). Recuerda que el nombre "lineal" vine por la relación con los parámetros.

Describir el modelo usando el lenguaje probabilístico visto en clase. Asegurarse, mediante una simulación predictiva previa que las previas son plausibles.

### 2.3. (10 puntos)

Dividir los datos en datos de entrenamiento, y datos de prueba.

Con los datos de entrenamiento, encontrar la distribución posterior de los parámetros. ¿Qué puede concluir de cada uno de ellos?

### 2.4. (10 puntos)

Seleccione una de las instancias del conjunto de prueba.

Para dicha instancia y según tu modelo, ¿Cuál es la distribución de la edad promedio de dicho abalón?, ¿Qué tan lejos está de la edad real?

### 2.5. (10 puntos)

Genere una muestra posterior predictiva usando los datos de prueba.

Con esta información, genere una gráfica posterior predictiva para su modelo. ¿Qué puede concluir?

<script>
  $(document).ready(function(){
    $('div.prompt').hide();
    $('div.back-to-top').hide();
    $('nav#menubar').hide();
    $('.breadcrumb').hide();
    $('.hidden-print').hide();
  });
</script>

<footer id="attribution" style="float:right; color:#808080; background:#fff;">
Created with Jupyter by Esteban Jiménez Rodríguez.
</footer>