# Ejercicio de motivación para la clase

In [None]:
from sklearn.datasets import load_iris
import pandas as pd
import numpy as np

Disponible en: [Sklearn](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html#sklearn.datasets.load_iris)

## Machine Learning, everywhere

![](../docs/source/images/memes/eee1.jpeg)

Sabemos que una de las ramas más relevantes de la inteligencia artificial es el _Machine Learning_. Esta disciplina, a través de diversos modelos y algoritmos, tiene como objetivo principal generar predicciones a partir de _datos_. 

En este contexto, analizaremos el clásico conjunto de datos `iris`. A partir de sus características —como la _longitud_ y la _altura_ de los sépalos— construiremos un modelo de clasificación que nos permita _predecir_ a qué especie pertenece cada flor.

In [None]:
datos = load_iris()

| **Property**        | **Value**       |
|---------------------|-----------------|
| Classes             | 3               |
| Samples per class   | 50              |
| Samples total       | 150             |
| Dimensionality      | 4               |
| Features            | real, positive  |


Generamos un DataFrame

Vamos a renombrar los títulos de las columnas:

| Tipo de flor | Número |
| ------------ | ------ |
| Setosa       | 0      |
| Versicolor   | 1      |
| Virginica    | 2      |

In [None]:
import matplotlib.pyplot as plt
import numpy as np

#### ¿qué observamos?

<details>
  <summary> 🧿 </summary>
  
  * Clase 0 (color morado oscuro) está bien separada: se agrupa con sépalos más cortos y más anchos.

  * Clase 1 y Clase 2 (verde y amarillo) están más superpuestas, especialmente en la región de sépalos largos y estrechos.

  * Esto sugiere que, al menos con las variables ``sepal length`` y ``sepal width``, la clase 0 se puede clasificar con mayor precisión que las otras dos.
</details>

**Pregunta:**

_¿Cuáles modelos de clasificación podríamos usar para resolver este problema?_

In [None]:
from sklearn.model_selection import train_test_split


## ¿Por qué usar una distribución conjunta para clasificar?

Anteriormente vimos que un modelo de clasificación (como árboles de decisión) presenta un _score_ del 60%.

Podemos adoptar un **enfoque probabilístico** para modelar la situación a partir de los datos disponibles.

In [None]:
#Train


In [None]:
#Test


Primero, veámos en la tabla siguiente que las columnas (`L`, `W` `T`) representan todas las posibles combinaciones de valores de cada variable.

La tabla muestra la **distribución conjunta** de tres variables (`L`, `W`, `T`).

Al estimar la distribución conjunta de las variables $(L)$ (longitud del tallo), $(W)$ (ancho del tallo) y $(T)$ (tipo de flor), obtenemos un modelo probabilístico completo:

$$P(L, W, T)$$


Este enfoque tiene varias ventajas:

- Captura todas las relaciones entre las variables.
- Nos permite derivar distribuciones condicionales útiles para clasificación.

Tenemos $4 * 3 * 3 = 36$ posibles combinaciones:

**NOTA:** no todas las combinaciones posibles de (`L`, `W` `T`) aparecen en los datos. `groupby().size()` solo muestra las combinaciones que realmente están presentes en el DataFrame.

Las combinaciones que no ocurren ni una sola vez, no aparecen en la salida porque su conteo es $0$.

| L | W | T | Frecuencia |
|---|---|---|------------|
| 4 | 2 | 0 | 2          |
| 4 | 2 | 1 | 1          |
| 4 | 2 | 2 | 1          |
| 4 | 3 | 0 | 16         |
| 5 | 2 | 1 | 17         |
| 5 | 2 | 2 | 5          |
| 5 | 3 | 0 | 22         |
| 5 | 3 | 1 | 6          |
| 5 | 3 | 2 | 1          |
| 6 | 2 | 1 | 10         |
| 6 | 2 | 2 | 11         |
| 6 | 3 | 1 | 9          |
| 6 | 3 | 2 | 18         |
| 7 | 2 | 2 | 3          |
| 7 | 3 | 1 | 1          |
| 7 | 3 | 2 | 8          |


Por ejemplo, a partir de la distribución conjunta podemos obtener la probabilidad de que una flor pertenezca a cierta clase $(T)$, dado que observamos un par de medidas $((L, W))$:

$$
P(T \mid L, W) = \frac{P(L, W, T)}{P(L, W)}
$$

Con esta información, podemos construir un clasificador probabilístico de la siguiente manera:

1. La distribución condicional nos proporciona una probabilidad para cada posible valor $(t)$ que puede tomar la variable $(T)$ (por ejemplo, $(t = 0, 1, 2 )$). Como nuestro objetivo es predecir la clase más probable, elegimos el valor de $(t)$ que maximiza esta probabilidad:

$$
\hat{t} = \arg\max_{t} P(T = t \mid L = \ell, W = w)
$$

2. Este procedimiento se conoce como el **clasificador MAP (Maximum A Posteriori)**. Es importante destacar que no necesitamos calcular explícitamente la distribución condicional, ya que:

$$
P(T = t \mid L = \ell, W = w) = \frac{P(T = t, L = \ell, W = w)}{P(L = \ell, W = w)}
$$

3. Dado que el denominador $(P(L = \ell, W = w))$ no depende de $(t)$, podemos omitirlo durante la maximización. Esto nos permite simplificar el clasificador a:

$$
\hat{t} = \arg\max_{t} P(T = t, L = \ell, W = w)
$$

Este enfoque nos permite realizar clasificación directamente a partir de la distribución conjunta estimada, sin necesidad de modelos adicionales.

$$
\hat{t} = \arg\max_{t} \, \hat{P}(T = t, L = 5, W = 3)
$$

## 📌 Conclusión

**¿Lo que hice corresponde a un modelo generativo?**

Sí, el procedimiento que implementaste es completamente coherente con el enfoque de un **modelo generativo**. 

**Pasos que seguiste (en términos probabilísticos)**

1. **Estimación de la distribución conjunta**

   Calculaste la probabilidad conjunta $(P(L = \ell, W = w, T = t))$ a partir de los datos, contando la frecuencia de cada combinación y normalizando sobre el total.  
   → Esto es exactamente lo que haría un modelo generativo: aprender la **distribución conjunta** $(P(X, Y))$.

2. **Normalización**

   Dividiste los conteos conjuntos por el total de observaciones, obteniendo así una estimación empírica de las probabilidades.  
   → Esto convierte los conteos en una **distribución de probabilidad válida**.

3. **Cálculo de la probabilidad condicional**

   Usaste la regla de Bayes para obtener la distribución condicional:

   $$
   P(T = t \mid L = \ell, W = w) = \frac{P(L = \ell, W = w, T = t)}{P(L = \ell, W = w)}
   $$

   → Esto es una inferencia clásica dentro del enfoque generativo.

4. **Predicción con argumento máximo (MAP)**

   Elegiste la clase con mayor probabilidad condicional:

   $$
   \hat{t} = \arg\max_t P(T = t \mid L = \ell, W = w)
   $$

   → Esto implementa el **clasificador MAP (Maximum A Posteriori)**.

5. **Clasificación final**

   Aplicaste este procedimiento a cada punto del conjunto de datos, generando predicciones basadas únicamente en la distribución conjunta estimada.
.


**OJO**

Que ambos modelos obtengan el mismo _score_ no significa que sean equivalentes, sino que **dado el conjunto de datos y la tarea, ambos llegaron al límite razonable de desempeño**.

Ambos tienen ventajas:
- El modelo probabilístico aporta una visión basada en evidencia y probabilidades.
- El árbol de decisión proporciona reglas claras y visualmente interpretables.

[_Créditos del ejercicio_](https://github.com/esjimenezro/mgp2025/tree/main/m1-intro-modelado-probabilistico/c1-motivacion)