# EPDS_1A_2C25_TdS_II



**Grupo**: Rinaldi, Flavio; Sabato, Ángel; Shifman, Iván Ezequiel; Zárate, Marcelo.

## Simulación (ejercicio a entregar)

Armar una simulación basada en $N=100$ repeticiones que permita estimar el promedio de paquetes necesarios para conseguir llenar el álbum de figuritas del Mundial Qatar 2022. **[OPCIONAL]** Si es posible, representar el histograma de la cantidad de paquetes necesarios para completar el álbum a partir de la simulación. Puede usarse ``import seaborn as sns`` y ``sns.histplot()``.

A diferencia de la resolución a mano, aquí propondremos una versión más realista: el álbum del Mundial Qatar 2022 tiene ``figus_total=860`` y vamos a suponer que el paquete no trae una figurita, sino varias: ``figus_paquete=5``. Además, Panini, empresa creadora del álbum del Mundial Qatar 2022, asegura que NO vienen figuritas repetidas por paquete. Para resolver este problema, podés optar por simularlo de acuerdo con esto que asegura Panini, o no. Es tu elección.


**[PISTAS]** Para la construcción de la simulación, se sugiere la siguiente estructura, ya que no hemos estimado otra cosa que no sean probabilidades y, para este problema, necesitamos estimar una esperanza.

1.  Para el armado del bullet "1. Experimento aleatorio", definir la función ``cuantos_paquetes(figus_total, figus_paquete)`` que dado el tamaño del álbum (``figus_total``) y la cantidad de figuritas por paquete (``figus_paquete``) genere un álbum nuevo, simule su llenado y devuelva cuántos paquetes se debieron comprar para completarlo.
2.  Para el armado del bullet "2: Muestra aleatoria", definir una semilla, fijar ``N`` y armar ``N=100`` muestras de ``cuantos_paquetes(figus_total, figus_paquete)`` que se guarden en ``muestras``.
3.  En esta instancia, como vimos, estaríamos armando el bullet "3: Una función _filtro_ que caracteriza el evento E" para luego estimar $P(E)$ por la frecuencia relativa de su aparición en las $N$ muestras. Sin embargo, aquí no hay evento para estimar: lo que queremos estimar es una esperanza. Para hacerlo, la aproximaremos por su promedio muestral, es decir, por el promedio de lo observado en ``muestras``. Para ello, podés usar el comando ``np.mean(muestras)``. Esto nos dará una estimación del promedio de paquetes necesarios para completar un álbum del Mundial Qatar 2022 a partir de una simulación de $N$ replicaciones.

**[SUGERENCIA PARA EL BULLET 1]** Armar la función ``cuantos_paquetes(figus_total, figus_paquete)`` puede ser desafiante. Te compartimos una posible estructura que puede ayudarte a implementarla.

- Implementá una función ``crear_album(figus_total)`` para crear un vector ``album`` que tenga un total de ``figus_total`` ceros. Es decir, vamos a representar al álbum por un vector en el que cada posición representa el estado de una figurita con dos valores: 0, para indicar que aún no la conseguimos, y 1, para indicar que sí. El álbum se inicia con todas sus posiciones en 0, hasta que empezamos a comprar figuritas y pegarlas.

- Implementá una función ``comprar_paquete(figus_total,figus_paquete)`` que, dada la cantidad de figuritas por paquete (figus_paquete), genere un ``paquete`` (lista) de figuritas al azar. Si respetamos lo que afirma Panini de que no hay figuritas repetidas por paquete, usá el comando ``rd.sample``, ya que estaremos tomando una muestra de figuritas sin reposición.

- Implementá la función ``pegar_figus(album,paquete)`` que complete con un 1 las figuritas del álbum que te hayan tocado. Recordá que los vectores se indexan desde 0, entonces, te va a convenir que la posición ``[i]`` del ``album`` toma el valor 1 si alguno de los elementos de la lista ``figus`` contiene al valor ``i``. Pero, para eso, generá las figuritan en ``range(0,figus_total)``, es decir, figuritas que toman valores de 0 hasta ``figus_total-1``. Lo importante es que aquellas figuritas que no te hayan tocado conserven el 0 en la posición correspondiente del vector ``album``. En este problema, no abordamos la complejidad que significaría intercambian y considerar todas las repetidas que podés tener.

- Implementá la función ``album_incompleto(album)`` que recibe un vector ``album`` y devuelve ``True`` si el álbum ``A`` no está completo y ``False`` si lo está. Recordá que un álbum estará incompleto siempre que haya al menos un cero en alguna de sus posiciones.

- Por último, utilizá todas estas funciones para crear una única función que las invoque y que se llame ``cuantos_paquetes(figus_total, figus_paquete)`` que cuente la cantidad de paquetes necesarios hasta completar el álbum. Necesitarás usar la estructura de control ``while()``, pues comprarás paquetes mientras el álbum siga incompleto; y deberás generar un contador de ``paquetes_comprados`` que arranque en 0 y sume un 1 cada vez que compres un nuevo paquete.

## Nuestra solución:

In [21]:
import numpy as np
import random as rd
import plotly.graph_objects as go
from plotly.subplots import make_subplots
from typing import List, Tuple

Comenzamos por establecer las variables constantes que vamos a utilizar:

In [22]:
FIGUS_TOTAL: int = 860   # Cantidad de figuritas en el álbum
FIGUS_PAQUETE: int = 5   # Figuritas por paquete
N: int = 100             # Número de simulaciones a realizar

La función _crear_album_ crea un álbum vacío (array con ceros de Numpy)

In [23]:
def crear_album(figus_total: int) -> np.ndarray:
    """
    Crea un álbum vacío.
    Representamos el álbum como un vector de ceros (0 = figurita faltante, 1 = figurita conseguida).
    """
    return np.zeros(figus_total)

Simulamos la _compra_ de un paquete de figuritas sin repetidas:

In [24]:
def comprar_paquete(figus_total: int, figus_paquete: int) -> List[int]:
    """
    Genera un paquete de figuritas elegido al azar.
    Usamos 'rd.sample' para garantizar que NO haya repetidas dentro del mismo paquete
    (tal como asegura Panini).
    """
    return rd.sample(range(0, figus_total), figus_paquete)

Luego _pegamos_ las figuritas del paquete:

In [25]:
def pegar_figus(album: np.ndarray, paquete: List[int]) -> np.ndarray:
    """
    Marca en el álbum las figuritas obtenidas en un paquete.
    Simplemente cambiamos el valor de esas posiciones a 1.
    """
    album[paquete] = 1
    return album

Verificamos si el álbum sigue incompleto utilizando operadores de comparación:

In [26]:
def album_incompleto(album: np.ndarray) -> bool:
    """
    Verifica si el álbum aún está incompleto.
    Retorna True si existe al menos un cero en el vector.
    """
    return (album > 0).sum() < len(album)

Finalmente, simulamos el álbum completo y contamos los paquetes necesarios:

In [27]:
def cuantos_paquetes(figus_total: int, figus_paquete: int) -> int:
    """
    Simula el proceso de llenar un álbum de figus_total figuritas,
    comprando paquetes de figus_paquete hasta completarlo.
    Devuelve la cantidad de paquetes comprados.
    """
    album = crear_album(figus_total)
    paquetes_comprados = 0

    while album_incompleto(album):  # Repetimos hasta completar el álbum
        paquete = comprar_paquete(figus_total, figus_paquete)
        paquetes_comprados += 1
        album = pegar_figus(album, paquete)

    return paquetes_comprados

Ejecutamos varias simulaciones de _llenado_ del álbum:

In [28]:
def ejecutar_simulacion(figus_total: int, figus_paquete: int, N: int,
                       seed: int = 123) -> Tuple[List[int], float]:
    """
    Ejecuta la simulación N veces y devuelve:
    - resultados: lista con los paquetes necesarios en cada simulación
    - promedio: el promedio de paquetes necesarios (estimador de la esperanza)
    """
    rd.seed(seed)  # Semilla para reproducibilidad

    resultados = [cuantos_paquetes(figus_total, figus_paquete) for _ in range(N)]
    promedio = np.mean(resultados)

    return resultados, promedio

Creamos las visualizaciones interactivas con [Plotly](https://plotly.com/python/):

In [29]:
def crear_visualizaciones_interactivas(resultados: List[int], promedio: float,
                                      figus_total: int, figus_paquete: int) -> None:
    """
    Crea un dashboard interactivo con:
    - Histograma de paquetes necesarios
    - Convergencia del promedio a medida que aumentan las simulaciones
    - Tabla con estadísticas de la simulación
    """
    fig = make_subplots(
        rows=2, cols=2,
        subplot_titles=('Histograma de Paquetes Necesarios', 
                       'Convergencia del Promedio',
                       'Estadísticas de la Simulación'),
        specs=[[{"type": "histogram", "colspan": 2}, None],
               [{"type": "scatter"}, {"type": "table"}]],
        vertical_spacing=0.12,
        horizontal_spacing=0.1
    )

    # Histograma de resultados
    fig.add_trace(
        go.Histogram(
            x=resultados,
            nbinsx=25,
            name="Paquetes necesarios",
            hovertemplate="Paquetes: %{x}<br>Frecuencia: %{y}<extra></extra>",
            marker_color='lightblue',
            marker_line_color='darkblue',
            marker_line_width=1,
            opacity=0.8
        ),
        row=1, col=1
    )

    # Línea del promedio en el histograma
    fig.add_vline(
        x=promedio, 
        line_dash="dash", 
        line_color="red",
        line_width=3,
        annotation_text=f"Promedio: {promedio:.0f} paquetes",
        annotation_position="top right",
        annotation_font_size=12,
        annotation_font_color="red",
        annotation_yshift=10,
        row=1, col=1
    )

    # Evolución del promedio acumulado
    promedios_acumulados = [np.mean(resultados[:i+1]) for i in range(len(resultados))]
    fig.add_trace(
        go.Scatter(
            x=list(range(1, len(resultados) + 1)),
            y=promedios_acumulados,
            mode='lines',
            name='Promedio acumulado',
            hovertemplate="Simulación: %{x}<br>Promedio: %{y:.2f}<extra></extra>",
            line=dict(color='purple', width=2)
        ),
        row=2, col=1
    )

    # Línea horizontal con el promedio final
    fig.add_hline(
        y=promedio, 
        line_dash="dash", 
        line_color="red",
        line_width=2,
        annotation_text=f"Promedio final: {promedio:.0f}",
        annotation_position="top left", 
        annotation_font_size=12,
        annotation_font_color="red",
        row=2, col=1
    )

    # Tabla resumen
    fig.add_trace(
        go.Table(
            header=dict(values=['Estadística', 'Valor'],
                       fill_color='lightblue',
                       align='center',
                       font_size=14,
                       font_color='white'),
            cells=dict(values=[
                ['Figuritas totales', 'Figuritas por paquete', 'Simulaciones',
                 'Promedio paquetes', 'Mínimo', 'Máximo'],
                [figus_total, figus_paquete, len(resultados),
                 f'{promedio:.0f}', min(resultados), max(resultados)]
            ],
            fill_color='aliceblue',
            align=['left', 'center'],
            font_size=12,
            height=35)
        ),
        row=2, col=2
    )

    # Ajustes de estilo
    fig.update_layout(
        title_text=f"Simulación: Álbum Mundial Qatar 2022 ({len(resultados)} simulaciones)",
        title_font_size=18,
        title_x=0.5,
        showlegend=False,
        height=700,  
        hovermode='closest',
        plot_bgcolor='white'
    )

    fig.show()
    return fig

Tras realizar las simulaciones, podemos afirmar que el promedio de paquetes necesarios es 1256:

In [30]:
# ----------------------------
# EJECUCIÓN PRINCIPAL
# ----------------------------
resultados_mundial, promedio = ejecutar_simulacion(FIGUS_TOTAL, FIGUS_PAQUETE, N)

fig_principal = crear_visualizaciones_interactivas(
    resultados_mundial, promedio, FIGUS_TOTAL, FIGUS_PAQUETE
)