<a href="https://colab.research.google.com/github/sgevatschnaider/estadisticas-para-ciencia-de-datos/blob/main/src/classroom/probabilidad/notebooks/01_Fundamentos_Matematicos_Probabilidad.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# @title
from IPython.display import display, HTML
import html

# (Opcional) Si querés silenciar esos warnings en Colab:
# import warnings
# warnings.filterwarnings("ignore", category=SyntaxWarning)

# ==========================================
# 1. DATOS: ESTRUCTURA DEL CURSO (Variable Aleatoria)
# ==========================================

CONFIG = {
    "main_title": "Teoría de Probabilidad: Variables Aleatorias",
    "subtitle": "Definiciones formales, medidas y transformaciones",
    "footer_text": "Material de Cátedra - Profesor Sergio Gevatschnaider"
}

seccion_fundamentos = [
    {
        "titulo": "0. Preliminares de Teoría de Medida",
        "contenido": r"""
            <p>Antes de definir la variable aleatoria, establecemos el espacio donde "vive":</p>
            <ul>
                <li><strong>Espacios medibles $(\Omega, \mathcal{F})$:</strong> Definición de $\Omega$ (espacio muestral) y $\mathcal{F}$ ($\sigma$-álgebra de eventos).</li>
                <li><strong>La $\sigma$-álgebra de Borel $\mathcal{B}(\mathbb{R})$:</strong> Construcción fundamental para variables continuas en $\mathbb{R}$ y extensiones a $\mathbb{R}^p$.</li>
                <li><strong>Medidas de probabilidad:</strong> Axiomas, aditividad numerable y medidas inducidas (<em>pushforward</em>).</li>
            </ul>
            <hr style="border-color: rgba(255,255,255,0.1); margin: 15px 0;">
            <p class="biblio"><i class="fas fa-book"></i> <strong>Bibliografía:</strong> Wasserman (Fundamentos), Devore (Repaso), Rotondi et al. (Simulación).</p>
        """
    },
    {
        "titulo": "1. Definición Formal de Variable Aleatoria",
        "contenido": r"""
            <p>Formalización matemática más allá de la intuición:</p>
            <ul>
                <li><strong>Función Medible:</strong> Una V.A. es una función $X: \Omega \to \mathbb{R}$ tal que las preimágenes son eventos:
                $$X^{-1}(B) \in \mathcal{F} \quad \forall B \in \mathcal{B}(\mathbb{R})$$</li>
                <li><strong>Distribución Inducida:</strong> Cómo $X$ transporta la probabilidad de $\Omega$ a los reales: $P_X(B) = \mathbb{P}(X \in B)$.</li>
                <li><strong>Función de Distribución Acumulada (CDF):</strong> Propiedades de $F_X(x) = P(X \le x)$ como caracterización completa.</li>
            </ul>
            <hr style="border-color: rgba(255,255,255,0.1); margin: 15px 0;">
            <p class="biblio"><i class="fas fa-book"></i> <strong>Bibliografía:</strong> Wasserman (Probabilidad + CDF), Devore (Enfoque elemental).</p>
        """
    },
    {
        "titulo": "2. Tipos de Variables y Familias Paramétricas",
        "contenido": r"""
            <h4>Clasificación por medida</h4>
            <ul>
                <li><strong>Discretas:</strong> Caracterizadas por la función de masa $p(x)$ y soporte numerable.</li>
                <li><strong>Continuas:</strong> Existencia de densidad $f(x)$ tal que la CDF es su integral.</li>
                <li><strong>Mixtas y Singulares:</strong> Unificación mediante teoría de medida.</li>
            </ul>
            <h4>Catálogo de Familias</h4>
            <p>Bernoulli, Binomial, Poisson, Exponencial, Normal, t-Student, $\chi^2$.</p>
            <hr style="border-color: rgba(255,255,255,0.1); margin: 15px 0;">
            <p class="biblio"><i class="fas fa-book"></i> <strong>Bibliografía:</strong> Devore (Catálogo), Wasserman (Visión compacta), Kenett–Zacks (Python).</p>
        """
    }
]

seccion_avanzada = [
    {
        "titulo": "3. Transformaciones de Variables Aleatorias",
        "contenido": r"""
            <p>Si $X$ es una V.A., ¿qué distribución tiene $Y = g(X)$?</p>
            <ul>
                <li><strong>Cierre por composición:</strong> Si $g$ es medible, $g(X)$ es una V.A.</li>
                <li><strong>Método de la CDF:</strong> Ideal para transformaciones monótonas.</li>
                <li><strong>Método del Jacobiano:</strong> Para transformaciones suaves e inyectivas (cambio de variable).</li>
                <li><strong>Indicadoras y Truncamiento:</strong> El rol de $\mathbf{1}_A$ y variables censuradas.</li>
                <li><strong>Multivariado:</strong> Transformaciones del tipo $Z = g(X,Y)$.</li>
            </ul>
            <hr style="border-color: rgba(255,255,255,0.1); margin: 15px 0;">
            <p class="biblio"><i class="fas fa-book"></i> <strong>Bibliografía:</strong> Devore (Técnicas clásicas), Wasserman (Formalismo).</p>
        """
    },
    {
        "titulo": "4. Esperanza, Integrabilidad y Momentos",
        "contenido": r"""
            <h4>El operador Esperanza $\mathbb{E}[\cdot]$</h4>
            <p>Definición rigurosa como Integral de Lebesgue. Condiciones de existencia e integrabilidad.</p>
            <ul>
                <li><strong>Propiedades:</strong> Linealidad, monotonicidad y desigualdades fundamentales.</li>
                <li><strong>Momentos:</strong> $\mathbb{E}[X^k]$, momentos centrales y su interpretación (sesgo, kurtosis).</li>
                <li><strong>Varianza:</strong> $\mathrm{Var}(X) = \mathbb{E}[X^2] - (\mathbb{E}[X])^2$.</li>
                <li><strong>Riesgo en ML:</strong> La esperanza de la función de pérdida $\mathbb{E}[L(X)]$.</li>
            </ul>
            <hr style="border-color: rgba(255,255,255,0.1); margin: 15px 0;">
            <p class="biblio"><i class="fas fa-book"></i> <strong>Bibliografía:</strong> Wasserman (Expectation), ESL (Riesgo y Loss functions).</p>
        """
    },
    {
        "titulo": "5. Covarianza, Dependencia y Desigualdades",
        "contenido": r"""
            <p>Análisis de la relación entre dos o más variables aleatorias:</p>
            <ul>
                <li><strong>Covarianza y Correlación:</strong> Definición de $\mathrm{Cov}(X,Y)$ y escalamiento.</li>
                <li><strong>Independencia vs. Incorrelación:</strong> Diferencias clave y el caso Gaussiano.</li>
                <li><strong>Desigualdades Maestras:</strong> Cauchy–Schwarz, Jensen (convexidad), y Markov/Chebyshev (control de colas).</li>
                <li><strong>Independencia Condicional:</strong> Preludio a modelos gráficos probabilísticos.</li>
            </ul>
            <hr style="border-color: rgba(255,255,255,0.1); margin: 15px 0;">
            <p class="biblio"><i class="fas fa-book"></i> <strong>Bibliografía:</strong> Wasserman, Bishop (Pattern Recognition), Koller–Friedman.</p>
        """
    }
]

# ==========================================
# 2. MOTOR DE RENDER
# ==========================================

def render_bloque(data_list, block_title, icon="fa-layer-group"):
    items = ""
    for idx, item in enumerate(data_list):
        content = item["contenido"]  # contiene HTML + LaTeX, NO escapar
        title = html.escape(item["titulo"])
        items += f"""
        <div class="card">
            <div class="card-header" onclick="toggleCard(this)">
                <div class="card-title-group">
                    <span class="badge">{idx + 1}</span>
                    <span class="card-title">{title}</span>
                </div>
                <i class="fas fa-chevron-down icon-state"></i>
            </div>
            <div class="card-content">
                <div class="inner-content">{content}</div>
            </div>
        </div>
        """
    return f"""
    <div class="section-container">
        <h2 class="section-title"><i class="fas {icon}"></i> {html.escape(block_title)}</h2>
        <div class="grid-wrapper">{items}</div>
    </div>
    """

html_fundamentos = render_bloque(seccion_fundamentos, "Fundamentos Teóricos", "fa-infinity")
html_avanzado = render_bloque(seccion_avanzada, "Cálculo y Relaciones", "fa-calculator")

# ==========================================
# 3. HTML/CSS/JS + MATHJAX (con re-typeset)
# ==========================================

full_html = f"""
<!DOCTYPE html>
<html lang="es">
<head>
<meta charset="UTF-8">
<link href="https://fonts.googleapis.com/css2?family=Outfit:wght@300;400;600;800&family=JetBrains+Mono:wght@400&display=swap" rel="stylesheet">
<link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.0/css/all.min.css" rel="stylesheet">

<script>
MathJax = {{
  tex: {{
    inlineMath: [['$', '$'], ['\\\\(', '\\\\)']],
    displayMath: [['$$', '$$'], ['\\\\[', '\\\\]']]
  }},
  svg: {{ fontCache: 'global' }}
}};
</script>
<script id="MathJax-script" async src="https://cdn.jsdelivr.net/npm/mathjax@3/es5/tex-mml-chtml.js"></script>

<style>
    :root {{
        --primary: #3b82f6;
        --secondary: #a855f7;
        --accent: #06b6d4;
        --bg-gradient: linear-gradient(135deg, #0f172a 0%, #1e1b4b 100%);
        --text-light: #f8fafc;
        --text-dim: #94a3b8;
        --card-bg: rgba(30, 41, 59, 0.7);
        --card-border: rgba(255, 255, 255, 0.08);
    }}

    * {{ box-sizing: border-box; transition: all 0.3s cubic-bezier(0.4, 0, 0.2, 1); }}

    body {{
        font-family: 'Outfit', sans-serif;
        background: var(--bg-gradient);
        color: var(--text-light);
        margin: 0; padding: 40px 20px;
        min-height: 100vh;
    }}

    .main-wrapper {{ max-width: 950px; margin: 0 auto; }}

    header {{
        text-align: center; margin-bottom: 4rem;
        padding: 3rem 2rem; border-radius: 24px;
        background: rgba(255, 255, 255, 0.03);
        border: 1px solid var(--card-border);
        backdrop-filter: blur(12px);
        box-shadow: 0 20px 40px rgba(0,0,0,0.2);
    }}

    h1 {{
        background: linear-gradient(to right, var(--primary), var(--accent));
        -webkit-background-clip: text; -webkit-text-fill-color: transparent;
        font-size: clamp(2rem, 5vw, 3rem);
        margin: 0 0 0.5rem 0; letter-spacing: -1px;
    }}

    .subtitle {{ font-size: 1.2rem; color: var(--text-dim); font-weight: 300; }}

    .section-title {{
        color: var(--text-light);
        font-size: 1.5rem;
        border-bottom: 2px solid rgba(255,255,255,0.05);
        padding-bottom: 15px; margin-top: 4rem; margin-bottom: 2rem;
        display: flex; align-items: center; gap: 12px;
    }}

    .section-title i {{ color: var(--accent); }}

    .card {{
        background: var(--card-bg);
        border: 1px solid var(--card-border);
        margin-bottom: 16px; border-radius: 16px;
        overflow: hidden;
        box-shadow: 0 4px 6px rgba(0,0,0,0.1);
    }}

    .card:hover {{
        border-color: var(--primary);
        transform: translateY(-2px);
        box-shadow: 0 10px 20px rgba(0,0,0,0.2);
    }}

    .card-header {{
        padding: 1.5rem; cursor: pointer;
        display: flex; justify-content: space-between; align-items: center;
        background: linear-gradient(to right, rgba(255,255,255,0.02), transparent);
    }}

    .card-title-group {{ display: flex; align-items: center; gap: 18px; }}

    .badge {{
        background: rgba(59, 130, 246, 0.2);
        color: var(--primary);
        border: 1px solid rgba(59, 130, 246, 0.4);
        width: 32px; height: 32px; display: flex; align-items: center; justify-content: center;
        border-radius: 8px; font-weight: 700; font-size: 0.9rem;
    }}

    .card-title {{ font-weight: 600; font-size: 1.15rem; letter-spacing: -0.5px; }}

    .icon-state {{ color: var(--text-dim); }}

    .card-content {{
        max-height: 0; overflow: hidden;
        transition: max-height 0.6s cubic-bezier(0, 1, 0, 1);
        background: rgba(15, 23, 42, 0.3);
    }}

    .card.active .card-content {{ max-height: 5000px; transition: max-height 1s ease; }}
    .card.active .icon-state {{ transform: rotate(180deg); color: var(--accent); }}
    .card.active .badge {{ background: var(--primary); color: white; border-color: var(--primary); }}

    .inner-content {{ padding: 2rem; line-height: 1.8; color: #cbd5e1; font-size: 1.05rem; }}

    strong {{ color: var(--secondary); font-weight: 600; }}

    ul {{ padding-left: 20px; margin: 0; }}
    li {{ margin-bottom: 10px; }}

    .biblio {{
        font-size: 0.9rem; color: var(--text-dim);
        background: rgba(0,0,0,0.2); padding: 10px; border-radius: 8px;
        font-family: 'JetBrains Mono', monospace;
    }}

    mjx-container {{ font-size: 110% !important; color: #e2e8f0 !important; }}

    footer {{
        text-align: center; margin-top: 5rem;
        color: var(--text-dim); font-size: 0.9rem;
        border-top: 1px solid var(--card-border); padding-top: 2rem;
    }}
</style>
</head>
<body>
    <div class="main-wrapper">
        <header>
            <h1>{html.escape(CONFIG['main_title'])}</h1>
            <div class="subtitle">{html.escape(CONFIG['subtitle'])}</div>
        </header>

        {html_fundamentos}
        {html_avanzado}

        <footer>{html.escape(CONFIG['footer_text'])}</footer>
    </div>

    <script>
        function typeset(el) {{
            if (window.MathJax && MathJax.typesetPromise) {{
                MathJax.typesetPromise([el]).catch(() => {{}});
            }}
        }}

        function toggleCard(header) {{
            const card = header.parentElement;
            card.classList.toggle('active');
            typeset(card);
        }}

        typeset(document.body);
    </script>
</body>
</html>
"""

display(HTML(full_html))


In [None]:
# @title
# Fundamentos de Variables Aleatorias (Google Colab READY + MathJax re-typeset + Gráficos Dado)
import matplotlib.pyplot as plt
import matplotlib.patches as patches
import numpy as np
import io
import base64
import json
from IPython.display import display, HTML

# ==========================================
# 1. HELPERS: FIGURA -> BASE64 (HTML)
# ==========================================

def fig_to_base64(fig):
    """Convierte una figura de Matplotlib a string Base64 para HTML."""
    buf = io.BytesIO()
    fig.savefig(buf, format='png', bbox_inches='tight', transparent=True, dpi=140)
    plt.close(fig)
    buf.seek(0)
    return base64.b64encode(buf.read()).decode('utf-8')

# ==========================================
# 2. GRÁFICOS (MATPLOTLIB)
# ==========================================

def crear_diagrama_medida_inducida():
    """Crea el diagrama del mapeo X: Omega -> R y la medida inducida."""
    plt.style.use('dark_background')
    fig, ax = plt.subplots(figsize=(10, 5))
    ax.set_xlim(0, 10)
    ax.set_ylim(0, 5)
    ax.axis('off')

    # Colores
    c_omega = '#1e293b'
    c_event = '#3b82f6'  # Azul
    c_arrow = '#a855f7'  # Violeta
    c_text = '#e2e8f0'

    # 1) Espacio muestral
    omega = patches.Ellipse((2.5, 2.5), width=3, height=4, angle=0,
                            color=c_omega, ec=c_text, lw=1.5, alpha=0.9)
    ax.add_patch(omega)
    ax.text(2.5, 4.2, r'$(\Omega, \mathcal{F}, \mathbb{P})$', ha='center',
            color=c_text, fontsize=12, fontweight='bold')

    # Evento A = X^{-1}(B)
    evento_A = patches.Ellipse((2.5, 2.8), width=1.5, height=1, angle=15,
                               color=c_event, alpha=0.5)
    ax.add_patch(evento_A)
    ax.text(2.5, 2.8, r'$A = X^{-1}(B)$', ha='center', va='center',
            color='white', fontsize=9, fontweight='bold')
    ax.text(2.5, 1.8, r'Masa $\mathbb{P}(A)$', ha='center',
            color=c_event, fontsize=8)

    # 2) Recta real
    ax.annotate('', xy=(9.5, 2.5), xytext=(6, 2.5),
                arrowprops=dict(arrowstyle="->", color=c_text, lw=2))
    ax.text(9.5, 2.2, r'$\mathbb{R}$', color=c_text, fontsize=14, fontweight='bold')
    ax.text(8, 4.2, r'Espacio $(\mathbb{R}, \mathcal{B})$', ha='center',
            color=c_text, fontsize=12, fontweight='bold')

    # Intervalo boreliano B
    ax.plot([7.5, 8.5], [2.5, 2.5], color=c_event, lw=6)
    ax.text(8, 2.7, r'$B$', ha='center', color='white', fontweight='bold')
    ax.text(8, 1.8, r'Masa $P_X(B)$', ha='center', color=c_event, fontsize=8)

    # 3) Flecha X
    arrow = patches.FancyArrowPatch((3.5, 3.5), (7.5, 3.5),
                                    connectionstyle="arc3,rad=-0.2",
                                    color=c_arrow,
                                    arrowstyle="Simple, tail_width=0.5, head_width=5, head_length=5",
                                    mutation_scale=15)
    ax.add_patch(arrow)
    ax.text(5.5, 3.8, r'$X(\omega)$', ha='center', color=c_arrow,
            fontsize=11, fontweight='bold')

    # 4) Ecuación
    ax.text(5, 0.5, r'Conservación: $P_X(B) = \mathbb{P}(X^{-1}(B))$',
            ha='center', va='center',
            bbox=dict(boxstyle="round,pad=0.4", fc='#0f172a', ec=c_arrow, alpha=0.8),
            color='white', fontsize=10)

    return fig_to_base64(fig)

def crear_pmf_dado():
    """PMF del dado justo."""
    plt.style.use('dark_background')
    fig, ax = plt.subplots(figsize=(8.5, 3.8))
    x = np.arange(1, 7)
    p = np.ones_like(x, dtype=float) / 6.0

    ax.bar(x, p, width=0.7)
    ax.set_title(r'PMF del dado justo: $p_X(k)=\mathbb{P}(X=k)$', fontsize=12, pad=10)
    ax.set_xlabel('k', fontsize=11)
    ax.set_ylabel('Probabilidad', fontsize=11)
    ax.set_xticks(x)
    ax.set_ylim(0, 0.25)
    ax.grid(True, alpha=0.25)

    return fig_to_base64(fig)

def crear_cdf_dado():
    """CDF escalonada del dado justo."""
    plt.style.use('dark_background')
    fig, ax = plt.subplots(figsize=(8.5, 3.8))

    # CDF para t real: saltos en 1..6
    t_points = np.array([0, 1, 2, 3, 4, 5, 6, 7], dtype=float)
    F = np.array([0, 1/6, 2/6, 3/6, 4/6, 5/6, 1, 1], dtype=float)

    ax.step(t_points, F, where='post')

    # FIX CRÍTICO: usar \leq en vez de \le para evitar error de mathtext
    ax.set_title(r'CDF del dado justo: $F_X(t)=\mathbb{P}(X\leq t)$', fontsize=12, pad=10)

    ax.set_xlabel('t', fontsize=11)
    ax.set_ylabel(r'$F_X(t)$', fontsize=11)
    ax.set_xlim(0, 7)
    ax.set_ylim(-0.02, 1.05)
    ax.set_yticks(np.linspace(0, 1, 6))
    ax.grid(True, alpha=0.25)

    return fig_to_base64(fig)

# Generar imágenes
img_medida_b64 = crear_diagrama_medida_inducida()
img_pmf_b64 = crear_pmf_dado()
img_cdf_b64 = crear_cdf_dado()

# ==========================================
# 3. CONTENIDO (SECCIONES)
# ==========================================

content_data = [
    {
        "id": "sec1",
        "title": "1. Preliminares: El Escenario Matemático",
        "content": r"""
            <p>Antes de definir una variable aleatoria conviene fijar con precisión el “escenario” matemático donde va a existir. Ese escenario es un espacio medible equipado con una medida de probabilidad. La razón no es formalismo vacío: sin estas tres piezas no podés garantizar que expresiones como $\mathbb{P}(X\le t)$ o $\mathbb{E}[X]$ estén bien definidas.</p>

            <h4>Espacios medibles $(\Omega, \mathcal{F})$</h4>
            <p>Se parte de un conjunto $\Omega$, llamado <strong>espacio muestral</strong>, que representa el conjunto de todos los resultados posibles del experimento aleatorio. Por ejemplo, si tirás un dado, $\Omega=\{1,2,3,4,5,6\}$; si medís una magnitud continua idealizada, $\Omega$ suele tomarse como $\mathbb{R}$ o un subconjunto de $\mathbb{R}$.</p>

            <p>Sin embargo, no todo subconjunto de $\Omega$ tiene por qué ser un “evento” al que podamos asignar probabilidad de forma coherente. Por eso se elige una colección $\mathcal{F} \subseteq 2^\Omega$ de subconjuntos de $\Omega$, llamada <strong>$\sigma$-álgebra</strong>, que especifica exactamente cuáles subconjuntos se consideran eventos medibles.</p>

            <div class="definition-box">
                <strong>Propiedades de una $\sigma$-álgebra $\mathcal{F}$:</strong>
                <ol>
                    <li>$\Omega \in \mathcal{F}$ (el evento seguro es medible).</li>
                    <li>Si $A \in \mathcal{F}$, entonces $A^c = \Omega \setminus A \in \mathcal{F}$ (cerrada por complemento).</li>
                    <li>Si $A_1, A_2, \dots \in \mathcal{F}$, entonces $\bigcup_{n=1}^\infty A_n \in \mathcal{F}$ (cerrada por uniones numerables).</li>
                </ol>
            </div>
            <p>De estas propiedades se deduce también que $\mathcal{F}$ es cerrada por intersecciones numerables. El par $(\Omega, \mathcal{F})$ se llama <strong>espacio medible</strong>.</p>
        """
    },
    {
        "id": "sec2",
        "title": "2. La σ-álgebra de Borel",
        "content": r"""
            <h4>La $\sigma$-álgebra de Borel $\mathcal{B}(\mathbb{R})$ y extensiones a $\mathbb{R}^p$</h4>
            <p>En espacios finitos o numerables, suele elegirse $\mathcal{F}=2^\Omega$ y entonces todo subconjunto es un evento. En espacios continuos como $\Omega=\mathbb{R}$, esa elección es problemática (aparecen subconjuntos “patológicos” a los que no se les puede asignar una probabilidad consistente), y por eso se trabaja con $\sigma$-álgebras estándar como la boreliana.</p>

            <p>Cuando los valores posibles son reales, el conjunto “natural” de eventos en el codominio es la <strong>$\sigma$-álgebra boreliana $\mathcal{B}(\mathbb{R})$</strong>. Se define como la $\sigma$-álgebra más pequeña que contiene a todos los intervalos abiertos $(a,b)$. Equivalentemente, es la $\sigma$-álgebra generada por los intervalos $(-\infty, t]$.</p>

            <p>Esto importa porque casi todo lo que preguntamos en probabilidad y estadística se expresa con intervalos y operaciones numerables: "$X\le t$", "$a < X \le b$", "$X \in \cup_k (a_k, b_k)$", etc.</p>

            <p>En dimensión $p$, se usa la boreliana $\mathcal{B}(\mathbb{R}^p)$, definida como la $\sigma$-álgebra generada por abiertos de $\mathbb{R}^p$ (o, equivalentemente, por productos de intervalos abiertos $\prod_{i=1}^p(a_i,b_i)$). Esto asegura que regiones geométricas típicas (bolas, elipsoides, semiespacios) sean borelianas, y por lo tanto “medibles”.</p>

            <div class="note-box">
                Esta elección es la base para la definición de variable aleatoria: cuando decimos que $X:\Omega \to \mathbb{R}$ es una variable aleatoria, en realidad estamos exigiendo que $X$ sea medible respecto de $\mathcal{F}$ y $\mathcal{B}(\mathbb{R})$, de modo que $\{X \in B\}$ sea un evento en $\Omega$ para todo boreliano $B$.
            </div>
        """
    },
    {
        "id": "sec3",
        "title": "3. Medidas de Probabilidad",
        "content": r"""
            <h4>Axiomas y aditividad numerable</h4>
            <p>Una medida sobre $(\Omega, \mathcal{F})$ es una función $\mu: \mathcal{F} \to [0, \infty]$ que satisface $\mu(\varnothing)=0$ y la <strong>aditividad numerable</strong>: si $(A_n)$ son eventos disjuntos, entonces:</p>
            $$ \mu\left(\bigcup_{n=1}^\infty A_n\right) = \sum_{n=1}^\infty \mu(A_n) $$

            <p>Una <strong>medida de probabilidad $\mathbb{P}$</strong> es una medida con $\mathbb{P}(\Omega)=1$. El triple $(\Omega, \mathcal{F}, \mathbb{P})$ es un <strong>espacio de probabilidad</strong>.</p>

            <p>Esta estructura es la que “hace probabilístico” al modelo: dos funciones iguales $X:\Omega \to \mathbb{R}$ pueden tener comportamientos probabilísticos distintos si cambia $\mathbb{P}$. Por eso, en rigor, el azar está en $\mathbb{P}$ y en cómo pesa los eventos de $\Omega$, no en la fórmula de $X$.</p>
        """
    },
    {
        "id": "sec4",
        "title": "4. Medidas Inducidas (Pushforward)",
        "content": r"""
            <p>Finalmente, cuando aparece una función medible $X:\Omega \to \mathbb{R}$ (o $\mathbb{R}^p$), la probabilidad se transporta desde $\Omega$ al codominio mediante la <strong>medida inducida (pushforward)</strong>:</p>

            $$ P_X(B) = \mathbb{P}(X \in B) = \mathbb{P}(X^{-1}(B)), \quad B \in \mathcal{B}(\mathbb{R}) $$

            <p>Esa medida $P_X$ es exactamente la <strong>distribución</strong> de la variable aleatoria. Toda estadística sobre $X$ (esperanza, varianza, cuantiles, etc.) se entiende como un funcional de $P_X$.</p>

            <div class="img-container">
                <img src="data:image/png;base64,""" + img_medida_b64 + r"""" alt="Diagrama de Medida Inducida" style="width:100%; max-width:760px; border-radius:12px; border:1px solid rgba(255,255,255,0.1);">
                <p class="caption">Fig 1. Transporte de medida de $\Omega$ a $\mathbb{R}$ mediante $X$.</p>
            </div>
        """
    },
    {
        "id": "sec5",
        "title": "5. Definición formal y verificación en el ejemplo del dado",
        "content": r"""
            <p>El siguiente bloque natural, después de fijar $(\Omega,\mathcal F)$, $(\mathcal B(\mathbb R))$ y $\mathbb P$, es dar la <strong>definición formal</strong> de variable aleatoria y luego <strong>verificarla</strong> en un ejemplo simple como el dado.</p>

            <p>Dado un espacio de probabilidad $(\Omega,\mathcal F,\mathbb P)$, una <strong>variable aleatoria real</strong> es una función</p>
            $$ X:\Omega\to\mathbb R $$
            <p>que es <strong>medible</strong> respecto de $\mathcal F$ y la $\sigma$-álgebra boreliana $\mathcal B(\mathbb R)$. Esto se expresa de manera concisa como</p>
            $$ X:(\Omega,\mathcal F)\longrightarrow (\mathbb R,\mathcal B(\mathbb R)). $$

            <p>La frase “$X$ es medible” significa exactamente que para todo conjunto boreliano $B\in\mathcal B(\mathbb R)$, la preimagen</p>
            $$ X^{-1}(B)=\{\omega\in\Omega:\,X(\omega)\in B\} $$
            <p>pertenece a $\mathcal F$. La importancia de esta condición es inmediata: si $X^{-1}(B)\in\mathcal F$, entonces $\mathbb P(X^{-1}(B))$ está definida, y por lo tanto tiene sentido escribir</p>
            $$ \mathbb P(X\in B)=\mathbb P\big(X^{-1}(B)\big). $$

            <p>Esto define la <strong>distribución</strong> (medida inducida o pushforward) de $X$, que es una probabilidad sobre $(\mathbb R,\mathcal B(\mathbb R))$:</p>
            $$ P_X(B)=\mathbb P(X\in B),\qquad B\in\mathcal B(\mathbb R). $$

            <hr style="border:0;border-top:1px solid rgba(255,255,255,0.08); margin:18px 0;">

            <p>Ahora lo aplicamos al experimento de tirar un dado justo. Se toma</p>
            $$ \Omega=\{1,2,3,4,5,6\},\qquad \mathcal F=2^\Omega, $$
            <p>y la probabilidad uniforme $\mathbb P(\{\omega\})=1/6$ para cada $\omega\in\Omega$. Definimos la función</p>
            $$ X:\Omega\to\mathbb R,\qquad X(\omega)=\omega. $$

            <p>Queremos verificar que $X$ es una variable aleatoria, o sea, que es $\mathcal F/\mathcal B(\mathbb R)$-medible. Tomemos un boreliano cualquiera $B\in\mathcal B(\mathbb R)$. Entonces</p>
            $$ X^{-1}(B)=\{\omega\in\Omega:\,X(\omega)\in B\}. $$
            <p>Como $X(\omega)=\omega$, esto se simplifica a</p>
            $$ X^{-1}(B)=\{\omega\in\Omega:\,\omega\in B\}. $$
            <p>Pero el conjunto $\{\omega\in\Omega:\,\omega\in B\}$ no es otra cosa que la intersección de $B$ con $\Omega$:</p>
            $$ X^{-1}(B)=\Omega\cap B. $$

            <p>Y aquí está el punto clave: $\Omega\cap B\subseteq\Omega$, luego $\Omega\cap B$ es un subconjunto de $\Omega$, y como $\mathcal F=2^\Omega$ contiene <strong>todos</strong> los subconjuntos de $\Omega$, se concluye que</p>
            $$ X^{-1}(B)=\Omega\cap B\in\mathcal F. $$
            <p>Como esto vale para todo $B\in\mathcal B(\mathbb R)$, queda probado que $X$ es medible y por lo tanto <strong>$X$ es una variable aleatoria</strong> en el sentido formal.</p>

            <div class="note-box">
                En este ejemplo, la conclusión es aún más fuerte. Como $\mathcal F=2^\Omega$, para cualquier subconjunto $B\subseteq\mathbb R$ (no sólo boreliano) se cumple igualmente $\Omega\cap B\in 2^\Omega$. Por eso, en espacios finitos con $\mathcal F=2^\Omega$, <strong>toda</strong> función $X:\Omega\to\mathbb R$ es automáticamente medible. El rol de $\mathcal B(\mathbb R)$ se vuelve indispensable cuando $\Omega$ es continuo y $\mathcal F$ ya no puede ser todo $2^\Omega$.
            </div>



            <div class="img-grid">
                <div class="img-container">
                    <img src="data:image/png;base64,""" + img_pmf_b64 + r"""" alt="PMF del dado" style="width:100%; border-radius:12px; border:1px solid rgba(255,255,255,0.1);">
                    <p class="caption">Fig 2. PMF del dado justo.</p>
                </div>
                <div class="img-container">
                    <img src="data:image/png;base64,""" + img_cdf_b64 + r"""" alt="CDF del dado" style="width:100%; border-radius:12px; border:1px solid rgba(255,255,255,0.1);">
                    <p class="caption">Fig 3. CDF escalonada del dado justo.</p>
                </div>
            </div>
        """
    }
]

# ==========================================
# 4. HTML/CSS/JS (PLANTILLA GOOGLE COLAB)
# ==========================================

html_template = """
<!DOCTYPE html>
<html lang="es">
<head>
    <meta charset="UTF-8">
    <link href="https://fonts.googleapis.com/css2?family=Inter:wght@300;400;600;800&family=JetBrains+Mono:wght@400&display=swap" rel="stylesheet">
    <link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.0/css/all.min.css" rel="stylesheet">

    <script>
    MathJax = {
      tex: {
        inlineMath: [['$', '$'], ['\\\\(', '\\\\)']],
        displayMath: [['$$', '$$'], ['\\\\[', '\\\\]']]
      },
      svg: { fontCache: 'global' }
    };
    </script>
    <script id="MathJax-script" async
            src="https://cdn.jsdelivr.net/npm/mathjax@3/es5/tex-mml-chtml.js"></script>

    <style>
        :root {
            --bg-body: #0f172a;
            --bg-card: #1e293b;
            --text-main: #f8fafc;
            --text-muted: #94a3b8;
            --accent: #3b82f6;
            --accent-glow: rgba(59, 130, 246, 0.3);
            --border: rgba(255,255,255,0.08);
        }

        body {
            font-family: 'Inter', sans-serif;
            background-color: var(--bg-body);
            color: var(--text-main);
            margin: 0; padding: 20px;
            line-height: 1.6;
        }

        .container { max-width: 960px; margin: 0 auto; }

        h1 {
            background: linear-gradient(90deg, #38bdf8, #818cf8);
            -webkit-background-clip: text; -webkit-text-fill-color: transparent;
            font-size: 2.5rem; text-align: center; margin-bottom: 10px;
            letter-spacing: -1px;
        }

        .subtitle { text-align: center; color: var(--text-muted); margin-bottom: 40px; }

        .card {
            background: var(--bg-card);
            border: 1px solid var(--border);
            border-radius: 16px;
            margin-bottom: 20px;
            overflow: hidden;
            transition: all 0.3s ease;
        }

        .card-header {
            padding: 20px 25px;
            cursor: pointer;
            display: flex; justify-content: space-between; align-items: center;
            background: rgba(255,255,255,0.02);
            font-weight: 600; font-size: 1.1rem;
            user-select: none;
        }

        .card-header:hover { background: rgba(255,255,255,0.05); }
        .card-header i { color: var(--text-muted); transition: transform 0.3s; }
        .card.active .card-header i { transform: rotate(180deg); color: var(--accent); }
        .card.active { border-color: var(--accent); box-shadow: 0 0 15px var(--accent-glow); }

        .card-content {
            max-height: 0;
            overflow: hidden;
            transition: max-height 0.8s cubic-bezier(0.4, 0, 0.2, 1);
            padding: 0 25px;
        }

        .card.active .card-content { max-height: 20000px; padding-bottom: 25px; }

        p { margin-bottom: 1rem; color: #cbd5e1; }
        strong { color: var(--accent); }

        .definition-box {
            background: rgba(59, 130, 246, 0.1);
            border-left: 4px solid var(--accent);
            padding: 15px; margin: 15px 0; border-radius: 0 8px 8px 0;
        }

        .note-box {
            background: rgba(234, 179, 8, 0.1);
            border-left: 4px solid #eab308;
            padding: 15px; margin: 15px 0; border-radius: 0 8px 8px 0;
            font-size: 0.95rem; color: #e2e8f0;
        }

        .img-container { text-align: center; margin-top: 14px; }
        .caption { font-size: 0.85rem; color: var(--text-muted); margin-top: 8px; }

        .img-grid {
            display: grid;
            grid-template-columns: 1fr;
            gap: 14px;
            margin-top: 12px;
        }
        @media (min-width: 860px) {
            .img-grid { grid-template-columns: 1fr 1fr; }
        }

        code {
            background: rgba(0,0,0,0.3);
            padding: 2px 5px;
            border-radius: 4px;
            font-family: 'JetBrains Mono', monospace;
            font-size: 0.9em;
        }

        footer {
            text-align: center;
            margin-top: 50px;
            color: var(--text-muted);
            font-size: 0.85rem;
            border-top: 1px solid var(--border);
            padding-top: 20px;
        }
    </style>
</head>
<body>
    <div class="container">
        <h1>Fundamentos de Variables Aleatorias</h1>
        <div class="subtitle">Teoría de Medida, Espacios, Definiciones Formales y Ejemplos</div>

        <div id="content-wrapper"></div>

        <footer>Material elaborado por el profesor Sergio Gevatschnaider</footer>
    </div>

    <script>
        const sections = {sections_json};
        const wrapper = document.getElementById('content-wrapper');

        function typesetMath(targetEl) {
            if (window.MathJax && MathJax.typesetPromise) {
                MathJax.typesetPromise([targetEl]).catch(() => {});
            }
        }

        sections.forEach(sec => {
            const card = document.createElement('div');
            card.className = 'card';
            if (sec.id === 'sec1') card.classList.add('active');

            card.innerHTML = `
                <div class="card-header">
                    <span>${sec.title}</span>
                    <i class="fas fa-chevron-down"></i>
                </div>
                <div class="card-content">
                    ${sec.content}
                </div>
            `;

            card.querySelector('.card-header').addEventListener('click', () => {
                card.classList.toggle('active');
                typesetMath(card);
            });

            wrapper.appendChild(card);
        });

        typesetMath(wrapper);
    </script>
</body>
</html>
"""

sections_json = json.dumps(content_data)
final_html = html_template.replace('{sections_json}', sections_json)

display(HTML(final_html))


In [None]:
# @title
# Módulo 1 a 5: El Universo de lo Posible y la Teoría de la Medida
import matplotlib.pyplot as plt
import matplotlib.patches as patches
import numpy as np
import io
import base64
import json
from IPython.display import display, HTML

# ==========================================
# 1. HELPERS: FIGURA -> BASE64 (HTML)
# ==========================================

def fig_to_base64(fig):
    """Convierte una figura de Matplotlib a string Base64 para HTML."""
    buf = io.BytesIO()
    fig.savefig(buf, format='png', bbox_inches='tight', transparent=True, dpi=140)
    plt.close(fig)
    buf.seek(0)
    return base64.b64encode(buf.read()).decode('utf-8')

# ==========================================
# 2. GENERACIÓN DE GRÁFICOS (MATPLOTLIB)
# ==========================================

def crear_arbol_cilindrico():
    """Dibuja un conjunto cilíndrico en un árbol binario."""
    plt.style.use('dark_background')
    fig, ax = plt.subplots(figsize=(8, 4))
    ax.axis('off')

    def draw_branch(x, y, dx, dy, depth, is_highlighted):
        if depth == 0:
            return
        # Colores: Resaltado (fijado) vs Libre (infinito)
        color = '#3b82f6' if is_highlighted else '#475569'
        alpha = 1.0 if is_highlighted else 0.4
        lw = 2.5 if is_highlighted else 1.0

        # Rama izquierda (Cara)
        ax.plot([x, x - dx], [y, y - dy], color=color, alpha=alpha, lw=lw)
        # Rama derecha (Cruz)
        # Si estamos resaltando un camino específico (ej: Cara-Cara-Cruz), apagamos las ramas divergentes
        right_highlight = False
        left_highlight = is_highlighted

        # Hardcodear un camino específico: Izquierda, Izquierda, Derecha (H, H, T)
        if depth == 4 and is_highlighted: # Nivel 1: Izquierda (H)
            right_highlight = False
        elif depth == 3 and is_highlighted: # Nivel 2: Izquierda (H)
            right_highlight = False
        elif depth == 2 and is_highlighted: # Nivel 3: Derecha (T)
            left_highlight = False
            right_highlight = True
        elif depth == 1: # Del nivel 4 en adelante, todo es "libre"
            left_highlight = False
            right_highlight = False

        draw_branch(x - dx, y - dy, dx * 0.5, dy * 0.9, depth - 1, left_highlight)
        ax.plot([x, x + dx], [y, y - dy], color=color if right_highlight else '#475569',
                alpha=alpha if right_highlight else 0.4, lw=lw if right_highlight else 1.0)
        draw_branch(x + dx, y - dy, dx * 0.5, dy * 0.9, depth - 1, right_highlight)

    draw_branch(0, 10, 4, 2, 4, True)

    # Textos
    ax.text(0, 10.5, r'Raíz (Inicio)', color='white', ha='center', fontsize=10)
    ax.text(-5, 3, r'Base finita fijada (Conjunto Cilíndrico)', color='#3b82f6', ha='center', fontsize=10, fontweight='bold')
    ax.text(5, 3, r'Dimensiones infinitas libres', color='#94a3b8', ha='center', fontsize=10)

    return fig_to_base64(fig)

def crear_fda_continua():
    """Dibuja una FDA continua demostrando probabilidad puntual nula."""
    plt.style.use('dark_background')
    fig, ax = plt.subplots(figsize=(8, 4))

    x = np.linspace(-3, 3, 200)
    # FDA simulada (sigmoide)
    y = 1 / (1 + np.exp(-2*x))

    ax.plot(x, y, color='#a855f7', lw=3, label=r'$F_X(x)$')

    # Punto específico
    a = 0.5
    fa = 1 / (1 + np.exp(-2*a))

    # Líneas guía
    ax.vlines(a, 0, fa, colors='#e2e8f0', linestyles='dashed', alpha=0.6)
    ax.hlines(fa, -3, a, colors='#e2e8f0', linestyles='dashed', alpha=0.6)
    ax.scatter([a], [fa], color='#e2e8f0', s=60, zorder=5)

    # Anotaciones
    ax.annotate(r'$P(X=a) = \lim_{x \to a} F_X(a) - F_X(x) = 0$',
                xy=(a, fa), xytext=(a - 1.5, fa + 0.2),
                arrowprops=dict(arrowstyle="->", color='white', connectionstyle="arc3,rad=.2"),
                color='white', fontsize=11, fontweight='bold')

    ax.set_title(r'El Aplastamiento del Punto en Espacios Continuos', color='white', pad=15)
    ax.set_ylim(0, 1.1)
    ax.set_xlim(-3, 3)
    ax.axis('off')

    return fig_to_base64(fig)

def crear_disco_poincare():
    """Simula un Grafo de Cayley en un Disco de Poincaré."""
    plt.style.use('dark_background')
    fig, ax = plt.subplots(figsize=(6, 6))
    ax.axis('off')

    # Círculo límite (infinito)
    boundary = plt.Circle((0, 0), 1, color='#1e293b', ec='#3b82f6', lw=2, fill=True, alpha=0.8)
    ax.add_patch(boundary)

    # Dibujar ramas hiperbólicas (aproximación visual)
    def draw_hyperbolic_branch(x, y, angle, spread, radius, depth):
        if depth == 0:
            # Polvo de Cantor en la frontera
            ax.scatter([x], [y], color='#e2e8f0', s=2, alpha=0.8, zorder=3)
            return

        # Factor de compresión para acercarse al borde sin tocarlo
        length = (1 - radius) * 0.5
        nx = x + length * np.cos(angle)
        ny = y + length * np.sin(angle)

        ax.plot([x, nx], [y, ny], color='#818cf8', alpha=0.6, lw=depth*0.4)

        draw_hyperbolic_branch(nx, ny, angle + spread, spread * 0.6, radius + length, depth - 1)
        draw_hyperbolic_branch(nx, ny, angle - spread, spread * 0.6, radius + length, depth - 1)

    # Iniciar ramas desde el centro
    for init_angle in [np.pi/2, -np.pi/2, np.pi, 0]:
        draw_hyperbolic_branch(0, 0, init_angle, 0.8, 0, 7)

    ax.scatter([0], [0], color='#eab308', s=40, zorder=5) # Raíz
    ax.text(0, 0.05, r'Raíz', color='#eab308', ha='center', fontsize=9)
    ax.text(0, 1.05, r'$\Omega$ (Polvo en el infinito)', color='#3b82f6', ha='center', fontsize=11, fontweight='bold')

    ax.set_xlim(-1.2, 1.2)
    ax.set_ylim(-1.2, 1.2)

    return fig_to_base64(fig)

img_cilindro = crear_arbol_cilindrico()
img_fda = crear_fda_continua()
img_poincare = crear_disco_poincare()

# ==========================================
# 3. ESTRUCTURA DE CONTENIDO (HTML + MATHJAX)
# ==========================================

content_data = [
    {
        "id": "sec1",
        "title": "Módulo 1: El Universo de lo Posible (El Espacio Muestral)",
        "content": r"""
            <h4>1.1 Definiendo el Mundo: Espacios Muestrales ($\Omega$)</h4>
            <p>Antes de definir una variable aleatoria, debemos fijar el "mundo" donde ocurren los resultados. El espacio muestral $\Omega$ es el conjunto de todos los resultados posibles de un experimento aleatorio. Para entender por qué la estadística requiere herramientas matemáticas avanzadas, es útil ver cómo este espacio escala en complejidad:</p>
            <ul>
                <li><strong>Finito y discreto:</strong> El clásico lanzamiento de un dado, donde $\Omega=\{1, 2, 3, 4, 5, 6\}$. Aquí la intuición clásica (Laplace) funciona perfectamente: casos favorables sobre casos posibles.</li>
                <li><strong>Continuo:</strong> Medir una variable física, como la temperatura, donde $\Omega=\mathbb{R}$. Aquí se rompe la intuición de "contar" puntos individuales, obligándonos a pensar en intervalos.</li>
                <li><strong>Infinito no numerable:</strong> Lanzar una moneda infinitas veces. Este es el salto fundamental para la teoría avanzada.</li>
            </ul>

            <h4>1.2 El Caballo de Troya de la Probabilidad</h4>
            <p>El espacio de secuencias infinitas de monedas se denota matemáticamente como $\Omega=\{H, T\}^{\mathbb{N}}$. Esta simbología es poderosa: representa el conjunto de todas las funciones posibles que van desde los números naturales $\mathbb{N}$ (el índice de la tirada o el "tiempo") hacia el conjunto de resultados de una sola tirada $\{H, T\}$.</p>
            <p>Aunque la moneda en sí es discreta (solo Cara o Cruz), el conjunto de todas las secuencias infinitas es no numerable. Tiene exactamente la misma cardinalidad (el mismo tamaño infinito) que los números reales $\mathbb{R}$. Presentar esto desde el principio rompe la ilusión de que lo discreto es siempre simple y prepara el terreno para la teoría de la medida.</p>

            <h4>1.3 La Paradoja del Cero</h4>
            <p>Al lidiar con el infinito, la intuición cotidiana colapsa. Si la moneda es justa, la probabilidad de una secuencia específica de longitud $n$ es $(1/2)^n$. Al llevar el experimento al infinito, aplicamos el límite:</p>
            $$\lim_{n \to \infty} \left(\frac{1}{2}\right)^n = 0$$
            <p>Matemáticamente, la probabilidad de que ocurra cualquier secuencia infinita predefinida es exactamente cero. Sin embargo, al final del experimento, alguna secuencia tiene que salir. Esto nos enseña una lección vital en probabilidad continua: <strong>probabilidad cero no significa imposibilidad.</strong></p>
            <p>Es análogo a lanzar un dardo con una punta infinitamente fina hacia la recta real: la probabilidad de acertar en una coordenada exacta con infinitos decimales es cero, pero el dardo indudablemente impactará en algún punto.</p>

            <h4>1.4 El Diccionario Binario</h4>
            <p>Podemos mapear nuestro espacio abstracto $\Omega$ directamente a la recta real. Si asignamos Cara = $1$ y Cruz = $0$, cada secuencia infinita de tiradas define los decimales de un número en base binaria.</p>
            <p>Una secuencia $\omega = (1, 0, 1, 1, 0 \dots)$ se convierte, al ponerle un "cero coma" adelante, en el número real $0.10110\dots_2$. De esta forma, lanzar una moneda infinitas veces es matemáticamente equivalente a elegir un número real al azar dentro del intervalo cerrado $[0, 1]$.</p>

            <h4>1.5 El Límite y la Convergencia</h4>
            <p>Para garantizar que esta traducción binaria no "explote" hacia el infinito, demostramos su convergencia. La secuencia se expresa como la serie:</p>
            $$X = \sum_{i=1}^{\infty} \frac{\omega_i}{2^i}$$
            <p>Usamos el Criterio de Comparación del cálculo. En el escenario donde obtenemos puras Caras ($\omega_i = 1$ para todo $i$), la suma se convierte en una serie geométrica de razón $r = 1/2$. Su límite es conocido:</p>
            $$S = \frac{a}{1 - r} = \frac{1/2}{1 - 1/2} = 1$$
            <p>Como en cualquier secuencia real $\omega_i \le 1$, cada término de nuestra suma es menor o igual al de la serie geométrica convergente. Por lo tanto, la serie está acotada y obligada a converger a un valor exacto dentro de $[0, 1]$.</p>
        """
    },
    {
        "id": "sec2",
        "title": "Módulo 2: Domando el Infinito (Topología y Paradojas)",
        "content": r"""
            <h4>2.1 Los Ladrillos de la Información (Conjuntos Cilíndricos)</h4>
            <p>Como es imposible asignarle probabilidad a una secuencia infinita específica (porque da cero), necesitamos "ladrillos" de información finita. Estos son los <strong>conjuntos cilíndricos</strong>.</p>
            <p>Geométricamente, actúan como un cilindro tridimensional: fijamos una "base" en un número finito de dimensiones (ejemplo: "las primeras tres tiradas son $H, H, T$") y dejamos que las infinitas dimensiones restantes (las tiradas desde la 4 hasta el infinito) sean completamente libres. A este evento base sí podemos calcularle una probabilidad clásica ($1/2 \times 1/2 \times 1/2 = 1/8$).</p>

            <div class="img-container">
                <img src="data:image/png;base64,""" + img_cilindro + r"""" alt="Conjunto Cilíndrico" style="width:100%; max-width:600px; border-radius:12px; border:1px solid rgba(255,255,255,0.1);">
                <p class="caption">Fig 1. Representación de un conjunto cilíndrico fijando un camino finito inicial.</p>
            </div>

            <h4>2.2 Monstruos Matemáticos</h4>
            <p>¿Por qué no le asignamos probabilidad a cualquier subconjunto de $\Omega$? Porque al operar con el infinito, la libertad total genera paradojas destructivas que rompen las leyes de conservación.</p>
            <ul>
                <li><strong>El Conjunto de Vitali (1D):</strong> Un conjunto de números reales construido mediante el Axioma de Elección al que es lógicamente imposible asignarle una longitud sin llegar a la contradicción de que $0 = 1$ o $\infty = 1$.</li>
                <li><strong>La Paradoja de Banach-Tarski (3D):</strong> Demuestra que es posible cortar una esfera sólida en 5 piezas topológicamente complejas y rearmarlas mediante rotaciones para obtener dos esferas idénticas a la original.</li>
            </ul>
            <div class="note-box">
                Estos conjuntos "no medibles" destruirían la axiomática de la probabilidad si los admitiéramos en nuestros cálculos.
            </div>

            <h4>2.3 La Aduana de los Eventos ($\sigma$-álgebra)</h4>
            <p>Para protegernos de estas paradojas, creamos una $\sigma$-álgebra (denotada $\mathcal{F}$), un catálogo estricto de eventos a los que sí les permitiremos calcular su probabilidad. Debe cumplir tres reglas:</p>
            <ol>
                <li><strong>El evento seguro:</strong> $\Omega \in \mathcal{F}$.</li>
                <li><strong>Cerrado bajo complementos:</strong> Si un evento $A \in \mathcal{F}$, su opuesto $A^c \in \mathcal{F}$.</li>
                <li><strong>$\sigma$-aditividad:</strong> Si tenemos una colección infinita numerable de eventos $A_1, A_2 \dots \in \mathcal{F}$, su unión infinita $\bigcup_{i=1}^{\infty} A_i$ también pertenece a $\mathcal{F}$.</li>
            </ol>
            <p>En nuestro experimento de monedas, $\mathcal{F}$ es la $\sigma$-álgebra más pequeña que contiene a todos los conjuntos cilíndricos.</p>

            <h4>2.4 El Espacio Medible</h4>
            <p>Con $\Omega$ y $\mathcal{F}$ definidos, conformamos el par $(\Omega, \mathcal{F})$, llamado Espacio Medible. Tenemos el universo de todos los resultados posibles y la aduana que filtra exactamente qué preguntas (eventos) son válidas para la matemática.</p>
        """
    },
    {
        "id": "sec3",
        "title": "Módulo 3: El Nacimiento de la Probabilidad Moderna",
        "content": r"""
            <h4>3.1 Teoría de la Medida</h4>
            <p>El tercer pilar es la función de medida $\mu$, completando la terna $(\Omega, \mathcal{F}, \mu)$. La Teoría de la Medida (Borel, Lebesgue) formaliza cómo asignar "tamaño" a objetos abstractos. Esto permitió el salto de la integral de Riemann (que particiona el dominio y falla con funciones discontinuas) a la Integral de Lebesgue (que particiona la imagen), la cual es la base ineludible para calcular la esperanza matemática en estadística avanzada.</p>

            <h4>3.2 Los Axiomas de Kolmogorov</h4>
            <p>En 1933, Andrey Kolmogorov formalizó que la probabilidad no es más que Teoría de la Medida con una restricción específica. Una medida de probabilidad $P$ es una medida $\mu$ donde el "volumen" total del espacio muestral está normalizado a uno:</p>
            $$P(\Omega) = 1$$
            <p>Así, la probabilidad de un evento $A$ es simplemente la porción de volumen que ocupa dentro del espacio total medible.</p>

            <h4>3.3 El Aplastamiento del Punto</h4>
            <p>Sabiendo esto, podemos demostrar formalmente por qué la probabilidad de un punto exacto en un espacio continuo es cero, usando tres enfoques:</p>
            <ul>
                <li><strong>Por el absurdo (Axiomas):</strong> Si $P(\{x\}) = \epsilon > 0$, la suma de infinitos puntos idénticos daría un volumen infinito, violando la regla $P(\Omega) = 1$.</li>
                <li><strong>Topológico (Continuidad de la medida):</strong> Un punto es la intersección infinita de intervalos centrados en $x$, $A_n = (x - 1/n, x + 1/n)$. Su probabilidad es el límite de la longitud del intervalo: $\lim_{n \to \infty} 2/n = 0$.</li>
                <li><strong>Analítico (FDA):</strong> En una distribución continua, la probabilidad puntual es la diferencia de la Función de Distribución Acumulada $F_X$: $P(X=a) = F_X(a) - \lim_{x \to a^-} F_X(x)$. Como $F_X$ es una función continua por definición, esa diferencia es obligatoriamente $0$.</li>
            </ul>

            <div class="img-container">
                <img src="data:image/png;base64,""" + img_fda + r"""" alt="Probabilidad de un punto en FDA continua" style="width:100%; max-width:600px; border-radius:12px; border:1px solid rgba(255,255,255,0.1);">
                <p class="caption">Fig 2. Una función continua no tiene saltos, garantizando que el "área" de un punto es nula.</p>
            </div>
        """
    },
    {
        "id": "sec4",
        "title": "Módulo 4: El Puente hacia la Estadística Aplicada",
        "content": r"""
            <h4>4.1 El Gran Mito: La Variable Aleatoria</h4>
            <p>El espacio abstracto $\Omega$ es incómodo para el cálculo y el álgebra lineal. Aquí entra la <strong>Variable Aleatoria ($X$)</strong>, que no es ni aleatoria ni una variable. Es una función determinista que mapea resultados abstractos a números reales: $X: \Omega \to \mathbb{R}$.</p>

            <h4>4.2 La Pre-imagen y la Función Medible</h4>
            <p>No cualquier función puede ser una variable aleatoria. Si nos preguntamos por la probabilidad de que $X \le 5$, la "pre-imagen" de esa condición (el camino de vuelta hacia $\Omega$) debe devolvernos un conjunto que haya pasado la aduana de eventos:</p>
            $$X^{-1}((-\infty, x]) \in \mathcal{F}$$
            <p>A esto se le llama ser una <strong>función medible</strong>. Es la garantía estructural de que nuestra variable aleatoria nunca nos arrojará conjuntos monstruosos sin solución.</p>

            <h4>4.3 El Fin de la Abstracción</h4>
            <p>Una vez comprobada la medibilidad, la variable $X$ "arrastra" la probabilidad desde el mundo abstracto hacia $\mathbb{R}$. A partir de este momento, podemos dejar de mirar a $\Omega$ y trabajar puramente con la Función de Distribución Acumulada:</p>
            $$F_X(x) = P(X \le x)$$
            <p>Todo el edificio estadístico aplicado (modelos predictivos, distribuciones, varianzas) se construye sobre esta función, con la seguridad matemática de que sus cimientos abstractos son inquebrantables.</p>
        """
    },
    {
        "id": "sec5",
        "title": "Módulo 5: Anexo Avanzado (Conexiones Geométricas y Algebraicas)",
        "content": r"""
            <h4>5.1 El Álgebra del Azar (Grafo de Cayley)</h4>
            <p>Podemos entender las tiradas de moneda desde el álgebra abstracta. Forman un Monoide Libre con dos generadores (Cara y Cruz). No hay elementos inversos (el tiempo no retrocede). Si dibujamos los estados de este monoide, donde cada tirada bifurca el camino, el resultado geométrico es un árbol binario infinito exacto: su Grafo de Cayley.</p>

            <h4>5.2 Topología de Fronteras</h4>
            <p>Las secuencias infinitas no viven en los nodos de este grafo (que representan historiales finitos), sino en su límite inalcanzable. Nuestro espacio $\Omega$ es la frontera topológica del árbol, formando un fractal conocido como el <strong>Espacio de Cantor</strong>. Los conjuntos cilíndricos que usamos para medir equivalen topológicamente a tomar un nodo del grafo y seleccionar todo el subárbol infinito que cuelga de él.</p>

            <h4>5.3 La Forma del Infinito (Geometría Hiperbólica)</h4>
            <p>El crecimiento exponencial de nodos ($2^n$) hace imposible dibujar este árbol en un plano euclidiano sin superponer ramas. El único espacio matemático donde este Grafo de Cayley cabe perfectamente es la geometría hiperbólica.</p>

            <div class="img-container">
                <img src="data:image/png;base64,""" + img_poincare + r"""" alt="Disco de Poincaré" style="width:100%; max-width:500px; border-radius:12px; border:1px solid rgba(255,255,255,0.1);">
                <p class="caption">Fig 3. Grafo de Cayley incrustado en un Disco de Poincaré (geometría hiperbólica).</p>
            </div>

            <p>Si introducimos el árbol en un <strong>Disco de Poincaré</strong>, la raíz está en el centro y las infinitas ramas se extienden hacia el borde. Para la geometría hiperbólica, todas las ramas miden lo mismo, y nuestro espacio muestral $\Omega$ reside distribuido como polvo sobre el límite circular en el infinito. Calcular una probabilidad es, geométricamente, medir el tamaño de la sombra que proyecta un evento sobre los confines de este universo curvo.</p>
        """
    }
]

# ==========================================
# 4. PLANTILLA HTML/CSS/JS (RENDERIZADO FINAL)
# ==========================================

html_template = """
<!DOCTYPE html>
<html lang="es">
<head>
    <meta charset="UTF-8">
    <link href="https://fonts.googleapis.com/css2?family=Inter:wght@300;400;600;800&display=swap" rel="stylesheet">
    <link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.0/css/all.min.css" rel="stylesheet">
    <script>
    MathJax = {
      tex: {
        inlineMath: [['$', '$'], ['\\\\(', '\\\\)']],
        displayMath: [['$$', '$$'], ['\\\\[', '\\\\]']]
      },
      svg: { fontCache: 'global' }
    };
    </script>
    <script id="MathJax-script" async src="https://cdn.jsdelivr.net/npm/mathjax@3/es5/tex-mml-chtml.js"></script>

    <style>
        :root {
            --bg-body: #0f172a; --bg-card: #1e293b; --text-main: #f8fafc;
            --text-muted: #94a3b8; --accent: #3b82f6; --accent-glow: rgba(59, 130, 246, 0.3);
            --border: rgba(255,255,255,0.08);
        }
        body {
            font-family: 'Inter', sans-serif; background-color: var(--bg-body);
            color: var(--text-main); margin: 0; padding: 20px; line-height: 1.6;
        }
        .container { max-width: 960px; margin: 0 auto; }
        h1 {
            background: linear-gradient(90deg, #38bdf8, #818cf8);
            -webkit-background-clip: text; -webkit-text-fill-color: transparent;
            font-size: 2.2rem; text-align: center; margin-bottom: 10px; letter-spacing: -1px;
        }
        .subtitle { text-align: center; color: var(--text-muted); margin-bottom: 40px; }
        .card {
            background: var(--bg-card); border: 1px solid var(--border);
            border-radius: 16px; margin-bottom: 20px; overflow: hidden; transition: all 0.3s ease;
        }
        .card-header {
            padding: 20px 25px; cursor: pointer; display: flex; justify-content: space-between;
            align-items: center; background: rgba(255,255,255,0.02); font-weight: 600; font-size: 1.1rem;
        }
        .card-header:hover { background: rgba(255,255,255,0.05); }
        .card-header i { color: var(--text-muted); transition: transform 0.3s; }
        .card.active .card-header i { transform: rotate(180deg); color: var(--accent); }
        .card.active { border-color: var(--accent); box-shadow: 0 0 15px var(--accent-glow); }
        .card-content {
            max-height: 0; overflow: hidden; transition: max-height 0.8s cubic-bezier(0.4, 0, 0.2, 1);
            padding: 0 25px;
        }
        .card.active .card-content { max-height: 20000px; padding-bottom: 25px; }
        p, li { margin-bottom: 1rem; color: #cbd5e1; }
        strong { color: var(--accent); }
        .definition-box, .note-box {
            background: rgba(59, 130, 246, 0.1); border-left: 4px solid var(--accent);
            padding: 15px; margin: 15px 0; border-radius: 0 8px 8px 0;
        }
        .img-container { text-align: center; margin-top: 14px; margin-bottom: 20px; }
        .caption { font-size: 0.85rem; color: var(--text-muted); margin-top: 8px; }
        footer {
            text-align: center; margin-top: 50px; color: var(--text-muted);
            font-size: 0.85rem; border-top: 1px solid var(--border); padding-top: 20px;
        }
    </style>
</head>
<body>
    <div class="container">
        <h1>El Universo de lo Posible</h1>
        <div class="subtitle">Teoría de la Medida, Infinito y Geometría del Azar</div>
        <div id="content-wrapper"></div>
        <footer>Material elaborado por el profesor Sergio Gevatschnaider</footer>
    </div>

    <script>
        const sections = {sections_json};
        const wrapper = document.getElementById('content-wrapper');

        function typesetMath(targetEl) {
            if (window.MathJax && MathJax.typesetPromise) {
                MathJax.typesetPromise([targetEl]).catch(() => {});
            }
        }

        sections.forEach((sec, index) => {
            const card = document.createElement('div');
            card.className = 'card';
            // Abrir la primera pestaña por defecto
            if (index === 0) card.classList.add('active');

            card.innerHTML = `
                <div class="card-header">
                    <span>${sec.title}</span>
                    <i class="fas fa-chevron-down"></i>
                </div>
                <div class="card-content">
                    ${sec.content}
                </div>
            `;

            card.querySelector('.card-header').addEventListener('click', () => {
                card.classList.toggle('active');
                typesetMath(card);
            });

            wrapper.appendChild(card);
        });

        typesetMath(wrapper);
    </script>
</body>
</html>
"""

sections_json = json.dumps(content_data)
final_html = html_template.replace('{sections_json}', sections_json)

display(HTML(final_html))

In [None]:

# @title 2. Tipos de Variables y Familias Paramétricas (Colab interactivo + gráficos)
from IPython.display import display, HTML
import html
import io, base64
import numpy as np
import matplotlib.pyplot as plt

# =========================
# 0) (Opcional) ocultar código de ESTA celda (deja solo el resultado)
# =========================
display(HTML("<style>div.input{display:none;}</style>"))

# =========================
# 1) Utilidades para gráficos → Base64
# =========================
def fig_to_base64(fig, dpi=140):
    buf = io.BytesIO()
    fig.savefig(buf, format="png", bbox_inches="tight", transparent=True, dpi=dpi)
    plt.close(fig)
    buf.seek(0)
    return base64.b64encode(buf.read()).decode("utf-8")

# =========================
# 2) Gráficos ejemplo (didácticos)
# =========================
def plot_pmf_binomial(n=10, p=0.4):
    xs = np.arange(0, n+1)

    # pmf binomial (sin scipy)
    from math import comb
    pmf = np.array([comb(n, k) * (p**k) * ((1-p)**(n-k)) for k in xs])

    fig, ax = plt.subplots(figsize=(7.5, 3.6))
    ax.bar(xs, pmf)
    ax.set_title("Ejemplo discreto: PMF Binomial (n=10, p=0.4)")
    ax.set_xlabel("k")
    ax.set_ylabel("P(X=k)")
    ax.set_xticks(xs)
    ax.grid(True, alpha=0.25)
    return fig_to_base64(fig)

def plot_pdf_cdf_exponential(lam=1.2):
    x = np.linspace(0, 6, 600)
    pdf = lam * np.exp(-lam * x)
    cdf = 1 - np.exp(-lam * x)

    # PDF
    fig1, ax1 = plt.subplots(figsize=(7.5, 3.6))
    ax1.plot(x, pdf, linewidth=2.2)
    ax1.set_title("Ejemplo continuo: Densidad Exponencial (lambda=1.2)")
    ax1.set_xlabel("x")
    ax1.set_ylabel("f(x)")
    ax1.grid(True, alpha=0.25)
    b64_pdf = fig_to_base64(fig1)

    # CDF
    fig2, ax2 = plt.subplots(figsize=(7.5, 3.6))
    ax2.plot(x, cdf, linewidth=2.2)
    ax2.set_title("Ejemplo continuo: CDF Exponencial (lambda=1.2)")
    ax2.set_xlabel("x")
    ax2.set_ylabel("F(x)")
    ax2.set_ylim(-0.02, 1.02)
    ax2.grid(True, alpha=0.25)
    b64_cdf = fig_to_base64(fig2)

    return b64_pdf, b64_cdf

def normal_cdf_approx(x):
    # aproximación numérica de CDF normal estándar por erf (sin scipy)
    # Phi(x) = 0.5*(1 + erf(x/sqrt(2)))
    from math import erf, sqrt
    return 0.5 * (1.0 + np.vectorize(erf)(x / np.sqrt(2.0)))

def plot_mixed_cdf(p_atom=0.3):
    x = np.linspace(-4, 4, 900)
    # Mixta: masa en 0 con prob p_atom + (1-p_atom)*Normal(0,1)
    # CDF: salto en 0 de tamaño p_atom
    Phi = normal_cdf_approx(x)
    F = (1 - p_atom) * Phi + p_atom * (x >= 0).astype(float)

    fig, ax = plt.subplots(figsize=(7.5, 3.6))
    ax.plot(x, F, linewidth=2.2)
    ax.axvline(0, linestyle="--", alpha=0.6)
    ax.set_title(f"Ejemplo mixto: CDF con salto en 0 (p={p_atom}) + Normal(0,1)")
    ax.set_xlabel("x")
    ax.set_ylabel("F(x)")
    ax.set_ylim(-0.02, 1.02)
    ax.grid(True, alpha=0.25)

    # marcar el salto
    F_left = (1 - p_atom) * normal_cdf_approx(np.array([-1e-6]))[0] + p_atom * 0.0
    F_right = (1 - p_atom) * normal_cdf_approx(np.array([+1e-6]))[0] + p_atom * 1.0
    ax.scatter([0, 0], [F_left, F_right])
    return fig_to_base64(fig)

def sample_cantor(n=30000, steps=18, seed=7):
    # Variable aleatoria con distribución de Cantor (singular continua)
    # X = sum_{k>=1} (2 * B_k) / 3^k, B_k ~ Bernoulli(1/2)
    rng = np.random.default_rng(seed)
    bits = rng.integers(0, 2, size=(n, steps))
    ks = np.arange(1, steps + 1)
    weights = (2.0 / (3.0 ** ks))
    return (bits * weights).sum(axis=1)

def plot_singular_cantor_cdf():
    x = sample_cantor(n=25000, steps=18, seed=7)
    x.sort()
    y = np.linspace(0, 1, len(x), endpoint=True)

    fig, ax = plt.subplots(figsize=(7.5, 3.6))
    # ECDF (aprox) de una distribución singular continua
    ax.plot(x, y, linewidth=2.0)
    ax.set_title("Ejemplo singular continuo: ECDF de la distribución de Cantor (aprox.)")
    ax.set_xlabel("x")
    ax.set_ylabel("F(x)")
    ax.set_xlim(-0.02, 1.02)
    ax.set_ylim(-0.02, 1.02)
    ax.grid(True, alpha=0.25)
    return fig_to_base64(fig)

# Generar imágenes (Base64)
img_pmf_binom = plot_pmf_binomial(n=10, p=0.4)
img_pdf_exp, img_cdf_exp = plot_pdf_cdf_exponential(lam=1.2)
img_cdf_mixed = plot_mixed_cdf(p_atom=0.3)
img_cdf_cantor = plot_singular_cantor_cdf()

# =========================
# 3) TEXTO COMPLETO (SIN OMISIONES) + inserción de gráficos
# =========================
# Nota: el texto se mantiene completo; sólo se lo “MathJax-iza” para que renderice bien.

texto_html = r"""
<h2 style="margin-top:0.4rem;">2. Tipos de Variables y Familias Paramétricas</h2>

<h3>Clasificación por medida</h3>

<p>
La clasificación “por medida” no es un adorno teórico ni una preferencia formalista: es la manera más transparente y profunda de precisar qué significa que una variable aleatoria “tenga una distribución”. En lugar de pensar únicamente en “tablas” o “curvas”, se fija el objeto primario: una medida de probabilidad \(\mu\) definida sobre \((\mathbb{R},\mathcal{B}(\mathbb{R}))\). Toda variable aleatoria real \(X\) induce una medida \(\mu_X\) por \(\mu_X(A)=\mathbb{P}(X\in A)\) para todo conjunto boreliano \(A\). Desde este punto de vista unificador, la función de masa, la densidad, las mezclas y los casos singulares no son categorías aisladas, sino representaciones de \(\mu_X\) cuando la medida pertenece a clases particulares.
</p>

<h4>Discretas: caracterizadas por la función de masa y soporte numerable</h4>

<p>
Una variable aleatoria \(X\) es discreta cuando su soporte es numerable, finito o contablemente infinito. Lo esencial no es “que pueda hacerse una tabla”, sino que la medida \(\mu_X\) es atómica: existe una colección numerable de puntos \(\{x_i\}\) con \(\mu_X(\{x_i\})>0\) y toda la masa está concentrada en esos átomos. La distribución queda completamente determinada por la función de masa de probabilidad
</p>

\[
p_X(x)=\mathbb{P}(X=x)\ge 0,
\qquad
\sum_{x\in \mathrm{supp}(X)} p_X(x)=1.
\]

<p>
La función de distribución acumulada \(F_X(x)=\mathbb{P}(X\le x)\) es entonces una suma acumulada:
</p>

\[
F_X(x)=\sum_{t\le x} p_X(t),
\]

<p>
y por eso es escalonada: en cada punto del soporte aparece un salto cuyo tamaño coincide con \(p_X(x_i)\). Conceptualmente, la probabilidad “vive” en puntos, y la acumulación se realiza por sumas de masas puntuales.
</p>

<div class="img-row">
  <div class="img-card">
    <img src="data:image/png;base64,""" + img_pmf_binom + r"""" alt="PMF Binomial" />
    <div class="img-cap">Ejemplo discreto: una PMF como masas en puntos (Binomial).</div>
  </div>
</div>

<h4>Continuas: existencia de densidad tal que la CDF es su integral</h4>

<p>
Una variable aleatoria es absolutamente continua cuando su medida \(\mu_X\) es absolutamente continua respecto a la medida de Lebesgue, es decir, \(\mu_X\ll \lambda\). Esta relación implica, vía Radon–Nikodým, la existencia de una densidad \(f_X\) tal que para todo boreliano \(A\),
</p>

\[
\mu_X(A)=\int_A f_X(x)\,dx.
\]

<p>
En particular,
</p>

\[
f_X(x)\ge 0,
\qquad
\int_{-\infty}^{\infty} f_X(x)\,dx=1,
\]

<p>
y para cualquier intervalo \([a,b]\),
</p>

\[
\mathbb{P}(a<X<b)=\int_a^b f_X(x)\,dx.
\]

<p>
La CDF es la integral acumulada de la densidad:
</p>

\[
F_X(x)=\int_{-\infty}^{x} f_X(t)\,dt,
\]

<p>
y donde \(F_X\) es derivable se cumple \(f_X(x)=F_X'(x)\). La lectura conceptual es directa: la probabilidad se mide por áreas bajo la curva, y los puntos individuales tienen probabilidad cero porque no aportan “longitud” al integrar.
</p>

<div class="img-row">
  <div class="img-card">
    <img src="data:image/png;base64,""" + img_pdf_exp + r"""" alt="PDF Exponencial" />
    <div class="img-cap">Ejemplo continuo: densidad (áreas bajo la curva).</div>
  </div>
  <div class="img-card">
    <img src="data:image/png;base64,""" + img_cdf_exp + r"""" alt="CDF Exponencial" />
    <div class="img-cap">Ejemplo continuo: CDF como integral acumulada.</div>
  </div>
</div>

<h4>Mixtas y singulares: unificación mediante teoría de medida</h4>

<p>
El lenguaje de medidas elimina el falso dilema “pmf o pdf” y permite describir sin fricción los casos intermedios.
</p>

<p>
Una distribución mixta aparece cuando \(\mu_X\) tiene simultáneamente una parte atómica y una parte absolutamente continua. En términos de la CDF, puede escribirse como combinación convexa:
</p>

\[
F(x)=p\,F_d(x)+(1-p)\,F_{ac}(x),
\qquad
0\le p\le 1,
\]

<p>
donde \(F_d\) es una CDF discreta escalonada y \(F_{ac}\) proviene de una densidad y es suave. Este tipo de modelo es natural cuando hay censura, saturación, umbrales o redondeo estructural: una fracción de observaciones cae exactamente en un valor fijo mientras el resto varía de manera continua.
</p>

<div class="img-row">
  <div class="img-card">
    <img src="data:image/png;base64,""" + img_cdf_mixed + r"""" alt="CDF Mixta" />
    <div class="img-cap">Ejemplo mixto: CDF con salto (masa puntual) + parte continua.</div>
  </div>
</div>

<p>
La distribución singular continua completa el panorama: la CDF es continua, por lo que no existen átomos y \(\mathbb{P}(X=x)=0\) para todo \(x\), pero la medida no es absolutamente continua respecto a Lebesgue; no existe densidad integrable que represente \(\mu_X\). La probabilidad se concentra en conjuntos de medida de Lebesgue cero: es continua pero “polvorienta” desde el punto de vista geométrico.
</p>

<p>
El mensaje unificador es que toda medida de probabilidad sobre \(\mathbb{R}\) admite la descomposición de Lebesgue:
</p>

\[
\mu_X=\mu_d+\mu_{ac}+\mu_s,
\]

<p>
donde \(\mu_d\) es la parte discreta atómica, \(\mu_{ac}\) la parte absolutamente continua (representable por densidad) y \(\mu_s\) la parte singular continua. Lo discreto puro, lo continuo puro y lo mixto son simplemente casos particulares en los que una o más de estas componentes se anulan.
</p>

<div class="img-row">
  <div class="img-card">
    <img src="data:image/png;base64,""" + img_cdf_cantor + r"""" alt="Singular continua (Cantor)" />
    <div class="img-cap">Ejemplo singular continuo: CDF continua sin densidad (aprox. por ECDF de Cantor).</div>
  </div>
</div>

<h3>Catálogo de familias</h3>

<p>
Una familia paramétrica es un conjunto \(\{\mathbb{P}_\theta:\theta\in\Theta\}\) de distribuciones que comparten una forma funcional y están indexadas por un parámetro (o vector de parámetros) \(\theta\). Dentro del modelo, \(\theta\) no es aleatorio: es una constante que selecciona un miembro específico de la familia. En inferencia, \(\theta\) es desconocido y se estima con datos; en modelado, se interpreta según el mecanismo generativo. Esta distinción separa con claridad la aleatoriedad del fenómeno de la incertidumbre epistémica sobre parámetros.
</p>

<p>
La familia Bernoulli es la unidad mínima de aleatoriedad discreta. Tiene soporte \(\{0,1\}\), parámetro \(p\in(0,1)\), y se define por \(\mathbb{P}(X=1)=p\), \(\mathbb{P}(X=0)=1-p\). Su pmf admite la forma compacta
</p>

\[
\mathbb{P}(X=x)=p^x(1-p)^{1-x},\qquad x\in\{0,1\}.
\]

<p>
Sus momentos son \(\mathbb{E}[X]=p\) y \(\mathrm{Var}(X)=p(1-p)\). Es el modelo natural para eventos dicotómicos y el ladrillo básico de gran parte del modelado de respuestas binarias.
</p>

<p>
La familia Binomial \(X\sim \mathrm{Bin}(n,p)\) modela el número de éxitos en \(n\) ensayos independientes con probabilidad constante \(p\). Su soporte es \(\{0,1,\dots,n\}\) y su pmf es
</p>

\[
\mathbb{P}(X=x)=\binom{n}{x}p^x(1-p)^{n-x},\qquad x=0,\dots,n.
\]

<p>
Cumple \(\mathbb{E}[X]=np\) y \(\mathrm{Var}(X)=np(1-p)\). Su contenido estructural reside en la independencia y en la invariancia de \(p\) a lo largo de ensayos.
</p>

<p>
La familia Poisson \(X\sim \mathrm{Poisson}(\lambda)\), con \(\lambda>0\), tiene soporte \(\{0,1,2,\dots\}\) y pmf
</p>

\[
\mathbb{P}(X=k)=e^{-\lambda}\frac{\lambda^k}{k!},\qquad k=0,1,2,\dots
\]

<p>
Su rasgo distintivo es la equidispersión \(\mathbb{E}[X]=\mathrm{Var}(X)=\lambda\). Se interpreta como un modelo de conteos en tiempo o espacio bajo eventos raros aproximadamente independientes con tasa estable. Además conecta con la Binomial como aproximación asintótica cuando \(n\) es grande, \(p\) pequeño y \(np\) se mantiene alrededor de \(\lambda\).
</p>

<p>
La familia Exponencial \(X\sim \mathrm{Exp}(\lambda)\), con \(\lambda>0\), vive en \([0,\infty)\) y tiene densidad
</p>

\[
f(x)=\lambda e^{-\lambda x},\qquad x\ge 0,
\]

<p>
con CDF
</p>

\[
F(x)=1-e^{-\lambda x},\qquad x\ge 0.
\]

<p>
Su propiedad estructural clave es la falta de memoria:
</p>

\[
\mathbb{P}(X>s+t\mid X>s)=\mathbb{P}(X>t),
\]

<p>
lo que la vuelve el modelo canónico de tiempos de espera con tasa constante y el punto de partida natural en fiabilidad y supervivencia.
</p>

<p>
La familia Normal \(X\sim \mathcal{N}(\mu,\sigma^2)\) tiene densidad
</p>

\[
f(x)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\!\left(-\frac{(x-\mu)^2}{2\sigma^2}\right).
\]

<p>
Su centralidad se apoya en tres pilares: su papel límite para sumas de muchos efectos pequeños tras centrar y escalar; su estabilidad algebraica bajo sumas de variables normales independientes; y su tractabilidad analítica, que la convierte en base natural de modelos lineales gaussianos y de aproximaciones ampliamente usadas.
</p>

<p>
La familia \(t\) de Student \(t_\nu\), con \(\nu>0\) grados de libertad, es simétrica y presenta colas más pesadas que la Normal. Su densidad es
</p>

\[
f(x;\nu)=\frac{\Gamma\left(\frac{\nu+1}{2}\right)}{\sqrt{\nu\pi}\,\Gamma\left(\frac{\nu}{2}\right)}
\left(1+\frac{x^2}{\nu}\right)^{-\frac{\nu+1}{2}}.
\]

<p>
Se interpreta como \(Z/\sqrt{U/\nu}\), donde \(Z\) es normal estándar y \(U\) es \(\chi^2_\nu\) independiente, lo que explica su aparición natural cuando la varianza es desconocida y se reemplaza por una estimación aleatoria. Para \(\nu>2\), \(\mathrm{Var}(X)=\nu/(\nu-2)\); para \(\nu\le 2\), la varianza es infinita. Además, \(t_\nu\to \mathcal{N}(0,1)\) cuando \(\nu\to\infty\), ofreciendo una transición conceptual clara desde colas pesadas a comportamiento aproximadamente gaussiano a medida que aumenta la información efectiva sobre la escala.
</p>

<p><strong>Bibliografía:</strong> Devore (Catálogo), Wasserman (Visión compacta), Kenett–Zacks (Python).</p>
"""

# =========================
# 4) UI HTML (Colab) + MathJax (re-typeset)
# =========================
CONFIG = {
    "main_title": "Fundamentos de Variables Aleatorias",
    "subtitle": "Clasificación por medida, componentes de Lebesgue y familias paramétricas",
    "footer_text": "Material elaborado por el profesor Sergio Gevatschnaider"
}

full_html = f"""
<!DOCTYPE html>
<html lang="es">
<head>
<meta charset="UTF-8">
<link href="https://fonts.googleapis.com/css2?family=Inter:wght@300;400;600;800&family=JetBrains+Mono:wght@400&display=swap" rel="stylesheet">
<link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.0/css/all.min.css" rel="stylesheet">

<script>
MathJax = {{
  tex: {{
    inlineMath: [['$', '$'], ['\\\\(', '\\\\)']],
    displayMath: [['$$', '$$'], ['\\\\[', '\\\\]']]
  }},
  svg: {{ fontCache: 'global' }}
}};
</script>
<script id="MathJax-script" async src="https://cdn.jsdelivr.net/npm/mathjax@3/es5/tex-mml-chtml.js"></script>

<style>
  :root {{
    --bg: #0f172a;
    --card: rgba(30, 41, 59, 0.78);
    --border: rgba(255,255,255,0.08);
    --text: #f8fafc;
    --muted: #94a3b8;
    --accent: #3b82f6;
    --accent2: #a855f7;
    --shadow: rgba(0,0,0,0.25);
  }}

  body {{
    margin: 0;
    padding: 28px 18px;
    background: radial-gradient(1200px 700px at 20% 5%, rgba(59,130,246,0.20), transparent 60%),
                radial-gradient(900px 600px at 85% 20%, rgba(168,85,247,0.18), transparent 55%),
                var(--bg);
    color: var(--text);
    font-family: Inter, sans-serif;
    line-height: 1.75;
  }}

  .wrap {{
    max-width: 980px;
    margin: 0 auto;
  }}

  .hero {{
    padding: 28px 26px;
    border: 1px solid var(--border);
    border-radius: 20px;
    background: rgba(255,255,255,0.03);
    box-shadow: 0 18px 40px var(--shadow);
    backdrop-filter: blur(10px);
    text-align: center;
  }}

  h1 {{
    margin: 0 0 8px 0;
    font-size: clamp(1.9rem, 3.6vw, 2.6rem);
    letter-spacing: -0.8px;
    background: linear-gradient(90deg, #38bdf8, #818cf8, #a855f7);
    -webkit-background-clip: text;
    -webkit-text-fill-color: transparent;
  }}

  .sub {{
    color: var(--muted);
    font-weight: 300;
    font-size: 1.05rem;
  }}

  .card {{
    margin-top: 18px;
    border: 1px solid var(--border);
    border-radius: 18px;
    background: var(--card);
    overflow: hidden;
    box-shadow: 0 10px 22px var(--shadow);
  }}

  .card-header {{
    padding: 16px 18px;
    display: flex;
    align-items: center;
    justify-content: space-between;
    cursor: pointer;
    user-select: none;
    background: linear-gradient(90deg, rgba(255,255,255,0.04), transparent);
    font-weight: 700;
  }}

  .card-header .left {{
    display: flex;
    align-items: center;
    gap: 10px;
  }}

  .pill {{
    width: 30px;
    height: 30px;
    border-radius: 10px;
    display: grid;
    place-items: center;
    background: rgba(59,130,246,0.20);
    border: 1px solid rgba(59,130,246,0.35);
    color: #93c5fd;
    font-weight: 800;
    font-size: 0.95rem;
  }}

  .chev {{
    color: var(--muted);
    transition: transform .25s ease, color .25s ease;
  }}

  .card.active .chev {{
    transform: rotate(180deg);
    color: var(--accent);
  }}

  .card-content {{
    max-height: 0;
    overflow: hidden;
    transition: max-height .9s cubic-bezier(0.4,0,0.2,1);
  }}

  .card.active .card-content {{
    max-height: 200000px;
  }}

  .inner {{
    padding: 18px 22px 22px 22px;
    color: #cbd5e1;
    font-size: 1.03rem;
  }}

  .inner h2, .inner h3, .inner h4 {{
    color: #e2e8f0;
  }}

  .inner h3 {{
    margin-top: 1.2rem;
    border-left: 4px solid rgba(59,130,246,0.55);
    padding-left: 10px;
  }}

  .inner h4 {{
    margin-top: 1.1rem;
    color: #e9d5ff;
  }}

  .img-row {{
    margin: 14px 0 6px 0;
    display: grid;
    gap: 14px;
    grid-template-columns: repeat(auto-fit, minmax(260px, 1fr));
  }}

  .img-card {{
    border: 1px solid var(--border);
    border-radius: 14px;
    background: rgba(15,23,42,0.35);
    overflow: hidden;
  }}

  .img-card img {{
    width: 100%;
    display: block;
  }}

  .img-cap {{
    padding: 10px 12px;
    font-size: 0.9rem;
    color: var(--muted);
    border-top: 1px solid var(--border);
  }}

  footer {{
    margin-top: 20px;
    text-align: center;
    color: var(--muted);
    font-size: 0.9rem;
    padding: 12px 0 6px 0;
  }}

  /* MathJax sizing */
  mjx-container {{
    font-size: 112% !important;
    color: #e2e8f0 !important;
  }}
</style>
</head>
<body>
  <div class="wrap">
    <div class="hero">
      <h1>{html.escape(CONFIG["main_title"])}</h1>
      <div class="sub">{html.escape(CONFIG["subtitle"])}</div>
    </div>

    <div class="card active" id="card-main">
      <div class="card-header" id="hdr-main">
        <div class="left">
          <div class="pill">2</div>
          <div>Tipos de Variables y Familias Paramétricas (texto completo + gráficos)</div>
        </div>
        <i class="fas fa-chevron-down chev"></i>
      </div>
      <div class="card-content">
        <div class="inner" id="content-main">
          {texto_html}
        </div>
      </div>
    </div>

    <footer>{html.escape(CONFIG["footer_text"])}</footer>
  </div>

  <script>
    function typeset(el) {{
      if (window.MathJax && MathJax.typesetPromise) {{
        MathJax.typesetPromise([el]).catch(() => {{}});
      }}
    }}

    const card = document.getElementById("card-main");
    const hdr  = document.getElementById("hdr-main");
    hdr.addEventListener("click", () => {{
      card.classList.toggle("active");
      typeset(card);
    }});

    typeset(document.body);
  </script>
</body>
</html>
"""

display(HTML(full_html))


In [None]:
# @title Transformaciones, pushforward, Jacobiano, censura y conexión con esperanza/covarianza (Colab interactivo + muchos gráficos)
from IPython.display import display, HTML
import html, io, base64
import numpy as np
import matplotlib.pyplot as plt

display(HTML("<style>div.input{display:none;}</style>"))

def fig_to_base64(fig, dpi=150):
    buf = io.BytesIO()
    fig.savefig(buf, format="png", bbox_inches="tight", transparent=True, dpi=dpi)
    plt.close(fig)
    buf.seek(0)
    return base64.b64encode(buf.read()).decode("utf-8")

def ecdf(x):
    x = np.asarray(x)
    x = np.sort(x)
    y = np.linspace(1/len(x), 1.0, len(x))
    return x, y

def plot_pushforward_diagram():
    fig, ax = plt.subplots(figsize=(9.2, 3.8))
    ax.axis("off")
    ax.set_xlim(0, 10)
    ax.set_ylim(0, 4)

    omega = plt.Circle((1.9, 2.0), 1.25, alpha=0.85)
    ax.add_patch(omega)
    ax.text(1.9, 3.25, r'$(\Omega,\mathcal{F},\mathbb{P})$', ha="center", va="center", fontsize=12, fontweight="bold")
    ax.text(1.9, 0.85, r'$\omega$', ha="center", va="center", fontsize=11)

    ax.plot([4.0, 6.2], [2.0, 2.0], linewidth=3)
    ax.text(5.1, 2.35, r'$(\mathbb{R},\mathcal{B}(\mathbb{R}))$', ha="center", fontsize=12, fontweight="bold")
    ax.text(6.25, 1.6, r'$x=X(\omega)$', ha="left", fontsize=11)

    ax.plot([7.1, 9.3], [2.0, 2.0], linewidth=3)
    ax.text(8.2, 2.35, r'$(\mathbb{R},\mathcal{B}(\mathbb{R}))$', ha="center", fontsize=12, fontweight="bold")
    ax.text(9.35, 1.6, r'$y=g(x)$', ha="left", fontsize=11)

    ax.annotate("", xy=(3.7, 2.0), xytext=(2.95, 2.0), arrowprops=dict(arrowstyle="->", linewidth=2.5))
    ax.text(3.35, 2.35, r'$X$', ha="center", fontsize=13, fontweight="bold")
    ax.annotate("", xy=(6.85, 2.0), xytext=(6.35, 2.0), arrowprops=dict(arrowstyle="->", linewidth=2.5))
    ax.text(6.6, 2.35, r'$g$', ha="center", fontsize=13, fontweight="bold")

    ax.text(5.1, 0.55, r'$\mu_X(B)=\mathbb{P}(X\in B)$', ha="center", fontsize=12)
    ax.text(8.2, 0.55, r'$\mu_Y(B)=\mu_X(g^{-1}(B))$', ha="center", fontsize=12)

    ax.set_title("Pushforward (medida imagen):  mu_Y = g_# mu_X", fontsize=13, pad=10)
    return fig_to_base64(fig)

def plot_cdf_method_monotone():
    xgrid = np.linspace(0, 1, 500)
    Fx = np.clip(xgrid, 0, 1)
    ygrid = np.linspace(1, np.e, 500)
    Fy = np.log(ygrid)
    Fy = np.clip(Fy, 0, 1)

    fig, ax = plt.subplots(figsize=(9.2, 3.8))
    ax.plot(xgrid, Fx, linewidth=2.2, label="F_X(x),  X ~ U(0,1)")
    ax.plot(ygrid, Fy, linewidth=2.2, label="F_Y(y)=F_X(g^{-1}(y)),  g(x)=exp(x)")
    ax.set_xlim(-0.05, np.e + 0.05)
    ax.set_ylim(-0.02, 1.02)
    ax.set_xlabel("valor")
    ax.set_ylabel("CDF")
    ax.set_title("Método CDF (creciente):  F_Y(y)=F_X(g^{-1}(y))")
    ax.grid(True, alpha=0.25)
    ax.legend(loc="lower right", frameon=False)
    return fig_to_base64(fig)

def plot_cdf_method_decreasing():
    ygrid = np.linspace(0, 1, 500)
    Fy = ygrid

    fig, ax = plt.subplots(figsize=(9.2, 3.8))
    ax.plot(ygrid, Fy, linewidth=2.2)
    ax.set_xlim(-0.02, 1.02)
    ax.set_ylim(-0.02, 1.02)
    ax.set_xlabel("y")
    ax.set_ylabel("F_Y(y)")
    ax.set_title("Método CDF (decreciente): evento {X >= g^{-1}(y)}")
    ax.grid(True, alpha=0.25)
    return fig_to_base64(fig)

def plot_atoms_left_limit_example():
    rng = np.random.default_rng(0)
    n = 40000
    is_atom = rng.random(n) < 0.3
    x = np.empty(n)
    x[is_atom] = 0.0
    x[~is_atom] = rng.random((~is_atom).sum())
    x_ecdf, y_ecdf = ecdf(x)

    fig, ax = plt.subplots(figsize=(9.2, 3.8))
    ax.plot(x_ecdf, y_ecdf, linewidth=2.0)
    ax.axvline(0.0, linestyle="--", alpha=0.6)
    ax.set_xlim(-0.05, 1.05)
    ax.set_ylim(-0.02, 1.02)
    ax.set_xlabel("x")
    ax.set_ylabel("CDF")
    ax.set_title("Átomos y límite izquierdo: salto en 0 (mixta) y por qué aparece F_X((·)^-)")
    ax.grid(True, alpha=0.25)
    return fig_to_base64(fig)

def plot_jacobian_y_equals_x2():
    rng = np.random.default_rng(1)
    n = 120000
    x = rng.normal(0, 1, size=n)
    y = x**2

    bins = np.linspace(0, 10, 120)
    hist, edges = np.histogram(y, bins=bins, density=True)
    centers = 0.5*(edges[1:]+edges[:-1])

    yy = np.linspace(1e-4, 10, 600)
    sq = np.sqrt(yy)
    fXsq = (1/np.sqrt(2*np.pi))*np.exp(-0.5*sq**2)
    fY = (fXsq + fXsq) * (1/(2*sq))

    fig, ax = plt.subplots(figsize=(9.2, 3.8))
    ax.plot(centers, hist, linewidth=2.0, label="hist (simulación)")
    ax.plot(yy, fY, linewidth=2.2, label="f_Y(y)= sum_{±} f_X(±sqrt(y)) * |d/dy (±sqrt(y))|")
    ax.set_xlim(0, 10)
    ax.set_ylim(0, max(hist.max(), fY.max())*1.05)
    ax.set_xlabel("y")
    ax.set_ylabel("densidad")
    ax.set_title("Método del Jacobiano con ramas:  Y = X^2 (dos preimágenes)")
    ax.grid(True, alpha=0.25)
    ax.legend(frameon=False)
    return fig_to_base64(fig)

def plot_censoring_min_x_c():
    rng = np.random.default_rng(2)
    n = 70000
    x = rng.exponential(1.0, size=n)
    c = 1.5
    y = np.minimum(x, c)

    x_ecdf, y_ecdf = ecdf(y)

    fig, ax = plt.subplots(figsize=(9.2, 3.8))
    ax.plot(x_ecdf, y_ecdf, linewidth=2.0)
    ax.axvline(c, linestyle="--", alpha=0.6)
    ax.set_xlim(-0.05, c + 1.5)
    ax.set_ylim(-0.02, 1.02)
    ax.set_xlabel("y")
    ax.set_ylabel("CDF")
    ax.set_title("Censura derecha: Y=min(X,c) crea átomo en c (mixta)")
    ax.grid(True, alpha=0.25)
    return fig_to_base64(fig)

def plot_truncation_indicator():
    rng = np.random.default_rng(3)
    n = 90000
    x = rng.normal(0, 1, size=n)
    t = 0.8
    y = x * (x <= t)

    x_ecdf, y_ecdf = ecdf(y)

    fig, ax = plt.subplots(figsize=(9.2, 3.8))
    ax.plot(x_ecdf, y_ecdf, linewidth=2.0)
    ax.axvline(0, linestyle="--", alpha=0.6)
    ax.set_xlim(-3.5, 1.5)
    ax.set_ylim(-0.02, 1.02)
    ax.set_xlabel("y")
    ax.set_ylabel("CDF")
    # ARREGLO: nada de \le ni \mathbf en Matplotlib
    ax.set_title("Truncamiento: Y = X * I{X <= t} puede crear átomo en 0")
    ax.grid(True, alpha=0.25)
    return fig_to_base64(fig)

def plot_dimension_reduction_projection():
    rng = np.random.default_rng(4)
    n = 40000
    X = rng.normal(0, 1, size=(n, 2))
    Y = X[:, 0]

    fig1, ax1 = plt.subplots(figsize=(4.6, 4.0))
    ax1.scatter(X[::25,0], X[::25,1], s=8, alpha=0.5)
    ax1.set_xlabel("X1")
    ax1.set_ylabel("X2")
    ax1.set_title("Reducción: Y=g(X)=X1 (proyección)")
    ax1.grid(True, alpha=0.25)
    b1 = fig_to_base64(fig1)

    bins = np.linspace(-4, 4, 120)
    hist, edges = np.histogram(Y, bins=bins, density=True)
    centers = 0.5*(edges[1:]+edges[:-1])
    yy = np.linspace(-4, 4, 400)
    f = (1/np.sqrt(2*np.pi))*np.exp(-0.5*yy**2)

    fig2, ax2 = plt.subplots(figsize=(4.6, 4.0))
    ax2.plot(centers, hist, linewidth=2.0, label="hist (simulación)")
    ax2.plot(yy, f, linewidth=2.2, label="Normal(0,1)")
    ax2.set_xlabel("y")
    ax2.set_ylabel("densidad")
    ax2.set_title("Ley de la proyección (marginal)")
    ax2.grid(True, alpha=0.25)
    ax2.legend(frameon=False)
    b2 = fig_to_base64(fig2)

    return b1, b2

def plot_expectation_as_pushforward_check():
    rng = np.random.default_rng(5)
    n = 200000
    x = rng.normal(0, 1, size=n)
    h = x**2
    Eh = h.mean()

    bins = np.linspace(-5, 5, 300)
    hist, edges = np.histogram(x, bins=bins, density=True)
    centers = 0.5*(edges[1:]+edges[:-1])
    dx = edges[1] - edges[0]
    integral_approx = np.sum((centers**2) * hist) * dx

    fig, ax = plt.subplots(figsize=(9.2, 3.8))
    ax.plot(centers, hist, linewidth=2.0)
    ax.set_xlabel("x")
    ax.set_ylabel("densidad aprox.")
    ax.set_title("Chequeo: E[h(X)] vs ∫ h dmu_X con h(x)=x^2 (Normal)")
    ax.grid(True, alpha=0.25)
    ax.text(0.02, 0.92, f"E[x^2] (MC) ≈ {Eh:.4f}\n∫ x^2 f(x) dx (hist) ≈ {integral_approx:.4f}",
            transform=ax.transAxes, va="top", fontsize=11,
            bbox=dict(boxstyle="round,pad=0.35", alpha=0.25))
    return fig_to_base64(fig)

def plot_covariance_geometry():
    rng = np.random.default_rng(6)
    n = 1200
    x = rng.normal(0, 1, size=n)
    y = 0.7*x + np.sqrt(1-0.7**2)*rng.normal(0,1,size=n)
    xc = x - x.mean()
    yc = y - y.mean()
    cov = np.mean(xc*yc)
    sx = np.sqrt(np.mean(xc**2))
    sy = np.sqrt(np.mean(yc**2))
    rho = cov/(sx*sy)

    fig, ax = plt.subplots(figsize=(6.0, 4.2))
    ax.scatter(xc, yc, s=14, alpha=0.55)
    ax.set_xlabel("X - E[X]")
    ax.set_ylabel("Y - E[Y]")
    ax.set_title("Covarianza/correlación: intuición geométrica (L2)")
    ax.grid(True, alpha=0.25)
    ax.text(0.03, 0.95, f"cov ≈ {cov:.3f}\nrho ≈ {rho:.3f}",
            transform=ax.transAxes, va="top", fontsize=11,
            bbox=dict(boxstyle="round,pad=0.35", alpha=0.25))
    return fig_to_base64(fig)

# generar imágenes
img_pushforward = plot_pushforward_diagram()
img_cdf_inc = plot_cdf_method_monotone()
img_cdf_dec = plot_cdf_method_decreasing()
img_atoms = plot_atoms_left_limit_example()
img_jacobian = plot_jacobian_y_equals_x2()
img_censor = plot_censoring_min_x_c()
img_trunc = plot_truncation_indicator()
img_proj_scatter, img_proj_marg = plot_dimension_reduction_projection()
img_E_push = plot_expectation_as_pushforward_check()
img_cov_geo = plot_covariance_geometry()

texto = r"""
<h2 style="margin-top:0.2rem;">3. Transformaciones de Variables Aleatorias</h2>

<h3>3.1. Transformaciones y medidas imagen</h3>

<p>El problema fundamental es: dada una variable aleatoria real</p>

\[
X:(\Omega,\mathcal{F},P)\to(\mathbb{R},\mathcal{B}(\mathbb{R}))
\]

<p>y una aplicación medible</p>

\[
g:(\mathbb{R},\mathcal{B}(\mathbb{R}))\to(\mathbb{R},\mathcal{B}(\mathbb{R})),
\]

<p>determinar la ley de</p>

\[
Y=g(X).
\]

<p>
La formulación canónica y unificadora se expresa en términos de medida imagen (pushforward). Si \(\mu_X\) es la medida inducida por \(X\),
\(\mu_X(B)=P(X\in B)\), entonces la medida inducida por \(Y\) es
</p>

\[
\mu_Y=g_{\#}\mu_X,\qquad \mu_Y(B)=\mu_X(g^{-1}(B)),\qquad B\in\mathcal{B}(\mathbb{R}).
\]

<p>
Toda técnica “operativa” —método de la CDF, método del Jacobiano, análisis de censura y truncamiento— no es más que una estrategia computacional para describir explícitamente \(\mu_Y\) a partir de \(\mu_X\) y \(g\). Esta perspectiva tiene dos ventajas: es universal (no requiere densidad ni discreción) y evita confusiones cuando la transformación crea átomos, mezcla componentes o destruye la absolutacontinuidad.
</p>

<div class="img-row">
  <div class="img-card">
    <img src="data:image/png;base64,""" + img_pushforward + r"""" alt="Pushforward diagram"/>
    <div class="cap">Diagrama conceptual: \(X\) induce \(\mu_X\) y \(g\) empuja \(\mu_X\) a \(\mu_Y=g_\#\mu_X\).</div>
  </div>
</div>

<h3>3.2. Medibilidad y cierre bajo composición</h3>

<p>
La condición de que \(Y\) sea variable aleatoria es exactamente que sea \(\mathcal{F}/\mathcal{B}(\mathbb{R})\)-medible. Como \(X\) es medible por definición y \(g\) es Borel-medible, la composición \(g\circ X\) es medible. Este “cierre” no es una formalidad: justifica, sin excepciones artificiales, que transformaciones típicas en estadística (continuas, semicontinuas, funciones a trozos con conjunto de discontinuidades despreciable, saturaciones, truncamientos) preservan la noción de variable aleatoria. En particular, para cualquier \(y\),
</p>

\[
\{Y\le y\}=\{g(X)\le y\}=X^{-1}\!\bigl(g^{-1}((-\infty,y])\bigr)\in\mathcal{F},
\]

<p>
lo que garantiza que la CDF \(F_Y(y)=P(Y\le y)\) está bien definida.
</p>

<h3>3.3. Método de la función de distribución acumulada</h3>

<p>
El método más robusto y general consiste en calcular directamente la CDF como medida de un semieje:
</p>

\[
F_Y(y)=\mu_Y((-\infty,y])=\mu_X\!\bigl(g^{-1}((-\infty,y])\bigr).
\]

<p>
Esta identidad es válida para cualquier tipo de distribución, sin suponer densidades. La dificultad práctica se traslada a describir el conjunto \(g^{-1}((-\infty,y])\). En el caso monótono, la descripción es inmediata.
</p>

<p>Si \(g\) es estrictamente creciente e invertible en el rango relevante, entonces</p>

\[
g(X)\le y\ \Longleftrightarrow\ X\le g^{-1}(y),\qquad F_Y(y)=F_X(g^{-1}(y)).
\]

<div class="img-row">
  <div class="img-card">
    <img src="data:image/png;base64,""" + img_cdf_inc + r"""" alt="CDF monotone increasing"/>
    <div class="cap">Ejemplo: \(X\sim U(0,1)\), \(g(x)=e^x\). Se ve \(F_Y(y)=F_X(\log y)\).</div>
  </div>
</div>

<p>Si \(g\) es estrictamente decreciente,</p>

\[
g(X)\le y\ \Longleftrightarrow\ X\ge g^{-1}(y),\qquad F_Y(y)=P(X\ge g^{-1}(y)).
\]

<div class="img-row">
  <div class="img-card">
    <img src="data:image/png;base64,""" + img_cdf_dec + r"""" alt="CDF decreasing"/>
    <div class="cap">Ejemplo: \(X\sim U(0,1)\), \(g(x)=1-x\). La identidad se computa vía el evento \(X\ge g^{-1}(y)\).</div>
  </div>
</div>

<p>
Cuando \(X\) puede tener átomos, conviene escribirlo como
</p>

\[
F_Y(y)=1-F_X\bigl((g^{-1}(y))^{-}\bigr),
\]

<p>
donde el límite izquierdo captura correctamente el posible salto en \(g^{-1}(y)\). Tras obtener \(F_Y\), se recupera la estructura de \(\mu_Y\) mediante la descomposición de Lebesgue: los saltos de \(F_Y\) identifican la parte atómica, la derivada (donde existe) identifica la parte absolutamente continua, y lo restante es singular continuo. Este procedimiento subraya una idea útil: la CDF “contiene” toda la medida, y el análisis de su regularidad revela la naturaleza (discreta, continua, mixta, singular) de la distribución transformada.
</p>

<div class="img-row">
  <div class="img-card">
    <img src="data:image/png;base64,""" + img_atoms + r"""" alt="Atoms and left limit"/>
    <div class="cap">Ejemplo con salto: una mixta muestra por qué aparece el límite izquierdo \(F_X((\cdot)^-)\).</div>
  </div>
</div>

<h3>3.4. Método del Jacobiano y cambio de variable</h3>

<p>
Cuando \(X\) es absolutamente continua, \(\mu_X\ll\lambda\), con densidad
</p>

\[
f_X=\frac{d\mu_X}{d\lambda},
\]

<p>
y \(g\) es suficientemente regular e inyectiva, el cambio de variable proporciona directamente una densidad para \(Y\). En una dimensión, si \(g\) es \(C^1\) y estrictamente monótona, \(y=g(x)\), \(x=g^{-1}(y)\), entonces
</p>

\[
f_Y(y)=f_X(g^{-1}(y))\left|\frac{d}{dy}g^{-1}(y)\right|
= f_X(x)\frac{1}{|g'(x)|}\Big|_{x=g^{-1}(y)}.
\]

<p>
El valor absoluto y, en dimensión superior, el determinante jacobiano, aparecen porque la transformación modifica el elemento de volumen; son el factor de Radon–Nikodým asociado a \(\lambda\circ g^{-1}\) respecto de \(\lambda\).
</p>

<p>
Si \(g\) no es globalmente inyectiva pero es localmente invertible en un número finito de ramas, la densidad se obtiene sumando sobre las preimágenes. Para \(y\) tal que el conjunto \(\{x:g(x)=y\}\) es finito y cada rama \(x_i(y)\) es diferenciable,
</p>

\[
f_Y(y)=\sum_i f_X(x_i(y))\left|\frac{d}{dy}x_i(y)\right|.
\]

<p>
El caso \(Y=X^2\) ilustra la necesidad de esta suma: dos ramas \(\pm\sqrt{y}\) contribuyen en el semieje positivo.
</p>

<div class="img-row">
  <div class="img-card">
    <img src="data:image/png;base64,""" + img_jacobian + r"""" alt="Jacobian branches"/>
    <div class="cap">Ejemplo: \(X\sim \mathcal{N}(0,1)\), \(Y=X^2\). La densidad requiere sumar ramas \(\pm\sqrt{y}\).</div>
  </div>
</div>

<p>
En dimensión \(d\), si \(g:\mathbb{R}^d\to\mathbb{R}^d\) es un difeomorfismo \(C^1\), entonces
</p>

\[
f_Y(y)=f_X(g^{-1}(y))\,\bigl|\det Dg^{-1}(y)\bigr|.
\]

<p>
Esta identidad es la columna vertebral del cálculo de densidades multivariadas, del muestreo por transformaciones y de muchas derivaciones en inferencia.
</p>

<h3>3.5. Indicadoras, truncamiento, censura y transformaciones que generan mezclas</h3>

<p>
Las transformaciones con indicadoras y saturaciones son esenciales porque modelan mecanismos de observación, no solo cambios matemáticos de variable. La indicadora \(\mathbf{1}_A\) (con \(A\) boreliano) permite expresar transformaciones a trozos de manera exacta y controlable en términos de medidas.
</p>

<p>
En truncamiento del tipo
</p>

\[
Y=X\,\mathbf{1}_A(X),
\]

<p>
la ley de \(Y\) combina el comportamiento de \(X\) en \(A\) con un posible átomo en 0 (o en el valor al que se envía el complemento). Dicho de otra manera, una transformación por truncamiento puede crear masa puntual incluso si \(X\) era puramente continua.
</p>

<div class="img-row">
  <div class="img-card">
    <img src="data:image/png;base64,""" + img_trunc + r"""" alt="Truncation atom"/>
    <div class="cap">Ejemplo de truncamiento: aun con \(X\) continuo, puede aparecer un átomo en 0.</div>
  </div>
</div>

<p>
La censura por la derecha
</p>

\[
Y=\min(X,c)
\]

<p>
produce una descomposición explícita de la medida imagen:
</p>

\[
\mu_Y=\mu_X\!\mid_{(-\infty,c)} + P(X\ge c)\,\delta_c.
\]

<p>
Aquí queda cristalino el mecanismo: en \((-\infty,c)\) la distribución conserva la parte “heredada” de \(X\), mientras que todo lo que excede \(c\) se colapsa en un átomo en \(c\). La operación transforma distribuciones absolutamente continuas en mixtas, y por eso es un ejemplo paradigmático del valor del enfoque por medida.
</p>

<div class="img-row">
  <div class="img-card">
    <img src="data:image/png;base64,""" + img_censor + r"""" alt="Censoring atom at c"/>
    <div class="cap">Ejemplo: \(X\sim \mathrm{Exp}(1)\), \(Y=\min(X,c)\). Se observa el salto en \(c\).</div>
  </div>
</div>

<h3>3.6. Caso multivariado y reducción de dimensión</h3>

<p>
Para \(X\in\mathbb{R}^d\) y \(Y=g(X)\in\mathbb{R}^k\), con \(k<d\), el fenómeno cambia cualitativamente. La medida imagen \(\mu_Y\) no tiene por qué ser absolutamente continua respecto a Lebesgue en \(\mathbb{R}^k\) en el sentido usual, porque la transformación puede “colapsar” direcciones y concentrar masa sobre subconjuntos de menor dimensión geométrica. En estos casos, hay dos caminos conceptuales correctos: trabajar con densidades respecto a una medida apropiada (por ejemplo, medida de Hausdorff \(k\)-dimensional cuando el soporte es una variedad), o introducir variables latentes y obtener la ley de \(Y\) por marginalización de una densidad conjunta en dimensión \(d\). Este punto es la base técnica detrás de distribuciones de estadísticos, proyecciones, modelos con restricciones, y métodos de simulación donde se empujan medidas a través de mapeos no invertibles.
</p>

<div class="img-row">
  <div class="img-card">
    <img src="data:image/png;base64,""" + img_proj_scatter + r"""" alt="Projection scatter"/>
    <div class="cap">Ejemplo \(d=2\to k=1\): proyección \(Y=X_1\) “colapsa” una dirección (vista geométrica).</div>
  </div>
  <div class="img-card">
    <img src="data:image/png;base64,""" + img_proj_marg + r"""" alt="Projection marginal density"/>
    <div class="cap">La ley de la proyección es una marginalización (aquí vuelve a ser Normal).</div>
  </div>
</div>

<h2 style="margin-top:1.8rem;">4. Esperanza, Integrabilidad y Momentos</h2>

<h3>4.1. Esperanza como integral de Lebesgue respecto de la medida imagen</h3>

<p>
La esperanza es el operador de integración respecto de la medida inducida por la variable aleatoria. Para una función medible \(h\),
</p>

\[
\mathbb{E}[h(X)]
=\int_\Omega h(X(\omega))\,dP(\omega)
=\int_{\mathbb{R}} h(x)\,d\mu_X(x).
\]

<p>
Esta definición unifica los casos discretos, continuos y mixtos: si \(\mu_X\) es discreta se obtiene una suma; si \(\mu_X\ll\lambda\), una integral con densidad; si es mixta, la suma de ambos aportes. La condición técnica relevante es la integrabilidad:
</p>

\[
\int_\Omega |h(X)|\,dP<\infty,
\]

<p>
y en particular para \(\mathbb{E}[X]\) se requiere \(\mathbb{E}[|X|]<\infty\), lo cual evita indeterminaciones del tipo \(\infty-\infty\).
</p>

<div class="img-row">
  <div class="img-card">
    <img src="data:image/png;base64,""" + img_E_push + r"""" alt="Expectation pushforward check"/>
    <div class="cap">Chequeo numérico: \(\mathbb{E}[h(X)]\) coincide con \(\int h\,d\mu_X\) (aprox.).</div>
  </div>
</div>

<h3>4.2. Integrabilidad y teoremas de convergencia</h3>

<p>
Los teoremas de convergencia —monótona, Fatou y dominada— no son solo herramientas de análisis: constituyen el justificativo riguroso de intercambiar límites con esperanzas, paso omnipresente en estadística asintótica y en teoría de estimación. La convergencia monótona permite pasar el límite por dentro cuando hay monotonicidad y no negatividad; Fatou da cotas inferiores para límites inferiores; la dominada autoriza el intercambio cuando existe una variable integrable que domina a la sucesión. En la práctica, estos resultados sostienen la validez de aproximaciones, la consistencia de estimadores, y la legitimidad de derivar o integrar bajo el signo de esperanza en familias paramétricas.
</p>

<h3>4.3. Momentos, momentos centrales y funciones generatrices</h3>

<p>
El momento crudo de orden \(k\) es
</p>

\[
m_k=\mathbb{E}[X^k],
\]

<p>
si existe, es decir, si \(X\in L^k(P)\). Los momentos centrales
</p>

\[
\mu_k=\mathbb{E}[(X-\mathbb{E}[X])^k]
\]

<p>
capturan la geometría alrededor de la media: el segundo central mide dispersión, el tercero (normalizado por \(\sigma^3\)) cuantifica asimetría, y el cuarto (normalizado por \(\sigma^4\)) se asocia con curtosis y peso de colas.
</p>

<p>
Estas nociones se conectan con funciones generatrices. La función generadora de momentos (mgf) se define por
</p>

\[
\varphi(t)=\mathbb{E}[e^{tX}],
\]

<p>
cuando existe en un entorno de \(0\). Si \(\varphi\) es finita en un intervalo alrededor del origen, es analítica allí y sus derivadas generan los momentos: \(\varphi^{(k)}(0)=\mathbb{E}[X^k]\). En cambio, la función característica
</p>

\[
\phi(t)=\mathbb{E}[e^{itX}]
\]

<p>
siempre existe, es uniformemente continua y determina unívocamente la distribución. Esta dicotomía es útil: la mgf da acceso a momentos y a técnicas de cálculo, pero puede no existir; la característica siempre existe y codifica completamente la ley.
</p>

<h3>4.4. Varianza: identidades estructurales y proyección en \(L^2\)</h3>

<p>
La varianza se define por
</p>

\[
\mathrm{Var}(X)=\mathbb{E}[(X-\mathbb{E}[X])^2],
\]

<p>
y cumple la identidad
</p>

\[
\mathrm{Var}(X)=\mathbb{E}[X^2]-(\mathbb{E}[X])^2,
\]

<p>
válida cuando \(X\in L^2\). Hay además una caracterización geométrica que eleva el nivel conceptual:
</p>

\[
\mathrm{Var}(X)=\inf_{c\in\mathbb{R}}\mathbb{E}[(X-c)^2].
\]

<p>
Esto expresa que la media es el mejor aproximante constante en norma \(L^2\), y que la varianza es el error cuadrático mínimo de esa proyección sobre el subespacio de constantes. Para transformaciones afines,
</p>

\[
\mathrm{Var}(aX+b)=a^2\mathrm{Var}(X),
\]

<p>
que formaliza la invariancia por traslación y la homogeneidad cuadrática por escala.
</p>

<h3>4.5. Riesgo en aprendizaje estadístico</h3>

<p>
En aprendizaje estadístico, el objeto central es el riesgo poblacional:
</p>

\[
R(f)=\mathbb{E}[\ell(f(X),Y)]=\int_{\mathcal{X}\times\mathcal{Y}} \ell(f(x),y)\,dP(x,y),
\]

<p>
donde \(P\) es la distribución conjunta desconocida. El riesgo empírico reemplaza \(P\) por la medida empírica \(P_n\) asociada a una muestra i.i.d., de modo que
</p>

\[
R_n(f)=\frac{1}{n}\sum_{i=1}^n \ell(f(X_i),Y_i).
\]

<p>
El control de \(|R(f)-R_n(f)|\), especialmente de manera uniforme sobre clases de funciones \(f\), es el corazón de la teoría de generalización. Sus condiciones técnicas dependen de integrabilidad de la pérdida, propiedades geométricas de la clase (complejidad), y desigualdades de concentración; por eso el lenguaje de esperanza e integrabilidad no es periférico sino estructural.
</p>

<h2 style="margin-top:1.8rem;">5. Covarianza, Dependencia y Desigualdades</h2>

<h3>5.1. Covarianza como producto interno y correlación como coseno angular</h3>

<p>
En el espacio de Hilbert \(L^2(P)\), la covarianza se interpreta como producto interno entre las variables centradas:
</p>

\[
\mathrm{Cov}(X,Y)=\langle X-\mathbb{E}[X],\,Y-\mathbb{E}[Y]\rangle_{L^2}
=\mathbb{E}[(X-\mathbb{E}[X])(Y-\mathbb{E}[Y])].
\]

<p>
La correlación de Pearson
</p>

\[
\rho_{XY}=\frac{\mathrm{Cov}(X,Y)}{\sigma_X\sigma_Y}
\]

<p>
es el coseno del ángulo entre las versiones centradas y normalizadas en \(L^2\). La cota \(|\rho_{XY}|\le 1\) se vuelve inmediata por Cauchy–Schwarz, y el caso \(|\rho_{XY}|=1\) corresponde a dependencia lineal perfecta (casi segura) entre variables centradas.
</p>

<div class="img-row">
  <div class="img-card">
    <img src="data:image/png;base64,""" + img_cov_geo + r"""" alt="Covariance geometry"/>
    <div class="cap">Intuición geométrica: covarianza/correlación como ángulo (vista muestral).</div>
  </div>
</div>

<h3>5.2. Independencia versus incorrelación y el caso gaussiano</h3>

<p>
Independencia entre \(X\) e \(Y\) significa independencia de las \(\sigma\)-álgebras \(\sigma(X)\) y \(\sigma(Y)\), equivalentes a la factorización de probabilidades en eventos medibles en \(X\) e \(Y\). Es una condición fuerte: elimina toda dependencia, lineal y no lineal.
</p>

<p>
Incorrelación significa \(\mathrm{Cov}(X,Y)=0\), es decir, ortogonalidad en \(L^2\). Siempre se cumple independencia \(\Rightarrow\) incorrelación cuando existen segundos momentos, pero la recíproca es falsa en general: puede haber dependencia determinista no lineal con covarianza cero. La excepción estructural relevante es el caso gaussiano conjunto: si \((X,Y)\) es gaussiano bivariado, la ley queda determinada por medias y covarianza, y entonces la covarianza nula fuerza la factorización, de modo que incorrelación equivale a independencia.
</p>

<h3>5.3. Desigualdades fundamentales y control de colas</h3>

<p>
Cauchy–Schwarz en \(L^2\) establece
</p>

\[
|\mathbb{E}[UV]|\le \|U\|_2\,\|V\|_2,
\]

<p>
y aplicada a variables centradas produce inmediatamente la cota de covarianza y la acotación de correlación.
</p>

<p>
Jensen formaliza la interacción entre esperanza y convexidad: para \(\varphi\) convexa,
</p>

\[
\varphi(\mathbb{E}[X])\le \mathbb{E}[\varphi(X)].
\]

<p>
Cuando \(\varphi\) es estrictamente convexa, la igualdad fuerza a \(X\) a ser constante casi seguramente. Esta desigualdad es el motor oculto de numerosos argumentos en estimación, regularización y derivaciones variacionales.
</p>

<p>
Markov controla colas para variables no negativas: si \(Z\ge 0\) y \(a>0\),
</p>

\[
P(Z\ge a)\le \frac{\mathbb{E}[Z]}{a}.
\]

<p>
Chebyshev se obtiene como caso particular aplicando Markov a \(Z=(X-\mu)^2\):
</p>

\[
P(|X-\mu|\ge t)\le \frac{\mathrm{Var}(X)}{t^2}.
\]

<p>
La forma unilateral más fina (Chebyshev–Cantelli) refina el control en un solo lado. Estas desigualdades, aunque elementales, son el esqueleto de la concentración moderna: al aplicarlas a transformaciones adecuadas (o a mgf cuando existe), se derivan cotas exponenciales tipo Hoeffding, Bernstein o McDiarmid, que son cruciales en estadística de alta dimensión y aprendizaje.
</p>

<h3>5.4. Independencia condicional y factorización: preludio de modelos gráficos</h3>

<p>
La independencia condicional \(X\perp Y\mid Z\) expresa que, una vez conocido \(Z\), información adicional sobre \(Y\) no altera la distribución de \(X\). En términos rigurosos, usando versiones regulares de probabilidades condicionadas,
</p>

\[
P(X\in\cdot,\,Y\in\cdot\mid Z)=P(X\in\cdot\mid Z)\otimes P(Y\in\cdot\mid Z)\quad P\text{-c.s.}
\]

<p>
Cuando existen densidades condicionadas, esto se traduce en la factorización
</p>

\[
f_{X,Y\mid Z}(x,y\mid z)=f_{X\mid Z}(x\mid z)\,f_{Y\mid Z}(y\mid z).
\]

<p>
Esta propiedad es el axioma operativo de los modelos gráficos probabilísticos: permite factorizar distribuciones de alta dimensión en productos locales, habilitando algoritmos eficientes de inferencia y aprendizaje. Además explica fenómenos sutiles de dependencia espuria: dos variables pueden ser dependientes marginalmente pero independientes al condicionar por una tercera (control de confusión), o pueden volverse dependientes al condicionar por un “colisionador”, lo que obliga a interpretar cuidadosamente correlaciones y relaciones causales.
</p>

<p>
Con esta integración, el bloque queda coherente y completo: las transformaciones se entienden como transporte de medidas por aplicaciones medibles; la esperanza se formula como integración Lebesgue respecto de la medida inducida y se conecta con integrabilidad, momentos y generatrices; la dependencia se organiza en términos geométricos en \(L^2\), se distingue independencia de incorrelación, y se dispone de desigualdades fundamentales para control de colas y fundamento de concentración, culminando en independencia condicional como puerta natural hacia estructuras gráficas.
</p>
"""

CONFIG = {
    "main_title": "Teoría de Probabilidad: Transformaciones y Medidas",
    "subtitle": "Pushforward, método CDF, Jacobiano, censura/truncamiento y vínculos con esperanza/covarianza",
    "footer_text": "Material elaborado por el profesor Sergio Gevatschnaider"
}

full_html = f"""
<!DOCTYPE html>
<html lang="es">
<head>
<meta charset="UTF-8">
<link href="https://fonts.googleapis.com/css2?family=Inter:wght@300;400;700;800&family=JetBrains+Mono:wght@400&display=swap" rel="stylesheet">
<link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.0/css/all.min.css" rel="stylesheet">

<script>
MathJax = {{
  tex: {{
    inlineMath: [['$', '$'], ['\\\\(', '\\\\)']],
    displayMath: [['$$', '$$'], ['\\\\[', '\\\\]']]
  }},
  svg: {{ fontCache: 'global' }}
}};
</script>
<script id="MathJax-script" async src="https://cdn.jsdelivr.net/npm/mathjax@3/es5/tex-mml-chtml.js"></script>

<style>
  :root {{
    --bg: #0f172a;
    --card: rgba(30, 41, 59, 0.78);
    --border: rgba(255,255,255,0.08);
    --text: #f8fafc;
    --muted: #94a3b8;
    --shadow: rgba(0,0,0,0.25);
  }}
  body {{
    margin: 0;
    padding: 26px 16px;
    background: radial-gradient(1200px 700px at 20% 5%, rgba(59,130,246,0.18), transparent 60%),
                radial-gradient(900px 600px at 85% 20%, rgba(168,85,247,0.16), transparent 55%),
                var(--bg);
    color: var(--text);
    font-family: Inter, sans-serif;
    line-height: 1.75;
  }}
  .wrap {{ max-width: 1040px; margin: 0 auto; }}
  .hero {{
    padding: 24px 22px;
    border: 1px solid var(--border);
    border-radius: 20px;
    background: rgba(255,255,255,0.03);
    box-shadow: 0 18px 40px var(--shadow);
    backdrop-filter: blur(10px);
    text-align: center;
  }}
  h1 {{
    margin: 0 0 8px 0;
    font-size: clamp(1.85rem, 3.4vw, 2.55rem);
    letter-spacing: -0.8px;
    background: linear-gradient(90deg, #38bdf8, #818cf8, #a855f7);
    -webkit-background-clip: text;
    -webkit-text-fill-color: transparent;
  }}
  .sub {{
    color: var(--muted);
    font-weight: 300;
    font-size: 1.03rem;
  }}
  .card {{
    border: 1px solid var(--border);
    border-radius: 18px;
    background: var(--card);
    overflow: hidden;
    box-shadow: 0 10px 22px var(--shadow);
    margin-top: 16px;
  }}
  .hdr {{
    padding: 14px 16px;
    display: flex;
    align-items: center;
    justify-content: space-between;
    cursor: pointer;
    user-select: none;
    background: linear-gradient(90deg, rgba(255,255,255,0.05), transparent);
    font-weight: 800;
  }}
  .chev {{
    color: var(--muted);
    transition: transform .25s ease, color .25s ease;
  }}
  .card.active .chev {{
    transform: rotate(180deg);
  }}
  .content {{
    max-height: 0;
    overflow: hidden;
    transition: max-height .9s cubic-bezier(0.4,0,0.2,1);
  }}
  .card.active .content {{ max-height: 300000px; }}
  .inner {{
    padding: 14px 18px 18px 18px;
    color: #cbd5e1;
    font-size: 1.02rem;
  }}
  .img-row {{
    margin: 14px 0 6px 0;
    display: grid;
    gap: 14px;
    grid-template-columns: repeat(auto-fit, minmax(260px, 1fr));
  }}
  .img-card {{
    border: 1px solid var(--border);
    border-radius: 14px;
    background: rgba(15,23,42,0.35);
    overflow: hidden;
  }}
  .img-card img {{ width: 100%; display: block; }}
  .cap {{
    padding: 10px 12px;
    font-size: 0.9rem;
    color: var(--muted);
    border-top: 1px solid var(--border);
  }}
  footer {{
    margin-top: 18px;
    text-align: center;
    color: var(--muted);
    font-size: 0.9rem;
    padding: 10px 0 4px 0;
  }}
  mjx-container {{
    font-size: 112% !important;
    color: #e2e8f0 !important;
  }}
</style>
</head>
<body>
  <div class="wrap">
    <div class="hero">
      <h1>{html.escape(CONFIG["main_title"])}</h1>
      <div class="sub">{html.escape(CONFIG["subtitle"])}</div>
    </div>

    <div class="card active" id="card-main">
      <div class="hdr" id="hdr-main">
        <div>Bloque 3–5 (texto completo) + gráficos embebidos</div>
        <i class="fas fa-chevron-down chev"></i>
      </div>
      <div class="content">
        <div class="inner" id="inner-main">
          {texto}
        </div>
      </div>
    </div>

    <footer>{html.escape(CONFIG["footer_text"])}</footer>
  </div>

  <script>
    function typeset(el) {{
      if (window.MathJax && MathJax.typesetPromise) {{
        MathJax.typesetPromise([el]).catch(() => {{}});
      }}
    }}
    const card = document.getElementById("card-main");
    const hdr  = document.getElementById("hdr-main");
    hdr.addEventListener("click", () => {{
      card.classList.toggle("active");
      typeset(card);
    }});
    typeset(document.body);
  </script>
</body>
</html>
"""

display(HTML(full_html))


In [None]:
# @title
# ==========================================================
# GOOGLE COLAB (SIN MOSTRAR CÓDIGO) + TEXTO COMPLETO + GRÁFICOS
# Sección 4: Esperanza, Integrabilidad y Momentos
# ==========================================================

from IPython.display import display, HTML
import html, io, base64
import numpy as np
import matplotlib.pyplot as plt

# Oculta el input (código) de esta celda en Colab
display(HTML("<style>div.input{display:none;}</style>"))

# --------------------------
# Helpers
# --------------------------
def fig_to_base64(fig, dpi=160):
    buf = io.BytesIO()
    fig.savefig(buf, format="png", bbox_inches="tight", transparent=True, dpi=dpi)
    plt.close(fig)
    buf.seek(0)
    return base64.b64encode(buf.read()).decode("utf-8")

def ecdf(x):
    x = np.sort(np.asarray(x))
    y = np.linspace(1/len(x), 1.0, len(x))
    return x, y

# --------------------------
# GRÁFICOS (ejemplos pedagógicos)
# --------------------------

def plot_expectation_discrete_vs_continuous():
    # Discreto: X ~ Bernoulli(p), h(x)=x
    p = 0.3
    x_disc = np.array([0, 1])
    pmf = np.array([1-p, p])
    Eh_disc = np.sum(x_disc * pmf)

    # Continuo: X ~ U(0,1), h(x)=x
    x = np.linspace(0, 1, 400)
    fx = np.ones_like(x)  # densidad uniforme
    Eh_cont = 0.5  # E[X]=1/2

    fig, ax = plt.subplots(figsize=(9.2, 3.8))
    # Discreto (barras)
    ax.vlines(x_disc, 0, pmf, linewidth=6, alpha=0.9)
    ax.scatter(x_disc, pmf, s=70)
    # Continuo (densidad)
    ax.plot(x, fx, linewidth=2.2)

    ax.set_xlim(-0.25, 1.25)
    ax.set_ylim(0, 1.25)
    ax.set_xlabel("x")
    ax.set_ylabel("pmf / pdf")
    ax.set_title("Esperanza vista desde la ley: suma (discreto) vs integral (continuo)")
    ax.grid(True, alpha=0.25)

    ax.text(0.02, 0.92,
            f"Bernoulli(p={p}): E[X]=p={Eh_disc:.2f}\nU(0,1): E[X]=1/2={Eh_cont:.2f}",
            transform=ax.transAxes, va="top", fontsize=11,
            bbox=dict(boxstyle="round,pad=0.35", alpha=0.22))

    return fig_to_base64(fig)

def plot_pushforward_expectation_check():
    rng = np.random.default_rng(0)
    n = 250000
    X = rng.normal(0, 1, size=n)
    h = lambda x: x**2

    # MC estimate of E[h(X)]
    Eh_mc = np.mean(h(X))

    # Approximate integral against mu_X via histogram density (proxy for dmu_X)
    bins = np.linspace(-5, 5, 320)
    hist, edges = np.histogram(X, bins=bins, density=True)
    centers = 0.5*(edges[1:] + edges[:-1])
    dx = edges[1] - edges[0]
    Eh_hist = np.sum(h(centers) * hist) * dx

    fig, ax = plt.subplots(figsize=(9.2, 3.8))
    ax.plot(centers, hist, linewidth=2.0)
    ax.set_xlabel("x")
    ax.set_ylabel("densidad aprox.")
    ax.set_title("Chequeo de cambio de variable: E[h(X)] = ∫ h dμ_X (aprox.)")
    ax.grid(True, alpha=0.25)

    ax.text(0.02, 0.93,
            f"h(x)=x^2,  X~N(0,1)\nE[h(X)] (Monte Carlo) ≈ {Eh_mc:.4f}\n∫ h(x) f(x) dx (hist) ≈ {Eh_hist:.4f}",
            transform=ax.transAxes, va="top", fontsize=11,
            bbox=dict(boxstyle="round,pad=0.35", alpha=0.22))

    return fig_to_base64(fig)

def plot_extended_expectation_cases():
    # Visual conceptual: colas pesadas (tipo Pareto) vs integrabilidad
    # No pretendemos demostrar con rigor aquí, solo ilustrar "momentos que explotan".
    rng = np.random.default_rng(1)
    n = 140000

    # Pareto con alpha=1.5 (E[X] finita si alpha>1, Var infinita si alpha<=2)
    alpha = 1.5
    xm = 1.0
    U = rng.random(n)
    X = xm * (1 - U) ** (-1/alpha)

    # Truncamos para visualizar
    X_plot = np.minimum(X, 30.0)

    # ECDF
    xs, ys = ecdf(X_plot)

    fig, ax = plt.subplots(figsize=(9.2, 3.8))
    ax.plot(xs, ys, linewidth=2.0)
    ax.set_xlim(0, 30)
    ax.set_ylim(0, 1.01)
    ax.set_xlabel("x (truncado para visualizar)")
    ax.set_ylabel("CDF empírica")
    ax.set_title("Colas pesadas: un ejemplo donde algunos momentos pueden no existir")
    ax.grid(True, alpha=0.25)

    ax.text(0.02, 0.93,
            "Ejemplo ilustrativo (Pareto α=1.5): E[X] finita, Var(X) infinita.\nEsto motiva condiciones de integrabilidad para riesgos y estimadores.",
            transform=ax.transAxes, va="top", fontsize=11,
            bbox=dict(boxstyle="round,pad=0.35", alpha=0.22))

    return fig_to_base64(fig)

def plot_convergence_dominated_demo():
    # Dominada: X_n = X * 1{|X|<=n} con X integrable (Normal)
    rng = np.random.default_rng(2)
    nmc = 250000
    X = rng.normal(0, 1, size=nmc)

    ns = np.array([1, 2, 3, 5, 8, 12, 20, 40])
    E_abs = []
    for n in ns:
        Xn = X * (np.abs(X) <= n)
        E_abs.append(np.mean(np.abs(X - Xn)))

    fig, ax = plt.subplots(figsize=(9.2, 3.8))
    ax.plot(ns, E_abs, linewidth=2.2, marker="o")
    ax.set_xlabel("n (nivel de truncamiento)")
    ax.set_ylabel("E[|X - X_n|] (aprox.)")
    ax.set_title("Convergencia dominada: truncaciones X_n → X y E[|X-X_n|] → 0")
    ax.grid(True, alpha=0.25)
    return fig_to_base64(fig)

def plot_jensen_demo():
    # Jensen: φ convexa, φ(E[X]) <= E[φ(X)]
    # Tomamos X ~ Normal(0,1), φ(x)=x^2 (convexa).
    rng = np.random.default_rng(3)
    X = rng.normal(0, 1, size=300000)
    phi = lambda x: x**2

    lhs = phi(np.mean(X))
    rhs = np.mean(phi(X))

    fig, ax = plt.subplots(figsize=(9.2, 3.8))
    # Distribución de X (hist)
    bins = np.linspace(-4, 4, 180)
    hist, edges = np.histogram(X, bins=bins, density=True)
    centers = 0.5*(edges[1:]+edges[:-1])
    ax.plot(centers, hist, linewidth=2.0)

    ax.set_xlabel("x")
    ax.set_ylabel("densidad aprox.")
    ax.set_title("Jensen (ilustración): φ(E[X]) <= E[φ(X)] con φ(x)=x^2")
    ax.grid(True, alpha=0.25)

    ax.text(0.02, 0.93,
            f"φ(x)=x^2\nφ(E[X]) ≈ {lhs:.6f}\nE[φ(X)] ≈ {rhs:.6f}",
            transform=ax.transAxes, va="top", fontsize=11,
            bbox=dict(boxstyle="round,pad=0.35", alpha=0.22))
    return fig_to_base64(fig)

def plot_markov_chebyshev_tails():
    # Ilustración: Normal(0,1). Comparar cola real vs Markov/Chebyshev para Z=X^2
    rng = np.random.default_rng(4)
    X = rng.normal(0, 1, size=500000)
    mu = np.mean(X)
    var = np.mean((X - mu)**2)

    ts = np.array([0.5, 1.0, 1.5, 2.0, 2.5, 3.0])
    tail_emp = [np.mean(np.abs(X - mu) >= t) for t in ts]
    cheb = [var/(t**2) for t in ts]  # Chebyshev bound

    fig, ax = plt.subplots(figsize=(9.2, 3.8))
    ax.plot(ts, tail_emp, linewidth=2.2, marker="o", label="P(|X-μ| >= t) (empírico)")
    ax.plot(ts, cheb, linewidth=2.2, marker="o", label="Cota de Chebyshev: Var(X)/t^2")
    ax.set_xlabel("t")
    ax.set_ylabel("probabilidad / cota")
    ax.set_title("Control de colas: comparación empírica vs Chebyshev (Normal)")
    ax.grid(True, alpha=0.25)
    ax.legend(frameon=False)
    return fig_to_base64(fig)

def plot_variance_projection_L2():
    # Var(X)=inf_c E[(X-c)^2], mínimo en c=E[X]
    rng = np.random.default_rng(5)
    X = rng.normal(1.2, 2.0, size=200000)
    EX = np.mean(X)

    cs = np.linspace(EX-6, EX+6, 200)
    risks = [np.mean((X - c)**2) for c in cs]
    min_risk = np.min(risks)
    c_star = cs[np.argmin(risks)]

    fig, ax = plt.subplots(figsize=(9.2, 3.8))
    ax.plot(cs, risks, linewidth=2.2)
    ax.axvline(EX, linestyle="--", alpha=0.7)
    ax.scatter([c_star], [min_risk], s=80)

    ax.set_xlabel("c (constante)")
    ax.set_ylabel("E[(X-c)^2] (aprox.)")
    ax.set_title("Geometría en L2: la media minimiza el error cuadrático; Var(X)=min E[(X-c)^2]")
    ax.grid(True, alpha=0.25)

    ax.text(0.02, 0.93,
            f"E[X] ≈ {EX:.3f}\nargmin c* ≈ {c_star:.3f}\nmin ≈ {min_risk:.3f}",
            transform=ax.transAxes, va="top", fontsize=11,
            bbox=dict(boxstyle="round,pad=0.35", alpha=0.22))
    return fig_to_base64(fig)

def plot_risk_ml_demo():
    # Riesgo poblacional vs empírico en un ejemplo simple: regresión lineal con pérdida cuadrática
    rng = np.random.default_rng(6)
    n_pop = 250000
    X = rng.normal(0, 1, size=n_pop)
    eps = rng.normal(0, 0.6, size=n_pop)
    Y = 2.0*X + eps

    # Modelo f_a(x)=a x. Pérdida l=(ax - y)^2
    a_grid = np.linspace(-0.5, 3.5, 180)
    def pop_risk(a):
        return np.mean((a*X - Y)**2)

    R = np.array([pop_risk(a) for a in a_grid])

    # Empírico con muestra chica
    n = 120
    idx = rng.choice(n_pop, size=n, replace=False)
    Xs, Ys = X[idx], Y[idx]
    Rn = np.array([np.mean((a*Xs - Ys)**2) for a in a_grid])

    fig, ax = plt.subplots(figsize=(9.2, 3.8))
    ax.plot(a_grid, R, linewidth=2.2, label="R(f) poblacional (aprox.)")
    ax.plot(a_grid, Rn, linewidth=2.2, label="R_n(f) empírico (n=120)")
    ax.set_xlabel("a (parámetro del predictor f_a(x)=a x)")
    ax.set_ylabel("riesgo (MSE)")
    ax.set_title("Riesgo en ML: esperanza de la pérdida y su aproximación empírica")
    ax.grid(True, alpha=0.25)
    ax.legend(frameon=False)

    # Señalar minimizadores
    a_star = a_grid[np.argmin(R)]
    a_hat = a_grid[np.argmin(Rn)]
    ax.axvline(a_star, linestyle="--", alpha=0.6)
    ax.axvline(a_hat, linestyle="--", alpha=0.6)
    ax.text(0.02, 0.93,
            f"min poblacional cerca de a* ≈ {a_star:.2f}\nmin empírico cerca de â ≈ {a_hat:.2f}",
            transform=ax.transAxes, va="top", fontsize=11,
            bbox=dict(boxstyle="round,pad=0.35", alpha=0.22))
    return fig_to_base64(fig)

# Generar imágenes
img_disc_cont = plot_expectation_discrete_vs_continuous()
img_push_chk = plot_pushforward_expectation_check()
img_heavy = plot_extended_expectation_cases()
img_dom = plot_convergence_dominated_demo()
img_jensen = plot_jensen_demo()
img_tail = plot_markov_chebyshev_tails()
img_varproj = plot_variance_projection_L2()
img_risk = plot_risk_ml_demo()

# --------------------------
# TEXTO COMPLETO (SIN OMISIONES) EN HTML + MATHJAX
# --------------------------
texto = r"""
<h2 style="margin-top:0.2rem;">4. Esperanza, Integrabilidad y Momentos</h2>

<h3>El operador esperanza \(\mathbb{E}\)</h3>

<p>
El operador esperanza es un funcional lineal positivo definido sobre el espacio de variables aleatorias integrables. Su naturaleza no es la de un “promedio” informal, sino la de un integral de Lebesgue respecto de la medida de probabilidad subyacente. Si
\(X:(\Omega,\mathcal F,\mathbb P)\to(\mathbb R,\mathcal B(\mathbb R))\) es una variable aleatoria y \(h:\mathbb R\to\mathbb R\) es medible, se define
</p>

\[
\mathbb E[h(X)] := \int_{\Omega} h(X(\omega))\,d\mathbb P(\omega),
\]

<p>
siempre que esta integral esté bien definida (como número real finito o, en ciertos contextos, en el sentido extendido).
</p>

<p>
Un punto estructural que conviene explicitar es el vínculo con el transporte de medidas. Sea \(\mu_X=X_{\#}\mathbb P\) la medida imagen (ley) de \(X\). Entonces, por el teorema de cambio de variable,
</p>

\[
\mathbb E[h(X)] = \int_{\mathbb R} h(x)\,d\mu_X(x).
\]

<p>
Esta representación es la forma canónica de la esperanza “vista desde la distribución” y es la que unifica todos los regímenes: discreto, absolutamente continuo, mixto y singular. En efecto, si \(\mu_X\) es discreta, aparece una suma \(\sum_x h(x)p_X(x)\); si \(\mu_X\ll\lambda\) con densidad \(f_X=\frac{d\mu_X}{d\lambda}\), aparece \(\int h(x)f_X(x)\,dx\); si \(\mu_X\) es mixta o singular, la integral se entiende en el sentido de Lebesgue–Stieltjes y puede descomponerse siguiendo la descomposición de Lebesgue de \(\mu_X\).
</p>

<div class="img-row">
  <div class="img-card">
    <img src="data:image/png;base64,""" + img_disc_cont + r"""" alt="Discreto vs continuo"/>
    <div class="cap">Discreto vs continuo: la esperanza se expresa como suma o como integral según la clase de \(\mu_X\).</div>
  </div>
  <div class="img-card">
    <img src="data:image/png;base64,""" + img_push_chk + r"""" alt="Chequeo pushforward"/>
    <div class="cap">Chequeo numérico del cambio de variable: \(\mathbb E[h(X)]\approx \int h\,d\mu_X\).</div>
  </div>
</div>

<h3>Definición rigurosa como integral de Lebesgue: condiciones de existencia e integrabilidad</h3>

<p>
La esperanza \(\mathbb E[h(X)]\) está bien definida como número real finito si y solo si \(h(X)\) es integrable, es decir,
</p>

\[
\mathbb E[|h(X)|] < \infty
\quad\Longleftrightarrow\quad
h(X)\in L^1(\mathbb P).
\]

<p>
En particular, \(\mathbb E[X]\in\mathbb R\) existe si y solo si \(X\in L^1(\mathbb P)\).
</p>

<p>
Cuando la integrabilidad absoluta falla, no basta con decir “la esperanza es infinita” sin matiz. Descomponiendo \(X=X^+-X^-\), con
\(X^+=\max(X,0)\) y \(X^-=\max(-X,0)\), aparecen tres casos cualitativamente distintos: si \(\mathbb E[X^+]=\infty\) y \(\mathbb E[X^-]<\infty\), la esperanza en el sentido extendido es \(+\infty\); si ocurre el caso simétrico, es \(-\infty\); y si ambas son infinitas, la esperanza no está definida (indeterminación \(\infty-\infty\)). Esta distinción es especialmente relevante cuando se consideran pérdidas o transformaciones no acotadas: en aprendizaje estadístico, por ejemplo, ciertas combinaciones de colas pesadas y funciones de pérdida pueden hacer que el riesgo poblacional sea infinito si no se imponen condiciones de integrabilidad.
</p>

<div class="img-row">
  <div class="img-card">
    <img src="data:image/png;base64,""" + img_heavy + r"""" alt="Colas pesadas"/>
    <div class="cap">Ejemplo ilustrativo de colas pesadas: la existencia de momentos depende de integrabilidad.</div>
  </div>
</div>

<p>
Los teoremas de convergencia de Lebesgue son el mecanismo riguroso para justificar el intercambio de límite e integral, paso omnipresente en estadística. Si \(0\le X_n\uparrow X\), entonces \(\mathbb E[X_n]\uparrow\mathbb E[X]\) (convergencia monótona). El lema de Fatou da
</p>

\[
\mathbb E[\liminf X_n]\le \liminf \mathbb E[X_n].
\]

<p>
Y si \(X_n\to X\) y \(|X_n|\le Y\) con \(Y\in L^1(\mathbb P)\), entonces \(\mathbb E[X_n]\to \mathbb E[X]\) y además \(\mathbb E[|X_n-X|]\to 0\) (convergencia dominada). Estos resultados sostienen, entre otras cosas, la legitimidad de aproximar esperanzas por truncaciones, de pasar al límite en definiciones asintóticas y de fundamentar resultados como leyes de los grandes números y consistencias.
</p>

<div class="img-row">
  <div class="img-card">
    <img src="data:image/png;base64,""" + img_dom + r"""" alt="Dominada por truncación"/>
    <div class="cap">Ilustración: truncaciones \(X_n=X\mathbf{1}\{|X|\le n\}\) y \(\mathbb E[|X-X_n|]\to 0\).</div>
  </div>
</div>

<h3>Propiedades: linealidad, monotonicidad y desigualdades fundamentales</h3>

<p>
La esperanza es lineal en el dominio en el que está definida:
</p>

\[
\mathbb E[aX+bY]=a\,\mathbb E[X]+b\,\mathbb E[Y],
\]

<p>
siempre que los términos involucrados existan (en \(\mathbb R\) o, con cautela, como valores extendidos sin indeterminación). Esta linealidad es la base algebraica de la teoría de estimación por promedios, de la descomposición de errores y del análisis de sesgo.
</p>

<p>
La monotonicidad afirma que si \(X\le Y\) casi seguramente y \(X,Y\in L^1\), entonces \(\mathbb E[X]\le \mathbb E[Y]\). La positividad es un caso particular: \(X\ge 0\) casi seguramente implica \(\mathbb E[X]\ge 0\). Estas propiedades generan de inmediato desigualdades de control de colas. Por ejemplo, para \(Z\ge 0\) y \(a>0\),
</p>

\[
\mathbb P(Z\ge a)\le \frac{\mathbb E[Z]}{a}
\]

<p>
(Markov), y aplicándola a \(Z=(X-\mu)^2\) se obtiene
</p>

\[
\mathbb P(|X-\mu|\ge t)\le \frac{\mathrm{Var}(X)}{t^2}
\]

<p>
(Chebyshev). Otra desigualdad estructural imprescindible es Jensen: si \(\varphi\) es convexa y \(X\) integrable,
</p>

\[
\varphi(\mathbb E[X])\le \mathbb E[\varphi(X)],
\]

<p>
con igualdad, bajo estricta convexidad, solo si \(X\) es constante casi seguramente. Esta relación formaliza la interacción entre convexidad y dispersión y es un pilar tanto en inferencia como en optimización estadística.
</p>

<div class="img-row">
  <div class="img-card">
    <img src="data:image/png;base64,""" + img_jensen + r"""" alt="Jensen demo"/>
    <div class="cap">Jensen (ilustración): \(\varphi(\mathbb E[X])\le \mathbb E[\varphi(X)]\) con \(\varphi(x)=x^2\).</div>
  </div>
  <div class="img-card">
    <img src="data:image/png;base64,""" + img_tail + r"""" alt="Chebyshev tails"/>
    <div class="cap">Control de colas: comparación empírica vs cota de Chebyshev para una Normal.</div>
  </div>
</div>

<h3>Momentos: \(\mathbb E[X^k]\), momentos centrales e interpretación (sesgo, kurtosis)</h3>

<p>
El momento crudo de orden \(k\) es
</p>

\[
m_k=\mathbb E[X^k],
\]

<p>
y existe si y solo si \(X\in L^k(\mathbb P)\). Los momentos centrales, respecto de \(\mu=\mathbb E[X]\), son
</p>

\[
\mu_k=\mathbb E[(X-\mu)^k],
\]

<p>
siempre que exista el orden correspondiente.
</p>

<p>
Su interpretación estadística se apoya en normalizaciones que convierten magnitudes dimensionales en índices comparables. La varianza es \(\mu_2\). El coeficiente de asimetría (skewness) suele definirse como
</p>

\[
\gamma_1=\frac{\mu_3}{\sigma^3},
\qquad \sigma^2=\mu_2,
\]

<p>
y cuantifica la falta de simetría alrededor de la media. El exceso de curtosis se define como
</p>

\[
\gamma_2=\frac{\mu_4}{\sigma^4}-3,
\]

<p>
donde el \(-3\) fija la referencia gaussiana en cero; valores positivos suelen asociarse a colas relativamente más pesadas o a mayor concentración central, aunque la lectura exacta depende del conjunto de distribuciones considerado. Un mensaje matemáticamente importante es que la existencia de momentos no es automática: colas pesadas pueden destruir momentos de cierto orden, con consecuencias directas sobre estabilidad de estimadores que dependen de potencias (por ejemplo, la varianza muestral puede tener comportamiento errático si el cuarto momento es infinito).
</p>

<p>
Un punto adicional de nivel avanzado es el problema de los momentos: la sucesión \((m_k)_{k\ge 0}\) no siempre determina de manera única la ley. Existen distribuciones distintas con todos los momentos iguales. Por ello, cuando se requiere identificación unívoca, se recurre a herramientas que sí caracterizan completamente la distribución. La función generadora de momentos
</p>

\[
\varphi(t)=\mathbb E[e^{tX}]
\]

<p>
lo hace cuando existe en un entorno del origen y es analítica allí; la función característica
</p>

\[
\phi(t)=\mathbb E[e^{itX}]
\]

<p>
siempre existe, es uniformemente continua y determina unívocamente la distribución.
</p>

<h3>Varianza: \(\mathrm{Var}(X)\)</h3>

<p>
Bajo \(X\in L^2(\mathbb P)\), la varianza se define por
</p>

\[
\mathrm{Var}(X)=\mathbb E[(X-\mathbb E[X])^2],
\]

<p>
y satisface la identidad
</p>

\[
\mathrm{Var}(X)=\mathbb E[X^2]-(\mathbb E[X])^2.
\]

<p>
Más allá de la fórmula, hay una estructura geométrica de Hilbert que conviene explicitar: en \(L^2(\mathbb P)\) se tiene una descomposición ortogonal
</p>

\[
L^2(\mathbb P)=\operatorname{span}\{1\}\oplus\{Z\in L^2:\mathbb E[Z]=0\}.
\]

<p>
La media \(\mathbb E[X]\) es la proyección ortogonal de \(X\) sobre el subespacio de constantes, y la varianza es la distancia cuadrática al mejor aproximante constante:
</p>

\[
\mathrm{Var}(X)=\inf_{c\in\mathbb R}\|X-c\|_{L^2(\mathbb P)}^2.
\]

<p>
De aquí se deduce inmediatamente la regla afín
</p>

\[
\mathrm{Var}(aX+b)=a^2\,\mathrm{Var}(X).
\]

<div class="img-row">
  <div class="img-card">
    <img src="data:image/png;base64,""" + img_varproj + r"""" alt="Varianza como proyección"/>
    <div class="cap">Geometría \(L^2\): \(c=\mathbb E[X]\) minimiza \(\mathbb E[(X-c)^2]\).</div>
  </div>
</div>

<h3>Riesgo en ML: la esperanza de la función de pérdida \(\mathbb E[\ell(f(X),Y)]\)</h3>

<p>
En aprendizaje estadístico, el objeto central es el riesgo poblacional, definido como esperanza de una pérdida. Sea \((X,Y)\sim P\) en \(\mathcal X\times\mathcal Y\), \(f:\mathcal X\to\mathcal Y\) un predictor y \(\ell\ge 0\) una pérdida medible. Entonces
</p>

\[
R(f)=\mathbb E[\ell(f(X),Y)]
=\int_{\mathcal X\times\mathcal Y}\ell(f(x),y)\,dP(x,y).
\]

<p>
El riesgo empírico corresponde a integrar respecto de la medida empírica \(P_n\) asociada a una muestra i.i.d.:
</p>

\[
R_n(f)=\frac{1}{n}\sum_{i=1}^n \ell(f(X_i),Y_i).
\]

<p>
La teoría de generalización se organiza en torno al control de la desviación, idealmente uniforme sobre una clase \(\mathcal F\):
</p>

\[
\sup_{f\in\mathcal F}\,|R(f)-R_n(f)|.
\]

<p>
Ese control exige, de manera esencial, hipótesis de integrabilidad sobre \(\ell(f(X),Y)\) (para que el riesgo sea finito y la concentración sea posible) y condiciones de complejidad sobre \(\mathcal F\) (para que el supremo sea controlable). En este sentido, el operador esperanza no es un accesorio conceptual: es la infraestructura matemática que conecta un modelo probabilístico abstracto con garantías cuantitativas de desempeño y con algoritmos de ajuste con fundamento teórico.
</p>

<div class="img-row">
  <div class="img-card">
    <img src="data:image/png;base64,""" + img_risk + r"""" alt="Riesgo ML"/>
    <div class="cap">Ejemplo: riesgo poblacional vs empírico para pérdida cuadrática en un modelo lineal simple.</div>
  </div>
</div>
"""

CONFIG = {
    "main_title": "Teoría de Probabilidad: Esperanza, Integrabilidad y Momentos",
    "subtitle": "Integral de Lebesgue, transporte de medidas, convergencia, Jensen/Markov/Chebyshev, momentos y riesgo en ML",
    "footer_text": "Material de Cátedra - Profesor Sergio Gevatschnaider"
}

full_html = f"""
<!DOCTYPE html>
<html lang="es">
<head>
<meta charset="UTF-8">
<link href="https://fonts.googleapis.com/css2?family=Inter:wght@300;400;700;800&family=JetBrains+Mono:wght@400&display=swap" rel="stylesheet">
<link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.0/css/all.min.css" rel="stylesheet">

<script>
MathJax = {{
  tex: {{
    inlineMath: [['$', '$'], ['\\\\(', '\\\\)']],
    displayMath: [['$$', '$$'], ['\\\\[', '\\\\]']]
  }},
  svg: {{ fontCache: 'global' }}
}};
</script>
<script id="MathJax-script" async src="https://cdn.jsdelivr.net/npm/mathjax@3/es5/tex-mml-chtml.js"></script>

<style>
  :root {{
    --bg: #0f172a;
    --card: rgba(30, 41, 59, 0.78);
    --border: rgba(255,255,255,0.08);
    --text: #f8fafc;
    --muted: #94a3b8;
    --shadow: rgba(0,0,0,0.25);
  }}
  body {{
    margin: 0;
    padding: 26px 16px;
    background: radial-gradient(1200px 700px at 20% 5%, rgba(59,130,246,0.18), transparent 60%),
                radial-gradient(900px 600px at 85% 20%, rgba(168,85,247,0.16), transparent 55%),
                var(--bg);
    color: var(--text);
    font-family: Inter, sans-serif;
    line-height: 1.75;
  }}
  .wrap {{ max-width: 1040px; margin: 0 auto; }}
  .hero {{
    padding: 24px 22px;
    border: 1px solid var(--border);
    border-radius: 20px;
    background: rgba(255,255,255,0.03);
    box-shadow: 0 18px 40px var(--shadow);
    backdrop-filter: blur(10px);
    text-align: center;
  }}
  h1 {{
    margin: 0 0 8px 0;
    font-size: clamp(1.85rem, 3.4vw, 2.55rem);
    letter-spacing: -0.8px;
    background: linear-gradient(90deg, #38bdf8, #818cf8, #a855f7);
    -webkit-background-clip: text;
    -webkit-text-fill-color: transparent;
  }}
  .sub {{
    color: var(--muted);
    font-weight: 300;
    font-size: 1.03rem;
  }}
  .card {{
    border: 1px solid var(--border);
    border-radius: 18px;
    background: var(--card);
    overflow: hidden;
    box-shadow: 0 10px 22px var(--shadow);
    margin-top: 16px;
  }}
  .hdr {{
    padding: 14px 16px;
    display: flex;
    align-items: center;
    justify-content: space-between;
    cursor: pointer;
    user-select: none;
    background: linear-gradient(90deg, rgba(255,255,255,0.05), transparent);
    font-weight: 800;
  }}
  .chev {{
    color: var(--muted);
    transition: transform .25s ease, color .25s ease;
  }}
  .card.active .chev {{ transform: rotate(180deg); }}
  .content {{
    max-height: 0;
    overflow: hidden;
    transition: max-height .9s cubic-bezier(0.4,0,0.2,1);
  }}
  .card.active .content {{ max-height: 400000px; }}
  .inner {{
    padding: 14px 18px 18px 18px;
    color: #cbd5e1;
    font-size: 1.02rem;
  }}
  .img-row {{
    margin: 14px 0 6px 0;
    display: grid;
    gap: 14px;
    grid-template-columns: repeat(auto-fit, minmax(270px, 1fr));
  }}
  .img-card {{
    border: 1px solid var(--border);
    border-radius: 14px;
    background: rgba(15,23,42,0.35);
    overflow: hidden;
  }}
  .img-card img {{ width: 100%; display: block; }}
  .cap {{
    padding: 10px 12px;
    font-size: 0.9rem;
    color: var(--muted);
    border-top: 1px solid var(--border);
  }}
  footer {{
    margin-top: 18px;
    text-align: center;
    color: var(--muted);
    font-size: 0.9rem;
    padding: 10px 0 4px 0;
  }}
  mjx-container {{
    font-size: 112% !important;
    color: #e2e8f0 !important;
  }}
</style>
</head>
<body>
  <div class="wrap">
    <div class="hero">
      <h1>{html.escape(CONFIG["main_title"])}</h1>
      <div class="sub">{html.escape(CONFIG["subtitle"])}</div>
    </div>

    <div class="card active" id="card-main">
      <div class="hdr" id="hdr-main">
        <div>Sección 4 (texto completo) + gráficos embebidos</div>
        <i class="fas fa-chevron-down chev"></i>
      </div>
      <div class="content">
        <div class="inner" id="inner-main">
          {texto}
        </div>
      </div>
    </div>

    <footer>{html.escape(CONFIG["footer_text"])}</footer>
  </div>

  <script>
    function typeset(el) {{
      if (window.MathJax && MathJax.typesetPromise) {{
        MathJax.typesetPromise([el]).catch(() => {{}});
      }}
    }}
    const card = document.getElementById("card-main");
    const hdr  = document.getElementById("hdr-main");
    hdr.addEventListener("click", () => {{
      card.classList.toggle("active");
      typeset(card);
    }});
    typeset(document.body);
  </script>
</body>
</html>
"""

display(HTML(full_html))


In [None]:
# @title
# ==========================================================
# GOOGLE COLAB (SIN MOSTRAR CÓDIGO) + TEXTO COMPLETO + GRÁFICOS
# Sección 5: Covarianza, Dependencia y Desigualdades
# (CORREGIDO: Matplotlib MathText NO usa \le / \ge -> usar ≤ / ≥ en gráficos)
# ==========================================================

from IPython.display import display, HTML
import html, io, base64
import numpy as np
import matplotlib.pyplot as plt

# Oculta el input (código) de esta celda en Colab
display(HTML("<style>div.input{display:none;}</style>"))

# --------------------------
# Helpers
# --------------------------
def fig_to_base64(fig, dpi=170):
    buf = io.BytesIO()
    fig.savefig(buf, format="png", bbox_inches="tight", transparent=True, dpi=dpi)
    plt.close(fig)
    buf.seek(0)
    return base64.b64encode(buf.read()).decode("utf-8")

def ecdf(x):
    x = np.sort(np.asarray(x))
    y = np.linspace(1/len(x), 1.0, len(x))
    return x, y

# --------------------------
# GRÁFICOS (ejemplos pedagógicos)
# --------------------------

def plot_cov_as_inner_product():
    rng = np.random.default_rng(0)
    n = 8000
    X = rng.normal(0, 1, size=n)
    Y = 0.8*X + rng.normal(0, 0.6, size=n)

    Xc = X - X.mean()
    Yc = Y - Y.mean()

    cov = np.mean(Xc*Yc)
    sigx = np.sqrt(np.mean(Xc**2))
    sigy = np.sqrt(np.mean(Yc**2))
    rho = cov/(sigx*sigy)

    fig, ax = plt.subplots(figsize=(9.4, 3.9))
    ax.scatter(Xc, Yc, s=10, alpha=0.35)
    ax.set_xlabel("X - E[X]")
    ax.set_ylabel("Y - E[Y]")
    ax.set_title("Covarianza como producto interno en $L^2$: $\\mathrm{Cov}(X,Y)=\\mathbb{E}[X_c Y_c]$")
    ax.grid(True, alpha=0.25)

    ax.text(0.02, 0.94,
            f"Cov(X,Y) ≈ {cov:.3f}\nσX ≈ {sigx:.3f},  σY ≈ {sigy:.3f}\nρ ≈ {rho:.3f}",
            transform=ax.transAxes, va="top", fontsize=11,
            bbox=dict(boxstyle="round,pad=0.35", alpha=0.22))

    return fig_to_base64(fig)

def plot_correlation_scale_invariance():
    rng = np.random.default_rng(1)
    n = 9000
    X = rng.normal(1.0, 2.0, size=n)
    Y = 3.0*X + rng.normal(0, 3.0, size=n)

    cov = np.cov(X, Y, bias=True)[0,1]
    rho = cov/(X.std()*Y.std())

    # Escalamos X e Y por factores distintos y trasladamos
    X2 = 10*X + 7
    Y2 = -0.4*Y + 100

    cov2 = np.cov(X2, Y2, bias=True)[0,1]
    rho2 = cov2/(X2.std()*Y2.std())

    fig, ax = plt.subplots(figsize=(9.4, 3.9))
    ax.scatter(X, Y, s=10, alpha=0.25, label="(X,Y)")
    ax.scatter(X2, Y2, s=10, alpha=0.25, label="(10X+7, -0.4Y+100)")
    ax.set_xlabel("X / X transformada")
    ax.set_ylabel("Y / Y transformada")
    ax.set_title("Covarianza depende de escala; correlación de Pearson es invariante afín (por variable)")
    ax.grid(True, alpha=0.25)
    ax.legend(frameon=False)

    ax.text(0.02, 0.94,
            f"Cov(X,Y) ≈ {cov:.2f}  |  ρ ≈ {rho:.3f}\nCov(transformados) ≈ {cov2:.2f}  |  ρ ≈ {rho2:.3f}",
            transform=ax.transAxes, va="top", fontsize=11,
            bbox=dict(boxstyle="round,pad=0.35", alpha=0.22))

    return fig_to_base64(fig)

def plot_cov_matrix_psd_and_pca_geometry():
    rng = np.random.default_rng(2)
    n = 12000
    # Nube elíptica 2D
    Z = rng.normal(0, 1, size=(n, 2))
    A = np.array([[2.0, 1.2],
                  [0.0, 0.9]])
    X = Z @ A.T  # correlación inducida
    Xc = X - X.mean(axis=0, keepdims=True)
    Sigma = (Xc.T @ Xc) / n

    # PSD check via eigenvalues
    w, v = np.linalg.eigh(Sigma)
    idx = np.argsort(w)[::-1]
    w = w[idx]; v = v[:, idx]

    mean = X.mean(axis=0)
    t = np.linspace(-6, 6, 2)
    pc1 = mean + np.outer(t, v[:,0]) * np.sqrt(w[0])
    pc2 = mean + np.outer(t, v[:,1]) * np.sqrt(w[1])

    fig, ax = plt.subplots(figsize=(9.4, 3.9))
    ax.scatter(X[:,0], X[:,1], s=6, alpha=0.18)
    ax.plot(pc1[:,0], pc1[:,1], linewidth=2.4, label="PC1 (dirección var máxima)")
    ax.plot(pc2[:,0], pc2[:,1], linewidth=2.4, label="PC2")

    ax.set_xlabel("$X_1$")
    ax.set_ylabel("$X_2$")
    ax.set_title("Matriz de covarianza $\\Sigma\\succeq 0$ y geometría elipsoidal (PCA)")
    ax.grid(True, alpha=0.25)
    ax.legend(frameon=False)

    ax.text(0.02, 0.94,
            f"Autovalores de Σ: {w[0]:.3f}, {w[1]:.3f}\nΣ es PSD porque aᵀΣa = Var(aᵀX) ≥ 0",
            transform=ax.transAxes, va="top", fontsize=11,
            bbox=dict(boxstyle="round,pad=0.35", alpha=0.22))
    return fig_to_base64(fig)

def plot_uncorrelated_but_dependent():
    rng = np.random.default_rng(3)
    n = 300000
    X = rng.normal(0, 1, size=n)
    Y = X**2

    cov = np.mean((X - X.mean())*(Y - Y.mean()))
    rho = cov/(X.std()*Y.std())

    m = 7000
    idx = rng.choice(n, size=m, replace=False)
    xs = X[idx]
    ys = Y[idx]

    fig, ax = plt.subplots(figsize=(9.4, 3.9))
    ax.scatter(xs, ys, s=10, alpha=0.32)
    ax.set_xlabel("X")
    ax.set_ylabel("Y = X^2")
    ax.set_title("Incorrelación no implica independencia: $Y=X^2$ tiene Cov(X,Y)=0 pero dependencia total")
    ax.grid(True, alpha=0.25)

    ax.text(0.02, 0.94,
            f"Cov(X,Y) ≈ {cov:.5f}\nρ ≈ {rho:.5f}\nY está determinado por X (dependencia no lineal)",
            transform=ax.transAxes, va="top", fontsize=11,
            bbox=dict(boxstyle="round,pad=0.35", alpha=0.22))
    return fig_to_base64(fig)

def plot_gaussian_zero_cov_implies_independence_demo():
    rng = np.random.default_rng(4)
    n = 250000
    X = rng.normal(0, 1, size=n)
    Y = rng.normal(0, 1, size=n)
    cov = np.mean((X-X.mean())*(Y-Y.mean()))
    rho = cov/(X.std()*Y.std())

    p_joint = np.mean((X>0) & (Y>0))
    p_prod  = np.mean(X>0) * np.mean(Y>0)

    fig, ax = plt.subplots(figsize=(9.4, 3.9))
    m = 9000
    idx = rng.choice(n, size=m, replace=False)
    ax.scatter(X[idx], Y[idx], s=10, alpha=0.25)
    ax.set_xlabel("X")
    ax.set_ylabel("Y")
    ax.set_title("Caso gaussiano: covarianza nula coincide con independencia (ilustración)")
    ax.grid(True, alpha=0.25)

    ax.text(0.02, 0.94,
            f"Cov(X,Y) ≈ {cov:.5f},  ρ ≈ {rho:.5f}\nP(X>0,Y>0) ≈ {p_joint:.4f}\nP(X>0)P(Y>0) ≈ {p_prod:.4f}",
            transform=ax.transAxes, va="top", fontsize=11,
            bbox=dict(boxstyle="round,pad=0.35", alpha=0.22))
    return fig_to_base64(fig)

def plot_cs_bound_on_cov():
    rng = np.random.default_rng(5)
    n = 200000
    X = rng.normal(0, 1, size=n)
    Y = 0.5*X + rng.normal(0, 2.0, size=n)

    Xc = X - X.mean()
    Yc = Y - Y.mean()

    cov = np.mean(Xc*Yc)
    sigx = np.sqrt(np.mean(Xc**2))
    sigy = np.sqrt(np.mean(Yc**2))
    bound = sigx*sigy

    fig, ax = plt.subplots(figsize=(9.4, 3.9))
    ax.bar([0,1], [abs(cov), bound], alpha=0.85)
    ax.set_xticks([0,1])
    ax.set_xticklabels(["|Cov(X,Y)|", "σX σY (C-S)"])
    ax.set_ylabel("magnitud")

    # CORRECCIÓN CLAVE: NO usar \le en MathText. Usar ≤ en texto plano.
    ax.set_title("Cauchy–Schwarz en $L^2$: |Cov(X,Y)| ≤ σX σY")

    ax.grid(True, axis="y", alpha=0.25)

    ax.text(0.02, 0.94,
            f"|Cov| ≈ {abs(cov):.3f}\nσXσY ≈ {bound:.3f}\n(demostración: Cauchy–Schwarz en L^2)",
            transform=ax.transAxes, va="top", fontsize=11,
            bbox=dict(boxstyle="round,pad=0.35", alpha=0.22))
    return fig_to_base64(fig)

def plot_markov_chebyshev_and_exponential_tail():
    rng = np.random.default_rng(6)
    n = 600000
    X = rng.normal(0, 1, size=n)
    var = np.var(X)

    ts = np.array([0.5, 1.0, 1.5, 2.0, 2.5, 3.0])
    tail = np.array([np.mean(np.abs(X) >= t) for t in ts])
    cheb = var/(ts**2)
    expb = 2*np.exp(-0.5*ts**2)

    fig, ax = plt.subplots(figsize=(9.4, 3.9))
    ax.plot(ts, tail, linewidth=2.4, marker="o", label="P(|X|≥t) empírico")
    ax.plot(ts, cheb, linewidth=2.4, marker="o", label="Chebyshev: Var(X)/t^2")
    ax.plot(ts, expb, linewidth=2.4, marker="o", label="Cota exponencial (tipo Chernoff para Normal)")
    ax.set_xlabel("t")
    ax.set_ylabel("probabilidad / cota")
    ax.set_title("De momentos a colas: Chebyshev vs cotas exponenciales (ilustración)")
    ax.grid(True, alpha=0.25)
    ax.legend(frameon=False)
    return fig_to_base64(fig)

def plot_conditional_independence_demo():
    rng = np.random.default_rng(7)
    n = 250000
    Z  = rng.normal(0, 1, size=n)
    e1 = rng.normal(0, 0.7, size=n)
    e2 = rng.normal(0, 0.7, size=n)
    X = Z + e1
    Y = Z + e2

    cov_xy = np.cov(X, Y, bias=True)[0,1]
    rho_xy = cov_xy/(X.std()*Y.std())

    Xr = X - Z
    Yr = Y - Z
    cov_res = np.cov(Xr, Yr, bias=True)[0,1]
    rho_res = cov_res/(Xr.std()*Yr.std())

    m = 9000
    idx = rng.choice(n, size=m, replace=False)

    fig, ax = plt.subplots(figsize=(9.4, 3.9))
    ax.scatter(X[idx], Y[idx], s=10, alpha=0.18, label="(X,Y) marginal")
    ax.scatter(Xr[idx], Yr[idx], s=10, alpha=0.18, label="(X−Z, Y−Z) residuales")
    ax.set_xlabel("primera coordenada")
    ax.set_ylabel("segunda coordenada")
    ax.set_title("Independencia condicional (ilustración): dependencia marginal desaparece al condicionar por Z")
    ax.grid(True, alpha=0.25)
    ax.legend(frameon=False)

    ax.text(0.02, 0.94,
            f"ρ(X,Y) marginal ≈ {rho_xy:.3f}\nρ(X−Z, Y−Z) ≈ {rho_res:.3f} (casi 0)",
            transform=ax.transAxes, va="top", fontsize=11,
            bbox=dict(boxstyle="round,pad=0.35", alpha=0.22))
    return fig_to_base64(fig)

# Generar imágenes
img_cov_ip   = plot_cov_as_inner_product()
img_scale    = plot_correlation_scale_invariance()
img_pca      = plot_cov_matrix_psd_and_pca_geometry()
img_dep0     = plot_uncorrelated_but_dependent()
img_gauss    = plot_gaussian_zero_cov_implies_independence_demo()
img_cs       = plot_cs_bound_on_cov()
img_tails    = plot_markov_chebyshev_and_exponential_tail()
img_cind     = plot_conditional_independence_demo()

# --------------------------
# TEXTO COMPLETO (SIN OMISIONES) EN HTML + MATHJAX
# --------------------------
texto = r"""
<h2 style="margin-top:0.2rem;">5. Covarianza, Dependencia y Desigualdades</h2>

<p>
El estudio de la dependencia entre variables aleatorias es un núcleo conceptual de la estadística matemática y del aprendizaje automático. Dada una familia
\((X_1,\dots,X_d)\) definida sobre \((\Omega,\mathcal F,\mathbb P)\), la ley conjunta \(\mu_{X_1,\dots,X_d}\) contiene toda la información, pero rara vez es tratable en forma cerrada. Por eso se introducen <strong>funcionales</strong> que capturan aspectos específicos de la estructura conjunta: la <strong>covarianza</strong> y la <strong>correlación</strong> extraen la componente lineal; la <strong>independencia</strong> y la <strong>independencia condicional</strong> describen factorizaciones exactas de la medida; y las <strong>desigualdades maestras</strong> (y sus refinamientos de concentración) traducen información parcial (momentos, convexidad) en cotas probabilísticas cuantitativas.
</p>

<p>
Un marco natural para buena parte de este análisis es el espacio de Hilbert \(L^2(\mathbb P)\) de variables aleatorias con segundo momento finito, equipado con el producto interno
</p>

\[
\langle U,V\rangle_{L^2}:=\mathbb E[UV].
\]

<p>
En este lenguaje, las variables <strong>centradas</strong> \((X-\mathbb E[X])\) viven en el subespacio ortogonal a las constantes, y varias identidades “de memoria” se vuelven consecuencias inmediatas de <strong>ortogonalidad</strong> y <strong>proyección</strong>.
</p>

<hr style="border-color: rgba(255,255,255,0.12); margin: 18px 0;">

<h3>5.1. Planteo general: relación entre dos o más variables aleatorias</h3>

<p>
El objetivo es describir y cuantificar la estructura conjunta de \((X,Y)\) o, más generalmente, de \((X_1,\dots,X_d)\). La distribución conjunta determina toda dependencia, pero al ser poco manipulable se reemplaza por descriptores de complejidad controlada:
</p>

<ul>
  <li><strong>Dependencia lineal (segundo orden):</strong> covarianza/correlación.</li>
  <li><strong>Dependencia exacta (toda la ley):</strong> independencia e independencia condicional.</li>
  <li><strong>Traducción momento \(\to\) cola:</strong> desigualdades (Markov, Chebyshev, Chernoff/Hoeffding/Bernstein, etc.).</li>
</ul>

<p>
La perspectiva funcional \(L^2(\mathbb P)\) será central: si \(X,Y\in L^2(\mathbb P)\), entonces las fluctuaciones centradas \((X-\mathbb E[X])\) y \((Y-\mathbb E[Y])\) se interpretan geométricamente, y la covarianza aparece como un producto interno.
</p>

<div class="img-row">
  <div class="img-card">
    <img src="data:image/png;base64,""" + img_cov_ip + r"""" alt="Covarianza como producto interno"/>
    <div class="cap">Covarianza como producto interno en \(L^2\) para variables centradas.</div>
  </div>
</div>

<hr style="border-color: rgba(255,255,255,0.12); margin: 18px 0;">

<h3>5.2. Covarianza y correlación: definición, propiedades e interpretación geométrica</h3>

<p>
Para \(X,Y\in L^2(\mathbb P)\) se define la <strong>covarianza</strong>
</p>

\[
\mathrm{Cov}(X,Y):=\mathbb E\big[(X-\mathbb E[X])(Y-\mathbb E[Y])\big].
\]

<p>
Expandiendo y usando linealidad,
</p>

\[
\mathrm{Cov}(X,Y)=\mathbb E[XY]-\mathbb E[X]\mathbb E[Y],
\]

<p>
identidad válida cuando \(XY\in L^1(\mathbb P)\), condición garantizada por \(X,Y\in L^2(\mathbb P)\) vía Cauchy–Schwarz.
</p>

<p>
Propiedades estructurales que se usan sistemáticamente:
</p>

<ol>
  <li><strong>Simetría y bilinealidad.</strong>
  \[
   \mathrm{Cov}(X,Y)=\mathrm{Cov}(Y,X),\qquad
   \mathrm{Cov}(aX+b,cY+d)=ac\,\mathrm{Cov}(X,Y).
  \]
  En particular, las traslaciones no afectan la covarianza y el cambio de unidades escala su magnitud: la covarianza <strong>no</strong> es invariante a escala.
  </li>

  <li><strong>Lectura como producto interno en \(L^2\).</strong>
  \[
   \mathrm{Cov}(X,Y)=\langle X-\mathbb E[X],\,Y-\mathbb E[Y]\rangle_{L^2}.
  \]
  Así, la covarianza mide el <strong>alineamiento lineal</strong> de fluctuaciones centradas: positiva si tienden a variar con el mismo signo, negativa si lo hacen con signos opuestos.
  </li>

  <li><strong>Matriz de covarianza en dimensión \(d\).</strong>
  Para \(X=(X_1,\dots,X_d)^\top\in L^2(\mathbb P)^d\), la matriz
  \[
   \Sigma:=\big(\mathrm{Cov}(X_i,X_j)\big)_{i,j=1}^d
  \]
  es siempre <strong>semidefinida positiva</strong> \((\Sigma\succeq 0)\), pues para todo \(a\in\mathbb R^d\),
  \[
   a^\top\Sigma a=\mathrm{Var}(a^\top X)\ge 0.
  \]
  Este hecho conecta dependencia con geometría elipsoidal (PCA), con factorizaciones (Cholesky cuando \(\Sigma\succ 0\)), con estabilidad numérica en estimación (por ejemplo, máxima verosimilitud gaussiana) y con condiciones de regularidad en optimización convexa.
  </li>
</ol>

<div class="img-row">
  <div class="img-card">
    <img src="data:image/png;base64,""" + img_scale + r"""" alt="Invarianza de correlación"/>
    <div class="cap">Covarianza cambia con la escala; \(\rho\) es adimensional e invariante afín por variable.</div>
  </div>
  <div class="img-card">
    <img src="data:image/png;base64,""" + img_pca + r"""" alt="Sigma PSD y PCA"/>
    <div class="cap">\(\Sigma\succeq 0\) y direcciones principales (PCA) como geometría elipsoidal.</div>
  </div>
</div>

<p>
Para eliminar la dependencia de escala se define la <strong>correlación de Pearson</strong>
</p>

\[
\rho_{XY}:=\frac{\mathrm{Cov}(X,Y)}{\sigma_X\sigma_Y},\qquad
\sigma_X^2=\mathrm{Var}(X),\ \sigma_Y^2=\mathrm{Var}(Y),
\]

<p>
cuando \(\sigma_X,\sigma_Y>0\). Es adimensional e invariante ante transformaciones afines por separado. Si
</p>

\[
\widetilde X=\frac{X-\mathbb E[X]}{\sigma_X},\qquad
\widetilde Y=\frac{Y-\mathbb E[Y]}{\sigma_Y},
\]

<p>
entonces
</p>

\[
\rho_{XY}=\mathbb E[\widetilde X\,\widetilde Y]=\langle \widetilde X,\widetilde Y\rangle_{L^2}.
\]

<p>
Por Cauchy–Schwarz se obtiene \(|\rho_{XY}|\le 1\). Además, \(|\rho_{XY}|=1\) si y solo si existe \(a\neq 0\) y \(b\in\mathbb R\) tales que
</p>

\[
Y=aX+b\quad \mathbb P\text{-c.s.},
\]

<p>
es decir, dependencia lineal casi segura.
</p>

<hr style="border-color: rgba(255,255,255,0.12); margin: 18px 0;">

<h3>5.3. Independencia vs. incorrelación: diferencias y el caso gaussiano</h3>

<p>
La <strong>independencia</strong> es una propiedad de factorización de la ley conjunta. Formalmente, \(X\) e \(Y\) son independientes si para todo \(A,B\in\mathcal B(\mathbb R)\),
</p>

\[
\mathbb P(X\in A,\,Y\in B)=\mathbb P(X\in A)\,\mathbb P(Y\in B).
\]

<p>
Equivalente, las \(\sigma\)-álgebras \(\sigma(X)\) y \(\sigma(Y)\) son independientes, y la medida conjunta factoriza \(\mu_{X,Y}=\mu_X\otimes\mu_Y\). Esta condición controla <strong>todas</strong> las dependencias medibles, no solo la lineal.
</p>

<p>
La <strong>incorrelación</strong>, en cambio, es una condición de segundo orden:
</p>

\[
\mathrm{Cov}(X,Y)=0.
\]

<p>
En la geometría de \(L^2\), esto es ortogonalidad de variables centradas. Es una condición mucho más débil: puede ocurrir que \(Y\) sea función no lineal de \(X\) y aun así la covarianza sea nula. Ejemplo clásico: si \(X\) es simétrica respecto de \(0\) y \(Y=X^2\), entonces \(\mathbb E[X]=0\) y \(\mathbb E[X^3]=0\), luego
</p>

\[
\mathrm{Cov}(X,Y)=\mathbb E[X^3]-\mathbb E[X]\mathbb E[X^2]=0,
\]

<p>
pero \(Y\) está completamente determinado por \(X\), lo cual es la antítesis de independencia.
</p>

<div class="img-row">
  <div class="img-card">
    <img src="data:image/png;base64,""" + img_dep0 + r"""" alt="Incorrelación sin independencia"/>
    <div class="cap">Ejemplo: \(Y=X^2\) con \(X\) simétrica. Covarianza nula pero dependencia total.</div>
  </div>
</div>

<p>
<strong>Excepción estructural (gaussiana).</strong> Si \((X,Y)\) es conjuntamente gaussiano, su ley queda determinada por medias y matriz de covarianza. En ese contexto,
</p>

\[
\mathrm{Cov}(X,Y)=0\quad \Longleftrightarrow\quad X\perp\!\!\!\perp Y.
\]

<p>
Esto explica por qué en modelos lineales gaussianos la matriz de covarianza “captura toda la dependencia”. Fuera del régimen gaussiano, covarianza/correlación son ciegas a dependencias no lineales u órdenes superiores, motivando medidas más generales (p. ej. información mutua, copulas, HSIC/distancias en RKHS, correlaciones de orden superior, etc.).
</p>

<div class="img-row">
  <div class="img-card">
    <img src="data:image/png;base64,""" + img_gauss + r"""" alt="Gaussiano y covarianza nula"/>
    <div class="cap">Ilustración gaussiana: covarianza cercana a 0 y chequeo simple de factorización en eventos.</div>
  </div>
</div>

<hr style="border-color: rgba(255,255,255,0.12); margin: 18px 0;">

<h3>5.4. Desigualdades maestras: de estructura funcional a cotas probabilísticas</h3>

<p>
Estas desigualdades conectan tres niveles: (i) estructura funcional (normas, convexidad), (ii) información de momentos y (iii) conclusiones probabilísticas (colas, concentración).
</p>

<p>
<strong>(i) Cauchy–Schwarz en \(L^2\).</strong> Para \(U,V\in L^2(\mathbb P)\),
</p>

\[
|\mathbb E[UV]|\le \|U\|_2\,\|V\|_2
= \sqrt{\mathbb E[U^2]}\,\sqrt{\mathbb E[V^2]}.
\]

<p>
Aplicada a \(U=X-\mathbb E[X]\), \(V=Y-\mathbb E[Y]\),
</p>

\[
|\mathrm{Cov}(X,Y)|\le \sigma_X\sigma_Y,
\]

<p>
y por ende \(|\rho_{XY}|\le 1). La igualdad equivale a dependencia lineal en \(L^2\) (relación afín casi segura).
</p>

<div class="img-row">
  <div class="img-card">
    <img src="data:image/png;base64,""" + img_cs + r"""" alt="Cauchy-Schwarz en covarianza"/>
    <div class="cap">Cauchy–Schwarz: \( |\mathrm{Cov}(X,Y)|\le \sigma_X\sigma_Y \) (ilustración numérica).</div>
  </div>
</div>

<p>
<strong>(ii) Jensen.</strong> Si \(\varphi\) es convexa y \(X\in L^1(\mathbb P)\),
</p>

\[
\varphi(\mathbb E[X])\le \mathbb E[\varphi(X)].
\]

<p>
<strong>(iii) Markov.</strong> Para \(Z\ge 0\) y \(a>0\),
</p>

\[
\mathbb P(Z\ge a)\le \frac{\mathbb E[Z]}{a}.
\]

<p>
<strong>(iv) Chebyshev (vía Markov).</strong> Con \(\mu=\mathbb E[X]\) y \(t>0\),
</p>

\[
\mathbb P(|X-\mu|\ge t)\le \frac{\mathrm{Var}(X)}{t^2}.
\]
"""

CONFIG = {
    "main_title": "Teoría de Probabilidad: Dependencia, Covarianza y Desigualdades",
    "subtitle": "Geometría en $L^2$, matrices de covarianza, independencia vs incorrelación, Markov/Chebyshev/Jensen y estructura condicional",
    "footer_text": "Material de Cátedra - Profesor Sergio Gevatschnaider"
}

full_html = f"""
<!DOCTYPE html>
<html lang="es">
<head>
<meta charset="UTF-8">
<link href="https://fonts.googleapis.com/css2?family=Inter:wght@300;400;700;800&family=JetBrains+Mono:wght@400&display=swap" rel="stylesheet">
<link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.0/css/all.min.css" rel="stylesheet">

<script>
MathJax = {{
  tex: {{
    inlineMath: [['$', '$'], ['\\\\(', '\\\\)']],
    displayMath: [['$$', '$$'], ['\\\\[', '\\\\]']]
  }},
  svg: {{ fontCache: 'global' }}
}};
</script>
<script id="MathJax-script" async src="https://cdn.jsdelivr.net/npm/mathjax@3/es5/tex-mml-chtml.js"></script>

<style>
  :root {{
    --bg: #0f172a;
    --card: rgba(30, 41, 59, 0.78);
    --border: rgba(255,255,255,0.08);
    --text: #f8fafc;
    --muted: #94a3b8;
    --shadow: rgba(0,0,0,0.25);
  }}
  body {{
    margin: 0;
    padding: 26px 16px;
    background: radial-gradient(1200px 700px at 20% 5%, rgba(59,130,246,0.18), transparent 60%),
                radial-gradient(900px 600px at 85% 20%, rgba(168,85,247,0.16), transparent 55%),
                var(--bg);
    color: var(--text);
    font-family: Inter, sans-serif;
    line-height: 1.75;
  }}
  .wrap {{ max-width: 1080px; margin: 0 auto; }}
  .hero {{
    padding: 24px 22px;
    border: 1px solid var(--border);
    border-radius: 20px;
    background: rgba(255,255,255,0.03);
    box-shadow: 0 18px 40px var(--shadow);
    backdrop-filter: blur(10px);
    text-align: center;
  }}
  h1 {{
    margin: 0 0 8px 0;
    font-size: clamp(1.85rem, 3.4vw, 2.55rem);
    letter-spacing: -0.8px;
    background: linear-gradient(90deg, #38bdf8, #818cf8, #a855f7);
    -webkit-background-clip: text;
    -webkit-text-fill-color: transparent;
  }}
  .sub {{
    color: var(--muted);
    font-weight: 300;
    font-size: 1.03rem;
  }}
  .card {{
    border: 1px solid var(--border);
    border-radius: 18px;
    background: var(--card);
    overflow: hidden;
    box-shadow: 0 10px 22px var(--shadow);
    margin-top: 16px;
  }}
  .hdr {{
    padding: 14px 16px;
    display: flex;
    align-items: center;
    justify-content: space-between;
    cursor: pointer;
    user-select: none;
    background: linear-gradient(90deg, rgba(255,255,255,0.05), transparent);
    font-weight: 800;
  }}
  .chev {{
    color: var(--muted);
    transition: transform .25s ease, color .25s ease;
  }}
  .card.active .chev {{ transform: rotate(180deg); }}
  .content {{
    max-height: 0;
    overflow: hidden;
    transition: max-height .9s cubic-bezier(0.4,0,0.2,1);
  }}
  .card.active .content {{ max-height: 500000px; }}
  .inner {{
    padding: 14px 18px 18px 18px;
    color: #cbd5e1;
    font-size: 1.02rem;
  }}
  .img-row {{
    margin: 14px 0 6px 0;
    display: grid;
    gap: 14px;
    grid-template-columns: repeat(auto-fit, minmax(270px, 1fr));
  }}
  .img-card {{
    border: 1px solid var(--border);
    border-radius: 14px;
    background: rgba(15,23,42,0.35);
    overflow: hidden;
  }}
  .img-card img {{ width: 100%; display: block; }}
  .cap {{
    padding: 10px 12px;
    font-size: 0.9rem;
    color: var(--muted);
    border-top: 1px solid var(--border);
  }}
  footer {{
    margin-top: 18px;
    text-align: center;
    color: var(--muted);
    font-size: 0.9rem;
    padding: 10px 0 4px 0;
  }}
  mjx-container {{
    font-size: 112% !important;
    color: #e2e8f0 !important;
  }}
</style>
</head>
<body>
  <div class="wrap">
    <div class="hero">
      <h1>{html.escape(CONFIG["main_title"])}</h1>
      <div class="sub">{html.escape(CONFIG["subtitle"])}</div>
    </div>

    <div class="card active" id="card-main">
      <div class="hdr" id="hdr-main">
        <div>Sección 5 (texto completo) + gráficos embebidos</div>
        <i class="fas fa-chevron-down chev"></i>
      </div>
      <div class="content">
        <div class="inner" id="inner-main">
          {texto}
        </div>
      </div>
    </div>

    <footer>{html.escape(CONFIG["footer_text"])}</footer>
  </div>

  <script>
    function typeset(el) {{
      if (window.MathJax && MathJax.typesetPromise) {{
        MathJax.typesetPromise([el]).catch(() => {{}});
      }}
    }}
    const card = document.getElementById("card-main");
    const hdr  = document.getElementById("hdr-main");
    hdr.addEventListener("click", () => {{
      card.classList.toggle("active");
      typeset(card);
    }});
    typeset(document.body);
  </script>
</body>
</html>
"""

display(HTML(full_html))
