# Análisis de ventanas 6-gramas ancladas en fase 2

Este cuaderno replica las dos tareas solicitadas pero en el contexto de ventanas de seis épocas construidas sobre la columna **scor_clean**:

- Se detecta cada transición **no-2 → 2** y se extrae la ventana de seis épocas iniciando en el primer 2.
- Se contabilizan las frecuencias de patrones tipo **2222xx** tanto por paciente como en el conjunto agregado.

Los resultados se presentan únicamente en tablas para que las frecuencias y duraciones sean fáciles de interpretar.

## Plan de trabajo

1. Importar dependencias y definir rutas base.
2. Enumerar pacientes con archivos **Scoring_*_2** y cargar **scor_clean**.
3. **Tarea 1:** generar ventanas 6-gramas por paciente, contar el número de 2 consecutivos al inicio y mostrar tablas de frecuencias por paciente y globales.
4. **Tarea 2:** identificar la fase destino dentro de cada ventana (primer valor distinto de 2), medir cuántas épocas consecutivas ocupa esa fase en la ventana y resumirla en tablas por paciente y globales.
5. Guardar las estructuras intermedias (listas y diccionarios) para futuros cruces con embeddings u otras visualizaciones.


In [1]:
from pathlib import Path
from collections import Counter, defaultdict

import numpy as np
import pandas as pd
import plotly.express as px
from IPython.display import display

RUTA_DATOS = Path("../Datos")
ETIQUETAS_FASES = {
    0: "Vigilia (W)",
    1: "N1",
    2: "N2",
    3: "N3",
    4: "N4",
    5: "REM",
    6: "Movimiento",
    7: "Sin clasificar"
}

pd.options.display.float_format = lambda x: f"{x:0.3f}"

## Carga de pacientes y secuencias

In [2]:
def listar_pacientes(ruta_datos=None):
    """Localiza todos los archivos `Scoring_*_2` y devuelve los IDs ordenados."""
    if ruta_datos is None:
        ruta_datos = RUTA_DATOS
    pacientes = []
    for archivo in ruta_datos.iterdir():
        nombre = archivo.name
        if archivo.is_file() and nombre.startswith("Scoring_") and nombre.endswith("_2"):
            pacientes.append(nombre.replace("Scoring_", ""))
    pacientes.sort()
    if not pacientes:
        raise RuntimeError("No se encontraron archivos Scoring_*_2 en la ruta indicada.")
    return pacientes


def cargar_hipnograma(paciente, ruta_datos=None):
    """Carga la columna `scor_clean` completa del paciente y la devuelve como lista de enteros."""
    if ruta_datos is None:
        ruta_datos = RUTA_DATOS
    ruta_archivo = ruta_datos / f"Scoring_{paciente}"
    df = pd.read_csv(ruta_archivo, sep=r"\s+", header=None, names=["epoca", "scor_clean", "scor_quasi"], dtype=int)
    return df["scor_clean"].tolist()


pacientes = listar_pacientes()
print(f"Pacientes detectados ({len(pacientes)}): {', '.join(pacientes)}")

Pacientes detectados (10): AR_2, DG_2, EL_2, GA_2, IN_2, JS_2, LL_2, SS_2, VB_2, VC_2


## Tarea 1 — Ventanas 6-gramas desde cada transición no-2 → 2

Objetivo: medir la estabilidad inicial de la fase 2 dentro de una ventana fija de seis épocas y registrar los patrones completos para detectar secuencias tipo **2222xx**.

Pasos:

1. Detectar cada posición donde aparece **2** precedido por un valor diferente de 2.
2. Extraer la ventana de seis épocas iniciando en esa posición; si no hay seis épocas disponibles al final del registro, se descarta el caso.
3. Contar cuántos valores 2 consecutivos aparecen al inicio de la ventana (prefijo) y guardar el patrón completo.
4. Generar tablas de frecuencias por paciente y una tabla global.

In [3]:
VENTANA = 6

def generar_ventanas_fase2(secuencia, longitud=VENTANA):
    """Extrae todas las ventanas de largo fijo que comienzan cuando hay una transición no-2 → 2."""
    ventanas = []
    prefijos = []
    for indice in range(1, len(secuencia)):
        if secuencia[indice] == 2 and secuencia[indice - 1] != 2:
            cierre = indice + longitud
            if cierre > len(secuencia):
                break  # descartamos la transición si no hay 6 épocas restantes
            ventana = tuple(secuencia[indice:cierre])
            ventanas.append(ventana)
            prefijos.append(contar_prefijo_dos(ventana))
    return ventanas, prefijos


def contar_prefijo_dos(ventana):
    """Cuenta cuántos valores 2 consecutivos aparecen al inicio de la ventana."""
    longitud = 0
    for valor in ventana:
        if valor == 2:
            longitud += 1
        else:
            break
    return longitud


def tabla_prefijos(prefijos):
    """Devuelve la distribución porcentual de longitudes del prefijo N2."""
    if not prefijos:
        return pd.DataFrame(columns=["Prefijo de 2", "Frecuencia", "Porcentaje"])
    conteo = Counter(prefijos)
    total = sum(conteo.values())
    filas = []
    for prefijo in sorted(conteo):
        frecuencia = conteo[prefijo]
        filas.append({
            "Prefijo de 2": prefijo,
            "Frecuencia": frecuencia,
            "Porcentaje": frecuencia / total
        })
    return pd.DataFrame(filas).round(3)


def tabla_patrones(ventanas, limite=20):
    """Lista los patrones 6-grama más frecuentes junto con su proporción relativa."""
    if not ventanas:
        return pd.DataFrame(columns=["Patrón 6-grama", "Frecuencia", "Porcentaje"])
    conteo = Counter("-".join(map(str, v)) for v in ventanas)
    total = sum(conteo.values())
    filas = []
    for patron, frecuencia in conteo.most_common(limite):
        filas.append({
            "Patrón 6-grama": patron,
            "Frecuencia": frecuencia,
            "Porcentaje": frecuencia / total
        })
    return pd.DataFrame(filas)

In [4]:
ventanas_por_paciente = {}  # paciente → lista de ventanas 6-gramas
prefijos_por_paciente = {}  # paciente → lista de longitudes del prefijo N2

for paciente in pacientes:
    hipnograma = cargar_hipnograma(paciente)
    ventanas, prefijos = generar_ventanas_fase2(hipnograma)
    ventanas_por_paciente[paciente] = ventanas
    prefijos_por_paciente[paciente] = prefijos
    print(f"\nPaciente {paciente} — ventanas generadas: {len(ventanas)}")
    display(tabla_prefijos(prefijos).style.format(precision=3).hide(axis="index"))
    print("Patrones más frecuentes (top 20):")
    display(tabla_patrones(ventanas).style.format(precision=3).hide(axis="index"))


Paciente AR_2 — ventanas generadas: 46


Prefijo de 2,Frecuencia,Porcentaje
1,12,0.261
3,1,0.022
4,1,0.022
5,1,0.022
6,31,0.674


Patrones más frecuentes (top 20):


Patrón 6-grama,Frecuencia,Porcentaje
2-2-2-2-2-2,31,0.674
2-3-2-2-2-2,1,0.022
2-2-2-2-2-3,1,0.022
2-3-4-4-4-4,1,0.022
2-3-2-2-2-3,1,0.022
2-2-2-3-2-4,1,0.022
2-4-4-4-3-3,1,0.022
2-3-3-2-3-3,1,0.022
2-3-3-4-4-4,1,0.022
2-1-2-2-2-2,1,0.022



Paciente DG_2 — ventanas generadas: 57


Prefijo de 2,Frecuencia,Porcentaje
1,13,0.228
2,10,0.175
3,9,0.158
4,1,0.018
5,3,0.053
6,21,0.368


Patrones más frecuentes (top 20):


Patrón 6-grama,Frecuencia,Porcentaje
2-2-2-2-2-2,21,0.368
2-5-5-5-5-5,2,0.035
2-2-1-2-2-2,1,0.018
2-3-3-3-2-2,1,0.018
2-2-2-3-2-2,1,0.018
2-2-3-3-3-4,1,0.018
2-3-4-4-4-4,1,0.018
2-2-2-6-6-6,1,0.018
2-2-2-2-6-2,1,0.018
2-2-2-6-6-2,1,0.018



Paciente EL_2 — ventanas generadas: 52


Prefijo de 2,Frecuencia,Porcentaje
1,13,0.25
2,9,0.173
3,2,0.038
4,3,0.058
5,5,0.096
6,20,0.385


Patrones más frecuentes (top 20):


Patrón 6-grama,Frecuencia,Porcentaje
2-2-2-2-2-2,20,0.385
2-2-2-2-2-3,4,0.077
2-5-5-5-5-5,3,0.058
2-2-3-2-2-2,2,0.038
2-2-2-3-3-2,1,0.019
2-2-2-3-3-3,1,0.019
2-2-4-2-3-4,1,0.019
2-3-4-4-4-4,1,0.019
2-2-0-2-2-2,1,0.019
2-3-2-3-2-4,1,0.019



Paciente GA_2 — ventanas generadas: 34


Prefijo de 2,Frecuencia,Porcentaje
1,5,0.147
2,2,0.059
4,2,0.059
5,3,0.088
6,22,0.647


Patrones más frecuentes (top 20):


Patrón 6-grama,Frecuencia,Porcentaje
2-2-2-2-2-2,22,0.647
2-3-3-2-3-3,2,0.059
2-2-3-3-3-3,1,0.029
2-2-2-2-3-2,1,0.029
2-2-3-2-2-2,1,0.029
2-2-2-2-2-3,1,0.029
2-3-3-3-3-4,1,0.029
2-2-2-2-2-1,1,0.029
2-2-2-2-2-5,1,0.029
2-5-5-5-5-5,1,0.029



Paciente IN_2 — ventanas generadas: 54


Prefijo de 2,Frecuencia,Porcentaje
1,9,0.167
2,7,0.13
3,4,0.074
4,1,0.019
5,4,0.074
6,29,0.537


Patrones más frecuentes (top 20):


Patrón 6-grama,Frecuencia,Porcentaje
2-2-2-2-2-2,29,0.537
2-2-2-2-2-3,2,0.037
2-2-2-2-2-6,2,0.037
2-2-3-3-3-4,1,0.019
2-2-2-2-6-1,1,0.019
2-3-3-3-3-4,1,0.019
2-2-3-2-3-5,1,0.019
2-3-5-5-5-5,1,0.019
2-2-6-2-2-2,1,0.019
2-2-2-6-2-2,1,0.019



Paciente JS_2 — ventanas generadas: 63


Prefijo de 2,Frecuencia,Porcentaje
1,17,0.27
2,4,0.063
3,4,0.063
4,8,0.127
5,5,0.079
6,25,0.397


Patrones más frecuentes (top 20):


Patrón 6-grama,Frecuencia,Porcentaje
2-2-2-2-2-2,25,0.397
2-1-2-2-2-2,3,0.048
2-2-2-2-2-6,3,0.048
2-2-2-2-3-2,2,0.032
2-2-2-3-2-3,2,0.032
2-2-1-2-2-2,2,0.032
2-2-2-2-6-2,2,0.032
2-3-4-4-2-4,1,0.016
2-4-4-2-4-3,1,0.016
2-4-3-3-4-4,1,0.016



Paciente LL_2 — ventanas generadas: 71


Prefijo de 2,Frecuencia,Porcentaje
1,29,0.408
2,6,0.085
3,7,0.099
4,7,0.099
5,3,0.042
6,19,0.268


Patrones más frecuentes (top 20):


Patrón 6-grama,Frecuencia,Porcentaje
2-2-2-2-2-2,19,0.268
2-5-5-5-5-5,3,0.042
2-4-4-4-4-4,2,0.028
2-3-3-4-4-4,2,0.028
2-2-2-2-6-2,2,0.028
2-2-2-5-5-5,2,0.028
2-2-2-2-2-6,2,0.028
2-3-3-2-2-2,2,0.028
2-0-2-2-2-2,1,0.014
2-2-3-3-2-3,1,0.014



Paciente SS_2 — ventanas generadas: 49


Prefijo de 2,Frecuencia,Porcentaje
1,9,0.184
2,8,0.163
3,3,0.061
4,3,0.061
5,3,0.061
6,23,0.469


Patrones más frecuentes (top 20):


Patrón 6-grama,Frecuencia,Porcentaje
2-2-2-2-2-2,23,0.469
2-2-3-3-3-3,2,0.041
2-3-3-3-3-3,2,0.041
2-2-2-2-2-6,2,0.041
2-2-2-3-2-3,2,0.041
2-2-3-3-4-4,1,0.02
2-6-2-2-3-4,1,0.02
2-2-3-4-3-4,1,0.02
2-6-2-2-2-2,1,0.02
2-2-2-2-3-3,1,0.02



Paciente VB_2 — ventanas generadas: 41


Prefijo de 2,Frecuencia,Porcentaje
1,9,0.22
2,7,0.171
3,4,0.098
4,1,0.024
5,3,0.073
6,17,0.415


Patrones más frecuentes (top 20):


Patrón 6-grama,Frecuencia,Porcentaje
2-2-2-2-2-2,17,0.415
2-5-5-5-5-5,5,0.122
2-2-2-0-0-0,2,0.049
2-2-3-2-2-2,2,0.049
2-2-2-2-2-6,2,0.049
2-2-0-1-0-1,1,0.024
2-2-2-3-3-3,1,0.024
2-3-2-3-2-2,1,0.024
2-3-2-2-2-2,1,0.024
2-2-1-1-1-1,1,0.024



Paciente VC_2 — ventanas generadas: 37


Prefijo de 2,Frecuencia,Porcentaje
1,5,0.135
2,6,0.162
3,3,0.081
4,2,0.054
6,21,0.568


Patrones más frecuentes (top 20):


Patrón 6-grama,Frecuencia,Porcentaje
2-2-2-2-2-2,21,0.568
2-5-5-5-5-5,3,0.081
2-2-5-5-5-5,2,0.054
2-2-3-3-4-4,1,0.027
2-2-5-5-5-2,1,0.027
2-2-2-0-0-1,1,0.027
2-2-2-2-6-2,1,0.027
2-2-2-5-5-5,1,0.027
2-2-6-2-2-2,1,0.027
2-2-2-2-3-2,1,0.027


### Cómo interpretar las tablas de la Tarea 1 (ventanas 6-gramas)

- **Prefijo de 2** indica cuántas épocas consecutivas de N2 aparecen antes de que la ventana empiece a mezclar otras fases.
- **Patrón 6-grama** muestra la secuencia completa (seis épocas) más frecuente para cada paciente o en el agregado global.
- Estas tablas permiten localizar ventanas del estilo **2222xx** y estimar qué tan habituales son para cada paciente antes de cruzarlas con embeddings o análisis adicionales.



In [5]:
ventanas_globales = [ventana for lista in ventanas_por_paciente.values() for ventana in lista]
prefijos_globales = [valor for lista in prefijos_por_paciente.values() for valor in lista]

print(f"\nTotal de ventanas generadas en todos los pacientes: {len(ventanas_globales)}")
display(tabla_prefijos(prefijos_globales).style.format(precision=3).hide(axis="index"))
print("Patrones globales más frecuentes (top 20):")
display(tabla_patrones(ventanas_globales).style.format(precision=3).hide(axis="index"))


Total de ventanas generadas en todos los pacientes: 504


Prefijo de 2,Frecuencia,Porcentaje
1,121,0.24
2,59,0.117
3,37,0.073
4,29,0.058
5,30,0.06
6,228,0.452


Patrones globales más frecuentes (top 20):


Patrón 6-grama,Frecuencia,Porcentaje
2-2-2-2-2-2,228,0.452
2-5-5-5-5-5,20,0.04
2-2-2-2-2-6,13,0.026
2-2-2-2-2-3,11,0.022
2-2-3-2-2-2,9,0.018
2-2-2-2-3-2,7,0.014
2-2-2-2-6-2,6,0.012
2-2-5-5-5-5,6,0.012
2-2-2-5-5-5,5,0.01
2-2-2-3-2-3,5,0.01


## Tarea 2 — Fase destino y duración dentro de la ventana

Ahora se analiza la porción de la ventana en la que la secuencia abandona la fase 2. Para cada 6-grama:

1. Se localiza el primer valor distinto de 2 (fase destino) dentro de la ventana. Si toda la ventana es 2, se ignora porque no hubo transición visible.
2. Se cuenta cuántas épocas consecutivas ocupa la fase destino antes de aparecer otro valor diferente dentro de la misma ventana.
3. Esa duración queda asociada a la fase destino correspondiente.

Las tablas resultantes muestran cuántas veces aparece cada destino **2 → X** y cuánto dura, en promedio, esa fase dentro de la ventana de seis épocas (limitada al contexto observado).

In [6]:
def analizar_destinos_en_ventanas(ventanas):
    """Compila la duración de cada fase destino visible dentro de las ventanas de 6 épocas."""
    destinos = defaultdict(list)
    for ventana in ventanas:
        destino, duracion = destino_y_duracion(ventana)
        if destino is not None:
            destinos[destino].append(duracion)
    return destinos


def destino_y_duracion(ventana):
    """Devuelve la fase destino y cuántas épocas consecutivas ocupa dentro de la ventana."""
    for indice, valor in enumerate(ventana):
        if valor != 2:
            duracion = 1
            cursor = indice + 1
            while cursor < len(ventana) and ventana[cursor] == valor:
                duracion += 1
                cursor += 1
            return valor, duracion
    return None, None


def tabla_destinos(destinos):
    """Genera una tabla resumen con las métricas básicas por transición 2 → X."""
    filas = []
    for fase_destino in sorted(destinos):
        longitudes = destinos[fase_destino]
        if not longitudes:
            continue
        serie = pd.Series(longitudes)
        desviacion = float(serie.std(ddof=0)) if len(longitudes) > 1 else 0.0
        filas.append({
            "Fase destino": fase_destino,
            "Etiqueta": ETIQUETAS_FASES.get(fase_destino, str(fase_destino)),
            "Segmentos": len(longitudes),
            "Promedio": round(serie.mean(), 3),
            "Mediana": round(serie.median(), 3),
            "Desviación": round(desviacion, 3),
            "Mínimo": int(serie.min()),
            "Máximo": int(serie.max())
        })
    columnas = ["Fase destino", "Etiqueta", "Segmentos", "Promedio", "Mediana", "Desviación", "Mínimo", "Máximo"]
    return pd.DataFrame(filas, columns=columnas)

In [7]:
destinos_por_paciente = {}  # paciente → {fase destino: lista de duraciones}

for paciente, ventanas in ventanas_por_paciente.items():

    destinos = analizar_destinos_en_ventanas(ventanas)
    destinos_por_paciente[paciente] = destinos
    total_transiciones = sum(len(v) for v in destinos.values())
    print(f"\nPaciente {paciente} — transiciones 2 → X detectadas en la ventana: {total_transiciones}")
    display(tabla_destinos(destinos).style.format(precision=3).hide(axis="index"))


Paciente AR_2 — transiciones 2 → X detectadas en la ventana: 15


Fase destino,Etiqueta,Segmentos,Promedio,Mediana,Desviación,Mínimo,Máximo
1,N1,1,1.0,1.0,0.0,1,1
3,N3,11,1.727,1.0,1.213,1,5
4,N4,1,3.0,3.0,0.0,3,3
5,REM,1,5.0,5.0,0.0,5,5
6,Movimiento,1,1.0,1.0,0.0,1,1



Paciente DG_2 — transiciones 2 → X detectadas en la ventana: 36


Fase destino,Etiqueta,Segmentos,Promedio,Mediana,Desviación,Mínimo,Máximo
0,Vigilia (W),2,1.0,1.0,0.0,1,1
1,N1,6,1.167,1.0,0.373,1,2
3,N3,14,1.429,1.0,0.728,1,3
5,REM,6,3.167,3.5,1.675,1,5
6,Movimiento,8,1.625,1.0,0.857,1,3



Paciente EL_2 — transiciones 2 → X detectadas en la ventana: 32


Fase destino,Etiqueta,Segmentos,Promedio,Mediana,Desviación,Mínimo,Máximo
0,Vigilia (W),2,1.0,1.0,0.0,1,1
1,N1,1,1.0,1.0,0.0,1,1
3,N3,19,1.368,1.0,0.666,1,3
4,N4,3,2.667,2.0,1.7,1,5
5,REM,5,3.8,5.0,1.47,2,5
6,Movimiento,2,1.0,1.0,0.0,1,1



Paciente GA_2 — transiciones 2 → X detectadas en la ventana: 12


Fase destino,Etiqueta,Segmentos,Promedio,Mediana,Desviación,Mínimo,Máximo
1,N1,1,1.0,1.0,0.0,1,1
3,N3,9,2.444,2.0,1.423,1,5
5,REM,2,3.0,3.0,2.0,1,5



Paciente IN_2 — transiciones 2 → X detectadas en la ventana: 25


Fase destino,Etiqueta,Segmentos,Promedio,Mediana,Desviación,Mínimo,Máximo
3,N3,15,1.4,1.0,0.879,1,4
5,REM,4,3.75,3.5,0.829,3,5
6,Movimiento,6,1.167,1.0,0.373,1,2



Paciente JS_2 — transiciones 2 → X detectadas en la ventana: 38


Fase destino,Etiqueta,Segmentos,Promedio,Mediana,Desviación,Mínimo,Máximo
1,N1,7,1.714,1.0,1.385,1,5
3,N3,15,1.133,1.0,0.34,1,2
4,N4,2,1.5,1.5,0.5,1,2
5,REM,1,1.0,1.0,0.0,1,1
6,Movimiento,12,1.0,1.0,0.0,1,1
7,Sin clasificar,1,1.0,1.0,0.0,1,1



Paciente LL_2 — transiciones 2 → X detectadas en la ventana: 52


Fase destino,Etiqueta,Segmentos,Promedio,Mediana,Desviación,Mínimo,Máximo
0,Vigilia (W),4,2.25,2.0,1.299,1,4
1,N1,2,1.0,1.0,0.0,1,1
3,N3,21,1.571,1.0,0.791,1,4
4,N4,4,3.25,3.5,1.785,1,5
5,REM,8,3.625,3.5,1.218,2,5
6,Movimiento,13,1.308,1.0,0.606,1,3



Paciente SS_2 — transiciones 2 → X detectadas en la ventana: 26


Fase destino,Etiqueta,Segmentos,Promedio,Mediana,Desviación,Mínimo,Máximo
0,Vigilia (W),1,2.0,2.0,0.0,2,2
1,N1,1,1.0,1.0,0.0,1,1
3,N3,15,2.333,2.0,1.491,1,5
4,N4,1,4.0,4.0,0.0,4,4
5,REM,1,5.0,5.0,0.0,5,5
6,Movimiento,7,1.143,1.0,0.35,1,2



Paciente VB_2 — transiciones 2 → X detectadas en la ventana: 24


Fase destino,Etiqueta,Segmentos,Promedio,Mediana,Desviación,Mínimo,Máximo
0,Vigilia (W),6,2.167,2.0,1.213,1,4
1,N1,2,3.0,3.0,1.0,2,4
3,N3,7,1.429,1.0,0.728,1,3
5,REM,7,4.286,5.0,1.385,1,5
6,Movimiento,2,1.0,1.0,0.0,1,1



Paciente VC_2 — transiciones 2 → X detectadas en la ventana: 16


Fase destino,Etiqueta,Segmentos,Promedio,Mediana,Desviación,Mínimo,Máximo
0,Vigilia (W),1,2.0,2.0,0.0,2,2
3,N3,6,1.5,1.5,0.5,1,2
5,REM,7,4.143,4.0,0.833,3,5
6,Movimiento,2,1.0,1.0,0.0,1,1


### Cómo leer las tablas de la Tarea 2 (ventanas 6-gramas)

- **Fase destino / Etiqueta** señala la primera fase distinta de N2 que aparece dentro de la ventana.
- **Segmentos** cuenta cuántas ventanas mostraron cada transición **2 → X** con suficiente contexto para medir cuánto dura X.
- **Promedio / Mínimo / Máximo** indican cuántas épocas consecutivas se observó la fase destino dentro de la misma ventana (máximo 5 épocas porque la ventana tiene tamaño fijo). Estas cifras ayudan a detectar ventanas donde, por ejemplo, **2 → 5** ocupa gran parte del 6-grama y podría ser prioritaria para analizar vecinos en el espacio de embeddings.



In [8]:
destinos_globales = defaultdict(list)
for destinos in destinos_por_paciente.values():
    for fase_destino, longitudes in destinos.items():
        destinos_globales[fase_destino].extend(longitudes)

total_global = sum(len(v) for v in destinos_globales.values())
print(f"\nTransiciones 2 → X detectadas en la ventana (todos los pacientes): {total_global}")
display(tabla_destinos(destinos_globales).style.format(precision=3).hide(axis="index"))


Transiciones 2 → X detectadas en la ventana (todos los pacientes): 276


Fase destino,Etiqueta,Segmentos,Promedio,Mediana,Desviación,Mínimo,Máximo
0,Vigilia (W),16,1.875,1.0,1.111,1,4
1,N1,21,1.476,1.0,1.052,1,5
3,N3,132,1.606,1.0,1.013,1,5
4,N4,11,2.818,2.0,1.585,1,5
5,REM,42,3.762,4.0,1.428,1,5
6,Movimiento,53,1.208,1.0,0.527,1,3
7,Sin clasificar,1,1.0,1.0,0.0,1,1


## Boxplots interactivos

Estas gráficas complementan las tablas de las dos tareas: permiten comparar de un vistazo la estabilidad de los prefijos N2 detectados en cada ventana y la duración de las fases destino sin salir del entorno tabular.

In [9]:
def construir_dataframe_prefijos(diccionario):
    """Convierte el diccionario paciente → longitudes de prefijo en un DataFrame largo."""
    filas = []
    for paciente, valores in diccionario.items():
        for prefijo in valores:
            filas.append({
                "Paciente": paciente,
                "Prefijo N2": prefijo
            })
    return pd.DataFrame(filas)


def construir_dataframe_destinos(diccionario):
    """Convierte las duraciones destino de cada paciente en un DataFrame listo para boxplots."""
    filas = []
    for paciente, destinos in diccionario.items():
        for fase_destino, longitudes in destinos.items():
            etiqueta = ETIQUETAS_FASES.get(fase_destino, str(fase_destino))
            for duracion in longitudes:
                filas.append({
                    "Paciente": paciente,
                    "Fase destino": fase_destino,
                    "Etiqueta": etiqueta,
                    "Duración destino": duracion
                })
    return pd.DataFrame(filas)

In [10]:
df_prefijos_box = construir_dataframe_prefijos(prefijos_por_paciente)

if df_prefijos_box.empty:
    print("No hay datos suficientes para graficar los prefijos de N2 en las ventanas.")
else:
    fig_prefijos_pacientes = px.box(
        df_prefijos_box,
        x="Paciente",
        y="Prefijo N2",
        color="Paciente",
        points="outliers",
        title="Distribución del prefijo N2 por paciente",
        template="plotly_dark"
    )
    fig_prefijos_pacientes.update_layout(
        xaxis_title="Paciente",
        yaxis_title="Longitud del prefijo N2 (épocas)",
        paper_bgcolor="black",
        plot_bgcolor="black",
        legend_title_text="Paciente",
        font=dict(color="white")
    )
    fig_prefijos_pacientes.show()

    fig_prefijos_global = px.box(
        df_prefijos_box,
        y="Prefijo N2",
        points="outliers",
        title="Distribución global de los prefijos N2 detectados",
        template="plotly_dark"
    )
    fig_prefijos_global.update_layout(
        xaxis_title="",
        yaxis_title="Longitud del prefijo N2 (épocas)",
        showlegend=False,
        paper_bgcolor="black",
        plot_bgcolor="black",
        font=dict(color="white")
    )
    fig_prefijos_global.show()

In [11]:
df_destinos_box = construir_dataframe_destinos(destinos_por_paciente)

if df_destinos_box.empty:
    print("No hay datos suficientes para graficar las fases destino en las ventanas de 6-gramas.")
else:
    fig_destinos = px.box(
        df_destinos_box,
        x="Etiqueta",
        y="Duración destino",
        color="Etiqueta",
        points="outliers",
        title="Duración de las fases destino observadas dentro de cada 6-grama",
        template="plotly_dark"
    )
    fig_destinos.update_layout(
        xaxis_title="Fase destino",
        yaxis_title="Duración en la fase destino (épocas dentro de la ventana)",
        paper_bgcolor="black",
        plot_bgcolor="black",
        legend_title_text="Fase",
        font=dict(color="white")
    )
    fig_destinos.show()

    fig_destinos_pacientes = px.box(
        df_destinos_box,
        x="Paciente",
        y="Duración destino",
        color="Etiqueta",
        points="outliers",
        title="Duración de la fase destino por paciente (ventanas de 6-gramas)",
        template="plotly_dark"
    )
    fig_destinos_pacientes.update_layout(
        xaxis_title="Paciente",
        yaxis_title="Duración en la fase destino (épocas dentro de la ventana)",
        paper_bgcolor="black",
        plot_bgcolor="black",
        legend_title_text="Fase destino",
        font=dict(color="white")
    )
    fig_destinos_pacientes.show()

## Datos listos para cruces posteriores

- **ventanas_por_paciente**: diccionario con todas las ventanas 6-gramas detectadas en cada paciente.
- **prefijos_por_paciente**: longitudes del tramo inicial de 2 en cada ventana.
- **ventanas_globales** y **prefijos_globales**: agregados útiles para revisar los patrones más frecuentes en el total de pacientes.
- **destinos_por_paciente** y **destinos_globales**: duraciones observadas de cada fase destino dentro de la ventana de seis épocas.

Estas estructuras permiten seleccionar patrones específicos (por ejemplo **2222xx**) para cruzarlos con embeddings u otros análisis sin volver a procesar los hipnogramas.