# Análisis de segmentos posteriores a fase 2

Este cuaderno aborda dos tareas sobre los hipnogramas (**scor_clean**):

1. **Segmentos previos a la salida de fase 2**: contar cuántas épocas consecutivas en fase 2 aparecen inmediatamente después de cada transición proveniente de cualquier fase distinta de 2.
2. **Segmentos en la fase destino**: medir cuánto dura la fase destino justo después de salir de una fase 2, diferenciando cada tipo de transición **2 → X**.

Todos los resultados se generan por paciente y también sobre el conjunto agregado de pacientes, sin utilizar gráficas para mantener la interpretación simple.


## Plan general

1. Importar utilidades y definir rutas.
2. Cargar hipnogramas (**scor_clean**) para cada paciente con archivo **_2**.
3. Para cada paciente:
   - Detectar todas las transiciones **no-2 → 2** y medir la longitud del bloque continuo de 2.
   - Guardar las longitudes en un vector y resumir las frecuencias.
4. Para cada transición **2 → X**, medir cuánto tiempo permanece la nueva fase **X** inmediatamente después de salir de fase 2.
5. Repetir los pasos anteriores de forma agregada con todos los pacientes.
6. Mostrar tablas y estadísticas descriptivas.


In [7]:
from pathlib import Path
from collections import defaultdict

import numpy as np
import pandas as pd
from IPython.display import display

RUTA_DATOS = Path("../Datos")
ETIQUETAS_FASES = {
    0: "Vigilia (W)",
    1: "N1",
    2: "N2",
    3: "N3",
    4: "N4",
    5: "REM",
    6: "Movimiento",
    7: "Sin clasificar"
}

pd.options.display.float_format = lambda x: f"{x:0.3f}"


## Utilidades de carga de hipnogramas


In [8]:
def listar_pacientes(ruta_datos=None):
    """Devuelve los IDs disponibles (archivos `Scoring_*_2`) en orden alfabético."""
    if ruta_datos is None:
        ruta_datos = RUTA_DATOS
    pacientes = []
    for archivo in ruta_datos.iterdir():
        nombre = archivo.name
        if archivo.is_file() and nombre.startswith("Scoring_") and nombre.endswith("_2"):
            pacientes.append(nombre.replace("Scoring_", ""))
    pacientes.sort()
    if not pacientes:
        raise RuntimeError("No se encontraron archivos `Scoring_*_2` en la ruta indicada.")
    return pacientes


def cargar_hipnograma(paciente, ruta_datos=None):
    """Carga la columna `scor_clean` completa del paciente indicado como una lista de enteros."""
    if ruta_datos is None:
        ruta_datos = RUTA_DATOS
    ruta_archivo = ruta_datos / f"Scoring_{paciente}"
    df = pd.read_csv(ruta_archivo, sep=r"\s+", header=None, names=["epoca", "scor_clean", "scor_quasi"], dtype=int)
    return df["scor_clean"].tolist()


pacientes = listar_pacientes()
print(f"Pacientes detectados ({len(pacientes)}): {', '.join(pacientes)}")


Pacientes detectados (10): AR_2, DG_2, EL_2, GA_2, IN_2, JS_2, LL_2, SS_2, VB_2, VC_2


## Tarea 1 — Longitudes de fase 2 tras transiciones **no-2 → 2**

Para cada paciente:
- Revisamos la secuencia **scor_clean** y, cada vez que aparezca un bloque de 2 precedido por una fase diferente de 2, medimos cuántas épocas consecutivas dura ese bloque.
- Guardamos todas las longitudes en un vector y presentamos una tabla de frecuencias para interpretar los tamaños más comunes.
- El mismo análisis se repite con todos los pacientes concatenados para obtener la distribución global.


In [None]:
def extraer_segmentos_fase2(secuencia):
    """Identifica cada bloque continuo de N2 inmediatamente después de una transición no-2 → 2."""
    longitudes = []
    for indice in range(1, len(secuencia)):
        if secuencia[indice] == 2 and secuencia[indice - 1] != 2:
            longitud = 1  # ya contamos el primer 2
            cursor = indice + 1
            while cursor < len(secuencia) and secuencia[cursor] == 2:
                longitud += 1
                cursor += 1
            longitudes.append(longitud)
    return longitudes


def resumen_longitudes(longitudes):
    """Construye una tabla con la frecuencia y el porcentaje de cada longitud observada."""
    if not longitudes:
        return pd.DataFrame(columns=["Longitud", "Frecuencia", "Porcentaje"])
    serie = pd.Series(longitudes)
    conteo = serie.value_counts().sort_index()
    porcentaje = (conteo / conteo.sum()).rename("Porcentaje")
    tabla = pd.concat([conteo.rename("Frecuencia"), porcentaje], axis=1)
    tabla.index.name = "Longitud"
    return tabla.reset_index().round(3)


segmentos_fase2_por_paciente = {}  # paciente → lista de duraciones de N2
for paciente in pacientes:
    hipnograma = cargar_hipnograma(paciente)
    segmentos = extraer_segmentos_fase2(hipnograma)
    segmentos_fase2_por_paciente[paciente] = segmentos
    print(f"\nPaciente {paciente} — segmentos detectados: {len(segmentos)}")
    tabla = resumen_longitudes(segmentos)
    display(tabla.style.format(precision=3).hide(axis="index"))



Paciente AR_2 — segmentos detectados: 46


Longitud,Frecuencia,Porcentaje
1,12,0.26087
3,1,0.021739
4,1,0.021739
5,1,0.021739
6,2,0.043478
7,2,0.043478
8,4,0.086957
9,3,0.065217
10,1,0.021739
11,5,0.108696



Paciente DG_2 — segmentos detectados: 57


Longitud,Frecuencia,Porcentaje
1,13,0.22807
2,10,0.175439
3,9,0.157895
4,1,0.017544
5,3,0.052632
6,2,0.035088
7,1,0.017544
8,2,0.035088
10,2,0.035088
11,3,0.052632



Paciente EL_2 — segmentos detectados: 52


Longitud,Frecuencia,Porcentaje
1,13,0.25
2,9,0.173077
3,2,0.038462
4,3,0.057692
5,5,0.096154
7,4,0.076923
8,2,0.038462
9,2,0.038462
10,2,0.038462
12,1,0.019231



Paciente GA_2 — segmentos detectados: 34


Longitud,Frecuencia,Porcentaje
1,5,0.147059
2,2,0.058824
4,2,0.058824
5,3,0.088235
6,1,0.029412
7,1,0.029412
9,1,0.029412
10,4,0.117647
12,1,0.029412
13,1,0.029412



Paciente IN_2 — segmentos detectados: 54


Longitud,Frecuencia,Porcentaje
1,9,0.166667
2,7,0.12963
3,4,0.074074
4,1,0.018519
5,4,0.074074
6,1,0.018519
7,2,0.037037
8,5,0.092593
9,4,0.074074
10,1,0.018519



Paciente JS_2 — segmentos detectados: 63


Longitud,Frecuencia,Porcentaje
1,17,0.269841
2,4,0.063492
3,4,0.063492
4,8,0.126984
5,5,0.079365
6,1,0.015873
7,1,0.015873
9,3,0.047619
10,1,0.015873
12,1,0.015873



Paciente LL_2 — segmentos detectados: 71


Longitud,Frecuencia,Porcentaje
1,29,0.408451
2,6,0.084507
3,7,0.098592
4,7,0.098592
5,3,0.042254
6,1,0.014085
7,4,0.056338
8,2,0.028169
9,2,0.028169
10,3,0.042254



Paciente SS_2 — segmentos detectados: 49


Longitud,Frecuencia,Porcentaje
1,9,0.183673
2,8,0.163265
3,3,0.061224
4,3,0.061224
5,3,0.061224
6,4,0.081633
7,2,0.040816
8,2,0.040816
10,3,0.061224
11,3,0.061224



Paciente VB_2 — segmentos detectados: 41


Longitud,Frecuencia,Porcentaje
1,9,0.219512
2,7,0.170732
3,4,0.097561
4,1,0.02439
5,3,0.073171
7,1,0.02439
8,2,0.04878
9,1,0.02439
11,1,0.02439
13,1,0.02439



Paciente VC_2 — segmentos detectados: 37


Longitud,Frecuencia,Porcentaje
1,5,0.135135
2,6,0.162162
3,3,0.081081
4,2,0.054054
6,2,0.054054
8,1,0.027027
9,2,0.054054
10,3,0.081081
13,1,0.027027
14,2,0.054054


### Cómo leer estas tablas (Tarea 1)

- **Longitud** representa la cantidad de épocas consecutivas en N2 inmediatamente después de la transición **no-2 → 2**.
- **Frecuencia** indica cuántas veces se observó ese tamaño de bloque para el paciente (o para todos los pacientes en el resumen global).
- **Porcentaje** es la proporción respecto al total de transiciones detectadas para ese contexto. Estos valores permiten identificar si, por ejemplo, las transiciones suelen estabilizarse por 1 minuto (2 épocas) o si existen segmentos de N2 mucho más largos.



In [None]:
segmentos_globales = [longitud for lista in segmentos_fase2_por_paciente.values() for longitud in lista]
print(f"\nTotal de segmentos `no-2 → 2` en todos los pacientes: {len(segmentos_globales)}")
tabla_global = resumen_longitudes(segmentos_globales)
display(tabla_global.style.format(precision=3).hide(axis="index"))



Total de segmentos `no-2 → 2` en todos los pacientes: 504


Longitud,Frecuencia,Porcentaje
1,121,0.240079
2,59,0.117063
3,37,0.073413
4,29,0.05754
5,30,0.059524
6,14,0.027778
7,18,0.035714
8,20,0.039683
9,18,0.035714
10,20,0.039683


### Interpretación de las tablas (Tarea 2)

- **Fase destino / Etiqueta** identifica el estado al que se llega tras abandonar N2.
- **Segmentos** muestra cuántas veces ocurrió la transición **2 → X** con datos suficientes para medir la duración de la fase destino.
- **Promedio / Mínimo / Máximo** cuantifican cuántas épocas consecutivas se mantuvo la fase destino justo después del cambio. Estos valores ayudan a decidir qué transiciones generan ventanas largas o cortas y cuáles podrían ser candidatas para análisis con embeddings de n-gramas.



## Tarea 2 — Duración de la fase destino tras la salida de fase 2

Objetivo: después de medir cuánto dura cada bloque en fase 2, ahora observamos a qué fase se transita y cuánto tiempo dura esa nueva fase inmediatamente después del cambio.

Para cada transición **2 → X**:
- Identificamos la fase destino **X**.
- Medimos la longitud continua del bloque **X** inmediatamente posterior.
- Guardamos las longitudes en un diccionario **fase destino → [segmentos]**.

La salida consiste en tablas por paciente y un resumen global con estadísticas básicas para cada fase destino.


In [None]:
def extraer_segmentos_destino(secuencia):
    """Agrupa la duración de cada fase destino inmediatamente después de salir de N2."""
    segmentos_por_destino = defaultdict(list)
    indice = 0
    while indice < len(secuencia):
        if secuencia[indice] != 2:
            indice += 1
            continue
        # Entramos a un bloque de 2
        while indice < len(secuencia) and secuencia[indice] == 2:
            indice += 1
        fin = indice  # primer índice distinto de 2 después del bloque
        if fin >= len(secuencia):
            break  # no hay destino porque el hipnograma terminó en 2
        destino = secuencia[fin]
        longitud_destino = 1
        cursor = fin + 1
        while cursor < len(secuencia) and secuencia[cursor] == destino:
            longitud_destino += 1
            cursor += 1
        segmentos_por_destino[destino].append(longitud_destino)
        indice = fin  # continuar evaluando desde la nueva fase
    return segmentos_por_destino


def resumen_destinos(segmentos_por_destino):
    """Genera una tabla con estadísticas básicas para cada transición 2 → X."""
    filas = []
    for destino, longitudes in sorted(segmentos_por_destino.items()):
        if not longitudes:
            continue
        serie = pd.Series(longitudes)
        filas.append({
            "Fase destino": destino,
            "Etiqueta": ETIQUETAS_FASES.get(destino, str(destino)),
            "Segmentos": len(longitudes),
            "Promedio": serie.mean(),
            "Mínimo": serie.min(),
            "Máximo": serie.max()
        })
    columnas = ["Fase destino", "Etiqueta", "Segmentos", "Promedio", "Mínimo", "Máximo"]
    return pd.DataFrame(filas, columns=columnas).round(3)


segmentos_destino_por_paciente = {}  # paciente → {fase destino: lista de duraciones}
for paciente in pacientes:
    hipnograma = cargar_hipnograma(paciente)
    destinos = extraer_segmentos_destino(hipnograma)
    segmentos_destino_por_paciente[paciente] = destinos
    print(f"\nPaciente {paciente} — transiciones 2 → X detectadas: {sum(len(v) for v in destinos.values())}")
    tabla_destino = resumen_destinos(destinos)
    display(tabla_destino.style.format(precision=3).hide(axis="index"))



Paciente AR_2 — transiciones 2 → X detectadas: 46


Fase destino,Etiqueta,Segmentos,Promedio,Mínimo,Máximo
1,N1,2,1.0,1,1
3,N3,20,1.55,1,5
4,N4,1,3.0,3,3
5,REM,7,33.0,2,72
6,Movimiento,16,1.5,1,7



Paciente DG_2 — transiciones 2 → X detectadas: 57


Fase destino,Etiqueta,Segmentos,Promedio,Mínimo,Máximo
0,Vigilia (W),3,1.0,1,1
1,N1,8,1.125,1,2
3,N3,26,1.461538,1,4
5,REM,7,7.285714,1,14
6,Movimiento,13,1.461538,1,3



Paciente EL_2 — transiciones 2 → X detectadas: 52


Fase destino,Etiqueta,Segmentos,Promedio,Mínimo,Máximo
0,Vigilia (W),4,1.25,1,2
1,N1,3,1.0,1,1
3,N3,31,1.580645,1,4
4,N4,3,2.666667,1,5
5,REM,7,28.0,2,74
6,Movimiento,4,1.0,1,1



Paciente GA_2 — transiciones 2 → X detectadas: 34


Fase destino,Etiqueta,Segmentos,Promedio,Mínimo,Máximo
1,N1,2,2.0,1,3
3,N3,13,2.461538,1,7
5,REM,6,24.333333,4,56
6,Movimiento,13,1.230769,1,2



Paciente IN_2 — transiciones 2 → X detectadas: 54


Fase destino,Etiqueta,Segmentos,Promedio,Mínimo,Máximo
1,N1,1,2.0,2,2
3,N3,29,1.448276,1,4
5,REM,7,8.714286,1,19
6,Movimiento,17,1.294118,1,2



Paciente JS_2 — transiciones 2 → X detectadas: 64


Fase destino,Etiqueta,Segmentos,Promedio,Mínimo,Máximo
1,N1,10,1.5,1,5
3,N3,21,1.285714,1,4
4,N4,3,2.666667,1,5
5,REM,7,25.0,1,73
6,Movimiento,22,1.136364,1,3
7,Sin clasificar,1,1.0,1,1



Paciente LL_2 — transiciones 2 → X detectadas: 71


Fase destino,Etiqueta,Segmentos,Promedio,Mínimo,Máximo
0,Vigilia (W),4,2.25,1,4
1,N1,3,1.0,1,1
3,N3,30,1.766667,1,7
4,N4,4,7.25,1,17
5,REM,10,15.7,1,48
6,Movimiento,20,1.35,1,3



Paciente SS_2 — transiciones 2 → X detectadas: 49


Fase destino,Etiqueta,Segmentos,Promedio,Mínimo,Máximo
0,Vigilia (W),5,2.2,1,4
1,N1,1,1.0,1,1
3,N3,25,2.12,1,9
4,N4,1,5.0,5,5
5,REM,4,31.5,23,41
6,Movimiento,13,1.153846,1,2



Paciente VB_2 — transiciones 2 → X detectadas: 41


Fase destino,Etiqueta,Segmentos,Promedio,Mínimo,Máximo
0,Vigilia (W),8,4.375,1,15
1,N1,3,2.333333,1,4
3,N3,14,1.714286,1,6
4,N4,1,1.0,1,1
5,REM,9,13.222222,1,52
6,Movimiento,6,1.0,1,1



Paciente VC_2 — transiciones 2 → X detectadas: 37


Fase destino,Etiqueta,Segmentos,Promedio,Mínimo,Máximo
0,Vigilia (W),2,1.5,1,2
3,N3,14,1.5,1,4
5,REM,10,19.8,3,57
6,Movimiento,11,1.0,1,1


In [None]:
segmentos_destino_global = defaultdict(list)
for destinos in segmentos_destino_por_paciente.values():
    for fase_destino, longitudes in destinos.items():
        segmentos_destino_global[fase_destino].extend(longitudes)

print("\nResumen global de fases destino después de salir de 2:")
tabla_destino_global = resumen_destinos(segmentos_destino_global)
display(tabla_destino_global.style.format(precision=3).hide(axis="index"))



Resumen global de fases destino después de salir de 2:


Fase destino,Etiqueta,Segmentos,Promedio,Mínimo,Máximo
0,Vigilia (W),26,2.538462,1,15
1,N1,33,1.393939,1,5
3,N3,223,1.659193,1,9
4,N4,13,4.153846,1,17
5,REM,74,19.72973,1,74
6,Movimiento,135,1.251852,1,7
7,Sin clasificar,1,1.0,1,1


### Datos preparados para análisis posterior

- **segmentos_fase2_por_paciente**: diccionario **paciente → lista de longitudes** con las duraciones de fase 2 posteriores a cada transición **no-2 → 2**.
- **segmentos_globales**: vector con todas las longitudes anteriores combinadas.
- **segmentos_destino_por_paciente**: diccionario **paciente → {fase destino → lista de longitudes}** que describe cuánto tiempo dura cada fase destino tras salir de fase 2.
- **segmentos_destino_global**: agregación de las mismas transiciones para todos los pacientes.

Estos vectores podrán alimentar visualizaciones (box plots) o filtros sobre n-gramas específicos en siguientes iteraciones.
