In [56]:
!pip install --upgrade scikit-learn fastdtw scipy

Collecting scikit-learn
  Obtaining dependency information for scikit-learn from https://files.pythonhosted.org/packages/83/74/f64379a4ed5879d9db744fe37cfe1978c07c66684d2439c3060d19a536d8/scikit_learn-1.6.1-cp39-cp39-macosx_12_0_arm64.whl.metadata
  Using cached scikit_learn-1.6.1-cp39-cp39-macosx_12_0_arm64.whl.metadata (31 kB)
Using cached scikit_learn-1.6.1-cp39-cp39-macosx_12_0_arm64.whl (11.1 MB)
Installing collected packages: scikit-learn
  Attempting uninstall: scikit-learn
    Found existing installation: scikit-learn 1.5.1
    Uninstalling scikit-learn-1.5.1:
      Successfully uninstalled scikit-learn-1.5.1
Successfully installed scikit-learn-1.6.1

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m23.2.1[0m[39;49m -> [0m[32;49m25.0.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [81]:
import numpy as np
import pandas as pd
from fastdtw import fastdtw
from scipy.spatial.distance import euclidean
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report, accuracy_score

def resample_series(series, new_length=100):
    old_indices = np.linspace(0, 1, len(series))
    new_indices = np.linspace(0, 1, new_length)
    return np.interp(new_indices, old_indices, series)

def segment_series(series, window_size, step_size):
    """
    Divide la serie en ventanas (segmentos) de longitud window_size, con un paso (step) step_size.
    """
    segments = []
    for start in range(0, len(series) - window_size + 1, step_size):
        segments.append(series[start:start+window_size])
    return np.array(segments)

# Supongamos que cada archivo TXT se carga como una serie de BPM.
def load_bpm_series(file_path):
    with open(file_path, "r") as f:
        lines = f.readlines()
    bpm_values = []
    for line in lines:
        try:
            bpm = float(line.strip())
            bpm_values.append(bpm)
        except:
            continue
    return np.array(bpm_values)

def convert_mmss_to_seconds(time_str):
    """Converts a time string 'mm:ss' to total seconds as an integer."""
    minutes, seconds = time_str.split(":")
    return int(minutes) * 60 + int(seconds)

# Cargar datos para cada sujeto (por ejemplo, de la carpeta "Datos")
import os, glob
txt_files = glob.glob(os.path.join("Datos", "*.txt"))
subject_series = {}  # Diccionario: subject -> serie de BPM

for file_path in txt_files:
    subject = os.path.splitext(os.path.basename(file_path))[0].lower()
    series = load_bpm_series(file_path)
    subject_series[subject] = series

# Leer el CSV observacional que contiene información temporal del miedo.
# Se asume que tiene columnas: 'subject', 'tiempo_evento' y 'nivel_miedo'
obs_df = pd.read_csv("Datos/Heart_Rate_VR_Data.csv")
obs_df["subject"] = obs_df["subject"].str.lower()

obs_df["time"] = obs_df["time"].apply(convert_mmss_to_seconds)

# Ahora, para cada sujeto, segmentamos la serie y asignamos a cada segmento la etiqueta de miedo correspondiente.
# Por ejemplo, asumamos que cada muestra de BPM corresponde a 1 segundo.
window_size = 10   # ventana de 10 segundos (o 10 muestras)
step_size = 5      # solapamiento: cada ventana empieza 5 segundos después de la anterior

dataset_segments = []
dataset_labels = []

for subject, series in subject_series.items():
    segments = segment_series(series, window_size, step_size)
    # Asumimos que la serie tiene una duración en segundos igual al número de muestras.
    # Generamos una serie de tiempos para la serie completa:
    times = np.arange(len(series))
    
    # Extraemos la información observacional para este sujeto.
    subj_obs = obs_df[obs_df["subject"] == subject]
    
    # Para cada segmento, determinamos el tiempo central y asignamos la etiqueta de miedo.
    for seg_idx, seg in enumerate(segments):
        start_time = seg_idx * step_size  # aproximación
        center_time = start_time + window_size // 2
        
        # Buscar el evento más cercano al tiempo central:
        if not subj_obs.empty:
            # Crear una copia del subconjunto para evitar el SettingWithCopyWarning
            subj_obs = subj_obs.copy()
            subj_obs.loc[:, "diff"] = np.abs(subj_obs["time"] - center_time)
            closest_event = subj_obs.loc[subj_obs["diff"].idxmin()]
            label = closest_event["fear level"]
        else:
            # Si no hay información, se puede asignar un valor por defecto o descartar la muestra.
            continue
        
        dataset_segments.append(seg)
        dataset_labels.append(label)

# Convertir a arrays
X_segments = np.array(dataset_segments)  # forma: (n_muestras, window_size)
y_segments = np.array(dataset_labels)

print(X_segments)
print(y_segments)

print("Número de muestras segmentadas:", X_segments.shape, y_segments.shape)


[[611. 611. 593. ... 618. 583. 606.]
 [665. 688. 618. ... 559. 657. 663.]
 [614. 572. 559. ... 552. 580. 621.]
 ...
 [767. 746. 747. ... 993. 987. 973.]
 [959. 980. 993. ... 922. 910. 926.]
 [929. 911. 922. ... 818. 868. 820.]]
[0 0 0 ... 0 0 0]
Número de muestras segmentadas: (1336, 10) (1336,)


In [84]:
from sklearn.neighbors import KNeighborsClassifier

# Definir la función de distancia DTW
# Definir la función de distancia DTW
def dtw_distance(x, y):
    """
    Calcula la distancia DTW entre dos series temporales.
    Asegura que las series sean arrays 1-D antes de pasarlas a fastdtw.
    """
    # Convertir x e y a arrays de NumPy y aplanarlos
    x = np.asarray(x).ravel()
    y = np.asarray(y).ravel()
    
    # Verificar que x e y sean arrays 1-D
    if x.ndim != 1 or y.ndim != 1:
        raise ValueError(f"Las series temporales deben ser 1-D. Forma de x: {x.shape}, Forma de y: {y.shape}")
    
    # Depuración: Imprimir las formas y tipos de x e y
    print(f"Forma de x: {x.shape}, Tipo de x: {x.dtype}")
    print(f"Forma de y: {y.shape}, Tipo de y: {y.dtype}")
    
    # Calcular la distancia DTW
    try:
        distance, _ = fastdtw(x, y, dist=euclidean)
    except ValueError as e:
        print(f"Error en fastdtw: {e}")
        raise
    
    return distance

# Definir el clasificador k-NN con DTW y algoritmo de fuerza bruta
knn = KNeighborsClassifier(n_neighbors=3, metric=dtw_distance, algorithm='brute')
#X_segments = np.asarray(X_segments).ravel()  # Convierte a 1-D si no lo está
#y_segments = np.asarray(y_segments).ravel()  # Convierte a 1-D si no lo está
# Dividir en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X_segments, y_segments, test_size=0.3, random_state=42)
#print("Valores NaN en X_train:", np.isnan(X_train).sum())
#print("Valores NaN en X_test:", np.isnan(X_test).sum())
# Asegúrate de que los segmentos sean 1-D antes de pasarlos al clasificador
X_train = np.array([seg.ravel() for seg in X_train])
X_test = np.array([seg.ravel() for seg in X_test])

#print(X_train.shape)
#print(X_test.shape)
# Entrenar el modelo
knn.fit(X_train, y_train)

# Predecir
y_pred = knn.predict(X_test)

# Evaluar el modelo
print("Accuracy con DTW kNN:", accuracy_score(y_test, y_pred))
print("Reporte de clasificación:")
print(classification_report(y_test, y_pred))

Forma de x: (10,), Forma de y: (10,)
float64
float64


ValueError: Input vector should be 1-D.