# Análisis inicial y procesamiento de datos EMG
Este notebook realiza la exploración, limpieza y generación de features para el dataset EMG.

In [14]:
import pandas as pd
import numpy as np


In [15]:
# --- Carga y Limpieza Inicial ---

# 1. Definir la ruta a los datos crudos
path_raw_data = '../data/raw/luz_palacios.csv'

# 2. Cargar el DataFrame indicando el separador correcto
df = pd.read_csv(path_raw_data, sep=';')

# 3. Crear una columna de tiempo continuo en segundos
SAMPLING_RATE = 256 # Frecuencia de muestreo del OpenBCI
df['time_seconds'] = df.index / SAMPLING_RATE

# 4. Cambiar el nombre de la columna de índice original (buena práctica)
df = df.rename(columns={'Sample Index': 'Time'})

# 5. Verificar que todo se cargó correctamente
print("Datos cargados exitosamente. Aquí están las primeras 5 filas:")
display(df.head())

print("\nInformación general del DataFrame:")
df.info()

Datos cargados exitosamente. Aquí están las primeras 5 filas:


Unnamed: 0,Time,EXG Channel 0,EXG Channel 1,EXG Channel 2,EXG Channel 3,EXG Channel 4,EXG Channel 5,EXG Channel 6,EXG Channel 7,time_seconds
0,0.0,57230.76996,37444.066995,20648.362714,27808.36407,-13319.739797,9386.145697,10273.062917,-171994.371354,0.0
1,1.0,57230.725256,37441.563599,20648.899156,27805.994786,-13121.8151,9475.642082,10256.18735,-171909.658242,0.003906
2,2.0,57250.260681,37462.954219,20635.823385,27816.991844,-13132.633344,9414.063026,10251.31467,-171952.059502,0.007812
3,3.0,57253.032297,37470.665571,20629.363731,27821.68571,-13325.081864,9321.795025,10262.155266,-172029.955331,0.011719
4,4.0,57229.205338,37446.972721,20631.464795,27807.492352,-13344.997268,9347.61129,10264.010461,-171998.864055,0.015625



Información general del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 104810 entries, 0 to 104809
Data columns (total 10 columns):
 #   Column         Non-Null Count   Dtype  
---  ------         --------------   -----  
 0   Time           104810 non-null  float64
 1   EXG Channel 0  104810 non-null  float64
 2   EXG Channel 1  104810 non-null  float64
 3   EXG Channel 2  104810 non-null  float64
 4   EXG Channel 3  104810 non-null  float64
 5   EXG Channel 4  104810 non-null  float64
 6   EXG Channel 5  104810 non-null  float64
 7   EXG Channel 6  104810 non-null  float64
 8   EXG Channel 7  104810 non-null  float64
 9   time_seconds   104810 non-null  float64
dtypes: float64(10)
memory usage: 8.0 MB


In [16]:
# --- Segmentación del DataFrame Principal ---

print("Segmentando el DataFrame en 6 clases...")

# Segmento 1: Basal (0 a 120 segundos)
df_basal = df[df['time_seconds'] <= 120].copy()

# Segmento 2: Adelante (más de 120s hasta 180s)
df_adelante = df[(df['time_seconds'] > 120) & (df['time_seconds'] <= 180)].copy()

# Segmento 3: Atrás (más de 180s hasta 240s)
df_atras = df[(df['time_seconds'] > 180) & (df['time_seconds'] <= 240)].copy()

# Segmento 4: Derecha (más de 240s hasta 300s)
df_derecha = df[(df['time_seconds'] > 240) & (df['time_seconds'] <= 300)].copy()

# Segmento 5: Izquierda (más de 300s hasta 360s)
df_izquierda = df[(df['time_seconds'] > 300) & (df['time_seconds'] <= 360)].copy()

# Segmento 6: Reposo (más de 360s hasta el final)
df_reposo = df[df['time_seconds'] > 360].copy()

print("¡Segmentación completada! Verificando los tamaños de cada segmento:")

# --- Verificación ---
print(f"  - Muestras en df_basal:    {df_basal.shape[0]}")
print(f"  - Muestras en df_adelante: {df_adelante.shape[0]}")
print(f"  - Muestras en df_atras:     {df_atras.shape[0]}")
print(f"  - Muestras en df_derecha:   {df_derecha.shape[0]}")
print(f"  - Muestras en df_izquierda: {df_izquierda.shape[0]}")
print(f"  - Muestras en df_reposo:    {df_reposo.shape[0]}")

Segmentando el DataFrame en 6 clases...
¡Segmentación completada! Verificando los tamaños de cada segmento:
  - Muestras en df_basal:    30721
  - Muestras en df_adelante: 15360
  - Muestras en df_atras:     15360
  - Muestras en df_derecha:   15360
  - Muestras en df_izquierda: 15360
  - Muestras en df_reposo:    12649


In [20]:
# --- Paso Final: Guardar los DataFrames Segmentados ---

# Define la ruta a la carpeta 'processed'
path_processed = '../data/processed/'

print(f"Guardando 6 archivos en la carpeta: {path_processed}")

# Guardamos cada DataFrame segmentado en un archivo Parquet
# El nombre del archivo es descriptivo de la clase que contiene.
df_basal.to_parquet(path_processed + 'basal_data.parquet')
df_adelante.to_parquet(path_processed + 'adelante_data.parquet')
df_atras.to_parquet(path_processed + 'atras_data.parquet')
df_derecha.to_parquet(path_processed + 'derecha_data.parquet')
df_izquierda.to_parquet(path_processed + 'izquierda_data.parquet')
df_reposo.to_parquet(path_processed + 'reposo_data.parquet')

print("\n¡Archivos guardados exitosamente!")
print("Tu primer notebook ha completado su misión.")

Guardando 6 archivos en la carpeta: ../data/processed/

¡Archivos guardados exitosamente!
Tu primer notebook ha completado su misión.
