# ü§ñ Aprendizaje de M√°quina
## üß† Proyecto BCI
## [02] Normalizaci√≥n

Realizado por:
* Iv√°n Alejandro Ramos Herrera.
* Santiago Licea Becerril.

# Filtros de se√±al con Nyquist

El filtrado de paso de banda es un paso de preprocesamiento crucial en el an√°lisis de datos de EEG para aplicaciones de interfaz cerebro-computadora (BCI). Esta t√©cnica a√≠sla selectivamente un rango de frecuencia de inter√©s espec√≠fico, lo que permite reducir el ruido en los datos. Al aplicar filtros de paso de banda, puede mejorar la visibilidad de estos componentes de frecuencia, lo que facilita la extracci√≥n de caracter√≠sticas significativas para las tareas BCI.

In [11]:
import os
import pandas as pd
from scipy.signal import butter, filtfilt

# Funci√≥n para filtrar y guardar los datasets
def filter_datasets(input_directory, output_directory):

  if not os.path.exists(output_directory):
    os.makedirs(output_directory)

  # Frecuencias de corte:
  lowcut = 0.5
  highcut = 55
  fs = 250

  # Coeficientes del filtro:
  nyquist = fs / 2
  low = lowcut / nyquist
  high = highcut / nyquist
  b, a = butter(4, [low, high], btype="band")

  # Aplica filtro para cada dataset:
  datasets = os.listdir(input_directory)
  for dataset in datasets:
    dataset_path = input_directory + "/" + dataset
    if os.path.isdir(dataset_path):
      data = pd.read_csv(dataset_path + "/dataset.csv")

    # Aplicar el filtro a cada canal de los datos:
    for channel in range(14):
      data[f"Channel {channel+1}"] = filtfilt(b, a, data[f"Channel {channel+1}"])

    # Guardar los datos:
    output_dataset_directory = os.path.join(output_directory, dataset)
    if not os.path.exists(output_dataset_directory):
      os.makedirs(output_dataset_directory)

    output_file_path = os.path.join(output_dataset_directory, "dataset.csv")
    data.to_csv(output_file_path, index=False)

  print("Filtrado completado en \"filtered\"!")

In [14]:
dataset_path = "/content/drive/MyDrive/IIMAS/ML-DATASET/EMOTIV/balanced"
filtered_path = "/content/drive/MyDrive/IIMAS/ML-DATASET/EMOTIV/filtered"
filter_datasets(dataset_path, filtered_path)


Filtrado completado en "filtered"!


La frecuencia de Nyquist se utiliza para determinar la frecuencia de corte para los filtros digitales.

En este caso se est√° utilizando un filtro de Butterworth. Esto atenua las frecuencias por encima de highcut y por debajo de lowcut, de acuerdo con el principio de Nyquist.

Este m√©todo magnifica las frecuencias que nos interesan.

> El m√©todo m√°s utilizado para clasificar las formas de onda de EEG es por la frecuencia, hasta el punto de que las ondas de EEG se nombran seg√∫n su rango de frecuencia utilizando n√∫meros griegos. Las formas de onda m√°s com√∫nmente estudiadas incluyen delta (0.5 a 4 Hz); theta (4 a 7 Hz); alfa (8 a 12 Hz); sigma (12 a 16 Hz) y beta (13 a 30 Hz).

https://www.ncbi.nlm.nih.gov/books/NBK539805/#:~:text=However%2C%20the%20most%20frequently%20used,beta%20(13%20to%2030Hz).

<br>

**POR QU√â ESCOGER 0.5Hz y 50HZ?**

Con base en lo encontrado en un estudio, en el que se utilizaron las siguientes m√©tricas.

> 2.2.2. Data Acquisition and Processing
In the real-time system, the sampling rate of all channels, the high/low cutoff frequency of the bandpass filter, and the epoching time were the same for efficient processing. The sampling rate was 128 Hz, and an elliptic IIR bandpass filter (0.5 - 55 Hz) was used. The signal window was of 4 s, and the sliding period was 1 s. Algorithms detecting EBs, SSVEPs, and EMGs were identical to that in the experiment for measuring performance. Figure 5 depicts the data acquisition and processing procedure in a real-time system.

https://www.mdpi.com/1424-8220/21/13/4578


# Normalizaci√≥n Z

La Normalizaci√≥n Z, tambi√©n conocida como "estandarizaci√≥n", es un m√©todo com√∫n de preprocesamiento de datos que se utiliza para asegurarse de que las caracter√≠sticas de un conjunto de datos tengan una media de 0 y una desviaci√≥n est√°ndar de 1.

Se utilizar√° en los datos para que todas las lecturas en los diferentes canales tengan una escala comparable. Esto para mejorar la convergencia de los modelos y garantizar que los canales con unidades de medida diferentes no tengan un efecto desigual en las clasificaciones.

In [25]:
# Funci√≥n para filtrar y guardar los datasets
def normalizate_datasets(input_directory, output_directory):

  if not os.path.exists(output_directory):
    os.makedirs(output_directory)

  # Aplica normalizaci√≥n para cada dataset:
  datasets = os.listdir(input_directory)
  for dataset in datasets:
    dataset_path = input_directory + "/" + dataset
    if os.path.isdir(dataset_path):
      data = pd.read_csv(dataset_path + "/dataset.csv")

    # Aplicar la normalizaci√≥n a cada canal de los datos:
    mean = data.mean(axis=0)
    standev = data.std(axis=0)
    for channel in range(14):
      data[f"Channel {channel+1}"] = (data[f"Channel {channel+1}"] - mean[channel]) / standev[channel]

    # Guardar los datos:
    output_dataset_directory = os.path.join(output_directory, dataset)
    if not os.path.exists(output_dataset_directory):
      os.makedirs(output_dataset_directory)

    output_file_path = os.path.join(output_dataset_directory, "dataset.csv")
    data.to_csv(output_file_path, index=False)

  print("Normalizado completado en \"normalizated\"!")

In [28]:
import warnings
warnings.simplefilter("ignore")

In [30]:
dataset_path = "/content/drive/MyDrive/IIMAS/ML-DATASET/EMOTIV/filtered"
normalizated = "/content/drive/MyDrive/IIMAS/ML-DATASET/EMOTIV/normalizated"
normalizate_datasets(dataset_path, normalizated)

Normalizado completado en "normalizated"!
