# **Proyecto 1: Análisis estadístico**

### Andres Banquez

### Melina Villada López

### **Objetivos proyecto**

* Fortalecer las competencias en programación para el análisis de datos
* Discutir resultados a partir de gráficos y estadística descriptiva
* Evaluar el impacto de la extracción de características de señales para encontrar patrones diferenciales en datos de poblaciones clínicas
* Proponer nuevas estrategias de análisis de información fisiológica para el diseño de ayudas diagnósticas

### **Requerimientos**


**Contexto**

*• Consultar para enfermedad de Parkinson, Huntington y Esclerosis Lateral Amiotrófica cómo se diagnostican y el reto que existe para el diagnóstico temprano de dichas enfermedades (5%).*


**Enfermedad de Parkinson**

*Diagnóstico:*

1. Evaluación Clínica: El diagnóstico de Parkinson se basa principalmente en la evaluación clínica de los síntomas motores, como temblores en reposo, rigidez muscular, bradicinesia (lentitud de movimientos) y inestabilidad postural.
2. Historial Médico: Se revisa el historial médico del paciente para descartar otras condiciones que puedan causar síntomas similares.
3. Pruebas de Imagen: Las pruebas como la tomografía por emisión de positrones (PET) o la tomografía computarizada por emisión de fotón único (SPECT) pueden ayudar, pero no son definitivas para el diagnóstico.
4. Respuesta a la Medicación: La respuesta positiva a la levodopa (un medicamento usado en el tratamiento del Parkinson) puede apoyar el diagnóstico.

*Reto del Diagnóstico Temprano:*

* Síntomas Iniciales: Los síntomas iniciales pueden ser sutiles y se confunden fácilmente con el envejecimiento normal o con otros trastornos.
* No hay Marcadores Biológicos: No existe un marcador biológico definitivo que confirme el diagnóstico en las etapas tempranas[1].

**Enfermedad de Huntington**

*Diagnóstico:*

1. Evaluación Clínica: Se observa la presencia de movimientos involuntarios (corea), problemas cognitivos y cambios en el comportamiento.
2. Historial Familiar: Dado que la enfermedad de Huntington es genética, el historial familiar de la enfermedad es un factor clave.
3. Pruebas Genéticas: Un análisis de sangre puede identificar la mutación en el gen HTT que causa la enfermedad.

* Reto del Diagnóstico Temprano:*

* Síntomas Psicológicos y Cognitivos: Los síntomas cognitivos y psiquiátricos pueden preceder a los síntomas motores, lo que dificulta un diagnóstico temprano basado en la observación clínica.
*Estigma y Temor: El diagnóstico genético puede llevar a dilemas éticos y emocionales para los individuos y sus familias[2].

**Esclerosis Lateral Amiotrófica (ELA)**

*Diagnóstico:*

1. Evaluación Clínica: El diagnóstico se basa en la observación de la debilidad muscular progresiva, fasciculaciones (contracciones musculares involuntarias), y atrofia muscular.
2. Electromiografía (EMG): La EMG mide la actividad eléctrica de los músculos y puede mostrar signos de denervación y reinervación.
3. Imágenes por Resonancia Magnética (MRI): Utilizadas para descartar otras condiciones.
4. Pruebas de Conducción Nerviosa: Evaluan la función de los nervios y pueden ayudar a excluir neuropatías periféricas.
Reto del Diagnóstico Temprano:

*Reto del Diagnóstico Temprano:*

* Variabilidad de Síntomas: Los síntomas pueden variar ampliamente entre los pacientes y progresar a diferentes velocidades, lo que complica el diagnóstico.
* Falta de Biomarcadores Específicos: No hay pruebas de laboratorio específicas para confirmar el diagnóstico de ELA en sus primeras etapas.

*• Discutir matemáticamente, explicando con fórmulas, cómo funciona la rutina detrend de scipy (5%)*



La rutina detrend de SciPy se utiliza para eliminar la tendencia lineal de una señal. Esta operación es común en el procesamiento de señales y en el análisis de series temporales para enfocarse en las fluctuaciones alrededor de una tendencia media.

Suponemos que la serie temporal es una combinación aditiva de una tendencia y otros componentes.

Y(t)=a(t)+b(t)+e(t)

* Y(t) es la serie temporal original

* a(t) es la tendencia

* b(t) es el componente estacional

* e(t) es el ruido

Por lo tanto, para eliminar la tendencia de una serie temporal, se debe estimar el componente de tendencia y luego restarlo de los datos originales, lo que nos deja solo con el componente estacional y el ruido.

Para encontrar T(t) y  S(t), utilizamos la regresión lineal, que minimiza el error cuadrático medio entre los valores de la señal  y(t) y los valores predichos por la tendencia lineal  at+b.

La fórmula general para la regresión lineal simple (en una dimensión) es:

![image.png](attachment:image.png)

Una vez que hemos encontrado a y b, podemos calcular la señal sin tendencia (detrended signal) restando la tendencia lineal de la señal original:

𝑟(𝑡)=𝑦(𝑡)−(𝑎𝑡+𝑏)
[4]


*• Discutir matemáticamente, explicando con fórmulas, cómo funciona el filtro hampel (5%)*

El filtro Hampel es una técnica robusta de procesamiento de señales que se utiliza para identificar y reemplazar valores atípicos en una serie temporal. A diferencia de otros métodos de filtrado, el filtro Hampel es particularmente efectivo para manejar datos con ruido y valores atípicos, ya que se basa en la mediana y la desviación absoluta de la mediana (MAD).

Conceptos Clave

* Ventana de Análisis (Window): El filtro opera en una ventana deslizante de tamaño 2k+1, donde  k es el número de puntos a la izquierda y a la derecha del punto central en la ventana.

* Mediana (Median): La mediana es una medida robusta de tendencia central que no se ve afectada por valores atípicos.

* Desviación Absoluta de la Mediana (MAD): La MAD es una medida robusta de dispersión que se define como la mediana de los valores absolutos de las desviaciones respecto a la mediana.

Dado un conjunto de datos ![image.png](attachment:image.png)

1. Calcular la Mediana Local: Para cada punto 𝑥𝑖 en la serie temporal, considere una ventana de tamaño 2𝑘+1 centrada en 𝑥𝑖. La mediana local Med (𝑥𝑖) se calcula como:

![image-2.png](attachment:image-2.png)

2.Calcular la MAD Local: La MAD local  MAD(𝑥𝑖)  se calcula como:

![image-3.png](attachment:image-3.png)

3. Identificación de Valores Atípicos: Un punto 𝑥𝑖 se considera un valor atípico si la diferencia entre 𝑥𝑖 y la mediana local Med (𝑥𝑖) es mayor que un umbral determinado. El umbral se define típicamente como:

![image-4.png](attachment:image-4.png)

donde n es un factor de escala (por ejemplo, n=3).

4. Reemplazo de Valores Atípicos: Si 𝑥𝑖 es un valor atípico, se reemplaza con la mediana local Med(𝑥𝑖): 
![image-5.png](attachment:image-5.png) [5]

*• Discutir matemáticamente y desde la bioingeniería qué mide la entropia de permutación ( https://www.aptech.com/blog/permutation-entropy/ , https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8051436/ ) (5%)*


La entropía de permutación (PE) es una herramienta robusta de series temporales que proporciona una medida de cuantificación de la complejidad de un sistema dinámico al capturar las relaciones de orden entre los valores de una serie temporal y extraer una distribución de probabilidad de los patrones ordinales.

* No es paramétrico y está libre de supuestos restrictivos de modelos paramétricos.
* Es robusto con respecto al ruido, computacionalmente eficiente, flexible e invariante con respecto a las transformaciones monótonas no lineales de los datos.
* Se basa en las nociones de entropía y dinámica simbólica.
* Da cuenta de la estructura de ordenamiento temporal (causalidad temporal) de una serie temporal dada de valores reales.
* Permite al usuario desbloquear el contenido dinámico complejo de las series temporales no lineales.

El primer paso es dividir la serie temporal unidimensional en una matriz de vectores de columnas superpuestos. Esta división utiliza dos hiperparámetros:

T (tao): El retraso de tiempo de incrustación que controla el número de períodos de tiempo entre elementos de cada uno de los nuevos vectores de columna. Se recomienda un valor de 1
D : La dimensión de incrustación que controla la longitud de cada uno de los nuevos vectores de columna. Se recomienda un valor entre 3<=D<=7.

## **Programación**

1. Crear una rutina que permita cargar un archivo .ts y extraiga las 4 señales de interés, de cada señal elimine los primeros 20 segundos, y las almacene en un ndarray.
3. Para cada señal resultante del paso 2 eliminar los datos atípicos usando filtro hampel

In [1]:
# Importando las librerias
import pandas as pd
import numpy as np
import os
from scipy.io import loadmat
from scipy.signal import detrend
from hampel import hampel

In [5]:
# Cargar el archivo .ts
archivo_ts = r'Control\control2.ts'
datos = pd.read_csv(archivo_ts, sep='\t', header=None)

# Extraer las primeras 5 columnas
columnas_extraidas = datos.iloc[:, :5]

# Convertir a ndarray
ndarray_resultante = columnas_extraidas.to_numpy()

print(ndarray_resultante)

[[ 21.7667   1.17     1.1867   0.46     0.4667]
 [ 22.93     1.1633   1.15     0.46     0.4533]
 [ 24.12     1.19     1.19     0.4567   0.47  ]
 ...
 [296.8667   1.1733   1.1567   0.48     0.4433]
 [298.0867   1.22     1.2167   0.4833   0.4833]
 [299.3333   1.2467   1.2      0.5167   0.4533]]


2. Para cada señal eliminar los errores en tendencia usando la rutina detrend.

In [6]:
columnas_detrend = columnas_extraidas.apply(detrend, axis=0)
print(columnas_detrend)

            0         1         2         3         4
0   -0.651033 -0.004932  0.020106 -0.000428  0.017929
1   -0.644948 -0.011480 -0.016467 -0.000327  0.004622
2   -0.612163  0.015373  0.023659 -0.003527  0.021416
3   -0.566077  0.028826  0.017086  0.009874  0.018209
4   -0.563292 -0.014321  0.013913 -0.000025 -0.001698
..        ...       ...       ...       ...       ...
236 -1.013708  0.224456  0.163294  0.013371  0.139886
237 -0.984323  0.048009  0.060121  0.026772  0.029979
238 -0.968137  0.034761  0.020247  0.043573  0.016672
239 -0.905352  0.081614  0.080374  0.046973  0.056765
240 -0.815967  0.108467  0.063801  0.080474  0.026858

[241 rows x 5 columns]


In [30]:
columnas_procesadas = []

In [31]:
for i in range(columnas_extraidas.shape[1]):

    # Eliminar datos atípicos usando el filtro Hampel
    columna_filtrada = hampel(columnas_detrend[i], window_size=5, n_sigma=3.).filtered_data
    
    # Agregar la columna procesada a la lista
    columnas_procesadas.append(columna_filtrada)

In [53]:
# Funcion para extraer la información
def dataExtractor(folder_path: str) -> list:
    '''
    Extrae las primeras 5 señales como señales de interes para cada archivo .ts de una carpeta dada
    '''
    dataE = []
    for filename in os.listdir(folder_path):
        if filename.endswith('.ts'):
            file_path = os.path.join(folder_path, filename)
            data = pd.read_csv(file_path, sep='\s+', header=None)
            senalesinteres = data.iloc[:, [0, 1, 2, 3, 4]]
            detrended_columns = detrend(senalesinteres, axis=0)
            dataE.append(detrended_columns)
    return dataE

  data = pd.read_csv(file_path, sep='\s+', header=None)


**Controles**

In [47]:
folder_path = r'Control'

control_data = dataExtractor(folder_path)

print(len(control_data))


16


In [48]:
# Ejemplo de uso
folder_path = r'Parkinson'

parkinson_data = dataExtractor(folder_path)

print(len(parkinson_data))

15


In [49]:
# Ejemplo de uso
folder_path = r'Huntington'

hun_data = dataExtractor(folder_path)

print(len(hun_data))

18


In [50]:
# Ejemplo de uso
folder_path = r'ELA'

ela_data = dataExtractor(folder_path)

print(len(ela_data))

13


## **Bibliografía**

[1] La enfermedad de Parkinson: causas, síntomas y tratamientos. (s. f.). National Institute On Aging. https://www.nia.nih.gov/espanol/parkinson/enfermedad-parkinson-causas-sintomas-tratamientos

[2]Enfermedad de Huntington - Síntomas y causas - Mayo Clinic. (2024, 20 agosto). https://www.mayoclinic.org/es/diseases-conditions/huntingtons-disease/symptoms-causes/syc-20356117

[3] Rubin, M. (2024, 6 marzo). Esclerosis lateral amiotrófica (ELA) y otras enfermedades de la neurona motora (ENM). Manual MSD Versión Para Profesionales. https://edgeservices.bing.com/edgesvc/redirect?url=https%3A%2F%2Fwww.msdmanuals.com%2Fes%2Fprofessional%2Ftrastornos-neurol%25C3%25B3gicos%2Fsistema-nervioso-perif%25C3%25A9rico-y-trastornos-de-la-unidad-motora%2Fesclerosis-lateral-amiotr%25C3%25B3fica-ela-y-otras-enfermedades-de-la-neurona-motora-enm&hash=zaMyeR6PsxpJGG6tWb09%2FkTmQWT%2FQRVwad4daxr5FgI%3D&key=psc-underside&usparams=cvid%3A51D%7CBingProd%7C540C3738B351584411D10F2DD6CBC3A9EAE5F65E9CB835B20E0314DB06EA6454%5Ertone%3ABalanced

[4] Filho, M. (2023, 10 marzo). Detrending time series data with Python. Forecastegy. https://forecastegy.com/posts/detrending-time-series-data-python/

[5] Pearson, R. K., Neuvo, Y., Astola, J., & Gabbouj, M. (2016). Generalized Hampel filters. EURASIP Journal On Advances In Signal Processing, 2016(1). https://doi.org/10.1186/s13634-016-0383-6