1. INTRODUCCION

La enfermedad pulmonar obstructiva crónica (EPOC) representa una carga significativa para la salud pública a nivel mundial, siendo una de las principales causas de morbilidad y mortalidad. A pesar de los esfuerzos realizados para concienciar sobre esta enfermedad, persisten desafíos significativos que dificultan su prevención, diagnóstico temprano y tratamiento efectivo. Entre estos desafíos se encuentra la falta de conciencia pública y política sobre la EPOC, que tiene múltiples implicaciones negativas [1].

En primer lugar, la falta de conciencia contribuye a retrasos en el diagnóstico y tratamiento de la EPOC, lo que puede resultar en una progresión más rápida de la enfermedad y en peores resultados para los pacientes. Además, la falta de atención política se traduce en una insuficiencia de fondos y programas destinados a la prevención del tabaquismo y a la mejora de la calidad del aire, dos factores cruciales en la prevención de la EPOC. Asimismo, la falta de conciencia puede perpetuar el estigma asociado con la enfermedad, dificultando que las personas afectadas busquen ayuda y apoyo, lo que puede llevar a un mayor aislamiento social y a una disminución de la calidad de vida tanto para los pacientes como para sus cuidadores [1].

Debido a este problema mundial, como lo es la EPOC, la Organización Mundial de la Salud adopta algunas medidas y abarcan esta complicación en su Plan de Acción Mundial para la Prevención y el Control de las Enfermedades No Transmisibles y la Agenda 2030 para el Desarrollo Sostenible de las Naciones Unidas [2]. Por otra parte, la misma organización ha creado la Global Initiative for Chronic Obstructive Lung Disease (GOLD) la cual está en constante actualización con esta enfermedad, aportando con reportes anuales sobre la definición de la EPOC, patogénesis, diagnósticos, tratamiento, etc. [3].

En este contexto, se propone en este trabajo la utilización de un sistema de clasificación para detectar el volumen de EPOC a partir de señales fisiológicas. Este enfoque tiene el potencial de mejorar la detección temprana y la gestión de la enfermedad, lo que podría conducir a mejores resultados para los pacientes y a una reducción de la carga que la EPOC impone sobre los sistemas de atención médica.


2. METODOLOGIA

Selección de data base:
Se seleccionó la base de datos “Simulated Obstructive Disease Respiratory Pressure and Flow” que contiene las señales fisiológicas de los 20 pacientes, donde se varían el PEEP y el EPOC. De esta, se trabajó con la carpeta “Processed Data”, ya que en esta los datos están limpios y correctamente etiquetados.

Obtención de data a partir de la data base:
Se hizo la lectura de los 240 archivos CSV que contienen las señales fisiológicas de los pacientes, donde cada archivo representa una combinación de PEEP y EPOC para un paciente específico.

División entre data de entrenamiento y data de testeo:
Se dividieron los datos en un conjunto de entrenamiento y un conjunto de prueba. Se asignó un porcentaje de los datos para entrenamiento (en este caso 80%) y el resto para pruebas (por ejemplo, 20%).

Creación de modelos de clasificación:
Se implementaron 3 algoritmos de clasificación: regresión logística, k-Nearest Neighbors (KNN) y Naive Bayes. Esto implicó configurar los modelos con los parámetros adecuados como en el caso de KNN se definió el número de vecinos a 3. 

Entrenamiento de los modelos:
Se utilizarán los datos de entrenamiento para entrenar los modelos de clasificación. Cada modelo se ajustará a los datos de entrenamiento para aprender los patrones subyacentes en las señales fisiológicas y sus correspondientes niveles de EPOC.

Evaluación de los modelos:
Una vez entrenados los modelos, se evaluarán utilizando los datos de prueba. Se calcularon métricas de evaluación como precisión, recall, F1-score y matriz de confusión para cada modelo.

Selección del mejor modelo:
Se compará el rendimiento de los diferentes modelos y se seleccionará el que obtuvo el mejor desempeño en términos de las métricas de evaluación.


In [2]:
import csv
import os
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Ruta del directorio donde se encuentran los archivos CSV
directorio = r"D:\DESK\PATRONUS\simulated-obstructive-disease-respiratory-pressure-and-flow-1.0.0\PQ_ProcessedData"

# Función para leer el archivo CSV y extraer los valores de la columna 'Pressure [cmH2O]' para los primeros 25 segundos
def leer_presiones(ruta_archivo):
    presiones = []
    with open(ruta_archivo, 'r') as archivo:
        lector_csv = csv.DictReader(archivo)
        for fila in lector_csv:
            tiempo = float(fila['Time [s]'])
            if tiempo <= 30:  # Considerar solo los primeros 25 segundos
                presion = float(fila['Pressure [cmH2O]'])
                presiones.append(presion)
            else:
                break  # Salir del bucle si el tiempo excede los 25 segundos
    return presiones

# Lista para almacenar las listas de presiones de cada archivo
lista_presiones = []

# Iterar sobre los archivos en el directorio
for nombre_archivo in os.listdir(directorio):
    if nombre_archivo.endswith(".csv"):
        ruta_archivo = os.path.join(directorio, nombre_archivo)
        presiones = leer_presiones(ruta_archivo)
        lista_presiones.append(presiones)

X=lista_presiones
# Definimos los valores de EPOC 
y = ([0] + [200] + [250] + [300])*3*20

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

print("Listo 1: Variables determinadas")

print(len(X_train))
print(len(y_train))

# Modelo de regresión logística
modeloLR = LogisticRegression()
modeloLR.fit(X_train, y_train)

# Modelo Naive Bayes
modeloNB = GaussianNB()
modeloNB.fit(X_train, y_train)

# Modelo KNN
k = 3
modeloKNN = KNeighborsClassifier(n_neighbors=k)
modeloKNN.fit(X_train, y_train)

print("Listo 2: Modelos entrenados")

# Comprobación de modelos
y_pred_NB = modeloNB.predict(X_test)
y_pred_LR = modeloLR.predict(X_test)
y_pred_KNN = modeloKNN.predict(X_test)

print("Listo 3: Modelos probados")

# Resultados
precision_NB = accuracy_score(y_test, y_pred_NB)
precision_LR = accuracy_score(y_test, y_pred_LR)
precision_KNN = accuracy_score(y_test, y_pred_KNN)

print("Precisión del modelo Naive Bayes:", precision_NB)
print("Precisión del modelo Regresión Logística:", precision_LR)
print("Precisión del modelo KNN:", precision_KNN)

Listo 1: Variables determinadas
192
192
Listo 2: Modelos entrenados
Listo 3: Modelos probados
Precisión del modelo Naive Bayes: 0.5208333333333334
Precisión del modelo Regresión Logística: 0.1875
Precisión del modelo KNN: 0.4375


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


3. RESULTADOS

In [3]:
from sklearn.metrics import precision_score, recall_score, f1_score, confusion_matrix

# Métricas para el modelo Naive Bayes
precision_NB = precision_score(y_test, y_pred_NB, average='weighted')
recall_NB = recall_score(y_test, y_pred_NB, average='weighted')
f1_NB = f1_score(y_test, y_pred_NB, average='weighted')
conf_matrix_NB = confusion_matrix(y_test, y_pred_NB)

print("Métricas del modelo Naive Bayes:")
print("Precisión:", precision_NB)
print("Recall:", recall_NB)
print("F1-score:", f1_NB)
print("Matriz de confusión:")
print(conf_matrix_NB)

# Métricas para el modelo de Regresión Logística
precision_LR = precision_score(y_test, y_pred_LR, average='weighted')
recall_LR = recall_score(y_test, y_pred_LR, average='weighted')
f1_LR = f1_score(y_test, y_pred_LR, average='weighted')
conf_matrix_LR = confusion_matrix(y_test, y_pred_LR)

print("\nMétricas del modelo de Regresión Logística:")
print("Precisión:", precision_LR)
print("Recall:", recall_LR)
print("F1-score:", f1_LR)
print("Matriz de confusión:")
print(conf_matrix_LR)

# Métricas para el modelo KNN
precision_KNN = precision_score(y_test, y_pred_KNN, average='weighted')
recall_KNN = recall_score(y_test, y_pred_KNN, average='weighted')
f1_KNN = f1_score(y_test, y_pred_KNN, average='weighted')
conf_matrix_KNN = confusion_matrix(y_test, y_pred_KNN)

print("\nMétricas del modelo KNN:")
print("Precisión:", precision_KNN)
print("Recall:", recall_KNN)
print("F1-score:", f1_KNN)
print("Matriz de confusión:")
print(conf_matrix_KNN)

Métricas del modelo Naive Bayes:
Precisión: 0.5433625470390177
Recall: 0.5208333333333334
F1-score: 0.5187937062937062
Matriz de confusión:
[[11  0  0  0]
 [ 0  2  3  8]
 [ 0  4  7  4]
 [ 0  3  1  5]]

Métricas del modelo de Regresión Logística:
Precisión: 0.20668859649122806
Recall: 0.1875
F1-score: 0.18184523809523812
Matriz de confusión:
[[1 2 2 6]
 [2 2 5 4]
 [1 5 3 6]
 [0 4 2 3]]

Métricas del modelo KNN:
Precisión: 0.4178685897435897
Recall: 0.4375
F1-score: 0.40922619047619047
Matriz de confusión:
[[11  0  0  0]
 [ 0  2  5  6]
 [ 2  3  3  7]
 [ 0  3  1  5]]


4. DISCUSIONES

En este trabajo, se evaluaron tres modelos de aprendizaje automático (Naive Bayes, Regresión Logística y KNN) para predecir el valor de EPOC en función de un conjunto de datos. El objetivo principal fue determinar cuál de estos modelos ofrece el mejor rendimiento en la tarea de relacionar los datos de entrada con los valores de EPOC.

Los resultados muestran que el modelo Naive Bayes superó a los otros dos en términos de precisión, recall y F1-score. Este modelo logró una precisión del 54.3%, un recall del 52.1% y un F1-score del 51.9%. Estas métricas indican un buen equilibrio entre la capacidad de predecir correctamente los valores de épocas y la capacidad de recuperar todos los valores relevantes.

Por otro lado, la Regresión Logística demostró ser el modelo con el rendimiento más bajo, con una precisión del 20.7%, recall del 18.8% y F1-score del 18.2%. Este resultado sugiere que la Regresión Logística podría no ser la mejor opción para este problema específico de predicción de valores de épocas.

El modelo KNN obtuvo resultados intermedios, con una precisión del 41.8%, recall del 43.8% y F1-score del 40.9%. Aunque KNN tuvo un rendimiento comparable a Naive Bayes en términos de precisión y recall, su F1-score ligeramente más bajo sugiere que podría haber un desequilibrio entre la precisión y el recall en sus predicciones.

5. CONCLUSIONES

En conclusión, en este trabajo se evaluaron tres modelos de aprendizaje automático para predecir los valores de épocas en función de un conjunto de datos. Los resultados sugieren que el modelo Naive Bayes es el más adecuado para esta tarea, ya que logró un mejor equilibrio entre precisión y recall en comparación con los otros dos modelos evaluados.

Estos hallazgos tienen importantes implicaciones para aplicaciones prácticas donde la predicción precisa de valores de épocas es crucial. Por ejemplo, en el contexto de análisis de datos temporales o en la optimización de procesos, contar con un modelo preciso para predecir los valores de épocas podría mejorar la toma de decisiones y la eficiencia operativa.

Sin embargo, es importante tener en cuenta las limitaciones de este estudio. Por ejemplo, se utilizó un conjunto de datos específico y los resultados podrían variar con conjuntos de datos diferentes. Además, se evaluaron solo tres modelos de aprendizaje automático, por lo que podrían explorarse otras técnicas de modelado en estudios futuros para determinar si se puede obtener un rendimiento aún mejor.

6. BIBLIOGRAFÍA

Bibliografía
[1] S. M. Levine and D. D. Marciniuk, "Global Impact of Respiratory Disease: What Can We Do, Together, to Make a Difference?," Chest, vol. 161, no. 5, pp. 1153-1154, 2022/05/01/ 2022, doi: https://doi.org/10.1016/j.chest.2022.01.014. [Accessed 6/4/24]
[2]	Organización Mundial de la Salud, “Enfermedad pulmonar obstructiva crónica (EPOC),” Who.int, Mar. 16, 2023. https://www.who.int/es/news-room/fact-sheets/detail/chronic-obstructive-pulmonary-disease-(copd) (accessed Apr. 07, 2024).
[3]	Alvar Agustí et al., “Global Initiative for Chronic Obstructive Lung Disease 2023 Report: GOLD Executive Summary,” American journal of respiratory and critical care medicine, vol. 207, no. 7, pp. 819–837, Apr. 2023, doi: https://doi.org/10.1164/rccm.202301-0106pp.
