##Introducción
La enfermedad pulmonar obstructiva crónica (EPOC) representa una carga significativa para la salud pública a nivel mundial, siendo una de las principales causas de morbilidad y mortalidad. A pesar de los esfuerzos realizados para concienciar sobre esta enfermedad, persisten desafíos significativos que dificultan su prevención, diagnóstico temprano y tratamiento efectivo. Entre estos desafíos se encuentra la falta de conciencia pública y política sobre la EPOC, que tiene múltiples implicaciones negativas [1].

En primer lugar, la falta de conciencia contribuye a retrasos en el diagnóstico y tratamiento de la EPOC, lo que puede resultar en una progresión más rápida de la enfermedad y en peores resultados para los pacientes. Además, la falta de atención política se traduce en una insuficiencia de fondos y programas destinados a la prevención del tabaquismo y a la mejora de la calidad del aire, dos factores cruciales en la prevención de la EPOC. Asimismo, la falta de conciencia puede perpetuar el estigma asociado con la enfermedad, dificultando que las personas afectadas busquen ayuda y apoyo, lo que puede llevar a un mayor aislamiento social y a una disminución de la calidad de vida tanto para los pacientes como para sus cuidadores [1].

Debido a este problema mundial, como lo es la EPOC, la Organización Mundial de la Salud adopta algunas medidas y abarcan esta complicación en su Plan de Acción Mundial para la Prevención y el Control de las Enfermedades No Transmisibles y la Agenda 2030 para el Desarrollo Sostenible de las Naciones Unidas [2]. Por otra parte, la misma organización ha creado la Global Initiative for Chronic Obstructive Lung Disease (GOLD) la cual está en constante actualización con esta enfermedad, aportando con reportes anuales sobre la definición de la EPOC, patogénesis, diagnósticos, tratamiento, etc. [3].

En este contexto, se propone en este trabajo la utilización de un sistema de clasificación para detectar el volumen de EPOC a partir de señales fisiológicas. Este enfoque tiene el potencial de mejorar la detección temprana y la gestión de la enfermedad, lo que podría conducir a mejores resultados para los pacientes y a una reducción de la carga que la EPOC impone sobre los sistemas de atención médica.

##Metodología
Selección de data base:
Se seleccionó la base de datos “Simulated Obstructive Disease Respiratory Pressure and Flow” que contiene las señales fisiológicas de los 20 pacientes, donde se varían el PEEP y el EPOC. De esta, se trabajó con la carpeta “Processed Data”, ya que en esta los datos están limpios y correctamente etiquetados.

Obtención de data a partir de la data base:
Se hizo la lectura de los 240 archivos CSV que contienen las señales fisiológicas de los pacientes, donde cada archivo representa una combinación de PEEP y EPOC para un paciente específico.

División entre data de entrenamiento y data de testeo:
Se dividieron los datos en un conjunto de entrenamiento y un conjunto de prueba. Se asignó un porcentaje de los datos para entrenamiento (en este caso 80%) y el resto para pruebas (por ejemplo, 20%).

Creación de modelos de clasificación:
Se implementaron 3 algoritmos de clasificación: regresión logística, k-Nearest Neighbors (KNN) y Naive Bayes. Esto implicó configurar los modelos con los parámetros adecuados como en el caso de KNN se definió el número de vecinos a 3. 

Entrenamiento de los modelos:
Se utilizaron los datos de entrenamiento para entrenar los modelos de clasificación. Cada modelo se ajustará a los datos de entrenamiento para aprender los patrones subyacentes en las señales fisiológicas y sus correspondientes niveles de EPOC.

Evaluación de los modelos:
Una vez entrenados los modelos, se evaluaron utilizando los datos de prueba. Se calcularon métricas de evaluación como precisión, recall, F1-score y matriz de confusión para cada modelo.

Selección del mejor modelo:
Se comparó el rendimiento de los diferentes modelos y se seleccionó el que tuvo el mejor desempeño en términos de las métricas de evaluación.

In [1]:
import os
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

In [2]:
# Directorio donde se encuentran los archivos CSV
# CAMBIAR SEGÚN LUGAR DONDE SE TIENE LA CARPETA
directorio = "E:E:\Patronus\simulated-obstructive-disease-respiratory-pressure-and-flow-1.0.0"