# Tamizaje automatizado de glaucoma con inteligencia artificial

### 1. Entendimiento del Negocio
- 1.1 Declaración del Problema
- 1.2 Objetivo SMART
- 1.3 Revisión de la Literatura

### 2. Entendimiento de los Datos
- 2.1 Visión General de los Datos Disponibles
- 2.2 Diccionario de Datos
- 2.3 Análisis Exploratorio de Datos (EDA) ????
  - 2.3.1 Análisis Univariado con visualización ????
  - 2.3.2 Análisis Multivariado: Variables Relevantes ????
  - 2.3.3 Valores Atípicos y Valores Faltantes ????
  - 2.3.4 Principales Hallazgos del EDA ????

### 3. Preparación de los Datos
- 3.1 Limpieza de Datos e Imputación 
- 3.2 Ingeniería de Características
- Preprocesamiento de imágenes (Redimensionamiento, Normalización, Conversión a escala de grises o color (según convenga))
- Aumento de datos (Data Augmentation): Rotaciones, giros, zooms, flips y Justificación de uso
- 3.3 Estrategia de División de Datos (Entrenamiento/Test/Validación)

### 4. Modelado
- 4.1 Desarrollo del Modelo
Diseño del modelo CNN
Explicación de arquitectura (puede ser una CNN desde cero o transfer learning: VGG, ResNet, etc.)
Justificación de capas, activaciones, etc.
- Compilación y entrenamiento del modelo
Función de pérdida, optimizador y métricas
Gráfica de pérdida y accuracy por época
- 4.2 Resultados y Limitaciones del Modelo
- 4.3 Validación cruzada y Métricas
Accuracy, precision, recall, F1-score
Matriz de confusión
Curva ROC y AUC
Análisis de errores

### 5. Evaluación
- 5.2 Resultados obtenidos y Comparación de modelos
- 5.3 Aplicaciones prácticas
- 5.4 Limitaciones y trabajos futuros
- 5.5 Anexos (Opcional)


# 1. Entendimiento del Negocio

## 1.1 Declaración del Problema

**El glaucoma** es una neuropatía óptica crónica y una de las principales causas de ceguera irreversible a nivel mundial [^1].  
Se estimaba que en 2020 afectaba a **más de 76 millones** de personas, con proyecciones que superan los **110 millones para 2040** [^2].  
En EE. UU., tratar a ~2 millones de pacientes implica costos directos anuales cercanos a **USD 2.9 mil millones** [^3].

> Gran parte de esta pérdida de visión es evitable mediante diagnóstico y tratamiento oportunos; sin embargo, el tamizaje masivo presenta desafíos clínicos, logísticos y económicos.

**Desafíos del tamizaje tradicional**

| Obstáculo | Detalle |
|-----------|---------|
| **Escasez de oftalmólogos** | Déficit para cubrir poblaciones envejecidas y rurales. |
| **Evaluaciones lentas y subjetivas** | La interpretación clínica varía, sobre todo en fases tempranas (relación copa/disco sutil). |
| **Equipos costosos** | Pruebas como OCT, tonometría o campimetría requieren dispositivos caros y tiempo clínico. |
| **Variabilidad diagnóstica** | Incluso entre expertos hay discrepancias, aumentando el riesgo de falsos negativos. |

**Problema central**

> **¿Cómo realizar un tamizaje automatizado, rápido y preciso de glaucoma usando imágenes de fondo de ojo**, superando las limitaciones actuales?

**Stakeholders clave**

- **Pacientes**: detección precoz → prevención de ceguera.  
- **Aseguradoras / EPS**: menor costo vs. tratamientos tardíos.  
- **Hospitales y clínicas**: optimización del flujo de trabajo oftalmológico.  
- **Start‑ups y fabricantes de dispositivos**: cámaras portátiles + software IA.  
- **Entes reguladores** (FDA, EMA, Invima): seguridad y eficacia antes de aprobar.

**Criterios de éxito y restricciones de negocio**

| Métrica / requisito | Umbral mínimo |
|---------------------|---------------|
| **Sensibilidad** | ≥ 0.80 |
| **Especificidad** | ≥ 0.80 |
| **Mitigación de riesgos éticos** | Sin sesgos demográficos, preservación de privacidad de imágenes. |

**Alcance global y sus implicaciones**

- **Generalización**: variaciones demográficas (edad, raza) → pigmentación retiniana y morfología diferentes.  
- **Variabilidad técnica**: distintas cámaras retinianas → resoluciones y campos de visión heterogéneos.  
- **Cumplimiento regulatorio multirregional**: estándares FDA/EMA/Invima, protección de datos (HIPAA, GDPR, etc.).

> El algoritmo debe ser **robusto, explicable y equitativo** para poblaciones diversas y dispositivos variados, garantizando un desempeño clínico consistente.

---

**Conclusión**

Desarrollar una **IA para tamizaje universal de glaucoma** supone:

1. Curar y balancear datasets multicéntricos.  
2. Diseñar arquitecturas explicables  
3. Validar en dominios cruzados y subgrupos demográficos.  

Así, se optimiza la detección temprana y se alivia la carga asistencial, previniendo millones de casos de ceguera evitable.

---

### Referencias

[^1]: <https://biomedical-engineering-online.biomedcentral.com>  
[^2]: Ibid.  
[^3]: <https://pmc.ncbi.nlm.nih.gov>  


## 1.2 Objetivo SMART

Desarrollar e implementar un sistema automatizado de detección de glaucoma a partir de fotografías de fondo de ojo (Specific). El modelo deberá identificar ojos glaucomatosos con al menos 80% de sensibilidad y 80% de especificidad (Measurable), según evaluación en un conjunto de prueba internacional. Se espera lograr esta meta empleando un modelo de deep learning optimizado y métricas que justifiquen cada predicción (Achievable). El objetivo es clínicamente relevante, ya que una herramienta de tamizaje precisa y rápida puede ampliar la detección temprana en comunidades con escasez de especialistas. Este objetivo SMART guiará los esfuerzos de diseño y validación del modelo de IA para maximizar su impacto en la salud visual.

## 1.3 Revisión de la Literatura

Hallazgos clave de estudios recientes (2019–2025). La aplicación de inteligencia artificial al diagnóstico de glaucoma ha avanzado notablemente en los últimos años (Li et al., 2024). Diversos enfoques han sido investigados, desde algoritmos de aprendizaje profundo hasta técnicas clásicas de visión por computador. Por ejemplo, López-Gálvez et al. (2023) exploraron un método tradicional basado en análisis de texturas para detectar lesiones retinianas. Empleando segmentación semiautomática y verificación de regiones, lograron identificar exudados duros en imágenes de fondo de ojo con sensibilidad 0.92–0.98 y especificidad 0.90–0.98 en varios conjuntos de datos​
nature.com
. Si bien este estudio se enfoca en retinopatía diabética (no en glaucoma), ilustra que las técnicas de procesamiento de imagen bien diseñadas (filtro de mediana, detección de bordes, eliminación del disco óptico, etc.) pueden alcanzar alta precisión sin redes neuronales profundas. En contraste, los métodos basados en deep learning dominan la literatura reciente de glaucoma. Díaz-Pinto et al. (2019) –referido en la revisión como Akram et al., 2019– emplearon cinco arquitecturas CNN pre-entrenadas (VGG16, InceptionV3, ResNet50, Xception, etc.) para clasificación binaria glaucoma/normal en 5 bases de datos públicas (N=1707 imágenes)​
biomedical-engineering-online.biomedcentral.com
. Obtuvieron resultados sobresalientes: el mejor modelo (Xception) rindió AUC ≈0.96, sensibilidad ≈0.93 y especificidad ≈0.86 promediadas​
biomedical-engineering-online.biomedcentral.com
. Además, liberaron una nueva base de 705 imágenes (ACRIMA) con 396 casos de glaucoma, ampliando el mayor conjunto público disponible​
biomedical-engineering-online.biomedcentral.com
. Este trabajo confirmó que la transferencia de aprendizaje desde ImageNet proporciona representaciones robustas en retina, superando enfoques previos con extracción manual de características. De hecho, métodos tradicionales como SVM con descriptores HOG o transformadas wavelet lograban desempeños moderados (ej., accuracies ~80%​
nature.com
), mientras que las CNN aprendieron directamente patrones sutiles del nervio óptico con mayor discriminación.

Un desafío común identificado es la generalización multisitio. Modelos entrenados en un único centro a menudo ven mermado su desempeño al probarse en datos externos debido a shift de distribución (diferentes poblaciones, prevalencias y dispositivos)​
nature.com
​
nature.com
. Hemelings et al. (2023) abordaron este problema integrando 13 fuentes de datos de todo el mundo, incluyendo dos cohortes poblacionales grandes (Blue Mountains Eye Study en Australia y Gutenberg Health Study en Alemania) junto con 11 datasets públicos de glaucoma​
nature.com
. Estandarizaron todas las imágenes a un campo de 30° centrado en el disco óptico para reducir variaciones técnicas​
nature.com
. Entrenaron un modelo de regresión (G-RISK) para estimar la probabilidad de glaucoma (en lugar de solo clasificación binaria), logrando desempeños impresionantes en detección de casos referibles: AUC = 0.976 y 0.984 en las cohortes de población, con sensibilidades ~87–90% a especificidad fija de 95%​
nature.com
. En 11 conjuntos externos adicionales, el AUC osciló entre 0.85 y 0.99​
nature.com
, confirmando la robustez del modelo en entornos desafiantes. Este estudio destaca la importancia de datasets diversos y de preprocesamiento consistente (alinear imágenes al disco) para un enfoque global. De manera complementaria, Li et al. (2022) desarrollaron un sistema de deep learning capaz de predecir tanto la incidencia de glaucoma en pacientes inicialmente sanos, como la progresión en pacientes ya diagnosticados, a partir de fotografías de retina. Entrenado con miles de imágenes de múltiples centros en China, su algoritmo alcanzó AUROC ≈0.90 en la predicción a 4 años de nuevos casos de glaucoma, manteniendo AUROC ~0.88–0.89 en dos conjuntos de prueba externos​
jci.org
. Para progresión de glaucoma (deterioro del campo visual), también logró alta exactitud. Un hallazgo importante es que el modelo no mostró diferencias significativas de rendimiento al estratificar por edad o sexo de los pacientes​
jci.org
, lo cual sugiere que el algoritmo supo evitar ciertos sesgos demográficos y podría ser aplicado consistentemente en subpoblaciones diversas. Esto es crítico para la equidad del tamizaje.

La literatura reciente también ha explorado arquitecturas novedosas y combinaciones de modalidades. Sharma et al. (2025) propusieron un enfoque híbrido multi-modelo llamado AI-GS, que integra 6 sub-modelos livianos enfocados en distintos biomarcadores de glaucoma (segmentación de la copa y disco óptico, detección de hemorragias discales, defectos de capa de fibras nerviosas, etc.)​
nature.com
​
nature.com
. Cada sub-modelo (<20 MB) analiza la imagen de fondo de ojo para una característica específica; luego sus salidas se fusionan en una red plenamente conectada que estima la probabilidad final de glaucoma​
nature.com
. En un set de prueba interno, AI-GS alcanzó sensibilidad = 0.935 a 95% de especificidad​
nature.com
, superando claramente el umbral clínico. En pruebas de campo real (pacientes de clínica, con variabilidad no controlada), reportaron que un modelo CNN estándar sufría una caída de sensibilidad a ~56% manteniendo ~94% especificidad, mientras que la red completa AI-GS mantuvo ≈80.5% de sensibilidad con ~91% especificidad​
nature.com
. Esto demuestra que combinar múltiples detectores especializados mejora la sensibilidad en datos del mundo real, detectando cambios sutiles que un único clasificador podía pasar por alto​
nature.com
. No obstante, también refleja la brecha que suele haber entre la evaluación controlada y el desempeño clínico real, subrayando la importancia de validar con datos prospectivos. En otra línea, Akram et al. (2019) (en este caso, refiriendo a Díaz-Pinto 2019) y otros autores resaltan la necesidad de imágenes de alta calidad para un diagnóstico fiable. Imágenes borrosas o con mala iluminación pueden inducir errores; por ello, se han propuesto modelos auxiliares que filtren automáticamente imágenes no aptas. Por ejemplo, una red de clasificación de calidad puede descartar fotos desenfocadas antes del análisis principal (Ran et al., 2022). Asimismo, varios trabajos incorporan medidas clínicas explícitas: segmentar el disco y la copa óptica para calcular la relación copa/disco (CDR) e incluirla como característica en la decisión. Este enfoque híbrido combina la naturaleza data-driven de las CNN con conocimiento clínico previo – CDR elevada es un indicador tradicional de glaucoma. Estudios han demostrado que agregar CDR u otros rasgos (excavación, hemorragias peripapilares) mejora la interpretabilidad e incluso la precisión del modelo (Shankaranarayana et al., 2020). En cuanto a plataformas emergentes, se investiga la aplicabilidad en dispositivos móviles: por ejemplo, algoritmos optimizados para ejecutarse en smartphones acoplados a lentes de bajo costo, lo que permitiría tamizajes en campo. Un ejemplo es el uso de Vision Transformers y métodos compactos en aplicaciones de tele-oftalmología móvil (Li et al., 2024; Xu et al., 2023), aunque aún es un área en desarrollo. Mejores prácticas y vacíos identificados. De la revisión de estos artículos se desprenden varias recomendaciones técnicas relevantes para nuestro proyecto. Primero, el manejo de la clase minoritaria (ojos glaucomatosos) es crucial: en poblaciones generales la prevalencia de glaucoma puede ser <5%, de modo que entrenar un modelo sin técnicas de balanceo puede sesgarlo a predecir “sano” la mayoría de veces. Los investigadores han utilizado enfoques de oversampling (replicar o sintetizar imágenes de glaucoma) y cost-sensitive learning (ponderar más los errores en glaucomatosos). Por ejemplo, algunos grupos aplicaron focal loss o ajustaron manualmente el peso de falsos negativos para priorizar la sensibilidad (Li et al., 2024). Esto coincide con la prioridad clínica de minimizar falsos negativos – es preferible marcar un caso como sospechoso (aunque luego se descarte con exámenes confirmatorios) que perder un glaucoma real por no detectarlo. Segundo, se ha validado la utilidad del transfer learning: la mayoría de estudios (Díaz-Pinto 2019, Hemelings 2023, etc.) iniciaron entrenando sus CNN con pesos de ImageNet​
biomedical-engineering-online.biomedcentral.com
, dado el limitado tamaño de datasets médicos. Esto aceleró la convergencia y permitió que modelos complejos rindieran bien con cientos o pocos miles de imágenes. No obstante, comienza a emerger la idea de pre-entrenar específicamente en datos oftálmicos. Por ejemplo, utilizar millones de imágenes de retina no etiquetadas en un esquema self-supervised (aprendizaje auto-supervisado) podría producir representaciones más adaptadas a texturas retinianas que las aprendidas de fotos naturales. Este vacío abre una oportunidad clara para nuestro proyecto (ver Tabla de gaps). Tercero, las técnicas de data augmentation se consideran indispensables. Todos los trabajos analizados aplicaron transformaciones aleatorias a las imágenes de entrenamiento (giros, espejado horizontal, variaciones de brillo/contraste). Algunas publicaciones implementaron augmentations más sofisticadas: deformaciones elásticas simulando distorsiones oculares, recortes aleatorios centrados en el nervio, e incluso redes generativas (GANs) para crear imágenes sintéticas de discos excavados. López-Gálvez et al. (2023) mencionan que su método clásico evitó depender de equalización de iluminación o segmentación vascular previa, lo que simplifica la generalización​
nature.com
​
nature.com
; sin embargo, en modelos de deep learning sí se sugiere normalizar la coloración y eliminar artefactos (reflejos) en pre-procesamiento para reducir la variabilidad no informativa. Otro aspecto crítico es la interpretabilidad. Dado que las autoridades regulatorias ahora exigen justificar las decisiones de los algoritmos médicos, muchos estudios integran métodos de explicación. Los más comunes son Grad-CAM (mapas de activación vinculados a la predicción) y LIME, que señalan regiones del fondo de ojo que contribuyen al diagnóstico (usualmente el área del disco óptico y la capa de fibras nerviosas). Por ejemplo, Li et al. (2024) en su revisión enfatizan que la transparencia es clave para la adopción clínica, y proponen que un enfoque ideal podría involucrar un sistema híbrido, donde la IA no solo indique “glaucoma: sí/no” sino que provea medidas cuantitativas tradicionales (como CDR) y visualizaciones comprensibles (p. ej., destacar una hemorragia discal detectada). Incluso se han explorado modelos intrínsecamente interpretables: modelos basados en prototipos que comparan regiones del paciente con patrones de glaucoma aprendidos de casos previos (Yang et al., 2022). Aunque prometedores, estos métodos aún no superan en precisión a las CNN estándar, por lo que suele preferirse combinar un modelo potente con explicaciones post-hoc. Finalmente, permanecen vacíos importantes en la literatura. Pocos trabajos han validado sus algoritmos en población latinoamericana o africana, representando una brecha de equidad. Asimismo, la mayoría de estudios utilizan solo imágenes de fondo de ojo estáticas; integrar datos multimodales (OCT, campos visuales, presión intraocular) podría mejorar la sensibilidad en casos tempranos donde la foto de retina por sí sola es insuficiente​
nature.com
. También se señala que la heterogeneidad de criterios diagnósticos complica la comparación entre modelos – distintos datasets usan definiciones de glaucoma diferentes (p. ej., basado en CDR vs. basado en campos visuales)​
nature.com
. Esto sugiere la necesidad de estándares unificados y quizá entrenar modelos para estadiar severidad y no solo detección binaria. En resumen, las investigaciones de 2019-2025 demuestran que la IA puede lograr desempeño cercano (incluso superior) al de especialistas en la detección de glaucoma (sensibilidades típicamente 90%+​
pmc.ncbi.nlm.nih.gov
), pero para trasladar esta eficacia a escenarios globales reales deben atenderse la generalización, interpretabilidad y sesgos, orientando así la propuesta de nuestro proyecto.

# 2. Entendimiento de Los Datos

## 2.1 Visión General de los Datos Disponibles

## 2.2 Diccionario de Datos

## 2.3 Análisis Exploratorio de Datos (EDA)