# Trabajo Final Visión por Computadora 2

Integrantes:

* Marco Joel Isidro
* Diego Sarina

Profesores:

* Juan Ignacio Cavalieri
* Juan Ignacio Cornet
* Pakdaman Seyed


>info: Debido a limitaciones de github algunos de los modelos entrenados estan alojados en [google drive](https://drive.google.com/drive/folders/1mOpRcsDtA_8p71lRvVi4ofj0fxzPjhBU?usp=sharing), además de los datasets en formato [COCO](https://drive.google.com/drive/folders/1cusBklbj8RmAGGgBtO6AiCYC581yrGcK?usp=sharing)

## Descripción del problema a resolver

En este proyecto, abordamos un problema de detección de objetos en imágenes médicas centrado en la identificación de diversas enfermedades dentales. El objetivo principal es automatizar el diagnóstico visual de condiciones dentales comunes como caries, necesidad de endodoncia, o dientes impactados, a partir de imágenes médicas.

El interés por resolver este problema radica en la posibilidad de asistir a los profesionales de la odontología en el diagnóstico temprano y preciso, permitiendo la intervención adecuada antes de que las patologías avancen.

Para este proyecto, se utilizó un dataset proporcionado por una competencia de Kaggle, lo cual facilitó el acceso a imágenes etiquetadas de radiografías dentales con varias clases de anomalías. La detección de estas condiciones fue tratada como un problema de detección de objetos, donde el modelo debe no solo identificar la presencia de una anomalía, sino también localizar su posición en la imagen.

El desafío y datasets propuesto lo pueden encontrar en el siguiente link:

[Link al desafía de Kaggle](https://www.kaggle.com/datasets/truthisneverlinear/dentex-challenge-2023)

Ejemplo de una imágen etiquetada

![Imágen etiquetada](../images/DesarrolloGeneral_Conclusiones/dataset_inicial.png)

## Descripción del datasets inicial del desafio

El dataset utilizado para este proyecto fue inicialmente proporcionado por una competencia en Kaggle y contenía imágenes de radiografías dentales etiquetadas con tres tipos de categorías: cuadrante (donde se encontraba la anomalía), diente (identificación del diente específico afectado) y enfermedad (tipo de patología presente).

Sin embargo, para nuestro propósito, que es la detección de enfermedades dentales como caries, necesidad de endodoncia o dientes impactados, las etiquetas relacionadas con los cuadrantes y los dientes específicos no eran relevantes para el problema que queríamos resolver. Por lo tanto, decidimos modificar el dataset eliminando las etiquetas de cuadrante y diente, dejando únicamente las que corresponden a las enfermedades.

De esta forma, nuestro modelo se entrenará exclusivamente para identificar y localizar las anomalías dentales en las imágenes, lo que simplifica el problema y nos permite enfocarnos en el objetivo principal del proyecto: la detección automática de enfermedades dentales.

A continuación, mostramos un ejemplo de la estructura propuesta en el desafío y la estructura utilizada en el proyecto:

In [None]:
# Estructura propuesta por Dentex
{
  "images": [
    {
      "id":
      "width":
      "height":
      "file_name":
    }
  ],
  "annotations": [
    {
      "id":
      "image_id":
      "category_id_1":
      "category_id_2":
      "category_id_3":
      "segmentation":
      "area":
      "bbox":
      "iscrowd":
    }
  ],
  "categories_1": [
    {
      "id":
      "name":
      "supercategory":
    }
  ],
  "categories_2": [
    {
      "id":
      "name":
      "supercategory":
    }
  ],
  "categories_3": [
    {
      "id":
      "name":
      "supercategory":
    }
  ]
}

In [None]:
# Estructura utilizada
{
  "images": [
    {
      "id":
      "width":
      "height":
      "file_name":
    }
  ],
  "annotations": [
    {
      "id":
      "image_id":
      "category_id":
      "segmentation":
      "area":
      "bbox":
      "iscrowd":
    }
  ],
  "categories": [
    {
      "id":
      "name":
      "supercategory":
    }
  ]
}

Para un análisis más detallado del dataset utilizado pueden acceder al notebook [EDA.ipynb](2_EDA.ipynb) en el sección "dataset original".

## Primeros modelos investigados y resultados

Para abordar el problema de detección de objetos de enfermedades dentales, implementamos y entrenamos dos modelos ampliamente utilizados en tareas de detección: RetinaNet y YOLOv8. A continuación, describimos cada modelo brevemente y presentamos los resultados obtenidos en los primeros entrenamientos.

RetinaNet es un modelo de detección de objetos que emplea un enfoque de red de "una etapa" (one-stage), lo que lo hace más rápido que otros modelos de dos etapas como Faster R-CNN. Su principal característica es la focal loss, una función de pérdida que mitiga el problema del desbalance entre clases, al darle más peso a los ejemplos difíciles (difíciles de clasificar).

YOLOv8 es conocida por su velocidad y eficacia en la detección de objetos en tiempo real. YOLOv8 introduce mejoras en la arquitectura y en las técnicas de entrenamiento, lo que lo hace más eficiente que versiones anteriores.

Los entrenamientos iniciales se llevaron a cabo en los notebooks [3_YOLOv8_training.ipynb](3_YOLOv8_training.ipynb) y [4_RetinaNet_training.ipynb](4_RetinaNet_training.ipynb) en sus secciones de dataset 1 o dataset original.

Sin embargo los entrenamientos con este dataset no mostraron buenos resultados y luego de multiples pruebas se llego a la conclusion de que era problema del etiquetado del dataset. A continuación se resumen los resultados.

### YOLOv8:

```
Model Summary (fused):
- **Layers**: 186
- **Parameters**: 2,685,148
- **Gradients**: 0
- **GFLOPs**: 6.8

| Class                  | Images | Instances | Box(P) | R    | mAP50 | mAP50-95 |
|------------------------|--------|-----------|--------|------|-------|----------|
| **all**                | 151    | 709       | 0.467  | 0.564| 0.497 | 0.321    |
| **Caries**             | 128    | 447       | 0.351  | 0.620| 0.404 | 0.292    |
| **Deep Caries**        | 69     | 126       | 0.464  | 0.579| 0.557 | 0.354    |
| **Impacted**           | 48     | 106       | 0.677  | 0.991| 0.956 | 0.604    |
| **Periapical Lesion**  | 23     | 30        | 0.377  | 0.067| 0.071 | 0.034    |

```

Después de entrenar nuestro modelo YOLO para la detección de condiciones dentales, obtuvimos algunos resultados interesantes. Vamos a analizarlos:

1. Rendimiento general:
Nuestro modelo alcanzó un mAP50 de 0.497, lo que significa que está detectando objetos con una precisión media del 49.7% cuando consideramos un umbral de IoU del 50%. No está mal, pero definitivamente hay espacio para mejorar.

2. Precisión y Recall:
Obtuvimos una precisión de 0.467 y un recall de 0.564. En términos simples, esto sugiere que nuestro modelo es un poco mejor encontrando condiciones dentales reales (recall) que evitando falsos positivos (precisión).

3. Configuración del entrenamiento:
Usamos dropout de 0.3, lo cual probablemente ayudó a prevenir el overfitting, especialmente considerando que nuestro dataset no es muy grande.ç

4. Áreas de mejora:

- Definitivamente necesitamos más imágenes, sobre todo para las clases que el modelo tiene más dificultad en detectar.
- Podríamos experimentar con diferentes técnicas de aumento de datos.
- Tal vez valdría la pena probar otras arquitecturas de modelos o pesos pre-entrenados diferentes.

### RetinaNet

 ```
 Average Precision  (AP) @[ IoU=0.50:0.95 | area=   all | maxDets=100 ] = 0.257
 Average Precision  (AP) @[ IoU=0.50      | area=   all | maxDets=100 ] = 0.452
 Average Precision  (AP) @[ IoU=0.75      | area=   all | maxDets=100 ] = 0.258
 Average Precision  (AP) @[ IoU=0.50:0.95 | area= large | maxDets=100 ] = 0.257
 Average Recall     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets=  1 ] = 0.159
 Average Recall     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets= 10 ] = 0.447
 Average Recall     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets=100 ] = 0.497
 Average Recall     (AR) @[ IoU=0.50:0.95 | area= large | maxDets=100 ] = 0.497

Evaluation results for bbox: 
|   AP   |  AP50  |  AP75  |  APs  |  APm  |  APl   |
|:------:|:------:|:------:|:-----:|:-----:|:------:|
| 25.705 | 45.206 | 25.807 |  nan  |  nan  | 25.705 |

Per-category bbox AP: 
| category          | AP     | category    | AP     | category   | AP     |
|:------------------|:-------|:------------|:-------|:-----------|:-------|
| Caries            | 23.356 | Deep Caries | 23.605 | Impacted   | 49.093 |
| Periapical Lesion | 6.765  |             |        |            |        |
```

*Baja precisión general:* El modelo tiene un AP global de 0.257 y solo alcanza un AP50 de 0.452, lo que indica que las detecciones son inexactas, especialmente cuando se requiere mayor precisión en la localización de las enfermedades.

*Rendimiento desigual entre categorías:* El modelo identifica mejor los dientes impactados (AP de 49.09%), pero tiene serias dificultades con otras categorías, como Periapical Lesion, donde el AP es muy bajo (6.77%).

*Problemas de detección y localización:* El bajo recall sugiere que el modelo está fallando en detectar muchas anomalías, y la falta de precisión en las cajas delimitadoras podría estar afectada por un desbalance en las clases y un dataset subóptimo.

## Problematica encontrada y resolución

Uno de los principales desafíos que enfrentamos durante el desarrollo del proyecto fue descubrir que el dataset estaba mal etiquetado. Este problema afectaba directamente el rendimiento de los modelos, ya que muchas imágenes tenían etiquetas que se aplicaban al diente en su totalidad, en lugar de centrarse en la patología específica presente. Esto generaba confusión durante el entrenamiento, lo que resultaba en una baja precisión en las predicciones.

Al analizar en detalle las etiquetas del dataset, encontramos varios tipos de errores:

Etiquetas superpuestas: Debido a que se etiquetaba el diente completo, en muchas imágenes había etiquetas de diferentes categorías solapadas, dificultando la identificación clara de cada patología.
Cajas mal posicionadas: Las cajas delimitadoras (bounding boxes) frecuentemente no coincidían con las áreas donde se encontraban las anomalías, afectando la capacidad del modelo para localizar las enfermedades de forma precisa.
A continuación, mostramos ejemplos visuales de imágenes mal etiquetadas, donde se puede observar la discrepancia entre las cajas de detección y las enfermedades presentes.

Multiples dientes etiquetados con una sola etiqueta.

![Error1](../images/DesarrolloGeneral_Conclusiones/error_1.jpg)

Etiquetas superpuestas de diferentes categorías.

![Error2](../images/DesarrolloGeneral_Conclusiones/error_2.jpg)

Etiquetas superpuestas de la misma categoría y bbox demasiado grandes.

![Error3](../images/DesarrolloGeneral_Conclusiones/error_3.jpg)

Etiquetas mal puestas.

![Error4](../images/DesarrolloGeneral_Conclusiones/error_4.png)

Etiquetas mal puestas y superpuestas.

![Error5](../images/DesarrolloGeneral_Conclusiones/error_5.jpg)

Para resolver este problema, decidimos utilizar una versión revisada del dataset, basada en el trabajo de otro participante del desafío, quien había corregido algunos de los problemas de etiquetado. Esta versión tenía etiquetas más consistentes y precisas, enfocándose en la detección de las patologías en lugar de en el diente completo.

Sin embargo, esta versión del dataset no incluía la categoría de diente impactado, una anomalía que queríamos seguir detectando en nuestro proyecto. Por lo tanto, añadimos manualmente la categoría de diente impactado a la nueva versión del dataset, asegurándonos de que las etiquetas y las cajas delimitadoras fueran correctas.

La corrección del dataset fue un paso crucial, ya que permitió mejorar significativamente el rendimiento de los modelos al eliminar gran parte de la confusión generada por las etiquetas incorrectas. La calidad de los datos es fundamental para que los modelos de detección de objetos puedan aprender patrones útiles y producir predicciones precisas.

## Modelos investigados y resultados principales

Una vez que corregimos el dataset, realizamos nuevos entrenamientos de los modelos YOLOv8 y RetinaNet. Para mejorar el rendimiento, aplicamos varias técnicas de aumento de datos utilizando Roboflow, que incluyeron:

![Error5](../images/DesarrolloGeneral_Conclusiones/augmentation.jpg)

Estas técnicas nos permitieron aumentar la diversidad del dataset, mejorando la capacidad de generalización de los modelos al presentarles variaciones de las imágenes originales. Se destaca principalmente el uso de la modificación del contrastre, lo cual es algo comun debido a que distintas máquinas de radiagrafías generan las placas con diferentes contrastes.

### Resultados de YOLOv8

En el desarrollo del notebook [3_YOLOv8_training.ipynb](3_YOLOv8_training.ipynb) se encuentran disponibles todos los resultados parciales obtenidos para cada dataset probado.

En esta sección, nos enfocaremos en analizar los resultados obtenidos utilizando un nuevo dataset corregido. En el primer entrenamiento, se utilizó el dataset corregido sin aplicar técnicas de aumento de datos (data augmentation) y con los pesos preentrenados. Esto permitió establecer una línea base (baseline) para el modelo, reflejando la necesidad de aumentar los datos para mejorar su desempeño.

En el segundo entrenamiento, se aplicaron técnicas de aumento de datos al dataset. Los resultados obtenidos mostraron una mejora significativa, destacando:

* **Reducción del tiempo de convergencia del modelo:** El modelo logró ajustar sus parámetros más rápidamente.
* **Mejora en las métricas de Recall y mAP50:** Se observaron incrementos en estas métricas, indicando una mayor capacidad del modelo para identificar correctamente las clases de interés.

#### Comparación de pérdidas durante el entrenamiento

![train_yolo](../images/DesarrolloGeneral_Conclusiones/yolo_train_loss.png)

En la gráfica, se puede observar que el entrenamiento con data augmentation presenta una reducción más rápida de la pérdida (loss), lo cual sugiere que el modelo se beneficia de la mayor variedad de ejemplos proporcionados. Esto se traduce en un ajuste más eficaz de los parámetros del modelo.

#### Estabilización de mAP50

La siguiente gráfica muestra cómo el mAP50 alcanza un mayor grado de estabilidad cuando se utiliza el dataset aumentado, lo que sugiere un mejor rendimiento en términos de precisión:

![train_yolo_map50](../images/DesarrolloGeneral_Conclusiones/yolo_map50.png)

#### Comparación entre ambos modelos

A continuación, se presenta una tabla comparativa que resume las métricas clave obtenidas durante ambos entrenamientos:

| Métrica                | Primer Entrenamiento | Segundo Entrenamiento |
|------------------------|----------------------|-----------------------|
| Parameters             | 2,685,343            | 2,685,343             |
| **all** - mAP50        | 0.838                | 0.865                 |
| **all** - mAP50-95     | 0.542                | 0.549                 |
| **caries** - mAP50     | 0.508                | 0.587                 |
| **corona** - mAP50     | 0.973                | 0.978                 |
| **diente impactado** - mAP50  | 0.835        | 0.855                 |
| **endodoncia** - mAP50  | 0.877               | 0.910                 |
| **implante** - mAP50    | 0.995               | 0.995                 |

### Conclusiones

Los resultados demuestran que la incorporación de data augmentation no solo mejora el rendimiento del modelo, sino que también ayuda a obtener una mayor estabilidad en las métricas de precisión (mAP50). Esto es particularmente relevante para un modelo como YOLOv8, que se beneficia de una mayor diversidad en los datos de entrenamiento para aprender patrones más robustos.

En resumen, el uso del dataset aumentado permitió obtener mejores resultados en términos de precisión y capacidad de detección, lo que resalta la importancia de trabajar con datasets enriquecidos y de calidad en el proceso de entrenamiento de modelos de detección de objetos.


### Resultados de RetinaNet

Realizamos dos entrenamientos del modelo RetinaNet utilizando el nuevo dataset corregido:

En el primer caso se utilizó el dataset corregido sin aplicar técnicas de aumento de datos y sin pesos preentrenados. Este entrenamiento sirvió como punto de partida, pero las métricas de rendimiento iniciales fueron limitadas, lo que reflejó la necesidad de mejorar la calidad del entrenamiento.

En el segundo entrenamiento, se implementaron dos mejoras clave:

* Aumento de datos: Se aplicaron técnicas como flip, rotaciones y modificaciones de contraste, lo que aumentó la diversidad del dataset y mejoró la capacidad de generalización del modelo.
* Pesos preentrenados: La inclusión de pesos preentrenados aceleró el proceso de aprendizaje, permitiendo que el modelo se ajustara más rápidamente a los datos.
Comparación de Resultados

Comparación de perdidas durante el entrenamiento.

![train_retina](../images/DesarrolloGeneral_Conclusiones/train_retina.png)

En la gráfica, se puede observar que el segundo entrenamiento fue más estable y mejoró más rápidamente desde el inicio. Además, los resultados en términos de precisión mostraron una notable mejora. En particular, el AP50 del segundo modelo fue significativamente superior al del primero, lo que indica que la capacidad del modelo para detectar correctamente las patologías dentales fue mucho más efectiva.

Métricas Clave de RetinaNet

| Métrica                 | Primer Entrenamiento | Segundo Entrenamiento |
|-------------------------|----------------------|-----------------------|
| AP-caries               | 28.81                | 33.71                 |
| AP-corona               | 57.05                | 57.85                 |
| AP-diente impactado     | 56.40                | 54.83                 |
| AP-endodoncia           | 36.65                | 44.49                 |
| AP-implante             | 42.19                | 58.55                 |
| mAP50                   | 78.49                | 85.69                 |
| mAP75                   | 48.19                | 48.49                 |
| Iteraciones             | 2000                 | 2000                  |


Estas mejoras resaltan la importancia del aumento de datos y la utilización de pesos preentrenados en el entrenamiento de modelos de detección de objetos, lo que permitió obtener resultados más precisos y confiables en la detección de enfermedades dentales.

Además como se puede observar el modelo entrenado sin aumento de datos al final tuvo una menor perdida de entrenamiento, lo que junto con que obtuvo peores metricas, da a entendar que al modelo le esta faltando generalización. Lo cual se resolvio en parte con las tecnicas de aumento de datos aplicadas sobre el dataset.

### Prueba con Faster R-CNN

Además de los entrenamientos con YOLOv8 y RetinaNet, también realizamos una prueba con Faster R-CNN. Sin embargo, encontramos que la falta de suficientes épocas de entrenamiento debido a limitaciones de tiempo y capacidades de procesamiento, resultó en un rendimiento insatisfactorio. Las métricas obtenidas para Faster R-CNN fueron considerablemente inferiores a las de YOLOv8 y RetinaNet, lo que subraya la importancia de un entrenamiento adecuado y del ajuste de los hiperparámetros.

 ```
 Average Precision  (AP) @[ IoU=0.50:0.95 | area=   all | maxDets=100 ] = 0.334
 Average Precision  (AP) @[ IoU=0.50      | area=   all | maxDets=100 ] = 0.603
 Average Precision  (AP) @[ IoU=0.75      | area=   all | maxDets=100 ] = 0.339
 Average Precision  (AP) @[ IoU=0.50:0.95 | area=medium | maxDets=100 ] = 0.226
 Average Precision  (AP) @[ IoU=0.50:0.95 | area= large | maxDets=100 ] = 0.380
 Average Recall     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets=  1 ] = 0.152
 Average Recall     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets= 10 ] = 0.417
 Average Recall     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets=100 ] = 0.432
 Average Recall     (AR) @[ IoU=0.50:0.95 | area=medium | maxDets=100 ] = 0.294
 Average Recall     (AR) @[ IoU=0.50:0.95 | area= large | maxDets=100 ] = 0.483
 ```

En base a las curvas de entrenamiento, se puede observar que el modelo esta overfitiando aunque se aplicaron técnicas de regulación como Weight Decay (L2 Regularization).

Perdida de entrenamiento.

![train_faster](../images/DesarrolloGeneral_Conclusiones/train_faster.png)

Perdida de validación.

![val_faster](../images/DesarrolloGeneral_Conclusiones/val_faster.png)

## Conclusiones finales

A lo largo del desarrollo de este practico, hemos enfrentado diversos desafíos que nos han permitido profundizar nuestra comprensión de la aplicación práctica de modelos de aprendizaje profundo en el campo de la odontología. Las conclusiones extraídas de este trabajo resaltan los logros alcanzados y también las oportunidades de mejoras en esta área. A continuación, se presentan los principales hallazgos y reflexiones:

1. **Importancia de la Calidad de los Datos:**
   El proyecto demostró claramente la crucial importancia de contar con un dataset correctamente etiquetado. Los errores iniciales en el etiquetado afectaron significativamente el rendimiento de los modelos, subrayando la necesidad de una cuidadosa preparación y validación de los datos antes del entrenamiento.

2. **Eficacia de las Técnicas de Aumento de Datos:**
   La aplicación de técnicas de aumento de datos, como flips horizontales y verticales, rotaciones y modificaciones de contraste, resultó en mejoras sustanciales en el rendimiento de los modelos. Esto se evidenció particularmente en YOLOv8 y RetinaNet, donde se observaron incrementos significativos en métricas clave como mAP50 y AP.

3. **Superioridad de YOLOv8 y RetinaNet:**
   Entre los modelos evaluados, YOLOv8 y RetinaNet demostraron ser los más efectivos para la tarea de detección de enfermedades dentales. YOLOv8 destacó por su rápida convergencia y altos valores de mAP50, mientras que RetinaNet mostró mejoras significativas con el uso de pesos preentrenados y aumento de datos.

4. **Limitaciones de Faster R-CNN:**
   El rendimiento inferior de Faster R-CNN en comparación con YOLOv8 y RetinaNet subraya la importancia de ajustar adecuadamente los hiperparámetros y proporcionar suficiente tiempo de entrenamiento. También destaca cómo diferentes arquitecturas pueden requerir enfoques distintos para optimizar su rendimiento en tareas específicas.

5. **Desafíos en la Detección de Clases Específicas:**
   Se observaron variaciones en el rendimiento entre diferentes clases de enfermedades dentales. Por ejemplo, tanto YOLOv8 como RetinaNet mostraron un rendimiento particularmente alto en la detección de implantes y coronas, mientras que la detección de caries resultó más desafiante. Esto sugiere la necesidad de estrategias específicas para mejorar la detección de clases problemáticas.

6. **Importancia de la Evaluación Comparativa:**
   La comparación sistemática entre diferentes modelos y configuraciones de entrenamiento proporcionó insights valiosos sobre las fortalezas y debilidades de cada enfoque. Esto refuerza la importancia de realizar evaluaciones comparativas exhaustivas en proyectos de visión por computadora.

7. **Potencial para Aplicaciones Prácticas:**
   Los resultados prometedores, especialmente de YOLOv8 y RetinaNet, sugieren que estos modelos tienen un potencial significativo para su aplicación en entornos clínicos reales, donde podrían asistir a los profesionales dentales en la detección temprana y precisa de diversas condiciones dentales.