# Proyecto: Clasificación de Mamografías utilizando el dataset VinDr-Mammo

Este proyecto tiene como objetivo implementar un sistema de clasificación de mamografías para detectar tejido canceroso. El flujo de trabajo se ha dividido en tres partes, cada una encargada de un área específica del proyecto. A continuación, se describen las tareas detalladas, las entradas y salidas esperadas de cada fase, y cómo se conectan entre sí para construir el sistema completo.

---

## Integrante 1: Preprocesamiento de Datos y Aumento de Datos

### **Entrada**:
- **Dataset VinDr-Mammo**: 
  - **Imágenes DICOM** de mamografías con vistas diferentes.
  - **Archivos CSV de anotaciones**: Contienen las coordenadas de las Regiones de Interés (ROI) y las etiquetas de clasificación (normal, benigno, maligno).

### **Tareas**:
1. **Conversión de Imágenes DICOM a Formatos PNG/JPEG**:
   - Cargar las imágenes en formato DICOM utilizando librerías como PyDicom.
   - Convertir las imágenes a formatos manejables (PNG o JPEG).
   - Redimensionar las imágenes a un tamaño adecuado para el modelo VGG16 (por ejemplo, 299x299 píxeles).

2. **Extracción de Regiones de Interés (ROI)**:
   - Utilizar las coordenadas presentes en los archivos CSV de anotaciones para recortar las imágenes y obtener las ROI (Regiones de Interés).
   - Generar imágenes de estas ROI que representen las áreas donde se detectaron anomalías (benignas o malignas).

3. **Aumento de Datos (Data Augmentation)**:
   - Aplicar técnicas de aumento de datos a las imágenes y las ROI para aumentar el tamaño del conjunto de datos:
     - **Rotaciones aleatorias**, **inversión horizontal y vertical**, **ajustes de brillo y contraste**, entre otras.
   - Generar múltiples versiones de cada imagen para mejorar la generalización del modelo.

4. **Balanceo del Dataset**:
   - Dado que las anomalías son menos frecuentes que las imágenes normales, se deben aplicar técnicas de balanceo:
     - **Oversampling** (aumentar el número de imágenes con anomalías) o **undersampling** (reducir las imágenes normales).

### **Salidas**:
- **Imágenes preprocesadas** en formato PNG/JPEG, listas para el entrenamiento del modelo.
- **Conjunto de datos aumentado**: Versión aumentada de las imágenes originales para mejorar la robustez del modelo.
- **Archivos CSV actualizados**: Con las coordenadas de las ROI, etiquetas y otras anotaciones necesarias para el entrenamiento.

---

## Integrante 2: Modelado, Entrenamiento y Optimización

### **Entrada**:
- **Imágenes preprocesadas y aumentadas**: Imágenes en formato PNG/JPEG, previamente procesadas por el Integrante 1.
- **VGG16 Preentrenado**: Modelo base VGG16 con pesos preentrenados en ImageNet.
- **Archivos CSV**: Contienen las etiquetas de clasificación (normal, benigno, maligno) y las coordenadas de las ROI.

### **Tareas**:
1. **Carga y Configuración del Modelo VGG16**:
   - Cargar el modelo VGG16 preentrenado en ImageNet, excluyendo la capa final para adaptarlo a la clasificación de mamografías.
   - **Congelar capas**: Las primeras capas convolucionales se congelan para mantener los pesos preentrenados, y solo se entrenan las capas superiores personalizadas.

2. **Agregar Capas Personalizadas**:
   - Añadir capas densas personalizadas (fully connected) para ajustar el modelo a la tarea específica:
     - **Capa de aplanamiento (Flatten)** para convertir la salida convolucional en un vector.
     - **Capas densas (Dense layers)** para mejorar la capacidad de clasificación.
     - **Capa de salida (Softmax)** para realizar la clasificación final en tres clases: normal, benigno y maligno.

3. **Entrenamiento del Modelo**:
   - Dividir el conjunto de datos en **entrenamiento (80%)**, **validación (10%)** y **test (10%)**.
   - Entrenar el modelo con las imágenes preprocesadas y aumentadas, utilizando **entropía cruzada ponderada** como función de pérdida para manejar el desbalance de clases.
   - Monitorear el **rendimiento en validación cruzada**.

4. **Optimización de Hiperparámetros**:
   - Ajustar el **learning rate**, el **tamaño del batch**, el número de **épocas**, y aplicar técnicas de regularización (por ejemplo, **Dropout**) para evitar el sobreajuste.
   
5. **Evaluación del Modelo**:
   - Evaluar el modelo utilizando métricas como:
     - **Precisión, recall, F1-score**.
     - **Curvas ROC y AUC** para ver el rendimiento del modelo en la clasificación binaria (normal vs. anormal).

### **Salidas**:
- **Modelo VGG16 ajustado y entrenado**, listo para realizar inferencias.
- **Reportes de rendimiento** que incluyen las métricas clave (precisión, recall, F1-score).
- **Scripts de entrenamiento** y validación que se utilizarán en futuras iteraciones.

---

## Integrante 3: Inferencia, Visualización y Reportes Finales

### **Entrada**:
- **Modelo entrenado**: Modelo VGG16 ajustado y entrenado por el Integrante 2.
- **Nuevas imágenes** en formato DICOM o PNG.
- **Archivos CSV** con coordenadas de las ROI y etiquetas de clase (si están disponibles para evaluación).

### **Tareas**:
1. **Carga y Preprocesamiento de Nuevas Imágenes**:
   - Cargar nuevas imágenes de mamografías en formato **DICOM** o **PNG**.
   - Aplicar el mismo preprocesamiento utilizado durante el entrenamiento:
     - Convertir las imágenes a PNG/JPEG y redimensionarlas a **299x299 píxeles**.

2. **Inferencia del Modelo**:
   - Utilizar el modelo entrenado para realizar **predicciones** sobre las nuevas imágenes.
   - Clasificar cada imagen como **normal**, **benigna**, o **maligna**.
   - Generar las **coordenadas de las ROI** para resaltar las regiones sospechosas detectadas.

3. **Visualización de Resultados**:
   - Superponer las **cajas delimitadoras (ROI)** detectadas sobre las imágenes originales.
   - Mostrar las **probabilidades** de cada clase (normal, benigno, maligno).
   - Permitir el ajuste de los **umbrales de decisión** para modificar la sensibilidad y especificidad del modelo.

4. **Generación de Reportes**:
   - Crear **reportes visuales** que incluyan:
     - **Matriz de confusión** para analizar la efectividad del modelo.
     - **Curvas ROC y AUC** para evaluar la capacidad de clasificación binaria.
   - Comparar las predicciones con las **anotaciones reales** (si están disponibles) y generar informes finales.

### **Salidas**:
- **Predicciones del modelo**: Etiquetas de clasificación (normal, benigno, maligno) y las probabilidades asociadas.
- **Visualización de las ROI**: Cajas delimitadoras superpuestas sobre las imágenes.
- **Reportes finales**: Incluyen las métricas de rendimiento del modelo y la comparación con las etiquetas reales.

---

## Flujo de Trabajo General

### **Gráfico del Flujo Completo**:
A continuación, se presenta un diagrama de flujo que muestra cómo se conectan las tareas de los tres integrantes.

```mermaid
graph TD;
    A[Integrante 1: Preprocesamiento] --> B[Integrante 2: Modelado y Entrenamiento];
    B --> C[Integrante 3: Inferencia y Visualización];
    A -->|Imágenes Preprocesadas| B;
    B -->|Modelo Entrenado| C;
    C -->|Reportes y Visualizaciones| D[Resultados Finales];


Este flujo de trabajo permite que los tres integrantes trabajen en paralelo:

Integrante 1 puede comenzar a procesar las imágenes y generar los datos aumentados.

Integrante 2 puede trabajar en el ajuste del modelo VGG16 utilizando un dataset de ejemplo si aún no se han completado las imágenes finales.

Integrante 3 puede desarrollar el sistema de inferencia y visualización utilizando un modelo provisional hasta que el modelo final esté disponible.

Este enfoque modular asegura que todo el equipo pueda avanzar de manera independiente y que las tareas se integren al final para producir un sistema completo de clasificación de mamografías.