## Proyecto Final de Curso
### Clasificación de Defectos en Infraestructuras con Modelos Preentrenados

---

## Objetivo

Este proyecto tiene como finalidad que los estudiantes se familiaricen con el uso de **modelos preentrenados de deep learning** para tareas de **clasificación de imágenes** aplicadas en ingeniería.

Utilizando el conjunto de datos [CODEBRIM](https://zenodo.org/record/2620293), que contiene imágenes etiquetadas de defectos en puentes, los estudiantes deberán:

1. **Explorar y preprocesar el dataset** para tareas de clasificación.
2. **Aplicar transferencia de aprendizaje** utilizando **modelos preentrenados de PyTorch**.
3. **Entrenar al menos tres modelos distintos** (por ejemplo: ResNet, EfficientNet, DenseNet).
4. **Evaluar y comparar el rendimiento** de los modelos mediante métricas apropiadas (accuracy, precision, recall, F1-score, matriz de confusión, ROC AUC).

El objetivo principal es que comprendan cómo aplicar arquitecturas modernas a problemas reales de clasificación visual en el contexto de la ingeniería.

---

## Descripción del Dataset

El dataset utilizado en este proyecto es **CODEBRIM (Concrete Defect BRidge IMage Dataset)**, diseñado para tareas de clasificación de imágenes con aplicación en infraestructura civil.

### Descarga

El dataset puede descargarse desde el siguiente enlace:

[CODEBRIM_classification_dataset.zip (7.9 GB)](https://zenodo.org/records/2620293/files/CODEBRIM_classification_dataset.zip?download=1)

### Contenido

El conjunto de datos está organizado en tres particiones predefinidas: entrenamiento, validación y prueba.

| Partición     | Imágenes con Defectos | Imágenes sin Defectos |
|---------------|------------------------|------------------------|
| Entrenamiento | 4,297                  | 2,186                  |
| Validación    | 467                    | 150                    |
| Prueba        | 483                    | 150                    |

### Tarea

Este proyecto se enfoca en una tarea de **clasificación binaria**:
- **Clase 1**: Imagen con algún tipo de **defecto estructural**
- **Clase 0**: Imagen **sin defectos** (fondo)

### Tipos de defectos incluidos

Las imágenes con defecto pueden presentar uno o más de los siguientes problemas estructurales:

- **Grietas (Cracks)**
- **Spalling** (fragmentación del concreto)
- **Corrosión**
- **Eflorescencia** (depósitos de sal)
- **Barras expuestas**

Estas clases están anotadas visualmente por expertos y reflejan condiciones reales observadas en infraestructura deteriorada, como puentes de concreto.

---


## Consideraciones sobre el Preprocesamiento de Imágenes

Uno de los principales retos al trabajar con el dataset CODEBRIM es la **gran variabilidad en los tamaños de las imágenes**. La mayoría de las arquitecturas de modelos preentrenados en visión por computadora (por ejemplo, ResNet, EfficientNet, DenseNet) requieren que las imágenes de entrada tengan un tamaño fijo de **224×224×3**, es decir:

- **224 píxeles de ancho**
- **224 píxeles de alto**
- **3 canales de color (RGB)**

### Desafío

Las imágenes originales del dataset:
- Son mucho más grandes (varios cientos o miles de píxeles por lado).
- No necesariamente tienen una forma cuadrada.

### Solución Sugerida

Se recomienda aplicar un **proceso de normalización del tamaño** utilizando **padding y resize**:

1. **Padding**: Agregar píxeles negros (valor 0) a los bordes más cortos para transformar la imagen en un formato cuadrado.
2. **Resize**: Redimensionar la imagen resultante a 224x224.

Este método garantiza compatibilidad con los modelos preentrenados sin distorsionar significativamente las proporciones de los defectos.

### Alternativas Avanzadas (Opcionales)

Los estudiantes que deseen experimentar con técnicas más sofisticadas pueden explorar:

- **Windowing**: División de la imagen en parches más pequeños mediante una ventana deslizante.
- **Cropping inteligente**: Recortes automáticos de regiones de interés centradas en los defectos.
- **Técnicas adaptativas**: Uso de algoritmos que identifiquen zonas relevantes antes de ajustar el tamaño.

---

> **Nota Importante de Evaluación**:
>
> Para este curso, **solo es estrictamente necesario utilizar padding + resize** para procesar las imágenes. Este procedimiento será suficiente para obtener el **100% del puntaje relacionado con el preprocesamiento**.
>
> Sin embargo, se otorgarán hasta **10% puntos extra** en la nota final a quienes:
> - Experimenten con técnicas creativas de preprocesamiento.
> - Logren mejoras notables en el rendimiento de los modelos gracias a dichas técnicas.

---


## Selección de Modelos Preentrenados en PyTorch

Para este proyecto, los estudiantes deben seleccionar **tres modelos preentrenados** disponibles en PyTorch. Pueden elegir entre diferentes **familias de arquitecturas** (como ResNet, DenseNet o EfficientNet), o bien seleccionar diferentes **versiones dentro de una misma familia** (por ejemplo: ResNet18, ResNet50, ResNet101).

### Formato de Entrada

Todos los modelos preentrenados de clasificación de imágenes en PyTorch esperan entradas en el siguiente formato:

- Rango de valores: **[0, 1]** o **[0, 255]** (normalizados según las estadísticas de ImageNet)
- Normalización recomendada (para modelos preentrenados en ImageNet):
  - **Media**: `[0.485, 0.456, 0.406]`
  - **Desviación estándar**: `[0.229, 0.224, 0.225]`

### Modelos Populares en PyTorch

A continuación se presentan algunos modelos comúnmente usados, con sus características principales:

| Modelo              | Tipo           | Tamaño de Entrada | # Parámetros (aprox.) |
|---------------------|----------------|-------------------|------------------------|
| **ResNet18**        | ResNet         | 224×224×3         | 11.7 M                 |
| **ResNet34**        | ResNet         | 224×224×3         | 21.8 M                 |
| **ResNet50**        | ResNet         | 224×224×3         | 25.6 M                 |
| **ResNet101**       | ResNet         | 224×224×3         | 44.5 M                 |
| **ResNet152**       | ResNet         | 224×224×3         | 60.2 M                 |
| **ResNeXt50-32x4d** | ResNeXt        | 224×224×3         | 25.0 M                 |
| **ResNeXt101-32x8d**| ResNeXt        | 224×224×3         | 88.8 M                 |
| **WideResNet50-2**  | WideResNet     | 224×224×3         | 68.9 M                 |
| **WideResNet101-2** | WideResNet     | 224×224×3         | 126.9 M                |
| **DenseNet121**     | DenseNet       | 224×224×3         | 8.0 M                  |
| **DenseNet169**     | DenseNet       | 224×224×3         | 14.1 M                 |
| **DenseNet201**     | DenseNet       | 224×224×3         | 20.0 M                 |
| **VGG11**           | VGG            | 224×224×3         | 132 M                  |
| **VGG13**           | VGG            | 224×224×3         | 133 M                  |
| **VGG16**           | VGG            | 224×224×3         | 138 M                  |
| **VGG19**           | VGG            | 224×224×3         | 144 M                  |
| **MobileNetV2**     | MobileNet      | 224×224×3         | 3.4 M                  |
| **ShuffleNetV2-0.5x** | ShuffleNet   | 224×224×3         | 1.4 M                  |
| **ShuffleNetV2-1.0x** | ShuffleNet   | 224×224×3         | 2.3 M                  |
| **SqueezeNet1.0**   | SqueezeNet     | 224×224×3         | 1.2 M                  |
| **SqueezeNet1.1**   | SqueezeNet     | 224×224×3         | 1.2 M                  |
| **InceptionV3**     | Inception      | 299×299×3         | 23.9 M                 |
| **GoogLeNet**       | GoogLeNet      | 224×224×3         | 6.6 M                  |
| **EfficientNet-B0** | EfficientNet   | 224×224×3         | 5.3 M                  |
| **EfficientNet-B1** | EfficientNet   | 240×240×3         | 7.8 M                  |
| **EfficientNet-B2** | EfficientNet   | 260×260×3         | 9.2 M                  |
| **EfficientNet-B3** | EfficientNet   | 300×300×3         | 12.2 M                 |
| **EfficientNet-B4** | EfficientNet   | 380×380×3         | 19.3 M                 |
| **EfficientNet-B5** | EfficientNet   | 456×456×3         | 30.4 M                 |
| **EfficientNet-B6** | EfficientNet   | 528×528×3         | 43.0 M                 |
| **EfficientNet-B7** | EfficientNet   | 600×600×3         | 66.0 M                 |
| **RegNetY-4.0GF**   | RegNet         | 224×224×3         | 20.6 M                 |
| **RegNetY-8.0GF**   | RegNet         | 224×224×3         | 39.2 M                 |
| **RegNetY-16.0GF**  | RegNet         | 224×224×3         | 83.6 M                 |
| **RegNetY-32.0GF**  | RegNet         | 224×224×3         | 145.0 M                |
| **RegNetX-400MF**   | RegNet         | 224×224×3         | 5.3 M                  |
| **RegNetX-800MF**   | RegNet         | 224×224×3         | 8.3 M                  |
| **RegNetX-1.6GF**   | RegNet         | 224×224×3         | 11.2 M                 |
| **RegNetX-3.2GF**   | RegNet         | 224×224×3         | 19.3 M                 |
| **RegNetX-4.0GF**   | RegNet         | 224×224×3         | 22.7 M                 |
| **RegNetX-8.0GF**   | RegNet         | 224×224×3         | 39.6 M                 |
| **RegNetX-16.0GF**  | RegNet         | 224×224×3         | 83.6 M                 |
| **RegNetX-32.0GF**  | RegNet         | 224×224×3         | 145.0 M                |
| **ConvNeXt-Small**  | ConvNeXt       | 224×224×3         | 50.2 M                 |
| **ConvNeXt-Base**   | ConvNeXt       | 224×224×3         | 88.6 M                 |
| **ConvNeXt-Large**  | ConvNeXt       | 224×224×3         | 198.0 M                |


### Requisitos del Proyecto

- Seleccionar **tres modelos preentrenados** de la lista anterior o del repositorio `torchvision.models`.
- Entrenar los tres modelos con el mismo conjunto de datos procesado.
- Evaluar y comparar el desempeño de los modelos usando las métricas solicitadas.

Pueden optar por:
- Tres modelos **de diferente arquitectura** (como ResNet50, DenseNet121, EfficientNet-B0)
- Tres modelos **de la misma arquitectura con distinta profundidad** (como ResNet18, ResNet50, ResNet101)

---


## Recomendaciones Generales

A continuación se presentan algunas recomendaciones importantes para abordar este proyecto de forma eficiente:

### 1. Comenzar con un modelo liviano

Se recomienda comenzar el experimento utilizando un **modelo pequeño** para verificar que el flujo de entrenamiento funciona correctamente y que el modelo es capaz de aprender.

Algunas opciones comunes por su bajo número de parámetros son:

- `ResNet18`
- `EfficientNet-B0`
- `MobileNetV2`

Estos modelos se mencionan únicamente como ejemplo. Cualquier modelo liviano puede usarse en esta primera etapa. Una vez validado que todo funciona, pueden considerar escalar a modelos de mayor capacidad.



### 2. Comparar modelos con parámetros similares

Si se desea comparar diferentes **familias de modelos** (por ejemplo, `DenseNet` vs `ResNet` vs `EfficientNet`), es recomendable elegir modelos que tengan **cantidades similares de parámetros**, para que la comparación sea justa.

Por ejemplo:

- Comparar `ResNet50` (25.6 M) con `EfficientNet-B4` (19.3 M) es más apropiado que comparar `ResNet50` con `EfficientNet-B0` (5.3 M).



### 3. Enfocarse primero en el preprocesamiento

El dataset original es bastante pesado en tamaño y resolución. Por eso, es importante que al inicio del proyecto se priorice el **preprocesamiento de las imágenes**:

- Aplicar **padding** para hacerlas cuadradas
- Redimensionar a un tamaño fijo compatible con los modelos preentrenados (por ejemplo, 224x224)
- Guardar las imágenes procesadas para evitar repetir este paso

Este preprocesamiento no solo mejora el rendimiento del modelo, sino que también reduce el tamaño del conjunto de datos, lo cual facilita su manejo en plataformas como Google Colab.



### 4. Recursos computacionales y soporte

En caso de encontrar dificultades con el entrenamiento debido a:

- Falta de GPU
- Memoria RAM o VRAM insuficiente
- Problemas de almacenamiento o tiempo de ejecución

Se debe notificar al profesor **lo antes posible**. No se debe esperar a último momento para comunicar estos inconvenientes, ya que podrían afectar el desarrollo del proyecto.



### 5. Criterios de Evaluación

El objetivo principal de este proyecto es evaluar la capacidad para:

- **Preprocesar imágenes** con padding y resize para adaptarlas al formato requerido
- **Seleccionar e implementar un modelo preentrenado** adecuado para clasificación de imágenes
- **Entrenar y evaluar** el modelo usando métricas estándar

El desempeño del modelo no será el único criterio de evaluación. Se espera un mínimo razonable de rendimiento, con un **AUC ≥ 0.6**, lo cual ya es apenas mejor que un clasificador aleatorio.



### 6. Puntos adicionales por mejoras

Se otorgarán hasta un **10% extra sobre la nota del proyecto** a los grupos que:

- Implementen técnicas novedosas o mejoradas de preprocesamiento
- Optimicen el modelo o logren una mejora sustancial en rendimiento
- Propongan soluciones bien justificadas fuera de los requerimientos mínimos



### 7. Valor del proyecto

Este proyecto representa el **40% de la nota final** del curso. Cumplir con los requisitos básicos descritos aquí será suficiente para obtener una buena calificación.



---

##  Evaluación del Modelo: Métricas de Desempeño

Para evaluar la calidad de los modelos de clasificación entrenados con el dataset **CODEBRIM**, se utilizarán las siguientes métricas:

### 1. Accuracy (Precisión Global)
- **Definición**: Proporción de predicciones correctas sobre el total de muestras.
- **Modelo matemático**:  
  $$
  \text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}
  $$




### 2. Precision (Precisión por clase)
- **Definición**: Proporción de verdaderos positivos entre todas las predicciones positivas para una clase.
- **Modelo matemático**:  
  $$
  \text{Precision} = \frac{TP}{TP + FP}
  $$




### 3. Recall (Sensibilidad)
- **Definición**: Proporción de verdaderos positivos detectados correctamente entre todos los positivos reales.
- **Modelo matemático**:  
  $$
  \text{Recall} = \frac{TP}{TP + FN}
  $$




### 4. F1-score
- **Definición**: Media armónica entre precisión y recall. Resume ambas métricas en una sola.
- **Modelo matemático**:  
  $$
  F1 = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}
  $$




### 5. Confusion Matrix (Matriz de Confusión)
- **Descripción**: Tabla que muestra las predicciones correctas e incorrectas por clase.

|                | Predicho: Defecto (1) | Predicho: Sin Defecto (0) |
|----------------|:---------------------:|:-------------------------:|
| **Real: Defecto (1)**     |        80              |           20              |
| **Real: Sin Defecto (0)** |        10              |           90              |

- **TP (Verdaderos Positivos):** 80  
- **TN (Verdaderos Negativos):** 90  
- **FP (Falsos Positivos):** 10  
- **FN (Falsos Negativos):** 20  

Esta matriz permite visualizar cuántas imágenes con defecto y sin defecto fueron correctamente o incorrectamente clasificadas por el modelo.



### 6. AUC-ROC (Área bajo la curva ROC)
- **Definición**: Representa la relación entre la tasa de verdaderos positivos (TPR) y la tasa de falsos positivos (FPR).
- **Modelo matemático**:  
  $$
  \text{TPR} = \frac{TP}{TP + FN}, \quad
  \text{FPR} = \frac{FP}{FP + TN}
  $$



---

## Entregables

- **Código fuente documentado:** debe entregarse en formato Jupyter Notebook o como scripts `.py` bien organizados y comentados.

- **Repositorio en GitHub:**
  - La entrega debe realizarse mediante un repositorio (público o privado, según se indique), que incluya:
    - Código funcional para el entrenamiento de los tres modelos
    - Archivo `README.md` con instrucciones claras para reproducir el entrenamiento y evaluación
    - Presentación final en formato `.pptx` (puede incluirse también una versión en `.pdf`)
    - Cualquier archivo o recurso adicional necesario para ejecutar el proyecto (por ejemplo, imágenes procesadas o scripts de preprocesamiento)

- **Presentación oral (20 + 10 minutos):**
  - Cada grupo dispondrá de **20 minutos de exposición** y **10 minutos para preguntas** del profesor o compañeros.
  - La presentación debe incluir:
    - Descripción del problema, del dataset y del preprocesamiento realizado
    - Justificación de los modelos seleccionados
    - Comparación visual y numérica del rendimiento de los tres modelos (AUC, F1, accuracy, etc.)
    - Visualizaciones de resultados (por ejemplo: curvas ROC, matriz de confusión)
    - Discusión de los hallazgos: ¿qué modelo funciona mejor? ¿por qué?
    - Propuestas de mejora o análisis crítico sobre lo que podría mejorarse en futuras versiones



---


## Fecha de entrega

- **Presentación oral:** lunes **11 de agosto**, durante el horario regular de clase.
- **Entrega del código y las diapositivas (.pptx):** lunes **11 de agosto**, hasta las **23:59 (hora local)**.

La entrega debe realizarse mediante un **repositorio en GitHub** que contenga:

- Código funcional y documentado (notebook o scripts organizados)
- Archivo de presentación en formato `.pptx`
- Instrucciones breves para ejecutar el código o reproducir los resultados


---


## Rúbrica de Evaluación (100 puntos)

### 1. Presentación oral + archivo .pptx — 50 puntos

Las diapositivas presentadas y entregadas en formato `.pptx` deben reflejar claramente el trabajo realizado. Funcionan como el informe oficial del proyecto.

| Criterio                                                                 | Puntos |
|--------------------------------------------------------------------------|--------|
| Claridad en la presentación del problema y del dataset                   | 10     |
| Justificación del preprocesamiento y elección de modelos                 | 10     |
| Evaluación e interpretación de resultados (AUC, accuracy, F1, etc.)      | 15     |
| Comparación crítica entre modelos y discusión de hallazgos               | 10     |
| Calidad visual, estructura y coherencia del archivo `.pptx`              | 5      |

---

### 2. Código — 50 puntos

Se debe entregar el código en un notebook o script bien organizado, aunque el foco de evaluación estará más en la trazabilidad y documentación que en la complejidad técnica.

| Criterio                                                                 | Puntos |
|--------------------------------------------------------------------------|--------|
| Código funcional para entrenamiento de los tres modelos                  | 15     |
| Aplicación correcta del preprocesamiento requerido (padding + resize)   | 10     |
| Evaluación del modelo con métricas adecuadas                             | 10     |
| Estructura clara del código: secciones organizadas, comentarios, títulos | 10     |
| Limpieza del entorno, sin código redundante o sin uso                   | 5      |

---

**Total: 100 puntos**

> Se otorgará hasta un **10% adicional** sobre la nota del proyecto a quienes implementen técnicas avanzadas, mejoras justificadas o análisis innovadores.  
> Este proyecto equivale al **40% de la nota final del curso**.

