# 🩺 Clasificación de Melanomas a partir de Imágenes

## 🌑 Introducción
El **melanoma** es un tipo de cáncer de piel que se origina en los **melanocitos**, las células encargadas de producir la melanina, el pigmento que da color a la piel, ojos y cabello.  
Aunque representa un porcentaje pequeño de los cánceres de piel, es el **más agresivo** debido a su gran capacidad para invadir otros tejidos y producir metástasis.  
La detección temprana es fundamental, ya que aumenta considerablemente las posibilidades de un tratamiento exitoso y de supervivencia del paciente.  

---

## 🔎 Metodología clínica: Regla ABCD
En dermatología se utiliza la **regla ABCD** como guía visual para identificar posibles melanomas:  

- **A – Asimetría**: los melanomas suelen tener formas irregulares; un lunar benigno suele ser simétrico.  
- **B – Bordes**: los melanomas presentan bordes difusos, dentados o irregulares, frente a los bordes definidos de los lunares normales.  
- **C – Color**: los melanomas pueden mostrar múltiples tonalidades (negro, marrón, rojo, azul, blanco), mientras que los lunares benignos suelen ser uniformes.  
- **D – Diámetro**: lesiones con un diámetro superior a 6 mm se consideran sospechosas.  

A esta regla a veces se añade la **E – Evolución**, que hace referencia a cambios en el tamaño, forma, color o la aparición de síntomas (picor, sangrado).  

---

## 🎯 Objetivo del trabajo
El objetivo de este proyecto es **desarrollar un modelo de aprendizaje automático capaz de clasificar imágenes de lesiones cutáneas** para distinguir entre melanomas y lesiones benignas.  
Para ello:  
- Se trabajará con un conjunto de imágenes médicas.  
- Se aplicará un flujo de trabajo basado en la preparación y preprocesamiento de datos, entrenamiento de modelos de deep learning y análisis de resultados.  
- Se evaluará el desempeño de los modelos con métricas adecuadas, y se comparará con la metodología clínica tradicional basada en la regla ABCD.  

Este proyecto busca **apoyar el diagnóstico médico mediante técnicas computacionales**, aportando una herramienta complementaria a la práctica clínica.


# IMPORTACIONES Y RUTAS NECESARIAS

In [None]:
# IMPORTACIONES
from pathlib import Path

# RUTAS
BASE_DIR = Path(".").resolve()
DATA_DIR = BASE_DIR / "data" / "raw"
SPLITS = ["train", "val", "test"]
ALLOWED_EXTS = {".jpg", ".jpeg", ".png", ".bmp", ".tif", ".tiff"}

## 📌 ¿Por qué separar en *train*, *validation* y *test*?

En proyectos de *Machine Learning* es fundamental dividir los datos en diferentes conjuntos:

- **Train (entrenamiento)**  
  Se utiliza para que el modelo aprenda los patrones de las imágenes.  

- **Validation (validación)**  
  Sirve para ajustar hiperparámetros (número de capas, tasa de aprendizaje, etc.) y comparar modelos sin mirar el *test*.  
  👉 Es una especie de "examen parcial": nos avisa si el modelo se está sobreajustando (*overfitting*) o si generaliza bien.  

- **Test (prueba final)**  
  Es el conjunto que se mantiene completamente aislado durante todo el desarrollo.  
  👉 Representa el "examen final" y nos da una estimación real del rendimiento del modelo en datos nunca vistos.  

✅ En este caso (clasificación de melanomas), separar en *train* y *val* es crucial porque:  
- Ayuda a evitar *overfitting*, que sería muy peligroso si el modelo solo memoriza imágenes.  
- Permite evaluar de manera más realista la capacidad de generalización antes de aplicarlo en un entorno clínico.  


In [None]:

# ### 📂 Esquema de datos y conteo de imágenes


# Función para contar imágenes por carpeta
def count_images_in_dir(dir_path: Path):
    if not dir_path.exists():
        return {}
    counts = {}
    for cls_dir in dir_path.iterdir():
        if cls_dir.is_dir():
            n_imgs = sum(1 for f in cls_dir.rglob("*") if f.suffix.lower() in ALLOWED_EXTS)
            counts[cls_dir.name] = n_imgs
    return counts

# Recolectar conteos
all_counts = {}
for split in SPLITS:
    split_dir = DATA_DIR / split
    all_counts[split] = count_images_in_dir(split_dir)

# Mostrar tabla
import pandas as pd

df = pd.DataFrame(all_counts).fillna(0).astype(int).T
df["Total"] = df.sum(axis=1)
display(df)

print("\n✅ Conteo de imágenes completado.")
