# ü©∫ Clasificaci√≥n de Melanomas a partir de Im√°genes

## üåë Introducci√≥n
El **melanoma** es un tipo de c√°ncer de piel que se origina en los **melanocitos**, las c√©lulas encargadas de producir la melanina, el pigmento que da color a la piel, ojos y cabello.  
Aunque representa un porcentaje peque√±o de los c√°nceres de piel, es el **m√°s agresivo** debido a su gran capacidad para invadir otros tejidos y producir met√°stasis.  
La detecci√≥n temprana es fundamental, ya que aumenta considerablemente las posibilidades de un tratamiento exitoso y de supervivencia del paciente.  

---

## üîé Metodolog√≠a cl√≠nica: Regla ABCD
En dermatolog√≠a se utiliza la **regla ABCD** como gu√≠a visual para identificar posibles melanomas:  

- **A ‚Äì Asimetr√≠a**: los melanomas suelen tener formas irregulares; un lunar benigno suele ser sim√©trico.  
- **B ‚Äì Bordes**: los melanomas presentan bordes difusos, dentados o irregulares, frente a los bordes definidos de los lunares normales.  
- **C ‚Äì Color**: los melanomas pueden mostrar m√∫ltiples tonalidades (negro, marr√≥n, rojo, azul, blanco), mientras que los lunares benignos suelen ser uniformes.  
- **D ‚Äì Di√°metro**: lesiones con un di√°metro superior a 6 mm se consideran sospechosas.  

A esta regla a veces se a√±ade la **E ‚Äì Evoluci√≥n**, que hace referencia a cambios en el tama√±o, forma, color o la aparici√≥n de s√≠ntomas (picor, sangrado).  

---

## üéØ Objetivo del trabajo
El objetivo de este proyecto es **desarrollar un modelo de aprendizaje autom√°tico capaz de clasificar im√°genes de lesiones cut√°neas** para distinguir entre melanomas y lesiones benignas.  
Para ello:  
- Se trabajar√° con un conjunto de im√°genes m√©dicas.  
- Se aplicar√° un flujo de trabajo basado en la preparaci√≥n y preprocesamiento de datos, entrenamiento de modelos de deep learning y an√°lisis de resultados.  
- Se evaluar√° el desempe√±o de los modelos con m√©tricas adecuadas, y se comparar√° con la metodolog√≠a cl√≠nica tradicional basada en la regla ABCD.  

Este proyecto busca **apoyar el diagn√≥stico m√©dico mediante t√©cnicas computacionales**, aportando una herramienta complementaria a la pr√°ctica cl√≠nica.


# IMPORTACIONES Y RUTAS NECESARIAS

In [None]:
# IMPORTACIONES
from pathlib import Path

# RUTAS
BASE_DIR = Path(".").resolve()
DATA_DIR = BASE_DIR / "data" / "raw"
SPLITS = ["train", "val", "test"]
ALLOWED_EXTS = {".jpg", ".jpeg", ".png", ".bmp", ".tif", ".tiff"}

## üìå ¬øPor qu√© separar en *train*, *validation* y *test*?

En proyectos de *Machine Learning* es fundamental dividir los datos en diferentes conjuntos:

- **Train (entrenamiento)**  
  Se utiliza para que el modelo aprenda los patrones de las im√°genes.  

- **Validation (validaci√≥n)**  
  Sirve para ajustar hiperpar√°metros (n√∫mero de capas, tasa de aprendizaje, etc.) y comparar modelos sin mirar el *test*.  
  üëâ Es una especie de "examen parcial": nos avisa si el modelo se est√° sobreajustando (*overfitting*) o si generaliza bien.  

- **Test (prueba final)**  
  Es el conjunto que se mantiene completamente aislado durante todo el desarrollo.  
  üëâ Representa el "examen final" y nos da una estimaci√≥n real del rendimiento del modelo en datos nunca vistos.  

‚úÖ En este caso (clasificaci√≥n de melanomas), separar en *train* y *val* es crucial porque:  
- Ayuda a evitar *overfitting*, que ser√≠a muy peligroso si el modelo solo memoriza im√°genes.  
- Permite evaluar de manera m√°s realista la capacidad de generalizaci√≥n antes de aplicarlo en un entorno cl√≠nico.  


In [None]:

# ### üìÇ Esquema de datos y conteo de im√°genes


# Funci√≥n para contar im√°genes por carpeta
def count_images_in_dir(dir_path: Path):
    if not dir_path.exists():
        return {}
    counts = {}
    for cls_dir in dir_path.iterdir():
        if cls_dir.is_dir():
            n_imgs = sum(1 for f in cls_dir.rglob("*") if f.suffix.lower() in ALLOWED_EXTS)
            counts[cls_dir.name] = n_imgs
    return counts

# Recolectar conteos
all_counts = {}
for split in SPLITS:
    split_dir = DATA_DIR / split
    all_counts[split] = count_images_in_dir(split_dir)

# Mostrar tabla
import pandas as pd

df = pd.DataFrame(all_counts).fillna(0).astype(int).T
df["Total"] = df.sum(axis=1)
display(df)

print("\n‚úÖ Conteo de im√°genes completado.")
