In [3]:
import shutil
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os
from sklearn.model_selection import train_test_split



In [4]:
df = pd.read_csv("../data/raw/HAM10000_metadata.csv")

df.dx.value_counts()

dx
nv       6705
mel      1113
bkl      1099
bcc       514
akiec     327
vasc      142
df        115
Name: count, dtype: int64

Divisi칩n de imagenes en malignas y benignas

In [5]:
df = pd.read_csv("../data/raw/HAM10000_metadata.csv")
# Definir clases benignas
clases_benignas = {'nv', 'bkl', 'df', 'vasc'}

# A침adir columna binaria
df['etiqueta'] = df['dx'].apply(lambda x: 'benignas' if x in clases_benignas else 'malignas')

# Dividir en train y test (estratificado por etiqueta)
df_train, df_test = train_test_split(df, test_size=0.1, stratify=df['etiqueta'], random_state=42)

# Rutas
carpeta_origen = '../data/raw/imagenes'
carpeta_destino = '../data/processed'

for conjunto, df_conjunto in [('train', df_train), ('test', df_test)]:
    for clase in ['benignas', 'malignas']:
        carpeta_clase = os.path.join(carpeta_destino, conjunto, clase)
        os.makedirs(carpeta_clase, exist_ok=True)

    for _, fila in df_conjunto.iterrows():
        nombre_imagen = fila['image_id'] + ".jpg"
        etiqueta = fila['etiqueta']
        origen = os.path.join(carpeta_origen, nombre_imagen)
        destino = os.path.join(carpeta_destino, conjunto, etiqueta, nombre_imagen)

        if os.path.exists(origen):
            shutil.copy2(origen, destino)
        else:
            print(f'Imagen no encontrada: {origen}')


Colocar malignas en una sola carpeta

In [8]:
def preparar_dataset_malignas(metadata_path="../data/raw/HAM10000_metadata.csv",
                              carpeta_origen="../data/raw/imagenes",
                              carpeta_destino="../data/malignas_classes",
                              test_size=0.1,
                              random_state=42):
    # Leer metadata
    df = pd.read_csv(metadata_path)

    # Definir clases benignas y malignas
    clases_benignas = {'nv', 'bkl', 'df', 'vasc'}
    clases_malignas = set(df['dx'].unique()) - clases_benignas

    # A침adir columna binaria
    df['etiqueta'] = df['dx'].apply(lambda x: 'benignas' if x in clases_benignas else 'malignas')

    # Dividir en train y test estratificado por etiqueta
    df_train, df_test = train_test_split(df, test_size=test_size,
                                         stratify=df['etiqueta'], random_state=random_state)

    # Crear carpetas destino
    for conjunto, df_conjunto in [('train', df_train), ('test', df_test)]:
        # Carpetas para benignas (una sola)
        # carpeta_benigna = os.path.join(carpeta_destino, conjunto, "benignas")
        # os.makedirs(carpeta_benigna, exist_ok=True)

        # Carpetas para cada clase maligna
        for clase in clases_malignas:
            carpeta_clase = os.path.join(carpeta_destino, conjunto, clase)
            os.makedirs(carpeta_clase, exist_ok=True)

        # Copiar im치genes
        for _, fila in df_conjunto.iterrows():
            nombre_imagen = fila['image_id'] + ".jpg"
            origen = os.path.join(carpeta_origen, nombre_imagen)

            if fila['etiqueta'] != 'benignas':
                destino = os.path.join(carpeta_destino, conjunto, fila['dx'], nombre_imagen)

            if os.path.exists(origen):
                shutil.copy2(origen, destino)
            else:
                print(f"Imagen no encontrada: {origen}")
preparar_dataset_malignas()

### Contar archivos por clase

In [1]:
import os

def contar_archivos_por_clase(directorio_base):
    clases_totales = {}  # acumulador por clase

    for conjunto in ["train", "test"]:
        ruta_conjunto = os.path.join(directorio_base, conjunto)
        if not os.path.exists(ruta_conjunto):
            print(f"No existe la carpeta: {ruta_conjunto}")
            continue

        print(f"\nConjunto: {conjunto}")
        for carpeta in os.listdir(ruta_conjunto):
            ruta_carpeta = os.path.join(ruta_conjunto, carpeta)
            if os.path.isdir(ruta_carpeta):
                archivos = [f for f in os.listdir(ruta_carpeta) 
                            if os.path.isfile(os.path.join(ruta_carpeta, f))]
                cantidad = len(archivos)
                print(f"  Carpeta: {carpeta} -> {cantidad} archivos")

                # acumular por clase
                if carpeta not in clases_totales:
                    clases_totales[carpeta] = 0
                clases_totales[carpeta] += cantidad

    # Mostrar suma total por clase
    print("\nSuma total por clase (train + test):")
    for clase, total in clases_totales.items():
        print(f"  {clase} -> {total} archivos")

# Ejemplo de uso
directorio_base = "../data/processed"  # Ruta base que contiene train y test
contar_archivos_por_clase(directorio_base)



Conjunto: train
  Carpeta: benignas -> 7254 archivos
  Carpeta: malignas -> 1759 archivos

Conjunto: test
  Carpeta: benignas -> 807 archivos
  Carpeta: malignas -> 195 archivos

Suma total por clase (train + test):
  benignas -> 8061 archivos
  malignas -> 1954 archivos
