In [None]:
from PIL import Image, ImageOps
import os
import pandas as pd
import shutil

Con este script, todas las carpetas dentro del directorio raíz serán procesadas. Se redimensionarán las imágenes en cada subdirectorio, y las que sean más pequeñas que 256 x 256 píxeles se centrarán en un fondo blanco. Al final de cada carpeta procesada, se mostrará cuántas imágenes fueron redimensionadas con éxito.

In [8]:

def redimensionar_imagenes(directorio, tamano=(300, 300), tamano_lote=200):
    # Verifica si el directorio existe
    if not os.path.exists(directorio):
        print(f"El directorio {directorio} no existe.")
        return

    # Lista todos los archivos JPG en el directorio
    archivos = [archivo for archivo in os.listdir(directorio) if archivo.lower().endswith('.jpg')]

    # Divide la lista de archivos en lotes
    lotes = [archivos[i:i + tamano_lote] for i in range(0, len(archivos), tamano_lote)]

    for idx, lote in enumerate(lotes):
        print(f"Procesando lote {idx + 1} de {len(lotes)}...")

        contador_exito = 0

        for archivo in lote:
            ruta_completa = os.path.join(directorio, archivo)

            try:
                with Image.open(ruta_completa) as img:
                    # Redimensiona la imagen manteniendo la relación de aspecto
                    img.thumbnail(tamano, Image.Resampling.LANCZOS)  # Cambiado ANTIALIAS a Resampling.LANCZOS
                    
                    # Crea un lienzo blanco de 300x300
                    fondo = Image.new("RGB", tamano, (255, 255, 255))
                    
                    # Calcula la posición para centrar la imagen en el lienzo
                    posicion = (
                        (tamano[0] - img.size[0]) // 2,
                        (tamano[1] - img.size[1]) // 2
                    )
                    
                    # Pega la imagen redimensionada sobre el lienzo blanco
                    fondo.paste(img, posicion)
                    
                    # Guarda la imagen con el mismo nombre y en la misma carpeta
                    fondo.save(ruta_completa)
                    contador_exito += 1  # Incrementa el contador si se redimensiona correctamente
            except Exception as e:
                print(f"No se pudo redimensionar {archivo}: {e}")

        print(f"Lote {idx + 1} procesado. Se redimensionaron {contador_exito} imagen(es) con éxito.")

if __name__ == "__main__":
    # Especifica aquí el directorio donde están las imágenes
    directorio = "/Users/luiseduardogarciablanco/Desktop/nueva data cancer/2017/ISIC-2017_Training_Data"  # Reemplaza con la ruta real
    redimensionar_imagenes(directorio)

Procesando lote 1 de 10...
Lote 1 procesado. Se redimensionaron 200 imagen(es) con éxito.
Procesando lote 2 de 10...
Lote 2 procesado. Se redimensionaron 200 imagen(es) con éxito.
Procesando lote 3 de 10...
Lote 3 procesado. Se redimensionaron 200 imagen(es) con éxito.
Procesando lote 4 de 10...
Lote 4 procesado. Se redimensionaron 200 imagen(es) con éxito.
Procesando lote 5 de 10...
Lote 5 procesado. Se redimensionaron 200 imagen(es) con éxito.
Procesando lote 6 de 10...
Lote 6 procesado. Se redimensionaron 200 imagen(es) con éxito.
Procesando lote 7 de 10...
Lote 7 procesado. Se redimensionaron 200 imagen(es) con éxito.
Procesando lote 8 de 10...
Lote 8 procesado. Se redimensionaron 200 imagen(es) con éxito.
Procesando lote 9 de 10...
Lote 9 procesado. Se redimensionaron 200 imagen(es) con éxito.
Procesando lote 10 de 10...
Lote 10 procesado. Se redimensionaron 200 imagen(es) con éxito.


In [35]:

df1 = pd.read_csv ('/Users/luiseduardogarciablanco/Desktop/nueva data cancer/2017/ISIC-2017_Training_Part3_GroundTruth.csv')
df1

Unnamed: 0,image_id,melanoma,seborrheic_keratosis
0,ISIC_0000000,0.0,0.0
1,ISIC_0000001,0.0,0.0
2,ISIC_0000002,1.0,0.0
3,ISIC_0000003,0.0,0.0
4,ISIC_0000004,1.0,0.0
...,...,...,...
1995,ISIC_0015220,0.0,1.0
1996,ISIC_0015233,0.0,1.0
1997,ISIC_0015260,0.0,1.0
1998,ISIC_0015284,1.0,0.0


In [36]:
def convertir_float_a_entero(df, columna):
    # Verifica que la columna exista en el DataFrame
    if columna in df.columns:
        # Convierte los valores de float a enteros
        df[columna] = df[columna].astype(int)
        print(f"La columna '{columna}' ha sido convertida a enteros (0 y 1).")
    else:
        print(f"La columna '{columna}' no existe en el DataFrame.")
    return df

# Convertir la columna 'target' de float a entero
df1 = convertir_float_a_entero(df1, 'melanoma')

# Verificar los cambios
print(df1.head())

La columna 'melanoma' ha sido convertida a enteros (0 y 1).
       image_id  melanoma  seborrheic_keratosis
0  ISIC_0000000         0                   0.0
1  ISIC_0000001         0                   0.0
2  ISIC_0000002         1                   0.0
3  ISIC_0000003         0                   0.0
4  ISIC_0000004         1                   0.0


In [5]:

# Supongamos que df1 ya está cargado y contiene la columna que deseas convertir
def convertir_benign_malignant(df, columna):
    # Verifica que la columna exista en el DataFrame
    if columna in df.columns:
        # Reemplaza 'benign' por 0 y 'malignant' por 1
        df[columna] = df[columna].replace({'benign': 0, 'malignant': 1})
        print(f"Los valores en la columna '{columna}' han sido convertidos a 0 y 1.")
    else:
        print(f"La columna '{columna}' no existe en el DataFrame.")
    return df

# Convertir la columna que contiene 'benign' y 'malignant'
df1 = convertir_benign_malignant(df1, 'target')

# Verificar los cambios
print(df1.head())

Los valores en la columna 'target' han sido convertidos a 0 y 1.
   ISIC_0000000  target
0  ISIC_0000001       0
1  ISIC_0000002       1
2  ISIC_0000004       1
3  ISIC_0000006       0
4  ISIC_0000007       0


In [2]:

df2 = pd.read_csv ('/Users/luiseduardogarciablanco/Desktop/nueva data cancer/2020/ISIC_2020_Training_GroundTruth (1).csv')
df2

Unnamed: 0,image_name,patient_id,sex,age_approx,anatom_site_general_challenge,diagnosis,benign_malignant,target
0,ISIC_2637011,IP_7279968,male,45.0,head/neck,unknown,benign,0
1,ISIC_0015719,IP_3075186,female,45.0,upper extremity,unknown,benign,0
2,ISIC_0052212,IP_2842074,female,50.0,lower extremity,nevus,benign,0
3,ISIC_0068279,IP_6890425,female,45.0,head/neck,unknown,benign,0
4,ISIC_0074268,IP_8723313,female,55.0,upper extremity,unknown,benign,0
...,...,...,...,...,...,...,...,...
33121,ISIC_9999134,IP_6526534,male,50.0,torso,unknown,benign,0
33122,ISIC_9999320,IP_3650745,male,65.0,torso,unknown,benign,0
33123,ISIC_9999515,IP_2026598,male,20.0,lower extremity,unknown,benign,0
33124,ISIC_9999666,IP_7702038,male,50.0,lower extremity,unknown,benign,0


In [37]:

df1 = df1.rename(columns={'melanoma': 'target'})
df1

Unnamed: 0,image_id,target,seborrheic_keratosis
0,ISIC_0000000,0,0.0
1,ISIC_0000001,0,0.0
2,ISIC_0000002,1,0.0
3,ISIC_0000003,0,0.0
4,ISIC_0000004,1,0.0
...,...,...,...
1995,ISIC_0015220,0,1.0
1996,ISIC_0015233,0,1.0
1997,ISIC_0015260,0,1.0
1998,ISIC_0015284,1,0.0


In [38]:
df1= df1[['image_id', 'target']]
df1

Unnamed: 0,image_id,target
0,ISIC_0000000,0
1,ISIC_0000001,0
2,ISIC_0000002,1
3,ISIC_0000003,0
4,ISIC_0000004,1
...,...,...
1995,ISIC_0015220,0
1996,ISIC_0015233,0
1997,ISIC_0015260,0
1998,ISIC_0015284,1


In [30]:

def transferir_columnas(df_origen, df_destino, columnas):
    # Verifica que las columnas existan en el DataFrame de origen
    if all(columna in df_origen.columns for columna in columnas):
        # Añade cada columna al DataFrame de destino
        for columna in columnas:
            df_destino[columna] = df_origen[columna]
        print("Columnas transferidas exitosamente.")
    else:
        print("Una o más columnas no existen en el DataFrame de origen.")
    return df_destino



# Llamar a la función para transferir las columnas 'image_id' y 'target'
df1 = transferir_columnas(df2, df1, ['image_id', 'target'])

# Verificar los cambios
df1.head()

Columnas transferidas exitosamente.


Unnamed: 0,age_approx,anatom_site_general,sex,image_id,target
0,55.0,anterior torso,female,ISIC_0000000,0.0
1,30.0,anterior torso,female,ISIC_0000001,0.0
2,60.0,upper extremity,female,ISIC_0000002,1.0
3,30.0,upper extremity,male,ISIC_0000003,0.0
4,80.0,posterior torso,male,ISIC_0000004,1.0


In [39]:
# Guardar el DataFrame como un archivo CSV
df1.to_csv('/Users/luiseduardogarciablanco/Desktop/nueva data cancer/2017/dataset_2017.csv', index=False)

In [22]:
# Seleccionar solo las columnas 'image_id' y 'target' del DataFrame df1
df2 = df2[['image_id', 'target']]
df2

Unnamed: 0,image_id,target
0,ISIC_0000000,0.0
1,ISIC_0000001,0.0
2,ISIC_0000002,1.0
3,ISIC_0000003,0.0
4,ISIC_0000004,1.0
...,...,...
25326,ISIC_0073247,0.0
25327,ISIC_0073248,0.0
25328,ISIC_0073249,1.0
25329,ISIC_0073251,0.0


en una carpeta de archivos jpg hay archivos que se llaman por ejemplo ISIC_0000018_downsampled.jpg, hay que quitar del nombre el "_downsampled" manteniendo la extencion y el resto del nombre, dando como resultado "ISIC_0000018.jpg
Para renombrar los archivos en una carpeta eliminando la parte _downsampled del nombre, pero manteniendo la extensión .jpg, utilizaremos un script en Python que recorra todos los archivos en la carpeta, modifique los nombres de los archivos y los renombre

In [24]:
#renombramos archivos 

def renombrar_archivos(directorio):
    # Verifica si el directorio existe
    if not os.path.exists(directorio):
        print(f"El directorio {directorio} no existe.")
        return

    # Itera sobre todos los archivos en el directorio
    for archivo in os.listdir(directorio):
        if archivo.lower().endswith('_downsampled.jpg'):
            # Genera el nuevo nombre del archivo
            nuevo_nombre = archivo.replace('_downsampled', '')
            ruta_original = os.path.join(directorio, archivo)
            ruta_nueva = os.path.join(directorio, nuevo_nombre)
            
            # Renombra el archivo
            os.rename(ruta_original, ruta_nueva)
            print(f"Renombrado: {archivo} -> {nuevo_nombre}")

if __name__ == "__main__":
    # Especifica el directorio que contiene los archivos jpg
    directorio = '/Users/luiseduardogarciablanco/Desktop/nueva data cancer/2019/ISIC_2019_Training_Input'  # Reemplaza con la ruta real
    renombrar_archivos(directorio)

Renombrado: ISIC_0016009_downsampled.jpg -> ISIC_0016009.jpg
Renombrado: ISIC_0004115_downsampled.jpg -> ISIC_0004115.jpg
Renombrado: ISIC_0012126_downsampled.jpg -> ISIC_0012126.jpg
Renombrado: ISIC_0008600_downsampled.jpg -> ISIC_0008600.jpg
Renombrado: ISIC_0013024_downsampled.jpg -> ISIC_0013024.jpg
Renombrado: ISIC_0001105_downsampled.jpg -> ISIC_0001105.jpg
Renombrado: ISIC_0014004_downsampled.jpg -> ISIC_0014004.jpg
Renombrado: ISIC_0016034_downsampled.jpg -> ISIC_0016034.jpg
Renombrado: ISIC_0013082_downsampled.jpg -> ISIC_0013082.jpg
Renombrado: ISIC_0012260_downsampled.jpg -> ISIC_0012260.jpg
Renombrado: ISIC_0000148_downsampled.jpg -> ISIC_0000148.jpg
Renombrado: ISIC_0013987_downsampled.jpg -> ISIC_0013987.jpg
Renombrado: ISIC_0000419_downsampled.jpg -> ISIC_0000419.jpg
Renombrado: ISIC_0000999_downsampled.jpg -> ISIC_0000999.jpg
Renombrado: ISIC_0014901_downsampled.jpg -> ISIC_0014901.jpg
Renombrado: ISIC_0015971_downsampled.jpg -> ISIC_0015971.jpg
Renombrado: ISIC_0012823

In [25]:
#haremos lo mismo para igualar los nombres en el dataframe

def renombrar_image_id(df):
    # Verifica que la columna 'image_id' exista
    if 'image_id' in df.columns:
        # Elimina '_downsampled' de los valores en la columna 'image_id'
        df['image_id'] = df['image_id'].str.replace('_downsampled', '', regex=False)
    else:
        print("La columna 'image_id' no existe en el DataFrame.")



# Llamar a la función para renombrar los valores de 'image_id'
renombrar_image_id(df2)

# Verificar los cambios
print(df2.head())

       image_id  target
0  ISIC_0000000     0.0
1  ISIC_0000001     0.0
2  ISIC_0000002     1.0
3  ISIC_0000003     0.0
4  ISIC_0000004     1.0


Como ya tenemos Datasets y carpetas de imagenes de varios años y nuestro proposito es hacer un solo dataset unificado y una sola carpeta de imagenes, prepararemos diversos script para añadir un prefijo determinado al año del dataset, por ejemplo el prefijo "16_" para los archivos de imagenes y su correspondiente nombre en el dataset del año 2016, con la finalidad de no tener datos duplicados ni sobreescritos

tambien lo correspondiente con el resto de los años

In [11]:
# con este modulo cambiaremos el nombre de los archivos fotograficos

def añadir_prefijo_a_imagenes(directorio, prefijo):
    # Verifica que el directorio existe
    if os.path.exists(directorio):
        # Itera sobre cada archivo en el directorio
        for filename in os.listdir(directorio):
            # Verifica si el archivo es una imagen .jpg
            if filename.endswith(".jpg"):
                # Construye la ruta completa del archivo actual
                old_path = os.path.join(directorio, filename)
                
                # Añade el prefijo al nombre del archivo
                new_filename = f"{prefijo}{filename}"
                
                # Construye la nueva ruta con el nuevo nombre
                new_path = os.path.join(directorio, new_filename)
                
                # Renombra el archivo
                os.rename(old_path, new_path)
                
                print(f"Renombrado: {filename} -> {new_filename}")
        print("Renombrado de archivos completado.")
    else:
        print(f"El directorio '{directorio}' no existe.")

# Especifica el directorio donde están las imágenes y el prefijo que deseas añadir
directorio_imagenes = '/Users/luiseduardogarciablanco/Desktop/nueva data cancer/2020/train'
prefijo = '20_'

# Llamar a la función para renombrar los archivos
añadir_prefijo_a_imagenes(directorio_imagenes, prefijo)

Renombrado: ISIC_4927075.jpg -> 20_ISIC_4927075.jpg
Renombrado: ISIC_7764987.jpg -> 20_ISIC_7764987.jpg
Renombrado: ISIC_4693693.jpg -> 20_ISIC_4693693.jpg
Renombrado: ISIC_3152541.jpg -> 20_ISIC_3152541.jpg
Renombrado: ISIC_5309101.jpg -> 20_ISIC_5309101.jpg
Renombrado: ISIC_4307205.jpg -> 20_ISIC_4307205.jpg
Renombrado: ISIC_7927525.jpg -> 20_ISIC_7927525.jpg
Renombrado: ISIC_1868816.jpg -> 20_ISIC_1868816.jpg
Renombrado: ISIC_6106916.jpg -> 20_ISIC_6106916.jpg
Renombrado: ISIC_4488579.jpg -> 20_ISIC_4488579.jpg
Renombrado: ISIC_7305142.jpg -> 20_ISIC_7305142.jpg
Renombrado: ISIC_7397420.jpg -> 20_ISIC_7397420.jpg
Renombrado: ISIC_3298596.jpg -> 20_ISIC_3298596.jpg
Renombrado: ISIC_0168399.jpg -> 20_ISIC_0168399.jpg
Renombrado: ISIC_8009623.jpg -> 20_ISIC_8009623.jpg
Renombrado: ISIC_1787992.jpg -> 20_ISIC_1787992.jpg
Renombrado: ISIC_0337631.jpg -> 20_ISIC_0337631.jpg
Renombrado: ISIC_5282898.jpg -> 20_ISIC_5282898.jpg
Renombrado: ISIC_5491301.jpg -> 20_ISIC_5491301.jpg
Renombrado: 

In [28]:
df1 = pd.read_csv ('/Users/luiseduardogarciablanco/Desktop/nueva data cancer/2017/dataset_2017.csv')
df1

Unnamed: 0,image_id,sex,age_approx,anatom_site_general,target
0,ISIC_2637011,male,45.0,head/neck,0
1,ISIC_0015719,female,45.0,upper extremity,0
2,ISIC_0052212,female,50.0,lower extremity,0
3,ISIC_0068279,female,45.0,head/neck,0
4,ISIC_0074268,female,55.0,upper extremity,0
...,...,...,...,...,...
33121,ISIC_9999134,male,50.0,torso,0
33122,ISIC_9999320,male,65.0,torso,0
33123,ISIC_9999515,male,20.0,lower extremity,0
33124,ISIC_9999666,male,50.0,lower extremity,0


In [40]:
#con este script actualizaremos los nombres de los archivos en los dataframe asi se mantiene la concordancia con los archivos de imagen

# Supongamos que df1 ya está cargado y contiene la columna 'image_id'
def añadir_prefijo(df, columna, prefijo):
    # Verifica que la columna exista en el DataFrame
    if columna in df.columns:
        # Añade el prefijo a cada valor de la columna
        df[columna] = df[columna].apply(lambda x: f"{prefijo}{x}")
        print(f"Se ha añadido el prefijo '{prefijo}' a la columna '{columna}'.")
    else:
        print(f"La columna '{columna}' no existe en el DataFrame.")
    return df

# Añadir el prefijo '16_' a la columna 'image_id'
df1 = añadir_prefijo(df1, 'image_id', '17_')

# Verificar los cambios
print(df1.head())

Se ha añadido el prefijo '17_' a la columna 'image_id'.
          image_id  target
0  17_ISIC_0000000       0
1  17_ISIC_0000001       0
2  17_ISIC_0000002       1
3  17_ISIC_0000003       0
4  17_ISIC_0000004       1


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df[columna] = df[columna].apply(lambda x: f"{prefijo}{x}")


In [41]:
# Guardar el DataFrame como un archivo CSV
df1.to_csv('/Users/luiseduardogarciablanco/Desktop/nueva data cancer/prueba_data_16_20/dataset_2017.csv', index=False)

En el siguiente scrpit unificamos las imagenes renombradas en una sola carpeta  que seran los datos para entrenar un modelo solo con los datos desde 2016 a 2020, se hace por lotes para ganar velocidad en los procesos y no colmar la memoria del sistema

In [13]:
#copiar imagenes de una carpeta para unificar las fotos en una carpeta

def copiar_imagenes_por_lotes(origen, destino, tamano_lote=100):
    # Verifica que los directorios de origen y destino existen
    if not os.path.exists(origen):
        print(f"El directorio de origen '{origen}' no existe.")
        return
    
    if not os.path.exists(destino):
        os.makedirs(destino)  # Crea el directorio de destino si no existe

    # Lista todos los archivos en el directorio de origen
    archivos = [f for f in os.listdir(origen) if f.endswith(".jpg")]
    
    # Determina el número total de lotes
    total_archivos = len(archivos)
    total_lotes = (total_archivos + tamano_lote - 1) // tamano_lote  # Redondea hacia arriba

    # Procesa y copia los archivos por lotes
    for i in range(total_lotes):
        inicio = i * tamano_lote
        fin = min(inicio + tamano_lote, total_archivos)
        lote = archivos[inicio:fin]
        
        print(f"Copiando lote {i + 1} de {total_lotes}...")

        for archivo in lote:
            origen_path = os.path.join(origen, archivo)
            destino_path = os.path.join(destino, archivo)
            shutil.copy2(origen_path, destino_path)
        
        print(f"Lote {i + 1} copiado exitosamente.")

    print("Copia de archivos completada.")

# Especifica los directorios de origen y destino, y el tamaño del lote
directorio_origen = '/Users/luiseduardogarciablanco/Desktop/nueva data cancer/2020/train'
directorio_destino = '/Users/luiseduardogarciablanco/Desktop/nueva data cancer/prueba_data_16_20/image'
tamano_lote = 200  # Número de imágenes por lote

# Llamar a la función para copiar las imágenes
copiar_imagenes_por_lotes(directorio_origen, directorio_destino, tamano_lote)

Copiando lote 1 de 166...
Lote 1 copiado exitosamente.
Copiando lote 2 de 166...
Lote 2 copiado exitosamente.
Copiando lote 3 de 166...
Lote 3 copiado exitosamente.
Copiando lote 4 de 166...
Lote 4 copiado exitosamente.
Copiando lote 5 de 166...
Lote 5 copiado exitosamente.
Copiando lote 6 de 166...
Lote 6 copiado exitosamente.
Copiando lote 7 de 166...
Lote 7 copiado exitosamente.
Copiando lote 8 de 166...
Lote 8 copiado exitosamente.
Copiando lote 9 de 166...
Lote 9 copiado exitosamente.
Copiando lote 10 de 166...
Lote 10 copiado exitosamente.
Copiando lote 11 de 166...
Lote 11 copiado exitosamente.
Copiando lote 12 de 166...
Lote 12 copiado exitosamente.
Copiando lote 13 de 166...
Lote 13 copiado exitosamente.
Copiando lote 14 de 166...
Lote 14 copiado exitosamente.
Copiando lote 15 de 166...
Lote 15 copiado exitosamente.
Copiando lote 16 de 166...
Lote 16 copiado exitosamente.
Copiando lote 17 de 166...
Lote 17 copiado exitosamente.
Copiando lote 18 de 166...
Lote 18 copiado exitos

Ahora unificaremos los datasets para crear un unico dataset con los datos desde el 2016 al 2020

In [42]:
#creamos el primer dataset

# Cargar el primer dataset
dataset_inicial = pd.read_csv('/Users/luiseduardogarciablanco/Desktop/nueva data cancer/prueba_data_16_20/dataset_2020.csv')

# Guardar el dataset inicial como "dataset_16_20.csv"
ruta_salida = '/Users/luiseduardogarciablanco/Desktop/nueva data cancer/prueba_data_16_20/dataset_16_20.csv'
dataset_inicial.to_csv(ruta_salida, index=False)

print(f"El dataset inicial se ha guardado en {ruta_salida}.")


El dataset inicial se ha guardado en /Users/luiseduardogarciablanco/Desktop/nueva data cancer/prueba_data_16_20/dataset_16_20.csv.


In [46]:
#añadiremos el resto de los datasets al dataset unico

# Cargar el dataset inicial
ruta_dataset_unico = '/Users/luiseduardogarciablanco/Desktop/nueva data cancer/prueba_data_16_20/dataset_16_20.csv'
dataset_unico = pd.read_csv(ruta_dataset_unico)
print ('tamaño del dataset antes de añadir los nuevos datos',dataset_unico.shape)
# Función para añadir otro dataset al dataset único
def añadir_dataset(dataset_unico, ruta_nuevo_dataset):
    # Cargar el nuevo dataset
    nuevo_dataset = pd.read_csv(ruta_nuevo_dataset)
    
    # Unificar los datasets, llenando valores faltantes con "missing"
    dataset_unico = pd.concat([dataset_unico, nuevo_dataset], ignore_index=True, sort=False)
    
    # Rellenar los valores faltantes con "missing"
    dataset_unico.fillna("missing", inplace=True)
    
    return dataset_unico

# Añadir otros datasets al dataset único
ruta_otro_dataset = '/Users/luiseduardogarciablanco/Desktop/nueva data cancer/prueba_data_16_20/dataset_2016.csv'
dataset_unico = añadir_dataset(dataset_unico, ruta_otro_dataset)

# Guardar el dataset actualizado
dataset_unico.to_csv(ruta_dataset_unico, index=False)

print(f"El dataset único se ha actualizado y guardado en {ruta_dataset_unico}.")
print ('tamaño del dataset despues de añadir los nuevos datos',dataset_unico.shape)

tamaño del dataset antes de añadir los nuevos datos (70472, 5)
El dataset único se ha actualizado y guardado en /Users/luiseduardogarciablanco/Desktop/nueva data cancer/prueba_data_16_20/dataset_16_20.csv.
tamaño del dataset despues de añadir los nuevos datos (71371, 5)


In [None]:
dataset_unico

In [1]:
# ahora ordenaremos el dataset por la columna image_id y la convertiremos en el indice
# Cargar el dataset
ruta_dataset = '/Users/luiseduardogarciablanco/Desktop/nueva data cancer/prueba_data_16_20/dataset_16_20.csv'
dataset = pd.read_csv(ruta_dataset)

# Ordenar el dataset por la columna 'image_id'
dataset = dataset.sort_values(by='image_id')

# Establecer 'image_id' como índice
dataset.set_index('image_id', inplace=True)

# Guardar el dataset actualizado
dataset.to_csv(ruta_dataset)

print(f"El dataset ha sido ordenado por 'image_id' y guardado en {ruta_dataset}.")

ruta_dataset

El dataset ha sido ordenado por 'image_id' y guardado en /Users/luiseduardogarciablanco/Desktop/nueva data cancer/prueba_data_16_20/dataset_16_20.csv.


'/Users/luiseduardogarciablanco/Desktop/nueva data cancer/prueba_data_16_20/dataset_16_20.csv'

In [None]:
ruta_dataset

In [2]:
df1=pd.read_csv('/Users/luiseduardogarciablanco/Desktop/nueva data cancer/prueba_data_16_20/dataset_16_20.csv')
df1

Unnamed: 0,image_id,sex,age_approx,anatom_site_general,target
0,16_ISIC_0000001,missing,missing,missing,0.0
1,16_ISIC_0000002,missing,missing,missing,1.0
2,16_ISIC_0000004,missing,missing,missing,1.0
3,16_ISIC_0000006,missing,missing,missing,0.0
4,16_ISIC_0000007,missing,missing,missing,0.0
...,...,...,...,...,...
71366,20_ISIC_9999134,male,50.0,torso,0.0
71367,20_ISIC_9999320,male,65.0,torso,0.0
71368,20_ISIC_9999515,male,20.0,lower extremity,0.0
71369,20_ISIC_9999666,male,50.0,lower extremity,0.0


In [4]:
df1 = df1[df1['image_id'] != '20_ISIC_1145562']

In [6]:
# Guardar el dataset inicial como "dataset_16_20.csv"
ruta_salida = '/Users/luiseduardogarciablanco/Desktop/nueva data cancer/prueba_data_16_20/dataset_16_20.csv'
df1.to_csv(ruta_salida, index=False)