In [1]:
import numpy as np
import pandas as pd
import os, shutil

from PIL import Image

from random import choice, sample
from warnings import filterwarnings
filterwarnings("ignore")

Código para generar un código único en cada imagen del dataset

In [None]:
carpeta_principal = "D:/Estiven/Datos/Proyectos/olimpiadas_AI/DATASET"

# Lista de carpetas a recorrer
carpetas = os.listdir(carpeta_principal)

contador = 0

# Recorriendo cada carpeta y cada archivo en ellas
for carpeta in carpetas:
    ruta_carpeta = os.path.join(carpeta_principal, carpeta)

    for filename in os.listdir(ruta_carpeta):

        _, file_extension = os.path.splitext(filename) # Obtener la extensión del archivo

        nuevo_nombre = f"{carpeta}_{contador}{file_extension}"  # Nuevo nombre del archivo
        nueva_ruta = os.path.join(ruta_carpeta, nuevo_nombre)

        # Renombrando los archivos
        os.rename(os.path.join(ruta_carpeta, filename), nueva_ruta)
        contador += 1

Código para crear un dataframe con información de cada imagen del dataset

In [2]:
carpeta_principal = "D:/Estiven/Datos/Proyectos/olimpiadas_AI/DATASET"

# Lista de carpetas a recorrer
carpetas = os.listdir(carpeta_principal)

# Listas donde se contendrán los datos
dimensiones = []
extensiones = []
categoria = []
nombre_archivo = []

# Recorriendo cada archivo de las carpetas
for carpeta in carpetas:
    carpeta_path = os.path.join(carpeta_principal, carpeta)

    for archivo in os.listdir(carpeta_path):
        archivo_path = os.path.join(carpeta_path, archivo)

        # Abriendo cada imagen y sacando su información
        with Image.open(archivo_path) as imagen:
            imagen_size = imagen.size
            extension = imagen.format

        # Guardando los datos en listas
        dimensiones.append(imagen_size)
        extensiones.append(extension)
        categoria.append(carpeta)
        nombre_archivo.append(archivo)

Código para cambiar la extensión de las imágenes .png a .jpg

In [None]:
carpeta_principal = 'D:/Estiven/Datos/Proyectos/olimpiadas_AI/DATASET'

# Recorriendo todas las carpetas y archivos
for subdir, _, archivos in os.walk(carpeta_principal):
    for archivo in archivos:
        # Comprobando si el archivo es una imagen PNG
        if archivo.lower().endswith('.png'):
            ruta_completa = os.path.join(subdir, archivo)
            imagen_png = Image.open(ruta_completa)

            # Crea la ruta de archivo para la nueva imagen JPG
            nueva_ruta = os.path.splitext(ruta_completa)[0] + '.jpg'

            # Convirtiendo la imagen como JPG
            imagen_png.convert('RGB').save(nueva_ruta, 'JPEG')

            # Eliminar la imagen PNG original
            os.remove(ruta_completa)

Creación de dataframe con información relevante del dataset

In [3]:
# Creación del dataframe con base en las listas anteriores
dataset_info = pd.DataFrame(zip(nombre_archivo, dimensiones, extensiones, categoria), columns=['nombre_archivo','dimension', 'extension', 'categoria'])

# Descomprimiendo la tupla dada por el método img.size
dataset_info[['ancho', 'alto']] = dataset_info['dimension'].apply(lambda x: pd.Series([x[0], x[1]]))

# Obteniendo el identificador único de cada imagen
# dataset_info['identificador_unico'] = dataset_info['nombre_archivo'].str.extract(r'_(\d+)\.').astype('int')
# dataset_info = dataset_info.drop(columns='dimension') # Eliminando la columna dimension
# dataset_info = dataset_info.sort_values(by='identificador_unico').reset_index(drop=True) # Reordenando el dataframe
dataset_info

Unnamed: 0,nombre_archivo,dimension,extension,categoria,ancho,alto
0,0.jpg,"(500, 304)",JPEG,birds,500,304
1,1.jpg,"(500, 374)",JPEG,birds,500,374
2,10.jpg,"(500, 333)",JPEG,birds,500,333
3,100.jpg,"(500, 333)",JPEG,birds,500,333
4,1000.jpg,"(469, 298)",JPEG,birds,469,298
...,...,...,...,...,...,...
33143,pixabay_wild_001249.jpg,"(512, 512)",JPEG,wild,512,512
33144,pixabay_wild_001250.jpg,"(512, 512)",JPEG,wild,512,512
33145,pixabay_wild_001251.jpg,"(512, 512)",JPEG,wild,512,512
33146,pixabay_wild_001252.jpg,"(512, 512)",JPEG,wild,512,512


In [None]:
dataset_info.to_csv('dataset_info_original.csv')

In [21]:
dataset_info.nombre_archivo[dataset_info.nombre_archivo.apply(lambda x: x.split('.')[0]).duplicated() == True].apply(lambda y: y.split('.')[0])

14680               1
14681              10
14682             100
14683            1000
14684            1001
             ...     
27901    zeus_faber_4
27903    zeus_faber_5
27905    zeus_faber_6
27907    zeus_faber_7
27909    zeus_faber_8
Name: nombre_archivo, Length: 8186, dtype: object

In [None]:
dataset_info.describe()[['ancho', 'alto']]

Unnamed: 0,ancho,alto
count,33148.0,33148.0
mean,531.448836,386.482804
std,61.389807,147.452086
min,140.0,25.0
25%,512.0,230.75
50%,512.0,500.0
75%,567.0,512.0
max,650.0,600.0


In [38]:
dataset_info = pd.read_csv('/content/drive/MyDrive/dataset_info.csv', index_col='Unnamed: 0')
dataset_info

Unnamed: 0,nombre_archivo,extension,categoria,ancho,alto,identificador_unico
0,birds_0.jpg,JPEG,birds,500,304,0
1,birds_1.jpg,JPEG,birds,500,374,1
2,birds_2.jpg,JPEG,birds,500,333,2
3,birds_3.jpg,JPEG,birds,500,333,3
4,birds_4.jpg,JPEG,birds,469,298,4
...,...,...,...,...,...,...
33143,wild_33143.jpg,JPEG,wild,512,512,33143
33144,wild_33144.jpg,JPEG,wild,512,512,33144
33145,wild_33145.jpg,JPEG,wild,512,512,33145
33146,wild_33146.jpg,JPEG,wild,512,512,33146


In [39]:
print('Número de imagenes según sus extensiones')
pd.DataFrame(dataset_info.groupby('extension')['identificador_unico'].count())

Número de imagenes según sus extensiones


Unnamed: 0_level_0,identificador_unico
extension,Unnamed: 1_level_1
JPEG,24323
PNG,8825


In [40]:
print('Número de imágenes por categoría')
pd.DataFrame(dataset_info.groupby('categoria')['identificador_unico'].count())

Número de imágenes por categoría


Unnamed: 0_level_0,identificador_unico
categoria,Unnamed: 1_level_1
birds,3788
cat,5653
dog,5239
fish,13230
wild,5238


In [45]:
identificadores_filtro = []
for identificador_unico, ancho, alto in np.array(dataset_info[['identificador_unico', 'ancho', 'alto']]):
    if (ancho >= 500) and (alto >= 500):
        identificadores_filtro.append(identificador_unico)

In [46]:
dataset_filtrado_imag_mayor_500 = dataset_info.loc[identificadores_filtro]

print('Cantidad de imagenes por categoría con tamaño de 500x500 o más')
pd.DataFrame(dataset_filtrado_imag_mayor_500.groupby('categoria')['identificador_unico'].count())

Cantidad de imagenes por categoría con tamaño de 500x500 o más


Unnamed: 0_level_0,identificador_unico
categoria,Unnamed: 1_level_1
birds,66
cat,5653
dog,5239
fish,10
wild,5238


In [43]:
dataset_info[['ancho', 'alto']].min()

ancho    140
alto      25
dtype: int64

In [44]:
dataset_info[['ancho', 'alto']].describe()

Unnamed: 0,ancho,alto
count,33148.0,33148.0
mean,531.448836,386.482804
std,61.389807,147.452086
min,140.0,25.0
25%,512.0,230.75
50%,512.0,500.0
75%,567.0,512.0
max,650.0,600.0


In [49]:
dataset_info[dataset_info['categoria'] == 'fish'].describe()

Unnamed: 0,ancho,alto,identificador_unico
count,13230.0,13230.0,13230.0
mean,573.067876,233.341119,21294.5
std,70.961901,101.906323,3819.316366
min,174.0,25.0,14680.0
25%,545.0,157.0,17987.25
50%,583.0,196.0,21294.5
75%,640.0,312.0,24601.75
max,650.0,600.0,27909.0


Código para sacar una muestra de 10 imágenes de cada categoría

In [None]:
# Definir las carpetas de origen y destino
carpeta_origen = "D:/Estiven/Datos/Proyectos/olimpiadas_AI/DATASET"
carpeta_destino = "D:/Estiven/Datos/Proyectos/olimpiadas_AI/muestra"

# Crear la carpeta de destino si no existe
if not os.path.exists(carpeta_destino):
    os.makedirs(carpeta_destino)

# Listar todas las carpetas en la carpeta de origen
subcarpetas = [f.path for f in os.scandir(carpeta_origen) if f.is_dir()]

# Iterar a través de las subcarpetas y seleccionar 10 archivos de cada una
for subcarpeta in subcarpetas:
    archivos = [f.path for f in os.scandir(subcarpeta) if f.is_file()]
    archivos_seleccionados = sample(archivos, 10)  # Seleccionar 10 archivos al azar
    
    for archivo in archivos_seleccionados:
        # Mover el archivo seleccionado a la carpeta de destino
        shutil.move(archivo, os.path.join(carpeta_destino, os.path.basename(archivo)))
        print(f"Archivo movido: {archivo} a {os.path.join(carpeta_destino, os.path.basename(archivo))}")