## Clonamos repositorio de trabajo

In [1]:
!git clone https://github.com/bettachini/tp1_dmcyt2023.git

Cloning into 'tp1_dmcyt2023'...
remote: Enumerating objects: 74992, done.[K
remote: Counting objects: 100% (278/278), done.[K
remote: Compressing objects: 100% (269/269), done.[K
remote: Total 74992 (delta 9), reused 274 (delta 6), pack-reused 74714[K
Receiving objects: 100% (74992/74992), 227.09 MiB | 18.88 MiB/s, done.
Resolving deltas: 100% (13/13), done.
Updating files: 100% (75250/75250), done.


## Importamos librerías últiles

In [2]:
import os
import random
from shutil import copyfile
import csv

## Cargamos datos

### Guardamos en una lista las clases

In [3]:
dataset_path = "/content/tp1_dmcyt2023/datasets/Rice_Image_Dataset"
# Tomado de https://www.kaggle.com/code/gustavo9898/pytorch-rice-image-classification
classes = []
for folder in os.listdir(dataset_path):
    folder_path = os.path.join(dataset_path, folder)
    if os.path.isdir(folder_path):
        classes.append(folder)
print(classes)

['Jasmine', 'Karacadag', 'Arborio', 'Ipsala', 'Basmati']


### Generemos la muestra aleatoria por clase

In [4]:
# Defino diccionario donde guardaré para cada clase una lista con el path de cada imagen
classes_path = {}

# Itero por clase y guardo los path en el diccionario
for clase in classes:
  # Defino el path de cada clase
  image_path = f"/content/tp1_dmcyt2023/datasets/Rice_Image_Dataset/{clase}/"
  path = sorted([
    os.path.join(image_path, file)
    for file in os.listdir(image_path)
    if file.endswith('.jpg')
    ])
  classes_path[clase] = path

In [5]:
# Cantidad total de clases (5)
len(classes_path)

5

In [6]:
# Ejemplo de lo guardado
classes_path['Arborio'][0]

'/content/tp1_dmcyt2023/datasets/Rice_Image_Dataset/Arborio/Arborio (1).jpg'

### Genero submuestreo

In [7]:
# Genero una muestra aleatoria con 1000 imagenes por cada clase y guardo en un nuevo diccionario
classes_path_random_sample = {}

# Defino semilla
random.seed(8)

# Obtener una muestra aleatoria de 1000 rutas de imágenes para cada clase
for clase, path in classes_path.items():
  print(f"Cantidad de imagenes de la clase {clase}: {len(path)}")
  if len(path) >= 1000:
      classes_path_random_sample[clase] = random.sample(path, 1000)
  else:
      classes_path_random_sample[clase] = path

Cantidad de imagenes de la clase Jasmine: 15000
Cantidad de imagenes de la clase Karacadag: 15000
Cantidad de imagenes de la clase Arborio: 15000
Cantidad de imagenes de la clase Ipsala: 15000
Cantidad de imagenes de la clase Basmati: 15000


In [8]:
# Cantidad total de clases (5)
len(classes_path_random_sample)

5

In [9]:
# Cantidad de imagenes por clases
len(classes_path_random_sample['Arborio'])

1000

### Guardamos la nueva muestra en un único directorio

In [10]:
# Creamos el directorio nuevo
path_nuevo_directorio = os.path.join(dataset_path, "ramdon_sample_rice_image" )
os.makedirs(path_nuevo_directorio, exist_ok=True)

In [11]:
# Itero a través del diccionario muestra_aleatoria y copia las imágenes a la nueva ubicación
for clase, paths in classes_path_random_sample.items():
    for path in paths:
        copyfile(path, os.path.join(path_nuevo_directorio, os.path.basename(path)))

In [12]:
# Guardo nombre de imagen y label en un .txt
with open(path_nuevo_directorio + '/ramdon_sample_rice_labels.txt', 'w') as dataset_file:

  dataset_file.write('file,label\n')

  for clase, paths in classes_path_random_sample.items():
    for path in paths:
      archivo = os.path.basename(path)
      dataset_file.write(f'{archivo}, {clase}\n')

In [13]:
# Guardo nombre de imagen y label en un .csv
csv_file_path = os.path.join(path_nuevo_directorio, 'ramdon_sample_rice_labels.csv')

with open(csv_file_path, mode='w', newline='') as dataset_file:
    csv_writer = csv.writer(dataset_file)

    csv_writer.writerow(['file', 'label'])

    for clase, paths in classes_path_random_sample.items():
        for path in paths:
            archivo = os.path.basename(path)
            csv_writer.writerow([archivo, clase])