# Preprocesamiento de imágenes

### 1. Hallando la cantidad de imágenes de cada tipo en cada dataset

In [2]:
import os

In [13]:
# Obtener el directorio actual del notebook
notebook_dir = os.getcwd()

# Directorio donde están las carpetas dataset1, dataset2, dataset3
data_dir = notebook_dir

# Lista de datasets (carpetas dataset1, dataset2, dataset3)
datasets = ['dataset1', 'dataset2', 'dataset3']

# Lista de categorías
categories = ['Covid', 'Normal', 'Pneumonia']

# Lista de fases de aprendizaje 
fases = ['train', 'test']

In [17]:
# Función para contar imágenes en un directorio específico
def count_images_in_directory(directory):
    count = 0
    if os.path.exists(directory):
        for filename in os.listdir(directory):
            if filename.endswith('.jpeg') or filename.endswith('.jpg') or filename.endswith('.png'):
                count += 1
    return count

In [19]:
# Contar imágenes en cada dataset y categoría
n_images = []
for dataset in datasets:
    dataset_dir = os.path.join(data_dir, dataset)
    print(f"Dataset: {dataset}")
    for fase in fases:
        fase_dir = os.path.join(dataset_dir, fase)
        print(f"Fase: {fase}")
        for category in categories:
            category_dir = os.path.join(fase_dir, category)
            num_images = count_images_in_directory(category_dir)
            print(f"Número de imágenes en la categoría {category}: {num_images}")
    print()

Dataset: dataset1
Fase: train
Número de imágenes en la categoría Covid: 111
Número de imágenes en la categoría Normal: 70
Número de imágenes en la categoría Pneumonia: 70
Fase: test
Número de imágenes en la categoría Covid: 26
Número de imágenes en la categoría Normal: 20
Número de imágenes en la categoría Pneumonia: 20

Dataset: dataset2
Fase: train
Número de imágenes en la categoría Covid: 1626
Número de imágenes en la categoría Normal: 1802
Número de imágenes en la categoría Pneumonia: 1800
Fase: test
Número de imágenes en la categoría Covid: 0
Número de imágenes en la categoría Normal: 0
Número de imágenes en la categoría Pneumonia: 0

Dataset: dataset3
Fase: train
Número de imágenes en la categoría Covid: 460
Número de imágenes en la categoría Normal: 1266
Número de imágenes en la categoría Pneumonia: 3418
Fase: test
Número de imágenes en la categoría Covid: 116
Número de imágenes en la categoría Normal: 317
Número de imágenes en la categoría Pneumonia: 855



### 2. Preprocesando las imágenes

Se tomarán las imágenes y se las llevará a un un formato cuadrado de longitud tamaño `SIZE`. Así, todas las imágenes tendrán el mismo tamaño. Se las ubicará en un directorio de acuerdo a su categoría, sin importan si inicialmente venían cargadas como datos de train o test.

In [20]:
import os
from tqdm import tqdm
from PIL import Image, ImageOps

In [21]:
SIZE = 256

In [22]:
# Definir directorios de origen y destino
base_dir = os.getcwd()
data_dir = os.path.join(base_dir, '.')
output_dir = os.path.join(base_dir, 'processed_data')
categories = ['Covid', 'Normal', 'Pneumonia']
target_size = (SIZE, SIZE)

# Crear directorios de salida
for category in categories:
    os.makedirs(os.path.join(output_dir, category))

def preprocess_and_save_images(source_dir, category, target_size):
    dest_path = os.path.join(output_dir, category)
    
    if not os.path.exists(source_dir):
        print(f"El directorio {source_dir} no existe. Saltando.")
        return
    
    for img_name in tqdm(os.listdir(source_dir)):
        try:
            img_path = os.path.join(source_dir, img_name)
            img = Image.open(img_path).convert('RGB')
            
            # Redimensionar y recortar la imagen
            img = ImageOps.fit(img, target_size)
            
            img.save(os.path.join(dest_path, img_name))
        except Exception as e:
            print(f"Error procesando {img_path}: {e}")

def process_dataset(dataset_dir, target_size):
    for category in tqdm(categories, desc=f"Procesando {dataset_dir}"):
        # Procesar imágenes de train si existen
        train_dir = os.path.join(dataset_dir, 'train', category)
        if os.path.exists(train_dir):
            preprocess_and_save_images(train_dir, category, target_size)
        else:
            print(f"El directorio {train_dir} no existe. Saltando.")

        # Procesar imágenes de test si existen
        test_dir = os.path.join(dataset_dir, 'test', category)
        if os.path.exists(test_dir):
            preprocess_and_save_images(test_dir, category, target_size)
        else:
            print(f"El directorio {test_dir} no existe. Saltando.")

# Procesar todos los datasets
for dataset in ['dataset1', 'dataset2', 'dataset3']:
    dataset_dir = os.path.join(data_dir, dataset)
    process_dataset(dataset_dir, target_size)

print("Preprocesamiento completo.")

100%|██████████| 111/111 [00:09<00:00, 11.48it/s]ata\.\dataset1:   0%|          | 0/3 [00:00<?, ?it/s]
100%|██████████| 26/26 [00:00<00:00, 26.71it/s]
100%|██████████| 70/70 [00:07<00:00,  8.91it/s]\data\.\dataset1:  33%|███▎      | 1/3 [00:10<00:21, 10.66s/it]
100%|██████████| 20/20 [00:01<00:00, 10.35it/s]
100%|██████████| 70/70 [00:04<00:00, 14.02it/s]\data\.\dataset1:  67%|██████▋   | 2/3 [00:20<00:10, 10.16s/it]
100%|██████████| 20/20 [00:01<00:00, 18.82it/s]
Procesando c:\machine_learning\MLF_FinalProject\data\.\dataset1: 100%|██████████| 3/3 [00:26<00:00,  8.84s/it]
100%|██████████| 1626/1626 [00:57<00:00, 28.41it/s]a\.\dataset2:   0%|          | 0/3 [00:00<?, ?it/s]
Procesando c:\machine_learning\MLF_FinalProject\data\.\dataset2:  33%|███▎      | 1/3 [00:57<01:54, 57.47s/it]

El directorio c:\machine_learning\MLF_FinalProject\data\.\dataset2\test\Covid no existe. Saltando.


100%|██████████| 1802/1802 [01:01<00:00, 29.09it/s]
Procesando c:\machine_learning\MLF_FinalProject\data\.\dataset2:  67%|██████▋   | 2/3 [01:59<01:00, 60.19s/it]

El directorio c:\machine_learning\MLF_FinalProject\data\.\dataset2\test\Normal no existe. Saltando.


100%|██████████| 1800/1800 [00:59<00:00, 30.23it/s]
Procesando c:\machine_learning\MLF_FinalProject\data\.\dataset2: 100%|██████████| 3/3 [02:59<00:00, 59.76s/it]


El directorio c:\machine_learning\MLF_FinalProject\data\.\dataset2\test\Pneumonia no existe. Saltando.


100%|██████████| 460/460 [00:34<00:00, 13.49it/s]ata\.\dataset3:   0%|          | 0/3 [00:00<?, ?it/s]
100%|██████████| 116/116 [00:09<00:00, 11.78it/s]
100%|██████████| 1266/1266 [01:23<00:00, 15.09it/s]a\.\dataset3:  33%|███▎      | 1/3 [00:43<01:27, 43.99s/it]
100%|██████████| 317/317 [00:21<00:00, 14.59it/s]
100%|██████████| 3418/3418 [02:18<00:00, 24.61it/s]a\.\dataset3:  67%|██████▋   | 2/3 [02:29<01:20, 80.32s/it]
100%|██████████| 855/855 [00:30<00:00, 28.14it/s]
Procesando c:\machine_learning\MLF_FinalProject\data\.\dataset3: 100%|██████████| 3/3 [05:19<00:00, 106.36s/it]

Preprocesamiento completo.





Verificamos finalmente que todas las imágnes tienen el mismo tamaño, y, en el caso de que todas tengan el tamaño deseado, retornamos el número de imágenes preprocesadas de cada cateoría.

In [24]:
# Verificar que todas las imágnes tienen el mismo tamaño
from PIL import Image
import os
from tqdm import tqdm

processed_data_dir = os.path.join(os.getcwd(), 'processed_data')
categories = ['Covid', 'Normal', 'Pneumonia']
numImages = [0, 0, 0]

def check_image_sizes(dataset_dir):
    for i, category in enumerate(categories):
        category_dir = os.path.join(dataset_dir, category)
        for img_name in tqdm(os.listdir(category_dir)):
            img_path = os.path.join(category_dir, img_name)
            img = Image.open(img_path)
            if img.size != (SIZE, SIZE):
                print(f"La imagen {img_path} tiene un tamaño diferente al esperado.")
                return
            else:
                numImages[i] += 1

    print(f"Todas las imágenes en {dataset_dir} tienen el tamaño esperado.")
    print(f"Número de imágenes en {dataset_dir}: {numImages}")
    return

check_image_sizes(processed_data_dir)

100%|██████████| 2334/2334 [00:01<00:00, 2223.27it/s]
100%|██████████| 3475/3475 [00:02<00:00, 1201.13it/s]
100%|██████████| 6163/6163 [00:47<00:00, 131.12it/s]

Todas las imágenes en c:\machine_learning\MLF_FinalProject\data\processed_data tienen el tamaño esperado.
Número de imágenes en c:\machine_learning\MLF_FinalProject\data\processed_data: [2334, 3475, 6163]



