# Getting the dataset ready 📊

In [7]:
import os
import cv2
import numpy as np
from pathlib import Path
import tensorflow as tf
from torchvision import transforms
from PIL import Image


# Configuraciones
DIRECTORIO_ENTRADA = '/mnt/c/Users/edgardo/git-edgardo/Austral/TF-Diplo/DataSet/Dataset_splits/test'  # Ruta donde están las imágenes originales
DIRECTORIO_SALIDA = '/mnt/c/Users/edgardo/git-edgardo/Austral/TF-Diplo/DataSet/Dataset_splits/test_normalizadas'  # Directorio donde guardar imágenes normalizadas
TAMANIO_IMAGEN = (224, 224)  # Tamaño al que queremos redimensionar las imágenes

# Actualización: lista de extensiones válidas
EXTENSIONES_VALIDAS = ['jpg', 'jpeg', 'png', 'ppm', 'bmp', 'pgm', 'tif', 'tiff', 'webp']  # Nuevas extensiones permitidas

# Función para normalizar imágenes
def normalizar_imagen_tensorflow(img):
    # Convertimos los valores a float y normalizamos al rango [0, 1]
    img = img.astype('float32') / 255.0
    return img

def normalizar_imagen_pytorch(img):
    # Transformación estándar para PyTorch (normaliza con media y desviación estándar)
    transform = transforms.Compose([
        transforms.ToTensor(),  # Convertir a tensor (escala los valores a [0, 1])
        transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])  # Normalización estándar para imágenes RGB
    ])
    return transform(img)

# Función para procesar y guardar la imagen
def procesar_imagen(ruta_imagen, ruta_salida, framework):
    # Cargar imagen usando OpenCV
    img = cv2.imread(ruta_imagen)
    
    if img is None:
        print(f"Error al cargar la imagen: {ruta_imagen}")
        return
    
    # Redimensionar la imagen al tamaño deseado
    img = cv2.resize(img, TAMANIO_IMAGEN)

    # Crear subdirectorios en el directorio de salida si no existen
    Path(os.path.dirname(ruta_salida)).mkdir(parents=True, exist_ok=True)

    # Normalizar imagen para TensorFlow
    if framework == 'tensorflow':
        img_normalizada = normalizar_imagen_tensorflow(img)
        cv2.imwrite(ruta_salida, (img_normalizada * 255).astype(np.uint8))  # Guardar como uint8 nuevamente

    # Normalizar imagen para PyTorch
    elif framework == 'pytorch':
        img_pil = Image.fromarray(cv2.cvtColor(img, cv2.COLOR_BGR2RGB))  # Convertir a formato PIL (RGB)
        img_normalizada = normalizar_imagen_pytorch(img_pil)
        np.save(ruta_salida.replace('.jpg', '.npy').replace('.png', '.npy'), img_normalizada.numpy())  # Guardar en formato numpy
    
    print(f"Imagen {os.path.basename(ruta_imagen)} procesada y guardada en {ruta_salida}.")

# Recorrer el directorio de imágenes y procesar cada archivo respetando subdirectorios
def procesar_directorio(framework='tensorflow'):
    for root, _, files in os.walk(DIRECTORIO_ENTRADA):
        for file in files:
            extension = file.split('.')[-1].lower()
            if extension in EXTENSIONES_VALIDAS:
                ruta_imagen = os.path.join(root, file)
                # Obtener ruta relativa para replicar la estructura en el directorio de salida
                ruta_relativa = os.path.relpath(ruta_imagen, DIRECTORIO_ENTRADA)
                ruta_salida = os.path.join(DIRECTORIO_SALIDA, ruta_relativa)
                procesar_imagen(ruta_imagen, ruta_salida, framework)

# Seleccionar framework y procesar imágenes
if __name__ == '__main__':
    framework = input("Selecciona el framework ('tensorflow' o 'pytorch'): ").lower()
    if framework in ['tensorflow', 'pytorch']:
        procesar_directorio(framework)
    else:
        print("Framework no válido. Usa 'tensorflow' o 'pytorch'.")


Selecciona el framework ('tensorflow' o 'pytorch'):  tensorflow


Imagen 000014.jpg procesada y guardada en /mnt/c/Users/edgardo/git-edgardo/Austral/TF-Diplo/DataSet/Dataset_splits_tensorflow/test_normalizadas/cardboard/000014.jpg.
Imagen 000059.JPG procesada y guardada en /mnt/c/Users/edgardo/git-edgardo/Austral/TF-Diplo/DataSet/Dataset_splits_tensorflow/test_normalizadas/cardboard/000059.JPG.
Imagen 000102.JPG procesada y guardada en /mnt/c/Users/edgardo/git-edgardo/Austral/TF-Diplo/DataSet/Dataset_splits_tensorflow/test_normalizadas/cardboard/000102.JPG.
Imagen 111105.jpg procesada y guardada en /mnt/c/Users/edgardo/git-edgardo/Austral/TF-Diplo/DataSet/Dataset_splits_tensorflow/test_normalizadas/cardboard/111105.jpg.
Imagen 6666075.JPG procesada y guardada en /mnt/c/Users/edgardo/git-edgardo/Austral/TF-Diplo/DataSet/Dataset_splits_tensorflow/test_normalizadas/cardboard/6666075.JPG.
Imagen 666669.JPG procesada y guardada en /mnt/c/Users/edgardo/git-edgardo/Austral/TF-Diplo/DataSet/Dataset_splits_tensorflow/test_normalizadas/cardboard/666669.JPG.
Im



Imagen paper12.png procesada y guardada en /mnt/c/Users/edgardo/git-edgardo/Austral/TF-Diplo/DataSet/Dataset_splits_tensorflow/test_normalizadas/paper/paper12.png.
Imagen paper123.JPG procesada y guardada en /mnt/c/Users/edgardo/git-edgardo/Austral/TF-Diplo/DataSet/Dataset_splits_tensorflow/test_normalizadas/paper/paper123.JPG.
Imagen paper124.jpg procesada y guardada en /mnt/c/Users/edgardo/git-edgardo/Austral/TF-Diplo/DataSet/Dataset_splits_tensorflow/test_normalizadas/paper/paper124.jpg.
Imagen paper126.jpeg procesada y guardada en /mnt/c/Users/edgardo/git-edgardo/Austral/TF-Diplo/DataSet/Dataset_splits_tensorflow/test_normalizadas/paper/paper126.jpeg.
Imagen paper132.jpg procesada y guardada en /mnt/c/Users/edgardo/git-edgardo/Austral/TF-Diplo/DataSet/Dataset_splits_tensorflow/test_normalizadas/paper/paper132.jpg.
Imagen paper135.jpg procesada y guardada en /mnt/c/Users/edgardo/git-edgardo/Austral/TF-Diplo/DataSet/Dataset_splits_tensorflow/test_normalizadas/paper/paper135.jpg.
Imag