In [3]:
# Feature Pipeline Notebook - Preparación de Datos
import os
import pandas as pd
from sklearn.model_selection import train_test_split
from tensorflow.keras.preprocessing.image import ImageDataGenerator
from PIL import Image

# 2. Rutas de las carpetas de gatos y perros
cat_dir = 'C:/Users/megag/Documents/Curso IA/Curso Avanzado/Deep Learning Clasification/Cat'
dog_dir = 'C:/Users/megag/Documents/Curso IA/Curso Avanzado/Deep Learning Clasification/Dog'

# 3. Función para verificar si una imagen es válida
def is_valid_image(file_path):
    try:
        img = Image.open(file_path)  # Intentar abrir la imagen
        img.verify()  # Verificar que sea válida
        return True
    except (IOError, SyntaxError):
        print(f"Imagen no válida detectada: {file_path}")
        return False

# 4. Crear un DataFrame con rutas de imágenes válidas
data = []
for label, folder in [('cat', cat_dir), ('dog', dog_dir)]:
    for img_name in os.listdir(folder):
        img_path = os.path.join(folder, img_name)
        if is_valid_image(img_path):  # Solo incluir imágenes válidas
            data.append([img_path, label])

df = pd.DataFrame(data, columns=['image_path', 'label'])

# 5. Revolver los datos antes de la división para asegurarse de que estén distribuidos aleatoriamente
df = df.sample(frac=1, random_state=42).reset_index(drop=True)

# 6. Dividir en conjuntos de entrenamiento y prueba, asegurando que ambas clases se distribuyan correctamente
train_df, test_df = train_test_split(df, test_size=0.2, random_state=42, stratify=df['label'])

# 7. Crear generadores de imágenes con aumentación de datos para el conjunto de entrenamiento
train_datagen = ImageDataGenerator(rescale=1./255,
                                   shear_range=0.2,
                                   zoom_range=0.2,
                                   horizontal_flip=True)

# 8. Generador de imágenes para el conjunto de prueba (sin aumentación)
test_datagen = ImageDataGenerator(rescale=1./255)

# 9. Guardar los DataFrames para su uso posterior en el pipeline de entrenamiento
train_df.to_csv('C:/Users/megag/Documents/Curso IA/Curso Avanzado/Deep Learning Clasification/train_data.csv', index=False)
test_df.to_csv('C:/Users/megag/Documents/Curso IA/Curso Avanzado/Deep Learning Clasification/test_data.csv', index=False)

print("Pipeline de características completado y datos correctamente distribuidos.")



Imagen no válida detectada: C:/Users/megag/Documents/Curso IA/Curso Avanzado/Deep Learning Clasification/Cat\666.jpg




Pipeline de características completado y datos correctamente distribuidos.
