# Explore here

In [4]:
import pandas as pd
import numpy as np

import os
import shutil

from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
from tensorflow import keras
from keras.preprocessing import image
from keras.src.legacy.preprocessing.image import ImageDataGenerator

from keras.models import Sequential
from keras.layers import Dense, Conv2D, MaxPool2D , Flatten

# Sistema de clasificación de imágenes

El conjunto de datos se compone de fotos de perros y gatos proporcionadas como un subconjunto de fotos de uno mucho más grande de 3 millones de fotos anotadas manualmente. Estos datos se obtuvieron a través de una colaboración entre Petfinder.com y Microsoft.

El conjunto de datos se usó originalmente como un CAPTCHA, es decir, una tarea que se cree que un humano encuentra trivial, pero que una máquina no puede resolver, que se usa en sitios web para distinguir entre usuarios humanos y bots. La tarea se denominó "Asirra". Cuando se presentó "Asirra", se mencionó "que los estudios de usuarios indican que los humanos pueden resolverlo el 99,6% de las veces en menos de 30 segundos". A menos que se produzca un gran avance en la visión artificial, esperamos que los ordenadores no tengan más de 1/54.000 posibilidades de resolverlo.

En el momento en que se publicó la competencia, el resultado de última generación se logró con un SVM y se describió en un artículo de 2007 con el título "Ataques de Machine Learning contra el CAPTCHA de Asirra" (PDF) que logró una precisión de clasificación del 80%. Fue este documento el que demostró que la tarea ya no era una tarea adecuada para un CAPTCHA poco después de que se propusiera la tarea.


# Paso 1: Carga del conjunto de datos

El conjunto de datos se encuentra en este link. Descarga la carpeta y descomprime los archivos. Ahora tendrás una carpeta con el dataset y una carpeta llamada train que contiene más de 25.000 archivos de imagen (formato .jpg) de perros y gatos. Las fotos están etiquetadas por su nombre de archivo, con la palabra dog o cat.
 - 1. Definir la ruta de acceso a las imágenes
 

In [5]:
train_dir = "C:/Users/ANTONIO/Downloads/dogs-vs-cats/train"

# Paso 2: Visualiza la información de entrada
El primer paso cuando nos enfrentamos a un problema de clasificación de imágenes es obtener toda la información posible a través de ellas. Por lo tanto, carga e imprime las primeras nueve fotos de perros en una sola figura. Repite lo mismo para los gatos. Puedes ver que las fotos son a color y tienen diferentes formas y tamaños.

Esta variedad de tamaños y formatos debe solucionarse antes de entrenar el modelo. Asegúrate de que todas tengan un tamaño fijo de 200x200 píxeles.

Como podrás ver, son una gran cantidad de imágenes, asegúrate de seguir las siguientes normas:

Si tienes más de 12 gigabytes de RAM, usa la API de procesamiento de imágenes de Keras para cargar las 25.000 fotos en el conjunto de datos de entrenamiento y remodelarlas a fotos cuadradas de 200×200 píxeles. La etiqueta también debe determinarse para cada foto en función de los nombres de archivo. Se debe guardar una tupla de fotos y etiquetas.
Si no tienes más de 12 gigabytes de RAM, carga las imágenes progresivamente usando la clase Keras ImageDataGenerator y la función flow_from_directory(). Esto será más lento de ejecutar, pero se ejecutará en hardware de menor capacidad. Esta función prefiere que los datos se dividan en directorios train y test separados, y debajo de cada directorio para tener un subdirectorio para cada clase.
Una vez tengas todas las imágenes procesadas, crea un objeto ImageDataGenerator para datos de entrenamiento y prueba. Luego pasa la carpeta que tiene datos de entrenamiento al objeto trdata y, de manera similar, pasa la carpeta que tiene datos de prueba al objeto tsdata. De esta forma, se etiquetarán las imágenes automáticamente y estará todo listo para entrar a la red.

In [7]:
train_dir = "C:/Users/ANTONIO/Downloads/dogs-vs-cats/train"

cat_dir = os.path.join(train_dir, "cat")
dog_dir = os.path.join(train_dir, "dog")

# Crear carpetas si no existen
os.makedirs(cat_dir, exist_ok=True)
os.makedirs(dog_dir, exist_ok=True)

for filename in os.listdir(train_dir):
    file_path = os.path.join(train_dir, filename)

    # Ignorar carpetas
    if os.path.isdir(file_path):
        print("Ignorando carpeta:", filename)
        continue

    # Mover solo archivos JPG reales
    if filename.lower().startswith("cat") and filename.lower().endswith(".jpg"):
        shutil.move(file_path, os.path.join(cat_dir, filename))

    elif filename.lower().startswith("dog") and filename.lower().endswith(".jpg"):
        shutil.move(file_path, os.path.join(dog_dir, filename))

print("Movimiento completado.")

Ignorando carpeta: cat
Ignorando carpeta: dog
Movimiento completado.


In [9]:
dog_dir = "C:/Users/ANTONIO/Downloads/dogs-vs-cats/train/dog"
cat_dir = "C:/Users/ANTONIO/Downloads/dogs-vs-cats/train/cat"

print("PERROS:", len(os.listdir(dog_dir)))
print("GATOS:", len(os.listdir(cat_dir)))

PERROS: 0
GATOS: 0


# Perros 

In [10]:

dog_dir = "C:/Users/ANTONIO/Downloads/dogs-vs-cats/train/dog"

dog_files = os.listdir(dog_dir)
dog_files = [f for f in dog_files if f.endswith(".jpg")]

dog_images = []

for i in range(9):
    img_path = os.path.join(dog_dir, dog_files[i])
    img = image.load_img(img_path)
    img_arr = image.img_to_array(img)
    dog_images.append(img_arr)

plt.figure(figsize=(10, 10))

for i in range(9):
    plt.subplot(3, 3, i+1)
    plt.imshow(dog_images[i].astype("uint8"))
    plt.axis('off')
    plt.title(f"Dog {i+1}")

plt.show()




IndexError: list index out of range

- Carga de las imágenes con keras.
  - Defiimos la ruta 
  - Guardamos en una variable el tamaño de las imágenes
  - En otra variables guardamos el procesamiento o generador de las imágenes que se van a ir procesando poco a poco en la red neuronal.

In [None]:

# Define a few rules for DataGen
entrenamineto_dir = "C:/Users/ANTONIO/Downloads/dogs-vs-cats/train"
tamano_img = (200, 200)

generador_train = ImageDataGenerator()
generador_test = ImageDataGenerator()



train_data = generador_train.flow_from_directory(
    entrenamineto_dir,
    target_size = tamano_img,
    classes = ["dog", "cat"] 
)


test_data = generador_test.flow_from_directory(
    entrenamineto_dir,
    target_size = tamano_img,
    classes = ["test"] 
)

# Entrenar Modelo 

In [None]:
model = Sequential()
model.add(Conv2D(input_shape = (224,224,3), filters = 64, kernel_size = (3,3), padding = "same", activation = "relu"))
model.add(Conv2D(filters = 64,kernel_size = (3,3),padding = "same", activation = "relu"))
model.add(MaxPool2D(pool_size = (2,2),strides = (2,2)))
model.add(Conv2D(filters = 128, kernel_size = (3,3), padding = "same", activation = "relu"))
model.add(Conv2D(filters = 128, kernel_size = (3,3), padding = "same", activation = "relu"))
model.add(MaxPool2D(pool_size = (2,2),strides = (2,2)))
model.add(Conv2D(filters = 256, kernel_size = (3,3), padding = "same", activation = "relu"))
model.add(Conv2D(filters = 256, kernel_size = (3,3), padding = "same", activation = "relu"))
model.add(Conv2D(filters = 256, kernel_size = (3,3), padding = "same", activation = "relu"))
model.add(MaxPool2D(pool_size = (2,2),strides = (2,2)))
model.add(Conv2D(filters = 512, kernel_size = (3,3), padding = "same", activation = "relu"))
model.add(Conv2D(filters = 512, kernel_size = (3,3), padding = "same", activation = "relu"))
model.add(Conv2D(filters = 512, kernel_size = (3,3), padding = "same", activation = "relu"))
model.add(MaxPool2D(pool_size = (2,2),strides = (2,2)))
model.add(Conv2D(filters = 512, kernel_size = (3,3), padding = "same", activation = "relu"))
model.add(Conv2D(filters = 512, kernel_size = (3,3), padding = "same", activation = "relu"))
model.add(Conv2D(filters = 512, kernel_size = (3,3), padding = "same", activation = "relu"))
model.add(MaxPool2D(pool_size = (2,2),strides = (2,2)))
model.add(Flatten())
model.add(Dense(units = 4096,activation = "relu"))
model.add(Dense(units = 4096,activation = "relu"))
model.add(Dense(units = 2, activation = "softmax"))