# Tarea N°2 Machine Learning Avanzado


<div>
<img src="https://i.ibb.co/v3CvVz9/udd-short.png" width="150"/>
    <br>
    <strong>Universidad del Desarrollo</strong><br>
    <em>Profesor: Tomás Fontecilla </em><br>

</div>

*2 de diciembre de 2024*

**Nombre Estudiante(s)**:  

- Julio Assmann Segura
- César Godoy Delaigue
- Nicolás Gonzalez Infante


## Introducción

En el ámbito de la clasificación de imágenes, el uso de redes neuronales convolucionales (CNN) ha demostrado ser altamente eficiente en tareas de reconocimiento de patrones visuales. Este informe aborda la implementación de diferentes modelos de redes neuronales aplicados a la clasificación binaria de imágenes, con el objetivo de identificar características específicas en un conjunto de datos de imágenes.

El trabajo se basa en el entrenamiento de modelos para una tarea de clasificación binaria utilizando un conjunto de datos organizado en carpetas para entrenamiento y prueba. Se desarrollaron y evaluaron tres modelos: dos propuestos por los miembros del grupo y un tercer modelo basado en transferencia de aprendizaje para complementar el análisis.

### Objetivo

Comparar el desempeño de tres modelos de aprendizaje profundo para la clasificación binaria de imágenes, evaluando métricas clave como la precisión y el f1-score, y proponer un modelo con transferencia de aprendizaje para mejorar los resultados.

---

## Metodología

El análisis se desarrolló siguiendo las siguientes etapas:

### 1. Preparación y Preprocesamiento de los Datos

- **Carga y Estandarización**:
  Se utilizaron generadores de datos (`ImageDataGenerator`) para realizar la normalización de las imágenes al rango `[0, 1]`. Además, se implementaron técnicas de aumentación de datos, como rotaciones, zoom, y desplazamientos, para mejorar la generalización de los modelos.

- **División del Conjunto de Datos**:
  El conjunto de datos se dividió en dos partes:
  - **Entrenamiento**: 80% de las imágenes.
  - **Prueba**: 20% de las imágenes.

### 2. Construcción e Implementación de Modelos

Se desarrollaron tres arquitecturas distintas:


#### **Modelo 1**: CNN - MLP


#### **Modelo 2**: CNN - MLP



#### **Modelo 3**: Transferencia de Aprendizaje
- Se utilizó MobileNet preentrenado con pesos de `imagenet`.
- Las capas convolucionales se congelaron para transferir las características aprendidas.
- Se añadieron capas densas personalizadas con regularización (`Dropout`).
- Arquitectura compacta y eficiente diseñada para la clasificación binaria.

### 3. Optimización y Ajuste de Hiperparámetros

- **Algoritmo de Optimización**: Adam, con tasas de aprendizaje ajustadas para cada modelo.
- **Hiperparámetros Clave**:
  - Número de capas y neuronas.
  - Tasa de aprendizaje.
  - Tamaño del batch y número de épocas.

### 4. Evaluación y Validación

- **Métricas de Evaluación**:
  - Precisión (`accuracy`).
  - F1-score, recall y precisión para un análisis más profundo.
  - Validación Curva ROC - Matriz de Confución
- **Prevención de Sobreajuste**:
  - Uso de técnicas como early stopping y regularización.

---


In [29]:
import tensorflow as tf
print("¿Está habilitada la GPU?", tf.config.list_physical_devices('GPU'))


¿Está habilitada la GPU? []


In [30]:
import tensorflow as tf
print(tf.__version__)


2.18.0


In [32]:
import tensorflow as tf

# Listar los dispositivos físicos
physical_devices = tf.config.list_physical_devices('GPU')
if physical_devices:
    print("GPU detectada:", physical_devices)
else:
    print("No se detectaron GPUs disponibles.")

# Información adicional sobre la GPU
gpus = tf.config.experimental.list_physical_devices('GPU')
if gpus:
    try:
        for gpu in gpus:
            details = tf.config.experimental.get_device_details(gpu)
            print("Detalles de la GPU:", details)
    except Exception as e:
        print("Error al obtener detalles:", e)



No se detectaron GPUs disponibles.


In [40]:
import torch

if torch.cuda.is_available():
    print("Este entorno tiene soporte para GPU")
    print(f"Dispositivo CUDA disponible: {torch.cuda.get_device_name(0)}")
else:
    print("Este entorno NO tiene soporte para GPU")

Este entorno NO tiene soporte para GPU


### ***Librerias***

In [33]:
from tqdm import tqdm
import pandas as pd
import os
import numpy as np
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Flatten, Dropout
from tensorflow.keras.preprocessing.image import load_img, img_to_array
from sklearn.preprocessing import LabelEncoder
from tensorflow.keras.optimizers import Adam

In [34]:
import kagglehub

# Download latest version
path = kagglehub.dataset_download("samuelcortinhas/muffin-vs-chihuahua-image-classification")

print("Path to dataset files:", path)

Path to dataset files: C:\Users\cgodo\.cache\kagglehub\datasets\samuelcortinhas\muffin-vs-chihuahua-image-classification\versions\2


In [35]:
import os

# Ruta base del dataset descargado desde Kaggle
base_dir = r"C:\Users\cgodo\.cache\kagglehub\datasets\samuelcortinhas\muffin-vs-chihuahua-image-classification\versions\2"


# Definir las rutas para las carpetas de entrenamiento y prueba
train_dir = os.path.join(base_dir, 'train')  # Cambia 'train' si el nombre de la carpeta es diferente
test_dir = os.path.join(base_dir, 'test')    # Cambia 'test' si el nombre de la carpeta es diferente

print("Train Directory:", train_dir)
print("Test Directory:", test_dir)


Train Directory: C:\Users\cgodo\.cache\kagglehub\datasets\samuelcortinhas\muffin-vs-chihuahua-image-classification\versions\2\train
Test Directory: C:\Users\cgodo\.cache\kagglehub\datasets\samuelcortinhas\muffin-vs-chihuahua-image-classification\versions\2\test


# 1. **Modelo 1**

In [36]:
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense, Dropout, BatchNormalization, GlobalAveragePooling2D
from tensorflow.keras.preprocessing.image import ImageDataGenerator
import os
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.callbacks import EarlyStopping

### Convolucion 1

In [37]:

import os

# Ruta base del dataset descargado desde Kaggle
base_dir = r"C:\Users\cgodo\.cache\kagglehub\datasets\samuelcortinhas\muffin-vs-chihuahua-image-classification\versions\2"


# Definir las rutas para las carpetas de entrenamiento y prueba
train_dir = os.path.join(base_dir, 'train')  # Cambia 'train' si el nombre de la carpeta es diferente
test_dir = os.path.join(base_dir, 'test')    # Cambia 'test' si el nombre de la carpeta es diferente

print("Train Directory:", train_dir)
print("Test Directory:", test_dir)


# Preprocesamiento de imágenes
img_height, img_width = 150, 150
batch_size = 32

train_datagen = ImageDataGenerator(
    rescale=1.0/255,
    rotation_range=20,
    width_shift_range=0.2,
    height_shift_range=0.2,
    shear_range=0.2,
    zoom_range=0.2,
    horizontal_flip=True,
    fill_mode="nearest"
)

test_datagen = ImageDataGenerator(rescale=1.0/255)

# Generadores de datos
train_generator = train_datagen.flow_from_directory(
    train_dir,
    target_size=(img_height, img_width),
    batch_size=batch_size,
    class_mode="binary"
)

test_generator = test_datagen.flow_from_directory(
    test_dir,
    target_size=(img_height, img_width),
    batch_size=batch_size,
    class_mode="binary"
)

# Construcción del modelo
model = Sequential([
    Conv2D(32, (3, 3), activation="relu", input_shape=(img_height, img_width, 3)),
    MaxPooling2D(pool_size=(2, 2)),
    Conv2D(64, (3, 3), activation="relu"),
    MaxPooling2D(pool_size=(2, 2)),
    Conv2D(128, (3, 3), activation="relu"),
    MaxPooling2D(pool_size=(2, 2)),
    Flatten(),
    Dense(128, activation="relu"),
    Dropout(0.5),
    Dense(1, activation="sigmoid")  # Clasificación binaria
])

# Compilación del modelo
model.compile(optimizer="adam", loss="binary_crossentropy", metrics=["accuracy"])

# Entrenamiento del modelo
epochs = 10
history = model.fit(
    train_generator,
    epochs=epochs,
    validation_data=test_generator
)

# Evaluación del modelo
test_loss, test_acc = model.evaluate(test_generator)
print(f"Test Accuracy: {test_acc:.2f}")

Train Directory: C:\Users\cgodo\.cache\kagglehub\datasets\samuelcortinhas\muffin-vs-chihuahua-image-classification\versions\2\train
Test Directory: C:\Users\cgodo\.cache\kagglehub\datasets\samuelcortinhas\muffin-vs-chihuahua-image-classification\versions\2\test
Found 4733 images belonging to 2 classes.
Found 1184 images belonging to 2 classes.


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)
  self._warn_if_super_not_called()


Epoch 1/10
[1m148/148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m59s[0m 387ms/step - accuracy: 0.6322 - loss: 0.7764 - val_accuracy: 0.7179 - val_loss: 0.5053
Epoch 2/10
[1m148/148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m54s[0m 367ms/step - accuracy: 0.7981 - loss: 0.4739 - val_accuracy: 0.8716 - val_loss: 0.3611
Epoch 3/10
[1m148/148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m53s[0m 357ms/step - accuracy: 0.7743 - loss: 0.4699 - val_accuracy: 0.8674 - val_loss: 0.3294
Epoch 4/10
[1m148/148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m54s[0m 365ms/step - accuracy: 0.8343 - loss: 0.4071 - val_accuracy: 0.8860 - val_loss: 0.2967
Epoch 5/10
[1m148/148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m55s[0m 371ms/step - accuracy: 0.8490 - loss: 0.3711 - val_accuracy: 0.8657 - val_loss: 0.3411
Epoch 6/10
[1m148/148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m51s[0m 341ms/step - accuracy: 0.8564 - loss: 0.3397 - val_accuracy: 0.8725 - val_loss: 0.3182
Epoch 7/10

### Convolucion 2

In [41]:

# Aumentación de datos para el entrenamiento

train_datagen = ImageDataGenerator(
    rescale=1.0/255,  # Normalización (valores entre 0 y 1)
    rotation_range=20,  # Rotaciones aleatorias de hasta 20 grados
    width_shift_range=0.2,  # Desplazamiento horizontal de hasta 20%
    height_shift_range=0.2,  # Desplazamiento vertical de hasta 20%
    shear_range=0.2,  # Corte/distorsión
    zoom_range=0.2,  # Zoom aleatorio
    horizontal_flip=True,  # Inversión horizontal
    fill_mode="nearest"  # Relleno de los bordes
)

# Preprocesamiento para el conjunto de prueba (sin aumentación)
test_datagen = ImageDataGenerator(rescale=1.0/255)

# Generadores de datos
train_generator = train_datagen.flow_from_directory(
    train_dir,
    target_size=(img_height, img_width),
    batch_size=batch_size,
    class_mode="binary"  # Clasificación binaria
)

test_generator = test_datagen.flow_from_directory(
    test_dir,
    target_size=(img_height, img_width),
    batch_size=batch_size,
    class_mode="binary"
)

# Construcción del modelo
model = Sequential([
    # Primera capa convolucional
    Conv2D(32, (3, 3), activation="relu", input_shape=(img_height, img_width, 3)),
    BatchNormalization(),  # Normaliza las activaciones
    MaxPooling2D(pool_size=(2, 2)),

    # Segunda capa convolucional
    Conv2D(64, (3, 3), activation="relu"),
    BatchNormalization(),
    MaxPooling2D(pool_size=(2, 2)),

    # Tercera capa convolucional
    Conv2D(128, (3, 3), activation="relu"),
    BatchNormalization(),
    MaxPooling2D(pool_size=(2, 2)),

    # Cuarta capa convolucional
    Conv2D(256, (3, 3), activation="relu"),
    BatchNormalization(),
    MaxPooling2D(pool_size=(2, 2)),

    # Global Average Pooling
    GlobalAveragePooling2D(),  # Reduce las características a un vector global

    # Capa densa
    Dense(256, activation="relu"),
    Dropout(0.5),  # Regularización para evitar sobreajuste

    # Capa de salida
    Dense(1, activation="sigmoid")  # Clasificación binaria
])

# Compilación del modelo
model.compile(
    optimizer=Adam(learning_rate=0.0001),  # Tasa de aprendizaje ajustada
    loss="binary_crossentropy",  # Pérdida para clasificación binaria
    metrics=["accuracy"]  # Métrica para evaluar el rendimiento
)


# Entrenamiento del modelo
epochs = 10  # Número de ciclos de entrenamiento
history = model.fit(
    train_generator,
    epochs=epochs,
    validation_data=test_generator
)

# Evaluación del modelo
test_loss, test_acc = model.evaluate(test_generator)
print(f"Test Accuracy: {test_acc:.2f}")

Found 4733 images belonging to 2 classes.
Found 1184 images belonging to 2 classes.


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)
  self._warn_if_super_not_called()


Epoch 1/10
[1m148/148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m89s[0m 588ms/step - accuracy: 0.7458 - loss: 0.5326 - val_accuracy: 0.5405 - val_loss: 0.9437
Epoch 2/10
[1m148/148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m90s[0m 609ms/step - accuracy: 0.8603 - loss: 0.3401 - val_accuracy: 0.5397 - val_loss: 1.2518
Epoch 3/10
[1m148/148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m86s[0m 579ms/step - accuracy: 0.8790 - loss: 0.2926 - val_accuracy: 0.8041 - val_loss: 0.4312
Epoch 4/10
[1m148/148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m87s[0m 588ms/step - accuracy: 0.8946 - loss: 0.2731 - val_accuracy: 0.9113 - val_loss: 0.2445
Epoch 5/10
[1m148/148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m86s[0m 580ms/step - accuracy: 0.9024 - loss: 0.2541 - val_accuracy: 0.8868 - val_loss: 0.2774
Epoch 6/10
[1m148/148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m86s[0m 584ms/step - accuracy: 0.9092 - loss: 0.2346 - val_accuracy: 0.8885 - val_loss: 0.2680
Epoch 7/10

### Perceptrón Multicapa (MLP)

In [42]:

# Preprocesamiento de imágenes

img_height, img_width = 150, 150  # Tamaño de las imágenes (se redimensionan a 150x150)
batch_size = 32

train_datagen = ImageDataGenerator(
    rescale=1.0/255,  # Normalización
    rotation_range=30,  # Más rotación para aumentar la variabilidad
    width_shift_range=0.2,
    height_shift_range=0.2,
    shear_range=0.3,  # Más corte
    zoom_range=0.3,  # Más zoom
    horizontal_flip=True,
    fill_mode="nearest"
)

test_datagen = ImageDataGenerator(rescale=1.0/255)

# Generadores de datos
train_generator = train_datagen.flow_from_directory(
    train_dir,
    target_size=(img_height, img_width),
    batch_size=batch_size,
    class_mode="binary"
)

test_generator = test_datagen.flow_from_directory(
    test_dir,
    target_size=(img_height, img_width),
    batch_size=batch_size,
    class_mode="binary"
)

# Construcción del modelo Perceptrón Multicapa (MLP) Mejorado

model = Sequential([
    Flatten(input_shape=(img_height, img_width, 3)),  # Aplanar las imágenes
    Dense(1024, activation="relu"),  # Más neuronas para mayor capacidad
    BatchNormalization(),            # Normalización por lotes para estabilizar el entrenamiento
    Dropout(0.5),                    # Regularización para reducir sobreajuste
    Dense(512, activation="relu"),   # Segunda capa totalmente conectada
    BatchNormalization(),
    Dropout(0.5),
    Dense(256, activation="relu"),   # Capa adicional para mayor profundidad
    BatchNormalization(),
    Dropout(0.5),
    Dense(1, activation="sigmoid")   # Clasificación binaria
])

# Compilación del modelo
model.compile(
    optimizer=Adam(learning_rate=0.0001),  # Tasa de aprendizaje más baja para mayor estabilidad
    loss="binary_crossentropy",          # Función de pérdida para clasificación binaria
    metrics=["accuracy"]
)

# Callbacks para mejorar el entrenamiento
early_stopping = EarlyStopping(
    monitor="val_loss",  # Monitorea la pérdida de validación
    patience=5,          # Detener si no mejora después de 5 épocas
    restore_best_weights=True
)

# Entrenamiento del modelo
epochs = 50  # Más épocas para darle tiempo al modelo a aprender
history = model.fit(
    train_generator,
    epochs=epochs,
    validation_data=test_generator,
    callbacks=[early_stopping]  # Implementa parada temprana
)

# Evaluación del modelo
test_loss, test_acc = model.evaluate(test_generator)
print(f"Test Accuracy: {test_acc:.2f}")

# Guardar el modelo
model.save("muffin_vs_chihuahua_mlp_model_improved.h5")

Found 4733 images belonging to 2 classes.
Found 1184 images belonging to 2 classes.


  super().__init__(**kwargs)


Epoch 1/50
[1m148/148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m90s[0m 595ms/step - accuracy: 0.5570 - loss: 0.9133 - val_accuracy: 0.5811 - val_loss: 0.9194
Epoch 2/50
[1m148/148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m87s[0m 590ms/step - accuracy: 0.5935 - loss: 0.8378 - val_accuracy: 0.6267 - val_loss: 0.7059
Epoch 3/50
[1m148/148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m89s[0m 602ms/step - accuracy: 0.6287 - loss: 0.7747 - val_accuracy: 0.7103 - val_loss: 0.5484
Epoch 4/50
[1m148/148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m92s[0m 619ms/step - accuracy: 0.6354 - loss: 0.7570 - val_accuracy: 0.6985 - val_loss: 0.5539
Epoch 5/50
[1m148/148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m93s[0m 627ms/step - accuracy: 0.6465 - loss: 0.7362 - val_accuracy: 0.6546 - val_loss: 0.6004
Epoch 6/50
[1m148/148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m90s[0m 611ms/step - accuracy: 0.6367 - loss: 0.7413 - val_accuracy: 0.7044 - val_loss: 0.5587
Epoch 7/50



Test Accuracy: 0.71


# 2. **Modelo 2**

In [45]:
# Función para cargar imágenes
def load_images_from_directory_with_tqdm(directory, target_size=(150, 150)):
    data = []
    for label in tqdm(os.listdir(directory), desc="Cargando carpetas (clases)"):
        label_dir = os.path.join(directory, label)
        if os.path.isdir(label_dir):  # Verifica que sea un directorio
            for image_file in tqdm(os.listdir(label_dir), desc=f"Cargando imágenes de {label}", leave=False):
                image_path = os.path.join(label_dir, image_file)
                data.append({'image_path': image_path, 'label': label})
    return pd.DataFrame(data)

In [47]:
# Cargar datos de entrenamiento y prueba
train_data = load_images_from_directory_with_tqdm(r"C:\Users\cgodo\.cache\kagglehub\datasets\samuelcortinhas\muffin-vs-chihuahua-image-classification\versions\2\train")
test_data = load_images_from_directory_with_tqdm(r"C:\Users\cgodo\.cache\kagglehub\datasets\samuelcortinhas\muffin-vs-chihuahua-image-classification\versions\2\test")

# Función para convertir rutas de imágenes
def prepare_images_with_tqdm(data, target_size=(150, 150)):
    images = []
    labels = []
    for _, row in tqdm(data.iterrows(), desc="Cargando imágenes", total=len(data)):
        image = load_img(row['image_path'], target_size=target_size)  
        image_array = img_to_array(image) / 255.0  
        images.append(image_array)
        labels.append(row['label'])
    return np.array(images), np.array(labels)

Cargando carpetas (clases): 100%|██████████| 2/2 [00:00<00:00, 69.04it/s]
Cargando carpetas (clases): 100%|██████████| 2/2 [00:00<00:00, 111.07it/s]


In [48]:
# Preprocesar datos
X_train, y_train = prepare_images_with_tqdm(train_data)
X_test, y_test = prepare_images_with_tqdm(test_data)

# Convertir etiquetas a valores binarios (0 y 1)
encoder = LabelEncoder()
y_train = encoder.fit_transform(y_train)
y_test = encoder.transform(y_test)

# Modelo de Perceptrón Multicapa
mlp_model = Sequential([
    Flatten(input_shape=(150, 150, 3)),  
    Dense(256, activation='relu'),  
    Dropout(0.5),  
    Dense(128, activation='relu'),  
    Dropout(0.5),
    Dense(1, activation='sigmoid')  #
])

# Compilación del modelo
mlp_model.compile(optimizer=Adam(learning_rate=0.001), loss='binary_crossentropy', metrics=['accuracy'])

# Entrenamiento del MLP
print("\nEntrenando el modelo MLP...")
mlp_history = mlp_model.fit(X_train, y_train, epochs=10, validation_data=(X_test, y_test), batch_size=32)

# Evaluación del MLP
loss, accuracy = mlp_model.evaluate(X_test, y_test)
print(f"\nResultados del modelo MLP:")
print(f"Pérdida: {loss:.4f}, Precisión: {accuracy * 100:.2f}%")

Cargando imágenes: 100%|██████████| 4733/4733 [00:15<00:00, 298.29it/s]
Cargando imágenes: 100%|██████████| 1184/1184 [00:03<00:00, 316.24it/s]
  super().__init__(**kwargs)



Entrenando el modelo MLP...
Epoch 1/10
[1m148/148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m18s[0m 113ms/step - accuracy: 0.4916 - loss: 13.1328 - val_accuracy: 0.5405 - val_loss: 0.6905
Epoch 2/10
[1m148/148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m17s[0m 111ms/step - accuracy: 0.5452 - loss: 0.6919 - val_accuracy: 0.5405 - val_loss: 0.6909
Epoch 3/10
[1m148/148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m17s[0m 113ms/step - accuracy: 0.5512 - loss: 0.6901 - val_accuracy: 0.5405 - val_loss: 0.6902
Epoch 4/10
[1m148/148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m17s[0m 112ms/step - accuracy: 0.5331 - loss: 0.7237 - val_accuracy: 0.5405 - val_loss: 0.6900
Epoch 5/10
[1m148/148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m17s[0m 113ms/step - accuracy: 0.5352 - loss: 0.6907 - val_accuracy: 0.5405 - val_loss: 0.6899
Epoch 6/10
[1m148/148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m17s[0m 115ms/step - accuracy: 0.5359 - loss: 0.6906 - val_accuracy: 0.5405

In [49]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense, Dropout
from tensorflow.keras.optimizers import Adam

# Modelo CNN
cnn_model = Sequential([
    # Primera capa convolucional + max pooling
    Conv2D(32, (3, 3), activation='relu', input_shape=(150, 150, 3)),  
    MaxPooling2D(pool_size=(2, 2)), 

    # Segunda capa convolucional + max pooling
    Conv2D(64, (3, 3), activation='relu'),
    MaxPooling2D(pool_size=(2, 2)),

    # Tercera capa convolucional + max pooling
    Conv2D(128, (3, 3), activation='relu'),
    MaxPooling2D(pool_size=(2, 2)),

    # Aplanar y capas densas
    Flatten(),
    Dense(128, activation='relu'),  
    Dropout(0.5),  
    Dense(1, activation='sigmoid')  
])

# Compilación del modelo
cnn_model.compile(optimizer=Adam(learning_rate=0.001), loss='binary_crossentropy', metrics=['accuracy'])

# Entrenamiento del modelo CNN
print("\nEntrenando el modelo CNN...")
cnn_history = cnn_model.fit(X_train, y_train, epochs=10, validation_data=(X_test, y_test), batch_size=32)

# Evaluación del modelo CNN
cnn_loss, cnn_accuracy = cnn_model.evaluate(X_test, y_test)
print(f"\nResultados del modelo CNN:")
print(f"Pérdida: {cnn_loss:.4f}, Precisión: {cnn_accuracy * 100:.2f}%")

  super().__init__(activity_regularizer=activity_regularizer, **kwargs)



Entrenando el modelo CNN...
Epoch 1/10
[1m148/148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m29s[0m 186ms/step - accuracy: 0.6388 - loss: 0.6358 - val_accuracy: 0.8429 - val_loss: 0.3610
Epoch 2/10
[1m148/148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m27s[0m 184ms/step - accuracy: 0.8369 - loss: 0.3917 - val_accuracy: 0.8387 - val_loss: 0.3563
Epoch 3/10
[1m148/148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m27s[0m 184ms/step - accuracy: 0.8536 - loss: 0.3486 - val_accuracy: 0.8834 - val_loss: 0.2748
Epoch 4/10
[1m148/148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m27s[0m 183ms/step - accuracy: 0.9005 - loss: 0.2532 - val_accuracy: 0.8666 - val_loss: 0.3106
Epoch 5/10
[1m148/148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m27s[0m 184ms/step - accuracy: 0.9146 - loss: 0.2164 - val_accuracy: 0.8995 - val_loss: 0.2383
Epoch 6/10
[1m148/148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m27s[0m 184ms/step - accuracy: 0.9298 - loss: 0.1945 - val_accuracy: 0.9088 

In [50]:
print("\nComparación entre MLP y CNN:")
print(f"MLP - Precisión: {accuracy * 100:.2f}%")
print(f"CNN - Precisión: {cnn_accuracy * 100:.2f}%")


Comparación entre MLP y CNN:
MLP - Precisión: 54.05%
CNN - Precisión: 91.98%


In [51]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense, Dropout, BatchNormalization

In [52]:
# Modelo CNN Mejorado
cnn_model_mejorado = Sequential([
    # Primera capa convolucional + batch normalization + max pooling
    Conv2D(32, (3, 3), activation='relu', input_shape=(150, 150, 3)),
    BatchNormalization(),
    MaxPooling2D(pool_size=(2, 2)),

    # Segunda capa convolucional + batch normalization + max pooling
    Conv2D(64, (3, 3), activation='relu'),
    BatchNormalization(),
    MaxPooling2D(pool_size=(2, 2)),

    # Tercera capa convolucional + batch normalization + max pooling
    Conv2D(128, (3, 3), activation='relu'),
    BatchNormalization(),
    MaxPooling2D(pool_size=(2, 2)),

    # Cuarta capa convolucional + batch normalization + max pooling
    Conv2D(256, (3, 3), activation='relu'),
    BatchNormalization(),
    MaxPooling2D(pool_size=(2, 2)),

    # Aplanar y capas densas
    Flatten(),
    Dense(512, activation='relu'),  # Capa densa grande
    Dropout(0.5),  # Regularización
    Dense(256, activation='relu'),  # Capa densa adicional
    Dropout(0.5),
    Dense(1, activation='sigmoid')  # Capa de salida (clasificación binaria)
])

# Compilación del modelo
cnn_model_mejorado.compile(
    optimizer=Adam(learning_rate=0.0005),  # Learning rate más bajo
    loss='binary_crossentropy',
    metrics=['accuracy']
)

# Entrenamiento del modelo CNN Mejorado
print("\nEntrenando el modelo CNN Mejorado...")
cnn_history_mejorado = cnn_model_mejorado.fit(
    X_train, y_train,
    epochs=20,  # Más épocas para mejorar el aprendizaje
    validation_data=(X_test, y_test),
    batch_size=32
)

# Evaluación del modelo CNN Mejorado
cnn_loss_mejorado, cnn_accuracy_mejorado = cnn_model_mejorado.evaluate(X_test, y_test)
print(f"\nResultados del modelo CNN Mejorado:")
print(f"Pérdida: {cnn_loss_mejorado:.4f}, Precisión: {cnn_accuracy_mejorado * 100:.2f}%")


Entrenando el modelo CNN Mejorado...
Epoch 1/20
[1m148/148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m76s[0m 495ms/step - accuracy: 0.7036 - loss: 1.5623 - val_accuracy: 0.5405 - val_loss: 2.6217
Epoch 2/20
[1m148/148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m73s[0m 492ms/step - accuracy: 0.8235 - loss: 0.5486 - val_accuracy: 0.5405 - val_loss: 1.6550
Epoch 3/20
[1m148/148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m73s[0m 492ms/step - accuracy: 0.8635 - loss: 0.3922 - val_accuracy: 0.6292 - val_loss: 1.1377
Epoch 4/20
[1m148/148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m73s[0m 496ms/step - accuracy: 0.8818 - loss: 0.3441 - val_accuracy: 0.9096 - val_loss: 0.2571
Epoch 5/20
[1m148/148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m73s[0m 492ms/step - accuracy: 0.9095 - loss: 0.2516 - val_accuracy: 0.8699 - val_loss: 0.3294
Epoch 6/20
[1m148/148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m73s[0m 491ms/step - accuracy: 0.9154 - loss: 0.2314 - val_accuracy

In [53]:
# Predicciones para el conjunto de prueba
y_pred = cnn_model_mejorado.predict(X_test)

# Convertir las probabilidades a clases binarias (0 = muffin, 1 = chihuahua)
y_pred_binary = (y_pred > 0.5).astype(int).flatten()

# Contar cuántas imágenes fueron clasificadas como "chihuahua"
chihuahua_predicted_count = (y_pred_binary == 1).sum()

# Mostrar resultados
print(f"Total de imágenes clasificadas como 'chihuahua': {chihuahua_predicted_count} de {len(y_test)} imágenes de prueba.")

# Evaluar precisión del modelo
from sklearn.metrics import classification_report
print("\nReporte de clasificación:")
print(classification_report(y_test, y_pred_binary, target_names=encoder.classes_))

[1m37/37[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 81ms/step
Total de imágenes clasificadas como 'chihuahua': 550 de 1184 imágenes de prueba.

Reporte de clasificación:
              precision    recall  f1-score   support

   chihuahua       0.94      0.93      0.94       640
      muffin       0.92      0.93      0.93       544

    accuracy                           0.93      1184
   macro avg       0.93      0.93      0.93      1184
weighted avg       0.93      0.93      0.93      1184



# 3. **Modelo 3**

In [59]:
# Importar las bibliotecas necesarias
from tensorflow.keras.applications import MobileNet
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout, GlobalAveragePooling2D
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.preprocessing.image import ImageDataGenerator

# Rutas actualizadas del dataset
data_dir = r"C:\Users\cgodo\.cache\kagglehub\datasets\samuelcortinhas\muffin-vs-chihuahua-image-classification\versions\2"
train_dir = f"{data_dir}\\train"
test_dir = f"{data_dir}\\test"

# Parámetros generales
input_shape = (150, 150, 3)
batch_size = 32

# Preprocesamiento y aumentación de imágenes
train_datagen = ImageDataGenerator(
    rescale=1.0/255,  # Normalización
    rotation_range=20,
    width_shift_range=0.2,
    height_shift_range=0.2,
    shear_range=0.2,
    zoom_range=0.2,
    horizontal_flip=True,
    fill_mode='nearest'
)

test_datagen = ImageDataGenerator(rescale=1.0/255)

# Generadores de datos
train_generator = train_datagen.flow_from_directory(
    train_dir,
    target_size=(input_shape[0], input_shape[1]),
    batch_size=batch_size,
    class_mode='binary'
)

test_generator = test_datagen.flow_from_directory(
    test_dir,
    target_size=(input_shape[0], input_shape[1]),
    batch_size=batch_size,
    class_mode='binary'
)

# Definir el modelo con transferencia de aprendizaje
def create_transfer_learning_model(input_shape=(150, 150, 3), learning_rate=1e-4):
    # Cargar el modelo base MobileNet con pesos preentrenados
    base_model = MobileNet(weights='imagenet', include_top=False, input_shape=input_shape)
    base_model.trainable = False  # Congelar las capas del modelo base

    # Construir el modelo
    model = Sequential([
        base_model,
        GlobalAveragePooling2D(),  # Reduce las características para conectarlas a capas densas
        Dense(256, activation='relu'),  # Capa densa con 256 neuronas
        Dropout(0.5),  # Regularización para evitar sobreajuste
        Dense(1, activation='sigmoid')  # Salida para clasificación binaria
    ])

    # Compilar el modelo
    model.compile(optimizer=Adam(learning_rate=learning_rate),
                loss='binary_crossentropy',
                metrics=['accuracy'])
    return model

# Crear el modelo
transfer_learning_model = create_transfer_learning_model()

# Mostrar resumen del modelo
transfer_learning_model.summary()

# Entrenar el modelo
history = transfer_learning_model.fit(
    train_generator,
    epochs=15,  # Ajustar el número de épocas según necesidad
    validation_data=test_generator
)

# Evaluar el modelo
test_loss, test_accuracy = transfer_learning_model.evaluate(test_generator)
print(f"Pérdida en prueba: {test_loss:.4f}")
print(f"Precisión en prueba: {test_accuracy:.4f}")




Found 4733 images belonging to 2 classes.
Found 1184 images belonging to 2 classes.


  base_model = MobileNet(weights='imagenet', include_top=False, input_shape=input_shape)


  self._warn_if_super_not_called()


Epoch 1/15
[1m148/148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m51s[0m 331ms/step - accuracy: 0.8149 - loss: 0.4345 - val_accuracy: 0.9814 - val_loss: 0.0449
Epoch 2/15
[1m148/148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m50s[0m 335ms/step - accuracy: 0.9619 - loss: 0.0943 - val_accuracy: 0.9873 - val_loss: 0.0342
Epoch 3/15
[1m148/148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m49s[0m 332ms/step - accuracy: 0.9712 - loss: 0.0801 - val_accuracy: 0.9848 - val_loss: 0.0323
Epoch 4/15
[1m148/148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m50s[0m 335ms/step - accuracy: 0.9727 - loss: 0.0813 - val_accuracy: 0.9873 - val_loss: 0.0271
Epoch 5/15
[1m148/148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m49s[0m 333ms/step - accuracy: 0.9812 - loss: 0.0505 - val_accuracy: 0.9890 - val_loss: 0.0260
Epoch 6/15
[1m148/148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m49s[0m 332ms/step - accuracy: 0.9804 - loss: 0.0543 - val_accuracy: 0.9899 - val_loss: 0.0245
Epoch 7/15

### Comparación de Modelos: Muffin vs Chihuahua

#### 1. Arquitectura
| Aspecto                | Modelo 1                      | Modelo 2                         | Modelo 3                      |
|------------------------|-------------------------------|----------------------------------|-------------------------------|
| **Capas CNN**          |                               | 4 (32, 64, 128, 256 filtros)     | Preentrenadas en MobileNet    |
| **Pooling**            |                               | MaxPooling (4 capas)             | Global Average Pooling        |
| **Capas Densas**       | 4 (1024, 512, 256, 1 neurona) | 2 (256 y 1 neurona)              | 1 (256 neuronas)              |
| **Regularización**     | Dropout (0.5)                 | Dropout (0.5) + BatchNorm        | Dropout (0.5)                 |
| **Entrenamiento**      | 10 épocas                     | 20 épocas                        | 15 épocas                     |

---

#### 2. Resultados por Categoría
| Métrica                       | Modelo 1                     | Modelo 2                     | Modelo 3                     |
|--------------------------------------------------------------|------------------------------|------------------------------|
| **Precisión (Entrenamiento)** |0                             |0                             |0                             |
| **Precisión (Validación)**    |0                             |0                             |0                             |
| **Precisión (Prueba)**        |0                             |0                             |0                             |
| **Pérdida (Entrenamiento)**   |0                             |0                             |0                             |
| **Pérdida (Validación)**      |0                             |0                             |0                             |

---

#### 3. Conclusión
- **Mejor Desempeño:** El modelo de **Transfer Learning** basado en MobileNet demostró el mejor rendimiento con una precisión del 99.18% en el conjunto de prueba y una pérdida mínima de 0.0186 en validación.
- **Generalización Superior:** Gracias al uso de pesos preentrenados, el modelo mostró una capacidad de generalización superior frente a los modelos básicos y mejorados, logrando resultados consistentes en todas las etapas del entrenamiento.
- **Recomendación:** Para problemas similares con datos limitados, Transfer Learning es una solución óptima por su eficiencia y capacidad de generalización. Sin embargo, es importante considerar el costo computacional frente a modelos más simples como CNN y MLP.

