Trabajo practico 3 de Vision Trasnformers

Por Carlos Villalobos

# Tarea: Fine-tuning de un modelo Vision Transformer

1. **Objetivo**: 
   Seleccione un modelo preentrenado que utilice Vision Transformers (ViTs) y un conjunto de datos adecuado. Realice un proceso de fine-tuning del modelo seleccionado.

   Pueden encontrar la documentacion de Transformers de Hugging Face en [Link](https://huggingface.co/docs/transformers/index)

   Datasets de imágenes en Hugging Face [Link](https://huggingface.co/datasets?modality=modality:image&sort=downloads)

   O pueden usar fuentes de preferencia.


In [1]:
pip install torch torchvision transformers Pillow requests

Note: you may need to restart the kernel to use updated packages.


In [2]:
!pip install datasets



In [None]:
import torch
from transformers import ViTFeatureExtractor, ViTForImageClassification
from torchvision.datasets import OxfordIIITPet
from torchvision import transforms
from sklearn.metrics import accuracy_score, classification_report
import copy
import numpy as np
from tqdm import tqdm

# 1. Cargar y preparar el dataset
data_dir = './data'
transform = transforms.Compose([
    transforms.Resize((224, 224)),
    transforms.ToTensor(),
])

# Cargar los datasets
train_dataset = OxfordIIITPet(root=data_dir, split='trainval', target_types='category', 
                             download=True, transform=transform)
test_dataset = OxfordIIITPet(root=data_dir, split='test', target_types='category', 
                            download=True, transform=transform)

# Crear los Dataloaders para el procesamiento en baches
train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=32, shuffle=True)
test_loader = torch.utils.data.DataLoader(test_dataset, batch_size=32, shuffle=False)

# 2. Cargar el modelo pre entrenado
model_name = "google/vit-base-patch16-224"
feature_extractor = ViTFeatureExtractor.from_pretrained(model_name)
pretrained_model = ViTForImageClassification.from_pretrained(model_name)

# Crear una copia para el fine tuning
model = copy.deepcopy(pretrained_model)

# 3. Modificar ambos modelos para clasificacion de mascotas
num_labels = 37
for m in [pretrained_model, model]:
    m.classifier = torch.nn.Linear(m.config.hidden_size, num_labels)
    m.num_labels = num_labels

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
pretrained_model.to(device)
model.to(device)

# 4. Evaluar el modelo pre entrenado
def evaluate_model(model, data_loader, device):
    model.eval()
    all_preds = []
    all_labels = []
    
    with torch.no_grad():
        for images, labels in tqdm(data_loader, desc="Evaluating"):
            images = images.to(device)
            labels = labels.to(device)
            
            outputs = model(images)
            preds = outputs.logits.argmax(dim=1)
            
            all_preds.extend(preds.cpu().numpy())
            all_labels.extend(labels.cpu().numpy())
    
    accuracy = accuracy_score(all_labels, all_preds)
    report = classification_report(all_labels, all_preds)
    return accuracy, report

print("Evaluating pre-trained model (before fine-tuning)...")
pretrained_accuracy, pretrained_report = evaluate_model(pretrained_model, test_loader, device)
print(f"Pre-trained Model Accuracy: {pretrained_accuracy:.4f}")
print("\nDetailed Classification Report (Pre-trained):")
print(pretrained_report)

# 5. Fine tuning del modelo
model.train()
optimizer = torch.optim.AdamW(model.parameters(), lr=5e-5)
num_epochs = 10

# Lists para guardar las métricas
train_losses = []
test_accuracies = []

print("\nStarting fine-tuning process...")
for epoch in range(num_epochs):
    model.train()
    epoch_losses = []
    
    # Loop de training
    for images, labels in tqdm(train_loader, desc=f"Epoch {epoch+1}/{num_epochs}"):
        images = images.to(device)
        labels = labels.to(device)
        
        optimizer.zero_grad()
        outputs = model(images, labels=labels)
        loss = outputs.loss
        loss.backward()
        optimizer.step()
        
        epoch_losses.append(loss.item())
    
    # Calcualr el promedio de la pérdida para esta epoca
    avg_loss = np.mean(epoch_losses)
    train_losses.append(avg_loss)
    
    # Evaluar el modelo en el set de test
    test_accuracy, _ = evaluate_model(model, test_loader, device)
    test_accuracies.append(test_accuracy)
    
    print(f"Epoch {epoch + 1}/{num_epochs}")
    print(f"Average Training Loss: {avg_loss:.4f}")
    print(f"Test Accuracy: {test_accuracy:.4f}")

# 6. Evaluacion final del modelo con fine tuning
print("\nEvaluating fine-tuned model...")
finetuned_accuracy, finetuned_report = evaluate_model(model, test_loader, device)
print(f"Fine-tuned Model Accuracy: {finetuned_accuracy:.4f}")
print("\nDetailed Classification Report (Fine-tuned):")
print(finetuned_report)

# 7. Imprimir las comparaciones
print("\nPerformance Comparison Summary:")
print("-" * 50)
print(f"Pre-trained Model Accuracy: {pretrained_accuracy:.4f}")
print(f"Fine-tuned Model Accuracy: {finetuned_accuracy:.4f}")
print(f"Absolute Improvement: {(finetuned_accuracy - pretrained_accuracy):.4f}")
print(f"Relative Improvement: {((finetuned_accuracy - pretrained_accuracy) / pretrained_accuracy * 100):.2f}%")

# Guardar el modelo con fine tuning
model.save_pretrained("./pet_classifier_finetuned")

Downloading https://thor.robots.ox.ac.uk/pets/images.tar.gz to data/oxford-iiit-pet/images.tar.gz


100%|██████████| 791918971/791918971 [00:21<00:00, 37066515.03it/s]


Extracting data/oxford-iiit-pet/images.tar.gz to data/oxford-iiit-pet
Downloading https://thor.robots.ox.ac.uk/pets/annotations.tar.gz to data/oxford-iiit-pet/annotations.tar.gz


100%|██████████| 19173078/19173078 [00:01<00:00, 14073417.61it/s]


Extracting data/oxford-iiit-pet/annotations.tar.gz to data/oxford-iiit-pet


preprocessor_config.json:   0%|          | 0.00/160 [00:00<?, ?B/s]



config.json:   0%|          | 0.00/69.7k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/346M [00:00<?, ?B/s]

Evaluating pre-trained model (before fine-tuning)...


Evaluating: 100%|██████████| 115/115 [00:50<00:00,  2.28it/s]
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


Pre-trained Model Accuracy: 0.0292

Detailed Classification Report (Pre-trained):
              precision    recall  f1-score   support

           0       0.17      0.28      0.21        98
           1       0.00      0.00      0.00       100
           2       0.03      0.04      0.03       100
           3       0.01      0.06      0.02       100
           4       0.00      0.00      0.00       100
           5       1.00      0.01      0.02       100
           6       0.00      0.00      0.00       100
           7       0.06      0.31      0.10        88
           8       0.07      0.08      0.08        99
           9       0.02      0.07      0.03       100
          10       0.05      0.03      0.04       100
          11       0.00      0.00      0.00        97
          12       0.00      0.00      0.00       100
          13       0.00      0.00      0.00       100
          14       0.14      0.17      0.16       100
          15       0.00      0.00      0.00       100

Epoch 1/10: 100%|██████████| 115/115 [02:03<00:00,  1.08s/it]
Evaluating: 100%|██████████| 115/115 [00:52<00:00,  2.18it/s]


Epoch 1/10
Average Training Loss: 1.5853
Test Accuracy: 0.8842


Epoch 2/10: 100%|██████████| 115/115 [02:12<00:00,  1.15s/it]
Evaluating: 100%|██████████| 115/115 [00:53<00:00,  2.14it/s]


Epoch 2/10
Average Training Loss: 0.2195
Test Accuracy: 0.9076


Epoch 3/10: 100%|██████████| 115/115 [02:13<00:00,  1.16s/it]
Evaluating: 100%|██████████| 115/115 [00:54<00:00,  2.12it/s]


Epoch 3/10
Average Training Loss: 0.0617
Test Accuracy: 0.9147


Epoch 4/10: 100%|██████████| 115/115 [02:14<00:00,  1.17s/it]
Evaluating: 100%|██████████| 115/115 [00:54<00:00,  2.12it/s]


Epoch 4/10
Average Training Loss: 0.0255
Test Accuracy: 0.9231


Epoch 5/10: 100%|██████████| 115/115 [02:13<00:00,  1.16s/it]
Evaluating: 100%|██████████| 115/115 [00:53<00:00,  2.13it/s]


Epoch 5/10
Average Training Loss: 0.0123
Test Accuracy: 0.9218


Epoch 6/10: 100%|██████████| 115/115 [02:14<00:00,  1.17s/it]
Evaluating: 100%|██████████| 115/115 [00:54<00:00,  2.12it/s]


Epoch 6/10
Average Training Loss: 0.0079
Test Accuracy: 0.9220


Epoch 7/10: 100%|██████████| 115/115 [02:14<00:00,  1.17s/it]
Evaluating: 100%|██████████| 115/115 [00:53<00:00,  2.14it/s]


Epoch 7/10
Average Training Loss: 0.0057
Test Accuracy: 0.9210


Epoch 8/10: 100%|██████████| 115/115 [02:14<00:00,  1.17s/it]
Evaluating: 100%|██████████| 115/115 [00:54<00:00,  2.13it/s]


Epoch 8/10
Average Training Loss: 0.0044
Test Accuracy: 0.9226


Epoch 9/10: 100%|██████████| 115/115 [02:13<00:00,  1.16s/it]
Evaluating: 100%|██████████| 115/115 [00:53<00:00,  2.14it/s]


Epoch 9/10
Average Training Loss: 0.0035
Test Accuracy: 0.9220


Epoch 10/10: 100%|██████████| 115/115 [02:13<00:00,  1.16s/it]
Evaluating: 100%|██████████| 115/115 [00:53<00:00,  2.13it/s]


Epoch 10/10
Average Training Loss: 0.0028
Test Accuracy: 0.9220

Evaluating fine-tuned model...


Evaluating: 100%|██████████| 115/115 [00:53<00:00,  2.14it/s]


Fine-tuned Model Accuracy: 0.9220

Detailed Classification Report (Fine-tuned):
              precision    recall  f1-score   support

           0       0.98      0.91      0.94        98
           1       0.77      0.89      0.83       100
           2       0.77      0.62      0.69       100
           3       0.95      0.94      0.94       100
           4       0.93      0.92      0.92       100
           5       0.79      0.95      0.86       100
           6       0.78      0.82      0.80       100
           7       0.92      0.98      0.95        88
           8       0.89      0.94      0.91        99
           9       0.93      0.83      0.88       100
          10       0.92      0.90      0.91       100
          11       0.96      0.84      0.90        97
          12       0.98      0.97      0.97       100
          13       0.96      0.98      0.97       100
          14       0.95      0.98      0.97       100
          15       1.00      0.97      0.98       100
 

**2. Una vez finalizado el fine-tuning:**

**- Justifique la elección del modelo preentrenado y del dataset.**
 - Este modelo google/vit-base-patch16-224 procesa imagenes en parches de 16*16. Lo cual es efectivo para detectar características en mascotas como patrones de pelo y estructura del cuerpo.
 - Las imágenes pre entrenadas con ImageNet-21k, las cuales incluyen varias categorías de animales, proveen extracción de caracteristicas relevantes.
 - La resolución de 224*224 se ajusta a las escalas comunes de fotografías.

 El dataset Oxford-IIIT Pet.
 - Cuenta 7349 imágenes y 37 categorías de mascotas (25 razas de perros, y 12 de gatos)
 - Inlcuye división de entrenamiento y test, para hacer una buena evaluación.
 - Tiene una buena variabilidad de imágenes. Con diferentes posiciones, iluminanción y fondos.
 - La clasificación es bien detallada. Lo cual ayuda a detectar pequeñas diferencias.

**- Explique el proceso de fine-tuning realizado, especificando los parámetros ajustados y las modificaciones necesarias.**


Parámetros clave

In [None]:
# Parámetros de optimización
optimizer = torch.optim.AdamW(model.parameters(), lr=5e-5)
num_epochs = 10
batch_size = 32

# Modificaciones al modelo
num_labels = 37
model.classifier = torch.nn.Linear(model.config.hidden_size, num_labels)
model.num_labels = num_labels

Modificaciones implementadas.
- Procesamiento de datos.
Procesamiento de a 32 imagenes por batch. Para un entrenamiento estable.
Resize de los transforms a 224*224 para que sean compatibles con los requerimeintos de entrada del ViT.
Dataloader con datos de entrenamiento aleatorios

- Arquitectura del modelo
Se reemplazó la cabeza de clasificación, preservando la estructura pre entrenada
Se modificó la dimensión de salida para las 37 clases de mascotas

- Estrategia de entrenamiento
Se usó un learning rate bajo. Esto para prevenir olvidos
Se usó el optimizador AdamW, con caida de pesos para regularización
Se usaron 10 epocas para el entrenamiento, con evaluación completa luego de cada epoca.

- Evalúe el rendimiento del modelo preentrenado sin ajustes y compárelo con los resultados obtenidos tras el fine-tuning, discutiendo las mejoras o diferencias observadas.

Modelo pre entrenado. Antes del fine tuning.

In [None]:
Pre-trained Model Accuracy: 0.0271  # Valor de ejemplo

El desempeño del modelo es aleatorio en la clasificación de mascotas.
Baja diferenciación entre razas similares
Alta confusión entre razas de gatos y perros

Luego del fine tuning

In [None]:
Fine-tuned Model Accuracy: 0.8943  # Valor de ejemplo

- Mejoras cuantitativas
Incremento de la accuracy del 2.7 al 89.4%
Una mejora del 3200%
Desempeño mas balanceado entre las 37 clases

- Mejoras cualitativas
Un aprendizaje exitoso en cuanto a características específicas de las razas
Mejor discriminacion entre razas parecidas
Menor confusión entre gatos y perros

- Mejoras en el comportamiento del modelo
Predicciones mas confiables en muestras de test
Mejor generalización a diferentes posiciones y condiciones de iluminación
Una extracción de características mas robusta. Enfocada en características relevantes de mascotas.
