# 6. Explique cuál es diferencia entre localización de objetos y clasificación de imágenes. Muestre ejemplos de ello.

En la clasificación de imágenes, el objetivo es asignar una etiqueta o categoría a toda la imagen en su conjunto. Por ejemplo, en el conjunto de datos `MNIST`, cada imagen que representa un número manuscrito recibe una etiqueta del 0 al 9 según el número que representa. Después de que un algoritmo de clasificación procesa la imagen, devuelve una etiqueta que indica la categoría a la que pertenece la imagen.

Por otro lado, la localización de objetos en una imagen implica identificar la ubicación específica de los objetos dentro de la imagen y dibujar un `bounding box` alrededor de cada objeto detectado. Por ejemplo, en el caso de los autos autónomos, las cámaras que estos llevan pueden detectar y clasificar objetos como autos y peatones en la misma imagen.

## Ejemplo clasificación

In [1]:
import tensorflow as tf
from tensorflow.keras.applications import EfficientNetB0
from tensorflow.keras.applications.efficientnet import preprocess_input, decode_predictions
from tensorflow.keras.preprocessing import image
from PIL import Image
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.image as mpimg

2024-04-22 22:57:46.056558: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:9261] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2024-04-22 22:57:46.056588: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:607] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2024-04-22 22:57:46.057232: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1515] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2024-04-22 22:57:46.062486: I tensorflow/core/platform/cpu_feature_guard.cc:182] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.


In [3]:
# Cargar el modelo preentrenado EfficientNetB0
model = EfficientNetB0(weights='imagenet')

def clasificar_img(img_path):
    # Se carga y prepara la imagen
    img = Image.open(img_path)
    img = img.resize((224, 224))

    # Convertimos la imagen a un array
    img_array = image.img_to_array(img)
    img_array = np.expand_dims(img_array, axis=0)
    img_array = preprocess_input(img_array)

    # Realizamos la predicción
    predictions = model.predict(img_array)

    # Retornamos las predicciones
    return decode_predictions(predictions, top=3)[0]

In [6]:
imgs = [f'img/img{i}.jpeg' for i in range(1, 8)]

for img_path in imgs:
    prediccion = clasificar_img(img_path)

    print(f'\nPredicciones para la imagen {img_path}:')

    for i, (imagenet_id, label, score) in enumerate(prediccion):
        print(f'{i + 1}: {label} ({score:.2f})')


Predicciones para la imagen img/img1.jpeg:
1: packet (0.90)
2: rubber_eraser (0.03)
3: oil_filter (0.01)

Predicciones para la imagen img/img2.jpeg:
1: packet (0.69)
2: oil_filter (0.04)
3: paper_towel (0.02)

Predicciones para la imagen img/img3.jpeg:
1: packet (0.56)
2: oil_filter (0.05)
3: plastic_bag (0.05)

Predicciones para la imagen img/img4.jpeg:
1: oil_filter (0.18)
2: packet (0.12)
3: carton (0.10)

Predicciones para la imagen img/img5.jpeg:
1: mousetrap (0.09)
2: packet (0.08)
3: can_opener (0.05)

Predicciones para la imagen img/img6.jpeg:
1: oil_filter (0.09)
2: ashcan (0.04)
3: pencil_sharpener (0.03)

Predicciones para la imagen img/img7.jpeg:
1: packet (0.32)
2: oil_filter (0.24)
3: rubber_eraser (0.06)


## Ejemplo localización

In [9]:
import cv2
from ultralytics import YOLO

In [10]:
# Load the pre-trained YOLOv8 model
model = YOLO('yolov8n')  # This will automatically download the model weights
# Prueba con una imagen local

# Run batched inference on a list of images
results = model(imgs)

# Process results list
for i, result in enumerate(results):
    boxes = result.boxes  # Boxes object for bounding box outputs
    masks = result.masks  # Masks object for segmentation masks outputs
    keypoints = result.keypoints  # Keypoints object for pose outputs
    probs = result.probs  # Probs object for classification outputs
    result.show()  # display to screen
    filename_result = f'img/result_{i + 1}.jpg'
    result.save(filename=filename_result)  # save to disk

Downloading https://github.com/ultralytics/assets/releases/download/v8.2.0/yolov8n.pt to 'yolov8n.pt'...


100%|██████████| 6.23M/6.23M [00:01<00:00, 6.21MB/s]



0: 640x640 1 bottle, 61.0ms
1: 640x640 (no detections), 61.0ms
2: 640x640 1 stop sign, 61.0ms
3: 640x640 1 bottle, 61.0ms
4: 640x640 (no detections), 61.0ms
5: 640x640 (no detections), 61.0ms
6: 640x640 1 cup, 61.0ms
Speed: 3.1ms preprocess, 61.0ms inference, 77.7ms postprocess per image at shape (1, 3, 640, 640)



** (xviewer:42836): CRITICAL **: 23:06:36.312: xviewer_list_store_get_pos_by_image: assertion 'XVIEWER_IS_IMAGE (image)' failed

** (xviewer:42836): CRITICAL **: 23:06:36.891: xviewer_list_store_get_pos_by_image: assertion 'XVIEWER_IS_IMAGE (image)' failed


Se puede observar en las imagenes de salida que este modelo resultó funcionar bien con las imagenes de este ejemplo.