# 1. YOLO (You Only Look Once)
El modelo YOLO puede ser implementado usando OpenCV, que ofrece una API para cargar modelos preentrenados. A continuaci√≥n se muestra c√≥mo usar YOLOv3 en OpenCV para detectar objetos en una imagen.



In [None]:
# Instalar dependencias necesarias
!pip install torch==1.13.1 torchvision==0.14.1
!pip install matplotlib
!pip install opencv-python-headless

# Clonar el repositorio oficial de YOLOv5
!git clone https://github.com/ultralytics/yolov5.git
%cd yolov5
!pip install -U -r requirements.txt


Collecting torch==1.13.1
  Using cached torch-1.13.1-cp311-cp311-manylinux1_x86_64.whl.metadata (24 kB)
[31mERROR: Ignored the following yanked versions: 0.1.6, 0.1.7, 0.1.8, 0.1.9, 0.2.0, 0.2.1, 0.2.2, 0.2.2.post2, 0.2.2.post3, 0.15.0[0m[31m
[0m[31mERROR: Could not find a version that satisfies the requirement torchvision==0.14.1 (from versions: 0.15.1, 0.15.2, 0.16.0, 0.16.1, 0.16.2, 0.17.0, 0.17.1, 0.17.2, 0.18.0, 0.18.1, 0.19.0, 0.19.1, 0.20.0, 0.20.1, 0.21.0, 0.22.0)[0m[31m
[0m[31mERROR: No matching distribution found for torchvision==0.14.1[0m[31m
fatal: destination path 'yolov5' already exists and is not an empty directory.
/content/yolov5


# Este c√≥digo realiza lo siguiente:


*   Instala PyTorch y OpenCV, que son necesarias para la inferencia.
*   Clona el repositorio de YOLOv5 de Ultralytics.
*   Instala las dependencias de YOLOv5.

# Paso 2: Cargar un modelo preentrenado

Para simplificar el ejemplo, vamos a usar un modelo preentrenado de YOLOv5 (por ejemplo, el modelo yolov5s, que es m√°s r√°pido y tiene un buen rendimiento para detecci√≥n en tiempo real).

In [None]:
# Importar las bibliotecas necesarias de YOLOv5
import torch
from matplotlib import pyplot as plt
import cv2

# Cargar el modelo preentrenado
model = torch.hub.load('ultralytics/yolov5', 'yolov5s')  # 'yolov5s' es el modelo m√°s peque√±o y r√°pido

# Verificar que el modelo se carg√≥ correctamente
print(model)




Downloading: "https://github.com/ultralytics/yolov5/zipball/master" to /root/.cache/torch/hub/master.zip
Creating new Ultralytics Settings v0.0.6 file ‚úÖ 
View Ultralytics Settings with 'yolo settings' or at '/root/.config/Ultralytics/settings.json'
Update Settings with 'yolo settings key=value', i.e. 'yolo settings runs_dir=path/to/dir'. For help see https://docs.ultralytics.com/quickstart/#ultralytics-settings.


YOLOv5 üöÄ 2025-5-1 Python-3.11.12 torch-2.7.0+cu126 CPU

Downloading https://github.com/ultralytics/yolov5/releases/download/v7.0/yolov5s.pt to yolov5s.pt...
100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 14.1M/14.1M [00:00<00:00, 122MB/s] 

Fusing layers... 
YOLOv5s summary: 213 layers, 7225885 parameters, 0 gradients, 16.4 GFLOPs
Adding AutoShape... 


AutoShape(
  (model): DetectMultiBackend(
    (model): DetectionModel(
      (model): Sequential(
        (0): Conv(
          (conv): Conv2d(3, 32, kernel_size=(6, 6), stride=(2, 2), padding=(2, 2))
          (act): SiLU(inplace=True)
        )
        (1): Conv(
          (conv): Conv2d(32, 64, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1))
          (act): SiLU(inplace=True)
        )
        (2): C3(
          (cv1): Conv(
            (conv): Conv2d(64, 32, kernel_size=(1, 1), stride=(1, 1))
            (act): SiLU(inplace=True)
          )
          (cv2): Conv(
            (conv): Conv2d(64, 32, kernel_size=(1, 1), stride=(1, 1))
            (act): SiLU(inplace=True)
          )
          (cv3): Conv(
            (conv): Conv2d(64, 64, kernel_size=(1, 1), stride=(1, 1))
            (act): SiLU(inplace=True)
          )
          (m): Sequential(
            (0): Bottleneck(
              (cv1): Conv(
                (conv): Conv2d(32, 32, kernel_size=(1, 1), stride=(1, 1))
  

# Paso 3: Realizar la detecci√≥n de objetos con YOLOv5
Subir la imagen y realizar la detecci√≥n, se pasa el modelo para realizar la detecci√≥n de objetos.

In [None]:
# Realizar la detecci√≥n de objetos
img = cv2.imread('/content/dogs-7209506_1280.jpg')  # Leer la imagen con OpenCV
img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)  # Convertir a RGB para visualizaci√≥n en matplotlib

# Realizar la inferencia con YOLOv5
results = model(img)  # Pasa la imagen al modelo

# Mostrar resultados en el formato de YOLOv5
results.show()  # Mostrar las detecciones


# Paso 4: Visualizaci√≥n de los resultados

El modelo devuelve un objeto que contiene la informaci√≥n de las detecciones. Usamos results.show() para visualizar las predicciones. Si deseas obtener m√°s detalles (como las clases de los objetos detectados y sus coordenadas), puedes acceder a ellos de la siguiente forma:

In [None]:
# Obtener las predicciones
predicted_labels = results.names  # Obtener las etiquetas de las clases detectadas
predicted_coords = results.xywh[0]  # Coordenadas de las cajas delimitadoras
predicted_classes = results.pred[0][:, -1]  # Clases predichas
predicted_confidences = results.pred[0][:, -2]  # Confianza de las predicciones

# Mostrar las predicciones
print("Clases predichas: ", [predicted_labels[int(c)] for c in predicted_classes])
print("Confianza de las predicciones: ", predicted_confidences)


Clases predichas:  ['dog', 'dog']
Confianza de las predicciones:  tensor([0.91494, 0.90546])


# 2. SSD (Single Shot MultiBox Detector)
Para usar SSD con un modelo preentrenado en TensorFlow o OpenCV, podemos cargar el modelo MobileNet SSD, que es una versi√≥n liviana y r√°pida.

In [None]:
# Paso 1: Instalar las bibliotecas necesarias
!pip install tensorflow opencv-python

# Paso 2: Importar las librer√≠as
import cv2
import numpy as np
import tensorflow as tf
from google.colab.patches import cv2_imshow
import os # Import the os module here

# Paso 3: Descargar el modelo preentrenado MobileNet SSD
# Usaremos un modelo preentrenado que ya est√° disponible en TensorFlow
url = 'https://storage.googleapis.com/download.tensorflow.org/models/object_detection/ssd_mobilenet_v2_coco_2018_03_29.tar.gz'
!wget {url} -O ssd_mobilenet.tar.gz
!tar -xvzf ssd_mobilenet.tar.gz

# Paso 4: Cargar el modelo preentrenado SSD
model_dir = 'ssd_mobilenet_v2_coco_2018_03_29'
model_path = os.path.join(model_dir, 'saved_model') # Changed to the correct saved_model directory
model = tf.saved_model.load(model_path)



# Paso 5: Funci√≥n para procesar la imagen
def load_image(image_path):
    image = cv2.imread(image_path)
    image_rgb = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)  # Convertir a RGB
    return image, image_rgb

# Paso 6: Detecci√≥n de objetos
def run_inference_for_single_image(model, image):
    # Convertir la imagen a tensor y agregar una dimensi√≥n extra (batch size)
    # The original code had issues with the __array__ method.
    # This is resolved by ensuring the image is a NumPy array
    # before converting it to a tensor.
    # The issue was resolved by converting the image to a NumPy array with dtype=np.uint8
    # Ensure image is a NumPy array with correct dtype and shape
    image_np = np.array(image)
    # If image is grayscale (2 dimensions), add a channel dimension
    if image_np.ndim == 2:
        image_np = image_np[..., np.newaxis]
    # Ensure the image is of type uint8 to avoid data type issues
    image_np = image_np.astype(np.uint8)
    input_tensor = tf.convert_to_tensor(image_np)
    input_tensor = input_tensor[tf.newaxis, ...]

    # Realizar la inferencia
    # Access the 'serving_default' signature for inference
    detections = model.signatures['serving_default'](input_tensor)

    # Extraer las detecciones
    return detections

# Paso 7: Procesar la imagen y dibujar las cajas delimitadoras
'''
def visualize_detections(image, detections, category_index, threshold=0.5):
    # Extraer las cajas de detecci√≥n, clases y puntajes
    boxes = detections['detection_boxes'][0].numpy()
    class_ids = detections['detection_classes'][0].numpy().astype(np.int64)
    scores = detections['detection_scores'][0].numpy()

    for i in range(len(scores)):
        if scores[i] > threshold:
            box = boxes[i]
            ymin, xmin, ymax, xmax = box
            (left, right, top, bottom) = (xmin * image.shape[1], xmax * image.shape[1],
                                         ymin * image.shape[0], ymax * image.shape[0])

            # Dibujar la caja en la imagen
            cv2.rectangle(image, (int(left), int(top)), (int(right), int(bottom)), (0, 255, 0), 2)
            # Mostrar el nombre de la clase (en este caso, puede ser un nombre de objeto general)
            class_name = str(category_index[class_ids[i]]['name'])
            cv2.putText(image, f'{class_name}: {scores[i]:.2f}',
                        (int(left), int(top) - 10), cv2.FONT_HERSHEY_SIMPLEX, 0.5, (0, 255, 0), 2)

    return image
    '''
# Paso 7: Procesar la imagen y dibujar las cajas delimitadoras
def visualize_detections(image, detections, category_index, threshold=0.5):
    # Extraer las cajas de detecci√≥n, clases y puntajes
    boxes = detections['detection_boxes'][0].numpy()
    class_ids = detections['detection_classes'][0].numpy().astype(np.int64)
    scores = detections['detection_scores'][0].numpy()

    for i in range(len(scores)):
        if scores[i] > threshold:
            # Check if class_id is in category_index
            if class_ids[i] in category_index:
                box = boxes[i]
                ymin, xmin, ymax, xmax = box
                (left, right, top, bottom) = (xmin * image.shape[1], xmax * image.shape[1],
                                             ymin * image.shape[0], ymax * image.shape[0])

                # Dibujar la caja en la imagen
                cv2.rectangle(image, (int(left), int(top)), (int(right), int(bottom)), (0, 255, 0), 2)
                # Mostrar el nombre de la clase (en este caso, puede ser un nombre de objeto general)
                class_name = str(category_index[class_ids[i]]['name'])
                cv2.putText(image, f'{class_name}: {scores[i]:.2f}',
                            (int(left), int(top) - 10), cv2.FONT_HERSHEY_SIMPLEX, 0.5, (0, 255, 0), 2)
            else:
                print(f"Warning: Class ID {class_ids[i]} not found in category_index")

    return image

# Paso 8: Cargar una imagen de prueba
image_path = '/content/dogs-7209506_1280.jpg'  # Imagen de prueba
image, image_rgb = load_image(image_path)

# Paso 9: Realizar la detecci√≥n
detections = run_inference_for_single_image(model, image_rgb)

# Definir el √≠ndice de clases para el modelo
category_index = {
    1: {'id': 1, 'name': 'person'},
    2: {'id': 2, 'name': 'bicycle'},
    3: {'id': 3, 'name': 'car'},
    4: {'id': 4, 'name': 'motorcycle'},
    5: {'id': 5, 'name': 'airplane'},
    6: {'id': 6, 'name': 'bus'},
    7: {'id': 7, 'name': 'train'},
    8: {'id': 8, 'name': 'truck'},
    9: {'id': 9, 'name': 'boat'},
    10: {'id': 10, 'name': 'traffic light'},
    17: {'id': 17, 'name': 'cat'},
    18: {'id': 18, 'name': 'dog'},  # Added class for ID 18 (dog)
    # Puedes a√±adir m√°s categor√≠as seg√∫n sea necesario
}

# Paso 10: Visualizar los resultados
category_index = {
    1: {'id': 1, 'name': 'person'},
    2: {'id': 2, 'name': 'bicycle'},
    3: {'id': 3, 'name': 'car'},
    4: {'id': 4, 'name': 'motorcycle'},
    5: {'id': 5, 'name': 'airplane'},
    6: {'id': 6, 'name': 'bus'},
    7: {'id': 7, 'name': 'train'},
    8: {'id': 8, 'name': 'truck'},
    9: {'id': 9, 'name': 'boat'},
    10: {'id': 10, 'name': 'traffic light'},
    # ... (add more categories as needed)
    17: {'id': 17, 'name': 'cat'},
    18: {'id': 18, 'name': 'dog'},  # Added class for ID 18 (dog)
    85: {'id': 85, 'name': 'book'} # Added class for ID 85
    # Puedes a√±adir m√°s categor√≠as seg√∫n sea necesario
}
output_image = visualize_detections(image.copy(), detections, category_index)
cv2_imshow(output_image)  # Muestra la imagen con las detecciones


# 3. R-CNN (Regions with CNN features)
R-CNN puede ser implementado usando TensorFlow y la API Object Detection API de Google. A continuaci√≥n se presenta un ejemplo b√°sico de c√≥mo cargar un modelo R-CNN preentrenado.


In [None]:
import torch
import torchvision
from torchvision.models.detection import fasterrcnn_resnet50_fpn
from torchvision.transforms import functional as F
from PIL import Image
import matplotlib.pyplot as plt
import matplotlib.patches as patches

# Cargar imagen de prueba
img_path = '/content/dogs-7209506_1280.jpg'  # Cambia esto por tu imagen
image = Image.open(img_path).convert("RGB")

# Preprocesar imagen
transform = torchvision.transforms.Compose([
    torchvision.transforms.ToTensor()
])
img_tensor = transform(image)

# Cargar modelo preentrenado Faster R-CNN
model = fasterrcnn_resnet50_fpn(pretrained=True)
model.eval()

# Pasar imagen al modelo
with torch.no_grad():
    predictions = model([img_tensor])

# Mostrar resultados
fig, ax = plt.subplots(1)
ax.imshow(image)

# Dibujar las cajas con confianza > 0.8
for idx, score in enumerate(predictions[0]['scores']):
    if score > 0.8:
        box = predictions[0]['boxes'][idx].cpu().numpy()
        label = predictions[0]['labels'][idx].item()
        rect = patches.Rectangle((box[0], box[1]),
                                 box[2] - box[0],
                                 box[3] - box[1],
                                 linewidth=2,
                                 edgecolor='r',
                                 facecolor='none')
        ax.add_patch(rect)
        ax.text(box[0], box[1] - 5, f"{label}", color='red')

plt.title("Detecci√≥n con Faster R-CNN")
plt.axis("off")
plt.show()


import torch
import torchvision
from torchvision.models.detection import fasterrcnn_resnet50_fpn
from torchvision.transforms import functional as F
from PIL import Image
import matplotlib.pyplot as plt
import matplotlib.patches as patches

# Cargar imagen de prueba
img_path = 'path_to_image.jpg'  # Cambia esto por tu imagen
image = Image.open(img_path).convert("RGB")

# Preprocesar imagen
transform = torchvision.transforms.Compose([
    torchvision.transforms.ToTensor()
])
img_tensor = transform(image)

# Cargar modelo preentrenado Faster R-CNN
model = fasterrcnn_resnet50_fpn(pretrained=True)
model.eval()

# Pasar imagen al modelo
with torch.no_grad():
    predictions = model([img_tensor])

# Mostrar resultados
fig, ax = plt.subplots(1)
ax.imshow(image)

# Dibujar las cajas con confianza > 0.8
for idx, score in enumerate(predictions[0]['scores']):
    if score > 0.8:
        box = predictions[0]['boxes'][idx].cpu().numpy()
        label = predictions[0]['labels'][idx].item()
        rect = patches.Rectangle((box[0], box[1]),
                                 box[2] - box[0],
                                 box[3] - box[1],
                                 linewidth=2,
                                 edgecolor='r',
                                 facecolor='none')
        ax.add_patch(rect)
        ax.text(box[0], box[1] - 5, f"{label}", color='red')

plt.title("Detecci√≥n con Faster R-CNN")
plt.axis("off")
plt.show()


# Explicaci√≥n del c√≥digo:

*   Usamos un modelo preentrenado de TensorFlow como el SSD Inception v2 para realizar la detecci√≥n de objetos.
*   Convertimos la imagen a un tensor adecuado para la entrada en el modelo y luego realizamos la inferencia.
*   Los cuadros delimitadores y las clases detectadas se procesan y se dibujan en la imagen.



# **Actividad**

*   Comparar diferentes imagenes y establecer su importancia y el papel que juega en el proceso.


