# **TUIA - Procesamiento de Imágenes y Visión por Computadora (IA52)**
# **Trabajo Práctico Final**
### **Ejercicio 4 - Evaluación**
<br>

### *Alumno: Miguel Mussi*
### *Año: 2024*

---------------------
## **Tabla de contenidos**
1.   [**Librerías**](#)
2.   [**Ajustes Iniciales**](#)
3.   [**Optimización de inferencia**](#)
4.   [**Verificamos si los Bounding Boxes estan dentro del límite de la imagen**](#)
        1.   [*Inferencia con CPU*](#)
        2.   [*Inferencia con GPU - Sin TensorRT*](#)
        3.   [*Inferencia con GPU - Con TensorRT*](#)
        4.   [*Comparativa de Inferencias*](#)
5.   [**Guardamos las imagenes con las predicciones**](#)
6.   [**Escritura del archivo envido.json**](#)

## 1. **Librerías**

In [1]:
!pip install ultralytics



In [2]:
!pip install onnx



In [3]:
import os
import cv2
import time
import json
import torch
import shutil
from ultralytics import YOLO
import matplotlib.pyplot as plt

In [4]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


## 2. **Ajustes Iniciales**

In [5]:
# Nombre del alumno
student_name = 'miguel_mussi'

# Ruta al archivo de pesos
model_path = '/content/drive/MyDrive/UNR/5 - Proc de Imág y Visión Comp. (IA52)/CV_TP_Final/model/weights/best.pt'
model_path_tensor = '/content/drive/MyDrive/UNR/5 - Proc de Imág y Visión Comp. (IA52)/CV_TP_Final/model/weights/best.onnx'

# Ruta al directorio que contiene las imagenes
imgs_dir = '/content/drive/MyDrive/UNR/5 - Proc de Imág y Visión Comp. (IA52)/CV_TP_Final/data/eval/images/val'

# Ruta al directorio de destino de las detecciones
base_dir = '/content/drive/MyDrive/UNR/5 - Proc de Imág y Visión Comp. (IA52)/CV_TP_Final/data/out'
dets_dir = os.path.join(base_dir, student_name)

# Reestablecimiento del directorio de destino (eliminacion)
if os.path.exists(dets_dir):
    shutil.rmtree(dets_dir)
os.makedirs(dets_dir)

In [6]:
# Seteo de tiempos de ejecución
execution_time_cpu = 0
execution_time_gpu = 0
execution_time_rt = 0

## 3. **Optimización de inferencia**

In [7]:
# Cargamos el modelo
model = YOLO(model_path)

Exportamos el modelo como tensor

In [8]:
# Lo exportamos como un tensor para utilizar tensorRT con la GPU
model.export(format='onnx', imgsz=640, dynamic=True)

Ultralytics YOLOv8.2.68 🚀 Python-3.10.12 torch-2.3.1+cu121 CPU (Intel Xeon 2.00GHz)
Model summary (fused): 268 layers, 43,644,387 parameters, 0 gradients, 165.0 GFLOPs

[34m[1mPyTorch:[0m starting from '/content/drive/MyDrive/UNR/5 - Proc de Imág y Visión Comp. (IA52)/CV_TP_Final/model/weights/best.pt' with input shape (1, 3, 640, 640) BCHW and output shape(s) (1, 53, 8400) (83.6 MB)

[34m[1mONNX:[0m starting export with onnx 1.16.1 opset 17...
[34m[1mONNX:[0m export success ✅ 4.7s, saved as '/content/drive/MyDrive/UNR/5 - Proc de Imág y Visión Comp. (IA52)/CV_TP_Final/model/weights/best.onnx' (166.6 MB)

Export complete (11.6s)
Results saved to [1m/content/drive/MyDrive/UNR/5 - Proc de Imág y Visión Comp. (IA52)/CV_TP_Final/model/weights[0m
Predict:         yolo predict task=detect model=/content/drive/MyDrive/UNR/5 - Proc de Imág y Visión Comp. (IA52)/CV_TP_Final/model/weights/best.onnx imgsz=640  
Validate:        yolo val task=detect model=/content/drive/MyDrive/

'/content/drive/MyDrive/UNR/5 - Proc de Imág y Visión Comp. (IA52)/CV_TP_Final/model/weights/best.onnx'

In [14]:
print(torch.cuda.is_available())

False


In [15]:
# print(f'Usando el dispositivo: {device}')

In [20]:
print(f'Dispositivo del modelo: {next(model.parameters()).device}')

Dispositivo del modelo: cpu


In [12]:
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

Looking in indexes: https://download.pytorch.org/whl/cu118


In [16]:
# device_id = 0  # El ID de dispositivo que deseas usar
# if device_id < torch.cuda.device_count():
#     device = torch.device(f'cuda:{device_id}')
# else:
#     raise AssertionError("Invalid device id")

In [24]:
num_gpus = torch.cuda.device_count()
print(f'Número de GPUs disponibles: {num_gpus}')

Número de GPUs disponibles: 0


## 4. **Inferencia sobre las imágenes y cálculamos el envido**

### 4.1. *Inferencia con CPU*

In [17]:
# Marca de tiempo antes de la inferencia
start_time = time.time()

# Cargamos el modelo
device = torch.device('cpu')
model = YOLO(model_path).to(device)

# Ejecutamos la inferencia
results = model(imgs_dir, stream=True)

# Diccionario que guardará la información para el JSON
card_js_file = {}

# Iteramos sobre los resultados
for result in results:
    # Obtenemos el nombre del archivo de imagen
    img_filename = os.path.basename(result.path)

    # Contador de cartas inválidas y envido
    invalid_cards = 0
    envido = 20

    # Diccionario para almacenar los tipos de cartas
    card_types = {'O': [], 'C': [], 'E': [], 'B': []}

    # Obtenemos las cartas detectadas
    cards = result.cpu()

    # Guardamos las detecciones en un archivo de texto en formato YOLOv5
    cards.save_txt(os.path.join(dets_dir, img_filename.replace('.jpg', '.txt')), save_conf=True)

    # Comprobamos si la cantidad de cartas es válida para calcular el envido
    if len(cards) <= 1 or len(cards) > 3:
        print('La cantidad de cartas no permite calcular el envido\n')
    else:
        # Procesamos cada carta detectada
        for card in cards:
            name = cards.names[int(card.boxes.cls)]

            # Separamos el número y el palo de la carta
            if len(name) == 3:
                number = name[0] + name[1] # número de la carta
                type = name[2] # palo de la carta
            else:
                number = name[0] # número de la carta
                type = name[1] # palo de la carta

            # Comprobamos si la carta es inválida
            if number in ['9', '8', 'J']:
                invalid_cards += 1

            # Agregamos la carta al diccionario correspondiente
            if type in card_types:
                card_types[type].append(number)

        # Si hay cartas inválidas, no se puede calcular el envido
        if invalid_cards > 0:
            print('No se puede calcular el envido por cartas inválidas\n')
        else:
            # Calculamos el envido basado en las cartas detectadas
            for key, value in card_types.items():
                if len(value) == 2:
                    type = key # Guardamos el palo en otra variable para luego

                    # Calculamos el envido
                    for number in value:
                        if number not in ['10', '11', '12']: # Ignoramos los 10, 11 y 12
                            envido += int(number)
                    if envido == 20:
                        envido = 0
                elif len(value) == 3:
                    type = key # Guardamos el palo en otra variable para luego

                    # Filtramos los valores más altos exceptuando los 10, 11 y 12
                    filtered_values = [x for x in value if x not in [10, 11, 12]]
                    largest_values = sorted(filtered_values, reverse=True)[:2]

                    # Calculamos el envido
                    for number in largest_values:
                        envido += int(number)
                    if envido == 20:
                        envido = 0

    # Almacenamos los resultados del envido en el diccionario para el JSON
    if envido != 20:
        card_js_file[img_filename] = {
            'total_cards': len(cards),
            'cards': card_types,
            'points': envido,       # Puntos de envido
            'figure': type          # Palo
        }
    else:
        card_js_file[img_filename] = {
            'total_cards': len(cards),
            'cards': card_types,
            'points': 0,
            'figure': 'N/A'
        }

# Marca de tiempo después de la inferencia
end_time = time.time()

# Calculamos el tiempo de ejecución
execution_time_cpu = end_time - start_time

# Mostramos que dispositivo se esta utilizando y el tiempo de ejecución
if device.type == 'cuda': print('\nEl modelo está utilizando la GPU.')
else: print('\nEl modelo está utilizando la CPU.')
print(f'Tiempo de ejecución: {execution_time_cpu:.2f} segundos')


image 1/32 /content/drive/MyDrive/UNR/5 - Proc de Imág y Visión Comp. (IA52)/CV_TP_Final/data/eval/images/val/IMG_20240630_173711753_HDR.jpg: 640x512 1 4O, 1 11C, 1394.8ms
image 2/32 /content/drive/MyDrive/UNR/5 - Proc de Imág y Visión Comp. (IA52)/CV_TP_Final/data/eval/images/val/IMG_20240630_173737533.jpg: 640x512 1 1C, 1 2B, 1 5C, 1294.4ms
image 3/32 /content/drive/MyDrive/UNR/5 - Proc de Imág y Visión Comp. (IA52)/CV_TP_Final/data/eval/images/val/IMG_20240630_173758691.jpg: 640x512 1 1C, 1 2B, 1351.4ms
image 4/32 /content/drive/MyDrive/UNR/5 - Proc de Imág y Visión Comp. (IA52)/CV_TP_Final/data/eval/images/val/IMG_20240630_173822184_HDR.jpg: 640x512 1 3B, 1 6B, 1 7E, 1270.7ms
image 5/32 /content/drive/MyDrive/UNR/5 - Proc de Imág y Visión Comp. (IA52)/CV_TP_Final/data/eval/images/val/IMG_20240630_173828513_HDR.jpg: 640x512 1 3B, 1 6B, 1 7E, 1 J, 1303.9ms
La cantidad de cartas no permite calcular el envido

image 6/32 /content/drive/MyDrive/UNR/5 - Proc de Imág y Visión

### 4.2. *Inferencia con GPU - Sin TensorRT*

In [10]:
# Marca de tiempo antes de la inferencia
start_time = time.time()

# Cargamos el modelo
device = torch.device('cuda:0')
model = YOLO(model_path).to(device)

# Ejecutamos la inferencia
results = model(imgs_dir, stream=True)

# Diccionario que guardará la información para el JSON
card_js_file = {}

# Procesamos los resultados
for result in results:
    # Obtenemos el nombre del archivo de imagen
    img_filename = os.path.basename(result.path)

    # Contador de cartas inválidas y envido
    invalid_cards = 0
    envido = 20

    # Diccionario para almacenar los tipos de cartas
    card_types = {'O': [], 'C': [], 'E': [], 'B': []}

    # Obtenemos las cartas detectadas
    cards = result.cpu()

    # Guardamos las detecciones en un archivo de texto en formato YOLOv5
    cards.save_txt(os.path.join(dets_dir, img_filename.replace('.jpg', '.txt')), save_conf=True)

    # Comprobamos si la cantidad de cartas es válida para calcular el envido
    if len(cards) <= 1 or len(cards) > 3:
        print('La cantidad de cartas no permite calcular el envido\n')
    else:
        # Procesamos cada carta detectada
        for card in cards:
            name = cards.names[int(card.boxes.cls)]

            # Separamos el número y el palo de la carta
            if len(name) == 3:
                number = name[0] + name[1] # número de la carta
                type = name[2] # palo de la carta
            else:
                number = name[0] # número de la carta
                type = name[1] # palo de la carta

            # Comprobamos si la carta es inválida
            if number in ['9', '8', 'J']:
                invalid_cards += 1

            # Agregamos la carta al diccionario correspondiente
            if type in card_types:
                card_types[type].append(number)

        # Si hay cartas inválidas, no se puede calcular el envido
        if invalid_cards > 0:
            print('No se puede calcular el envido por cartas inválidas\n')
        else:
            # Calculamos el envido basado en las cartas detectadas
            for key, value in card_types.items():
                if len(value) == 2:
                    type = key # Guardamos el palo en otra variable para luego

                    # Calculamos el envido
                    for number in value:
                        if number not in ['10', '11', '12']: # Ignoramos los 10, 11 y 12
                            envido += int(number)
                    if envido == 20:
                        envido = 0
                elif len(value) == 3:
                    type = key # Guardamos el palo en otra variable para luego

                    # Filtramos los valores más altos exceptuando los 10, 11 y 12
                    filtered_values = [x for x in value if x not in [10, 11, 12]]
                    largest_values = sorted(filtered_values, reverse=True)[:2]

                    # Calculamos el envido
                    for number in largest_values:
                        envido += int(number)
                    if envido == 20:
                        envido = 0

    # Almacenamos los resultados del envido en el diccionario para el JSON
    if envido != 20:
        card_js_file[img_filename] = {
            'total_cards': len(cards),
            'cards': card_types,
            'points': envido,
            'figure': type
        }
    else:
        card_js_file[img_filename] = {
            'total_cards': len(cards),
            'cards': card_types,
            'points': 0,
            'figure': 'N/A'
        }

# Marca de tiempo después de la inferencia
end_time = time.time()

# Calculamos el tiempo de ejecución
execution_time_gpu = end_time - start_time

# Mostramos que dispositivo se esta utilizando y el tiempo de ejecución
if device.type == 'cuda': print('\nEl modelo está utilizando la GPU.')
else: print('\nEl modelo está utilizando la CPU.')
print(f'Tiempo de ejecución: {execution_time_gpu:.2f} segundos')


image 1/32 /content/drive/MyDrive/UNR/5 - Proc de Imág y Visión Comp. (IA52)/CV_TP_Final/data/eval/images/val/IMG_20240630_173711753_HDR.jpg: 640x512 1 4O, 1 11C, 80.8ms
image 2/32 /content/drive/MyDrive/UNR/5 - Proc de Imág y Visión Comp. (IA52)/CV_TP_Final/data/eval/images/val/IMG_20240630_173737533.jpg: 640x512 1 1C, 1 2B, 1 5C, 47.3ms
image 3/32 /content/drive/MyDrive/UNR/5 - Proc de Imág y Visión Comp. (IA52)/CV_TP_Final/data/eval/images/val/IMG_20240630_173758691.jpg: 640x512 1 1C, 1 2B, 47.5ms
image 4/32 /content/drive/MyDrive/UNR/5 - Proc de Imág y Visión Comp. (IA52)/CV_TP_Final/data/eval/images/val/IMG_20240630_173822184_HDR.jpg: 640x512 1 3B, 1 6B, 1 7E, 47.3ms
image 5/32 /content/drive/MyDrive/UNR/5 - Proc de Imág y Visión Comp. (IA52)/CV_TP_Final/data/eval/images/val/IMG_20240630_173828513_HDR.jpg: 640x512 1 3B, 1 6B, 1 7E, 1 J, 47.3ms
La cantidad de cartas no permite calcular el envido

image 6/32 /content/drive/MyDrive/UNR/5 - Proc de Imág y Visión Comp. (IA

### 4.3. *Inferencia con GPU - Con TensorRT*

In [12]:
# Marca de tiempo antes de la inferencia
start_time = time.time()

# Cargamos el modelo
model = YOLO(model_path_tensor, task='detect')

# Ejecutamos la inferencia
results = model(imgs_dir, stream=True)

# Diccionario que guardará la información para el JSON
card_js_file = {}

# Procesamos los resultados
for result in results:
    # Obtenemos el nombre del archivo de imagen
    img_filename = os.path.basename(result.path)

    # Contador de cartas inválidas y envido
    invalid_cards = 0
    envido = 20

    # Diccionario para almacenar los tipos de cartas
    card_types = {'O': [], 'C': [], 'E': [], 'B': []}

    # Obtenemos las cartas detectadas
    cards = result.cpu()

    # Guardamos las detecciones en un archivo de texto en formato YOLOv5
    cards.save_txt(os.path.join(dets_dir, img_filename.replace('.jpg', '.txt')), save_conf=True)

    # Comprobamos si la cantidad de cartas es válida para calcular el envido
    if len(cards) <= 1 or len(cards) > 3:
        print('La cantidad de cartas no permite calcular el envido\n')
    else:
        # Procesamos cada carta detectada
        for card in cards:
            name = cards.names[int(card.boxes.cls)]

            # Separamos el número y el palo de la carta
            if len(name) == 3:
                number = name[0] + name[1] # número de la carta
                type = name[2] # palo de la carta
            else:
                number = name[0] # número de la carta
                type = name[1] # palo de la carta

            # Comprobamos si la carta es inválida
            if number in ['9', '8', 'J']:
                invalid_cards += 1

            # Agregamos la carta al diccionario correspondiente
            if type in card_types:
                card_types[type].append(number)

        # Si hay cartas inválidas, no se puede calcular el envido
        if invalid_cards > 0:
            print('No se puede calcular el envido por cartas inválidas\n')
        else:
            # Calculamos el envido basado en las cartas detectadas
            for key, value in card_types.items():
                if len(value) == 2:
                    type = key # Guardamos el palo en otra variable para luego

                    # Calculamos el envido
                    for number in value:
                        if number not in ['10', '11', '12']: # Ignoramos los 10, 11 y 12
                            envido += int(number)
                    if envido == 20:
                        envido = 0
                elif len(value) == 3:
                    type = key # Guardamos el palo en otra variable para luego

                    # Filtramos los valores más altos exceptuando los 10, 11 y 12
                    filtered_values = [x for x in value if x not in [10, 11, 12]]
                    largest_values = sorted(filtered_values, reverse=True)[:2]

                    # Calculamos el envido
                    for number in largest_values:
                        envido += int(number)
                    if envido == 20:
                        envido = 0

    # Almacenamos los resultados del envido en el diccionario para el JSON
    if envido != 20:
        card_js_file[img_filename] = {
            'total_cards': len(cards),
            'cards': card_types,
            'points': envido,
            'figure': type
        }
    else:
        card_js_file[img_filename] = {
            'total_cards': len(cards),
            'cards': card_types,
            'points': 0,
            'figure': 'N/A'
        }

# Marca de tiempo después de la inferencia
end_time = time.time()

# Calculamos el tiempo de ejecución
execution_time_rt = end_time - start_time

# Mostramos que dispositivo se esta utilizando y el tiempo de ejecución
if device.type == 'cuda': print('\nEl modelo está utilizando la GPU.')
else: print('\nEl modelo está utilizando la CPU.')
print(f'Tiempo de ejecución: {execution_time_rt:.2f} segundos')

AssertionError: Invalid device id

### 4.4. *Comparativa de Inferencias*

In [23]:
# Comparación de los tiempos de ejecución
print("Comparación de Tiempos de Ejecución:")
print(f"Tiempo de ejecución en CPU: {execution_time_cpu:.3f} segundos")
print(f"Tiempo de ejecución en GPU (sin TensorRT): {execution_time_gpu:.3f} segundos")
print(f"Tiempo de ejecución en GPU (con TensorRT): {execution_time_rt:.3f} segundos")

Comparación de Tiempos de Ejecución:
Tiempo de ejecución en CPU: 51.515 segundos
Tiempo de ejecución en GPU (sin TensorRT): 37.138 segundos
Tiempo de ejecución en GPU (con TensorRT): 0.000 segundos


## 5. **Guardamos las imagenes con las predicciones**

In [18]:
# Cargamos el modelo
# model = YOLO(model_path)              # Con CPU
model = YOLO(model_path).to(device)     # Con GPU (sin TensorRT)
# model = YOLO(model_path_tensor)       # Con GPU (con TensorRT)

# Ejecutamos la inferencia
results = model(imgs_dir, stream=True)

# Directorio donde van a ir las deteciones
detection_dir = f'{base_dir}/detections/'

# Creamos el directorio si no existe
os.makedirs(detection_dir, exist_ok=True)

# Iteramos sobre los resultados
for result in results:
    # Obtenemos el nombre del archivo de imagen
    img_filename = os.path.basename(result.path)

    # Guardamos la detección
    result.save(filename=f'{detection_dir}/{img_filename}')


image 1/32 /content/drive/MyDrive/UNR/5 - Proc de Imág y Visión Comp. (IA52)/CV_TP_Final/data/eval/images/val/IMG_20240630_173711753_HDR.jpg: 640x512 1 4O, 1 11C, 1805.6ms
image 2/32 /content/drive/MyDrive/UNR/5 - Proc de Imág y Visión Comp. (IA52)/CV_TP_Final/data/eval/images/val/IMG_20240630_173737533.jpg: 640x512 1 1C, 1 2B, 1 5C, 1304.6ms
image 3/32 /content/drive/MyDrive/UNR/5 - Proc de Imág y Visión Comp. (IA52)/CV_TP_Final/data/eval/images/val/IMG_20240630_173758691.jpg: 640x512 1 1C, 1 2B, 1376.4ms
image 4/32 /content/drive/MyDrive/UNR/5 - Proc de Imág y Visión Comp. (IA52)/CV_TP_Final/data/eval/images/val/IMG_20240630_173822184_HDR.jpg: 640x512 1 3B, 1 6B, 1 7E, 1357.8ms
image 5/32 /content/drive/MyDrive/UNR/5 - Proc de Imág y Visión Comp. (IA52)/CV_TP_Final/data/eval/images/val/IMG_20240630_173828513_HDR.jpg: 640x512 1 3B, 1 6B, 1 7E, 1 J, 1363.4ms
image 6/32 /content/drive/MyDrive/UNR/5 - Proc de Imág y Visión Comp. (IA52)/CV_TP_Final/data/eval/images/val/IMG_20

## 6. **Escritura del archivo envido.json**

In [19]:
with open(os.path.join(dets_dir, 'envido.json'), 'w') as jf:
    json.dump(card_js_file, jf, indent=4)