# YOLOv9 - O Estado da Arte para Detec√ß√£o de Objetos

A detec√ß√£o de objetos √© uma tarefa fundamental em vis√£o computacional, e tem visto um progresso extraordin√°rio devido ao avan√ßo dos modelos de *deep learning*.

Nesse escopo de problemas, a fam√≠lia YOLO (*You Only Look Once*) se destaca na vanguarda, reconhecida por sua excepcional velocidade de infer√™ncia em tempo real e precis√£o.

Se voc√™ ainda estava absorvendo e testando as aplica√ß√µes da YOLOv8, eu tenho uma novidade para voc√™. De maneira quase que inesperada, fomos presenteados com a novidade de uma YOLOv9 - possivelmente assumindo a posi√ß√£o de modelo no estado da arte.

<center>
<img src="https://sigmoidal.ai/wp-content/uploads/2024/02/yolov9-banner.png" width=600>
</center>


## *YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information - Wang, Chien-Yao  and Liao, Hong-Yuan Mark (2024)*

Abordagens existentes de deep learning em detec√ß√£o de objetos frequentemente enfatizam o design de arquiteturas de rede complexas ou a elabora√ß√£o de fun√ß√µes objetivo especializadas. No entanto, elas tendem a negligenciar um problema crucial: os dados sofrem significativa perda de informa√ß√£o durante sua jornada pelas camadas da rede.

Este "gargalo de informa√ß√£o" corrompe os fluxos de gradiente durante a retropropaga√ß√£o, potencialmente levando a atualiza√ß√µes tendenciosas e predi√ß√µes imprecisas do modelo.

<center>
<img src="https://github.com/carlosfab/yolov9/raw/main/figure/performance.png" width=500></center>

Para enfrentar este desafio, os autores do paper propuseram o conceito de Informa√ß√£o de Gradiente Program√°vel (PGI). PGI introduz um ramo revers√≠vel auxiliar que gera gradientes confi√°veis, preservando caracter√≠sticas cruciais de entrada essenciais para a tarefa alvo. Ele evita a dilui√ß√£o sem√¢ntica que pode ocorrer em t√©cnicas tradicionais de supervis√£o profunda. Ao efetivamente "programar" o fluxo de informa√ß√£o de gradiente atrav√©s da rede, PGI facilita resultados de treinamento ideais.

Al√©m disso, os autores tamb√©m introduziram a Rede de Agrega√ß√£o de Camadas Eficiente Generalizada (GELAN). GELAN equilibra meticulosamente a contagem de par√¢metros, complexidade computacional, precis√£o e velocidade de infer√™ncia, oferecendo flexibilidade para implanta√ß√£o em diversos dispositivos. Em um feito not√°vel, GELAN alcan√ßa utiliza√ß√£o de par√¢metros superior em compara√ß√£o at√© mesmo com modelos de ponta que dependem de convolu√ß√µes depth-wise.

**A sinergia de PGI e GELAN forma a espinha dorsal do YOLOv9.** Experimentos exaustivos no dataset MS COCO demonstram o dom√≠nio do YOLOv9. Especificamente:

* Desempenho Inigual√°vel: YOLOv9 supera todos os detectores de objetos em tempo real existentes em m√©tricas-chave.
* Efici√™ncia: Supera at√© mesmo modelos pr√©-treinados em grandes conjuntos de dados, enquanto √© treinado do zero.
* Leveza: PGI capacita modelos leves, tornando a detec√ß√£o de objetos acess√≠vel para aplica√ß√µes cotidianas.


Esta aula √© apenas uma introdu√ß√£o sobre o modelo YOLOv9. A verdade √© que toda a comunidade ainda est√° estudando o artigo, e validando as informa√ß√µes que t√™m chegado em um ritmo acelerado.

Se voc√™ quer se manter √† frente no mercado de Vis√£o Computacional, acompanhe esta primeira introdu√ß√£o que eu preparei para voc√™!

In [16]:
!nvidia-smi

/bin/bash: line 1: nvidia-smi: command not found


Para clonar o reposit√≥rio do YOLOv9 e instalar as depend√™ncias necess√°rias, siga os passos abaixo:


In [4]:
# Clona o reposit√≥rio do YOLOv9
!git clone https://github.com/carlosfab/yolov9.git

# Muda o diret√≥rio de trabalho atual para o reposit√≥rio YOLOv9 clonado
%cd yolov9

# Instala as depend√™ncias necess√°rias do YOLOv9 a partir do arquivo requirements.txt
!pip install -r requirements.txt -q

Cloning into 'yolov9'...
remote: Enumerating objects: 168, done.[K
remote: Counting objects:   2% (1/41)[Kremote: Counting objects:   4% (2/41)[Kremote: Counting objects:   7% (3/41)[Kremote: Counting objects:   9% (4/41)[Kremote: Counting objects:  12% (5/41)[Kremote: Counting objects:  14% (6/41)[Kremote: Counting objects:  17% (7/41)[Kremote: Counting objects:  19% (8/41)[Kremote: Counting objects:  21% (9/41)[Kremote: Counting objects:  24% (10/41)[Kremote: Counting objects:  26% (11/41)[Kremote: Counting objects:  29% (12/41)[Kremote: Counting objects:  31% (13/41)[Kremote: Counting objects:  34% (14/41)[Kremote: Counting objects:  36% (15/41)[Kremote: Counting objects:  39% (16/41)[Kremote: Counting objects:  41% (17/41)[Kremote: Counting objects:  43% (18/41)[Kremote: Counting objects:  46% (19/41)[Kremote: Counting objects:  48% (20/41)[Kremote: Counting objects:  51% (21/41)[Kremote: Counting objects:  53% (22/41)[Kremote: Counting 

In [9]:
# Importa bibliotecas necess√°rias
import sys
import requests
from tqdm.notebook import tqdm
from pathlib import Path
from PIL import Image
from io import BytesIO
import matplotlib.pyplot as plt
from matplotlib.pylab import rcParams


# Configura√ß√£o de diret√≥rios para c√≥digo e dados
CODE_FOLDER = Path("..").resolve()  # Diret√≥rio do c√≥digo
WEIGHTS_FOLDER = CODE_FOLDER / "weights"  # Diret√≥rio para pesos do modelo
DATA_FOLDER = CODE_FOLDER / "data"  # Diret√≥rio para dados

# Cria os diret√≥rios para pesos e dados, se n√£o existirem
WEIGHTS_FOLDER.mkdir(exist_ok=True, parents=True)
DATA_FOLDER.mkdir(exist_ok=True, parents=True)

# Adiciona o diret√≥rio do c√≥digo ao path do Python para importa√ß√£o de m√≥dulos
sys.path.append(str(CODE_FOLDER))

rcParams['figure.figsize'] = 15, 15
%matplotlib inline

In [7]:
# URLs dos arquivos de pesos
weight_files = [
    "https://github.com/WongKinYiu/yolov9/releases/download/v0.1/yolov9-c.pt",
    "https://github.com/WongKinYiu/yolov9/releases/download/v0.1/yolov9-e.pt",
    "https://github.com/WongKinYiu/yolov9/releases/download/v0.1/gelan-c.pt",
    "https://github.com/WongKinYiu/yolov9/releases/download/v0.1/gelan-e.pt"
]

# Itera sobre a lista de URLs para baixar os arquivos de pesos
for i, url in enumerate(weight_files, start=1):
    filename = url.split('/')[-1]
    response = requests.get(url, stream=True)
    total_size_in_bytes = int(response.headers.get('content-length', 0))
    block_size = 1024  # 1 Kilobyte
    progress_bar = tqdm(total=total_size_in_bytes, unit='iB', unit_scale=True, desc=f"Baixando arquivo {i}/{len(weight_files)}: {filename}")
    with open(WEIGHTS_FOLDER / filename, 'wb') as file:
        for data in response.iter_content(block_size):
            progress_bar.update(len(data))
            file.write(data)
    progress_bar.close()

Baixando arquivo 1/4: yolov9-c.pt:   0%|          | 0.00/103M [00:00<?, ?iB/s]

Baixando arquivo 2/4: yolov9-e.pt:   0%|          | 0.00/140M [00:00<?, ?iB/s]

Baixando arquivo 3/4: gelan-c.pt:   0%|          | 0.00/51.5M [00:00<?, ?iB/s]

Baixando arquivo 4/4: gelan-e.pt:   0%|          | 0.00/117M [00:00<?, ?iB/s]

In [14]:
# URL da imagem de teste
url = 'https://sigmoidal.ai/wp-content/uploads/2022/11/314928609_1293071608150779_8666358890956473002_n.jpg'

# Faz a requisi√ß√£o para obter a imagem
response = requests.get(url)

# Define o caminho do arquivo onde a imagem ser√° salva dentro do DATA_FOLDER
image_path = DATA_FOLDER / "test_image.jpg"

# Salva a imagem no diret√≥rio especificado
with open(image_path, 'wb') as f:
    f.write(response.content)

In [15]:
!python {CODE_FOLDER}/detect.py --weights {WEIGHTS_FOLDER}/yolov9-e.pt --conf 0.1 --source {DATA_FOLDER}/test_image.jpg --device cpu

[34m[1mdetect: [0mweights=['/content/yolov9/weights/yolov9-e.pt'], source=/content/yolov9/data/test_image.jpg, data=../data/coco128.yaml, imgsz=[640, 640], conf_thres=0.1, iou_thres=0.45, max_det=1000, device=cpu, view_img=False, save_txt=False, save_conf=False, save_crop=False, nosave=False, classes=None, agnostic_nms=False, augment=False, visualize=False, update=False, project=../runs/detect, name=exp, exist_ok=False, line_thickness=3, hide_labels=False, hide_conf=False, half=False, dnn=False, vid_stride=1
YOLOv5 üöÄ 26e3791 Python-3.10.12 torch-2.1.0+cu121 CPU

Fusing layers... 
Model summary: 1119 layers, 69470144 parameters, 0 gradients, 244.0 GFLOPs
image 1/1 /content/yolov9/data/test_image.jpg: 640x608 6 persons, 1 sports ball, 17 bottles, 4 cups, 2 potted plants, 1 dining table, 3 books, 5982.5ms
Speed: 4.2ms pre-process, 5982.5ms inference, 38.5ms NMS per image at shape (1, 3, 640, 640)
Results saved to [1m../runs/detect/exp[0m


In [17]:
!python {CODE_FOLDER}/detect.py --weights {WEIGHTS_FOLDER}/yolov9-e.pt --conf 0.1 --source {DATA_FOLDER}/rua_1.mp4 --device cpu

[34m[1mdetect: [0mweights=['/content/yolov9/weights/yolov9-e.pt'], source=/content/yolov9/data/rua_1.mp4, data=../data/coco128.yaml, imgsz=[640, 640], conf_thres=0.1, iou_thres=0.45, max_det=1000, device=cpu, view_img=False, save_txt=False, save_conf=False, save_crop=False, nosave=False, classes=None, agnostic_nms=False, augment=False, visualize=False, update=False, project=../runs/detect, name=exp, exist_ok=False, line_thickness=3, hide_labels=False, hide_conf=False, half=False, dnn=False, vid_stride=1
YOLOv5 üöÄ 26e3791 Python-3.10.12 torch-2.1.0+cu121 CPU

Fusing layers... 
Model summary: 1119 layers, 69470144 parameters, 0 gradients, 244.0 GFLOPs
video 1/1 (1/217) /content/yolov9/data/rua_1.mp4: 384x640 5 persons, 5 cars, 2 trucks, 3883.7ms
video 1/1 (2/217) /content/yolov9/data/rua_1.mp4: 384x640 3 persons, 6 cars, 1 truck, 3781.6ms
video 1/1 (3/217) /content/yolov9/data/rua_1.mp4: 384x640 3 persons, 5 cars, 1 truck, 1 traffic light, 4466.1ms
video 1/1 (4/217) /content/yolov9/