
Este Colab faz parte da Aula 03 do evento "A Revolução da Visão Computacional" 🎓.



# A Revolução da Visão Computacional - Aula 03

Iremos explorar a mais recente versão do YOLO (You Only Look Once), uma das arquiteturas de detecção de objetos em tempo real mais influentes e eficientes atualmente disponíveis. Desenvolvido pela Ultralytics, a equipe por trás das versões anteriores YOLOv3 e YOLOv5, o YOLOv8 representa um avanço significativo em termos de desempenho e facilidade de uso.

O YOLOv8 não se limita apenas à detecção de objetos, mas também oferece segmentação de instâncias e classificação de imagens. O modelo foi criado usando o PyTorch e pode ser executado tanto em CPUs quanto em GPUs. Além disso, o YOLOv8 oferece várias opções de exportação, como TensorFlow.js e CoreML, para que você possa integrá-lo facilmente em diferentes plataformas e aplicações.

<img width="1024" src="https://user-images.githubusercontent.com/26833433/212094133-6bb8c21c-3d47-41df-a512-81c5931054ae.png">

Em comparação com o YOLOv5, o YOLOv8 demonstrou melhor desempenho em 64% dos casos ao utilizar o conjunto de dados RF100. Mesmo quando o YOLOv8 não supera o YOLOv5, a diferença de desempenho é geralmente insignificante.

Neste curso, vamos guiá-lo passo a passo na implementação do YOLOv8 para detecção de objetos em imagens e vídeos. Com uma combinação de fluxos de trabalho bem documentados, código limpo e fácil de entender, e suporte para todas as versões do YOLO, este curso foi projetado para ser acessível a todos, independentemente do seu nível de experiência em visão computacional.

Além disso, o YOLOv8 é uma plataforma em constante evolução, o que significa que novos avanços na área de inteligência artificial e visão computacional serão rapidamente incorporados às futuras atualizações do modelo. Isso garante que você estará sempre trabalhando com as tecnologias mais recentes e eficientes disponíveis no campo da visão computacional.

Ao longo deste curso, você aprenderá a:

Entender a arquitetura e os conceitos básicos do YOLOv8
Treinar e ajustar o modelo YOLOv8 para suas próprias aplicações
Implementar detecção de objetos em tempo real em imagens e vídeos
Utilizar a segmentação de instâncias e a classificação de imagens com o YOLOv8
Exportar e integrar o modelo YOLOv8 em várias plataformas e aplicações
Estamos ansiosos para acompanhá-lo nesta jornada de aprendizado e descoberta no mundo da visão computacional com o YOLOv8! Vamos começar!

#**Ultralytics library**

In [None]:
#!pip install ultralytics==8.0.0

In [None]:
from IPython.display import Image
import torch

In [None]:
torch.cuda.is_available()

True

#Object detection in video


In [None]:
!yolo task=detect mode=predict model=yolov8s.pt source='/content/Guga_tennis.mp4' 

[1;30;43mStreaming output truncated to the last 5000 lines.[0m
video 1/1 (3155/8152) /content/Guga_tennis.mp4: 640x640 9 persons, 5 chairs, 8.1ms
video 1/1 (3156/8152) /content/Guga_tennis.mp4: 640x640 11 persons, 5 chairs, 8.1ms
video 1/1 (3157/8152) /content/Guga_tennis.mp4: 640x640 8 persons, 4 chairs, 8.0ms
video 1/1 (3158/8152) /content/Guga_tennis.mp4: 640x640 8 persons, 4 chairs, 8.0ms
video 1/1 (3159/8152) /content/Guga_tennis.mp4: 640x640 9 persons, 1 bottle, 4 chairs, 7.9ms
video 1/1 (3160/8152) /content/Guga_tennis.mp4: 640x640 9 persons, 1 bottle, 4 chairs, 7.8ms
video 1/1 (3161/8152) /content/Guga_tennis.mp4: 640x640 9 persons, 1 bottle, 6 chairs, 9.2ms
video 1/1 (3162/8152) /content/Guga_tennis.mp4: 640x640 12 persons, 6 chairs, 7.8ms
video 1/1 (3163/8152) /content/Guga_tennis.mp4: 640x640 10 persons, 6 chairs, 7.8ms
video 1/1 (3164/8152) /content/Guga_tennis.mp4: 640x640 10 persons, 6 chairs, 7.8ms
video 1/1 (3165/8152) /content/Guga_tennis.mp4: 640x640 9 persons, 7 ch

Exibition video with predictions

In [None]:
from IPython.display import HTML
from base64 import b64encode
import os

# Input video path
save_path = '/content/runs/detect/predict5/Guga_tennis.mp4'

# Compressed video path
compressed_path = "/content/result_compressed.mp4"

os.system(f"ffmpeg -i {save_path} -vcodec libx264 {compressed_path}")

# Show video
mp4 = open(compressed_path,'rb').read()
data_url = "data:video/mp4;base64," + b64encode(mp4).decode()
HTML("""
<video width=400 controls>
      <source src="%s" type="video/mp4">
</video>
""" % data_url)

#**Image Segmentation**

In [None]:
!yolo task=segment mode=predict model=yolov8s-seg.pt source='/content/Guga_tennis.mp4' 

2023-05-09 23:36:12.829609: I tensorflow/core/platform/cpu_feature_guard.cc:182] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.
Ultralytics YOLOv8.0.0 🚀 Python-3.10.11 torch-2.0.0+cu118 CUDA:0 (Tesla T4, 15102MiB)
Fusing layers... 
YOLOv8s-seg summary: 195 layers, 11810560 parameters, 0 gradients, 42.6 GFLOPs
video 1/1 (1/8152) /content/Guga_tennis.mp4: 640x640 10 persons, 1 sports ball, 1 chair, 21.2ms
video 1/1 (2/8152) /content/Guga_tennis.mp4: 640x640 10 persons, 1 chair, 21.2ms
video 1/1 (3/8152) /content/Guga_tennis.mp4: 640x640 10 persons, 1 chair, 20.8ms
video 1/1 (4/8152) /content/Guga_tennis.mp4: 640x640 10 persons, 1 chair, 20.7ms
video 1/1 (5/8152) /content/Guga_tennis.mp4: 640x640 10 persons, 1 tennis racket, 1 chair, 20.7ms
video 1/1 (6/8152) /content/Guga_tennis.mp4: 640x640 9 persons, 1 ch