# Ensinando Computadores a Verem: Uma Introdu√ß√£o √† Vis√£o Computacional
### Demonstra√ß√µes Pr√°ticas usando YOLOv11

Este notebook demonstra os conceitos fundamentais de Vis√£o Computacional atrav√©s de implementa√ß√µes pr√°ticas usando o modelo YOLOv11. Exploraremos tr√™s tarefas principais:

1. **Classifica√ß√£o de Imagens**: Identificando o conte√∫do principal de uma imagem
2. **Detec√ß√£o de Objetos**: Localizando e classificando m√∫ltiplos objetos em uma cena
3. **Segmenta√ß√£o Sem√¢ntica**: Determinando o contorno exato de cada objeto

Autor: Daniel Amaral  
Institui√ß√£o: UFC - PPGETI

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1FRIZKkunuEwkbljcKHrUOON1iUqjy-zw?usp=sharing)

## üõ†Ô∏è Configura√ß√£o do Ambiente

Primeiro, vamos instalar e importar as bibliotecas necess√°rias. A principal biblioteca que utilizaremos √© a `ultralytics`, que cont√©m a implementa√ß√£o do YOLOv11.

In [None]:
%%capture
!pip install ultralytics

In [None]:
# Importa√ß√£o das bibliotecas necess√°rias
import cv2
import numpy as np
from ultralytics import YOLO
from IPython.display import display, Image
import warnings
import matplotlib.pyplot as plt

# Desativando avisos para uma sa√≠da mais limpa
warnings.filterwarnings('ignore')

## 1. Classifica√ß√£o de Imagens üè∑Ô∏è

A classifica√ß√£o de imagens √© a tarefa mais fundamental em vis√£o computacional. O objetivo √© atribuir uma categoria/classe a uma imagem inteira.

### O que √© Classifica√ß√£o?
- Responde √† pergunta: "O que est√° nesta imagem?"
- Atribui uma √∫nica categoria √† imagem completa
- Base para outras tarefas mais complexas

### Aplica√ß√µes Pr√°ticas:
- Organiza√ß√£o autom√°tica de fotos
- Filtros de conte√∫do
- Diagn√≥stico m√©dico por imagem
- Controle de qualidade industrial

In [None]:
def classify(image_path: str):
    """
    Classifica o conte√∫do principal de uma imagem usando YOLOv11.
    
    Args:
        image_path (str): Caminho para a imagem a ser classificada
        
    Returns:
        None: Exibe a imagem com a classifica√ß√£o sobreposta
    """
    # Carregando o modelo pr√©-treinado para classifica√ß√£o
    model_cls = YOLO('yolo11n-cls.pt')
    
    # Fazendo a predi√ß√£o
    results = model_cls(image_path, verbose=False)
    result = results[0]

    # Obtendo a classe com maior confian√ßa
    conf = result.probs.top1conf
    label = model_cls.names[result.probs.top1]

    # Lendo e convertendo a imagem para RGB
    img = cv2.imread(image_path)
    img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)

    # Adicionando texto com a predi√ß√£o
    cv2.putText(img, f"{label}: {conf:.2f}", (15, 85),
                cv2.FONT_HERSHEY_SIMPLEX, 2.6, (139, 0, 0), 5)

    # Mostrando a imagem
    plt.figure(figsize=(10, 8))
    plt.imshow(img)
    plt.axis('off')
    plt.show()

In [None]:
# Exemplo de classifica√ß√£o
classify('/content/alpi.jpg')

## 2. Detec√ß√£o de Objetos üéØ

A detec√ß√£o de objetos √© uma tarefa mais complexa que combina localiza√ß√£o e classifica√ß√£o. O modelo n√£o apenas identifica o que est√° na imagem, mas tamb√©m onde cada objeto est√° localizado.

### O que √© Detec√ß√£o?
- Responde √†s perguntas: "O que s√£o e onde est√£o os objetos?"
- Gera caixas delimitadoras (bounding boxes)
- Atribui classes e n√≠veis de confian√ßa

### Aplica√ß√µes Pr√°ticas:
- Sistemas de vigil√¢ncia
- Carros aut√¥nomos
- Contagem de objetos
- Monitoramento de tr√°fego

In [None]:
def detect(image_path: str):
    """
    Detecta objetos em uma imagem usando YOLOv11.
    
    Args:
        image_path (str): Caminho para a imagem a ser analisada
        
    Returns:
        None: Exibe a imagem com as detec√ß√µes sobrepostas
    """
    # Carregando o modelo pr√©-treinado para detec√ß√£o
    model_det = YOLO('yolo11n.pt')
    
    # Realizando a detec√ß√£o
    results = model_det(image_path, verbose=False)

    # Obtendo a imagem com as detec√ß√µes
    img_detected = results[0].plot()

    # Mostrando a imagem
    plt.figure(figsize=(12, 8))
    plt.imshow(cv2.cvtColor(img_detected, cv2.COLOR_BGR2RGB))
    plt.axis('off')
    plt.show()

In [None]:
# Exemplo de detec√ß√£o
detect('/content/alpi.jpg')

## 3. Segmenta√ß√£o Sem√¢ntica üé®

A segmenta√ß√£o sem√¢ntica √© a tarefa mais detalhada em vis√£o computacional. Ela fornece uma compreens√£o pixel a pixel da imagem, identificando precisamente os contornos de cada objeto.

### O que √© Segmenta√ß√£o?
- Responde √† pergunta: "Qual √© a forma exata de cada objeto?"
- Cria m√°scaras precisas para cada objeto
- Permite an√°lise detalhada da cena

### Aplica√ß√µes Pr√°ticas:
- Edi√ß√£o autom√°tica de imagens
- An√°lise m√©dica e diagn√≥stico
- Realidade aumentada
- Rob√≥tica de precis√£o

In [None]:
def segment(image_path: str):
    """
    Realiza segmenta√ß√£o sem√¢ntica em uma imagem usando YOLOv11.
    
    Args:
        image_path (str): Caminho para a imagem a ser segmentada
        
    Returns:
        None: Exibe a imagem com as segmenta√ß√µes sobrepostas
    """
    # Carregando o modelo pr√©-treinado para segmenta√ß√£o
    model_seg = YOLO('yolo11n-seg.pt')
    
    # Realizando a segmenta√ß√£o
    results = model_seg(image_path, verbose=False)

    # Obtendo a imagem com as segmenta√ß√µes
    img_segmented = results[0].plot()

    # Mostrando a imagem
    plt.figure(figsize=(12, 8))
    plt.imshow(cv2.cvtColor(img_segmented, cv2.COLOR_BGR2RGB))
    plt.axis('off')
    plt.show()

In [None]:
# Exemplo de segmenta√ß√£o
segment('/content/alpi.jpg')

## 4. An√°lise em Tempo Real üé•

Uma das aplica√ß√µes mais impressionantes da vis√£o computacional √© a an√°lise em tempo real. Vamos demonstrar como realizar detec√ß√£o e segmenta√ß√£o usando a webcam.

### Aplica√ß√µes em Tempo Real:
- Sistemas de seguran√ßa
- Monitoramento de processos
- Intera√ß√£o homem-m√°quina
- Realidade aumentada

### Fun√ß√µes Auxiliares para Stream de V√≠deo

As fun√ß√µes abaixo s√£o necess√°rias para configurar e gerenciar o stream de v√≠deo da webcam no ambiente Jupyter/Colab.

In [None]:
from IPython.display import display, Javascript, Image
from google.colab.output import eval_js
from base64 import b64decode, b64encode
import cv2
import numpy as np
import PIL
import io
import html
import time

def js_to_image(js_reply):
    """Converte resposta JavaScript em imagem OpenCV"""
    image_bytes = b64decode(js_reply.split(',')[1])
    jpg_as_np = np.frombuffer(image_bytes, dtype=np.uint8)
    img = cv2.imdecode(jpg_as_np, flags=1)
    return img

def bbox_to_bytes(bbox_array):
    """Converte array de bbox em string base64"""
    bbox_PIL = PIL.Image.fromarray(bbox_array, 'RGBA')
    iobuf = io.BytesIO()
    bbox_PIL.save(iobuf, format='png')
    bbox_bytes = 'data:image/png;base64,{}'.format(
        str(b64encode(iobuf.getvalue()), 'utf-8'))
    return bbox_bytes

def video_stream():
    js = Javascript('''
        var video;
        var div = null;
        var stream;
        var captureCanvas;
        var imgElement;
        var labelElement;

        var pendingResolve = null;
        var shutdown = false;

        function removeDom() {
            stream.getVideoTracks()[0].stop();
            video.remove();
            div.remove();
            video = null;
            div = null;
            stream = null;
            imgElement = null;
            captureCanvas = null;
            labelElement = null;
        }

        function onAnimationFrame() {
            if (!shutdown) {
                window.requestAnimationFrame(onAnimationFrame);
            }
            if (pendingResolve) {
                var result = "";
                if (!shutdown) {
                    captureCanvas.getContext('2d').drawImage(video, 0, 0, 640, 480);
                    result = captureCanvas.toDataURL('image/jpeg', 0.8)
                }
                var lp = pendingResolve;
                pendingResolve = null;
                lp(result);
            }
        }

        async function createDom() {
            if (div !== null) {
                return stream;
            }

            div = document.createElement('div');
            div.style.border = '2px solid black';
            div.style.padding = '3px';
            div.style.width = '100%';
            div.style.maxWidth = '600px';
            document.body.appendChild(div);

            const modelOut = document.createElement('div');
            modelOut.innerHTML = "<span>Status:</span>";
            labelElement = document.createElement('span');
            labelElement.innerText = 'No data';
            labelElement.style.fontWeight = 'bold';
            modelOut.appendChild(labelElement);
            div.appendChild(modelOut);

            video = document.createElement('video');
            video.style.display = 'block';
            video.width = div.clientWidth - 6;
            video.setAttribute('playsinline', '');
            video.onclick = () => { shutdown = true; };
            stream = await navigator.mediaDevices.getUserMedia(
                {video: { facingMode: "environment"}});
            div.appendChild(video);

            imgElement = document.createElement('img');
            imgElement.style.position = 'absolute';
            imgElement.style.zIndex = 1;
            imgElement.onclick = () => { shutdown = true; };
            div.appendChild(imgElement);

            const instruction = document.createElement('div');
            instruction.innerHTML =
                '<span style="color: red; font-weight: bold;">' +
                'Clique aqui ou no v√≠deo para parar a detec√ß√£o</span>';
            div.appendChild(instruction);
            instruction.onclick = () => { shutdown = true; };

            video.srcObject = stream;
            await video.play();

            captureCanvas = document.createElement('canvas');
            captureCanvas.width = 640;
            captureCanvas.height = 480;
            window.requestAnimationFrame(onAnimationFrame);

            return stream;
        }

        async function stream_frame(label, imgData) {
            if (shutdown) {
                removeDom();
                shutdown = false;
                return '';
            }

            var preCreate = Date.now();
            stream = await createDom();

            var preShow = Date.now();
            if (label != "") {
                labelElement.innerHTML = label;
            }

            if (imgData != "") {
                var videoRect = video.getClientRects()[0];
                imgElement.style.top = videoRect.top + "px";
                imgElement.style.left = videoRect.left + "px";
                imgElement.style.width = videoRect.width + "px";
                imgElement.style.height = videoRect.height + "px";
                imgElement.src = imgData;
            }

            var preCapture = Date.now();
            var result = await new Promise(function(resolve, reject) {
                pendingResolve = resolve;
            });
            shutdown = false;

            return {'create': preShow - preCreate,
                    'show': preCapture - preShow,
                    'capture': Date.now() - preCapture,
                    'img': result};
        }
        ''')
    display(js)

def video_frame(label, bbox):
    data = eval_js('stream_frame("{}", "{}")'.format(label, bbox))
    return data

### 4.1 Detec√ß√£o em Tempo Real üìπ

Vamos implementar a detec√ß√£o de objetos em tempo real usando a webcam. Esta demonstra√ß√£o mostra como o YOLOv11 pode processar e analisar v√≠deo em tempo real, identificando e localizando objetos conforme eles aparecem no campo de vis√£o.

In [None]:
def detect_webcam():
    """Realiza detec√ß√£o de objetos em tempo real usando a webcam."""
    # Carrega o modelo YOLO
    model = YOLO("yolo11n.pt")

    # Inicia stream de v√≠deo
    video_stream()
    label_html = 'Detecting...'
    bbox = ''

    try:
        while True:
            js_reply = video_frame(label_html, bbox)
            if not js_reply:
                break

            # Converte resposta JS para imagem OpenCV
            img = js_to_image(js_reply["img"])

            # Faz a detec√ß√£o com YOLO
            results = model(img, verbose=False)

            # Cria overlay transparente para bounding boxes
            bbox_array = np.zeros([480,640,4], dtype=np.uint8)

            # Desenha as detec√ß√µes
            for result in results:
                boxes = result.boxes
                for box in boxes:
                    x1, y1, x2, y2 = box.xyxy[0]
                    x1, y1, x2, y2 = int(x1), int(y1), int(x2), int(y2)
                    conf = float(box.conf[0])
                    cls = int(box.cls[0])
                    label = f"{model.names[cls]} {conf:.2f}"

                    # Desenha bbox e label
                    bbox_array = cv2.rectangle(bbox_array, (x1,y1), (x2,y2), (0,255,0), 2)
                    bbox_array = cv2.putText(bbox_array, label, (x1, y1-10),
                                           cv2.FONT_HERSHEY_SIMPLEX, 0.5, (0,255,0), 2)

            # Configura transpar√™ncia
            bbox_array[:,:,3] = (bbox_array.max(axis = 2) > 0 ).astype(int) * 255
            
            # Converte para formato adequado
            bbox_bytes = bbox_to_bytes(bbox_array)
            bbox = bbox_bytes
    except Exception as e:
        print(f"Erro durante a detec√ß√£o: {e}")


In [None]:
# Iniciar detec√ß√£o em tempo real
detect_webcam()

### 4.2 Segmenta√ß√£o em Tempo Real üé®

Agora vamos demonstrar a segmenta√ß√£o sem√¢ntica em tempo real. Esta √© uma tarefa mais complexa que requer mais poder computacional, mas oferece uma compreens√£o mais detalhada da cena.

In [None]:
def segment_webcam():
    """Realiza segmenta√ß√£o sem√¢ntica em tempo real usando a webcam."""
    # Carrega modelo de segmenta√ß√£o YOLOv11
    model = YOLO("yolo11n-seg.pt")

    # Inicia stream de v√≠deo
    video_stream()
    label_html = 'Segmenting...'
    bbox = ''

    try:
        while True:
            js_reply = video_frame(label_html, bbox)
            if not js_reply:
                break

            # Converte resposta JS para imagem OpenCV
            img = js_to_image(js_reply["img"])

            # Faz a segmenta√ß√£o com YOLO
            results = model(img, verbose=False)

            # Pega a imagem com as m√°scaras desenhadas
            segmented_frame = results[0].plot()

            # Converte para RGBA para poder sobrepor
            overlay = cv2.cvtColor(segmented_frame, cv2.COLOR_BGR2RGBA)

            # Converte para bytes para mostrar no navegador
            bbox_bytes = bbox_to_bytes(overlay)
            bbox = bbox_bytes
    except Exception as e:
        print(f"Erro durante a segmenta√ß√£o: {e}")


In [None]:
# Iniciar segmenta√ß√£o em tempo real
segment_webcam()

## 5. Conclus√£o üéØ

Neste notebook, exploramos as tr√™s principais tarefas da vis√£o computacional moderna:

1. **Classifica√ß√£o**: Identifica√ß√£o do conte√∫do principal
2. **Detec√ß√£o**: Localiza√ß√£o e identifica√ß√£o de m√∫ltiplos objetos
3. **Segmenta√ß√£o**: Delineamento preciso de objetos

Tamb√©m demonstramos como estas tarefas podem ser realizadas em tempo real, abrindo possibilidades para diversas aplica√ß√µes pr√°ticas.

### Pr√≥ximos Passos üöÄ

- Experimente com suas pr√≥prias imagens
- Explore diferentes modelos e configura√ß√µes
- Considere aplica√ß√µes espec√≠ficas para seu dom√≠nio
- Aprenda mais sobre fine-tuning e treinamento personalizado

### Recursos Adicionais üìö

- [Documenta√ß√£o Ultralytics](https://docs.ultralytics.com/)
- [GitHub do Projeto](https://github.com/damarals/scd24-visao-computacional)
- [Mais sobre YOLOv11](https://github.com/ultralytics/ultralytics)