# Sketch2aia - Abordagem com *Deep Learning*

Para a abordagem utilizando *Deep Learning*, se optou pela utilização do YoloV5 devido aos bons resultados obtidos anteriormente com YoloV3 e YoloV4, sua boa performance em geral e o baixo impacto de seus principais pontos fracos no problema em questão.


## YoloV5

YOLO (*You Only Look Once*) é um algoritmo de detecção de objetos que divide a imagem em um sistema de grades, com cada célula na grade sendo responsável pela detecção de objetos dentro de si:

<img src="media/YoloDog.png" width=600/>

Desde sua criação, o modelo YOLO se tornou um dos modelos de detecção de objetos mais famosos, devido a sua velocidade e acurácia.

A equipe já havia realizado experimentos com YoloV3 e YoloV4, obtendo bons resultados, logo, foi decidido utilizar o YoloV5, onde o modelo YOLO foi então introduzido ao framework PyTorch.

São disponibilizados diversos modelos de YoloV5, com modelos mais simples focando em maior velocidade de processamento de imagens ou uso de memória, enquanto os modelos maiores tem maior foco em acurácia:

<img src="media/YoloModels.png" width=600/>

<img src="media/YoloModelsPerformance.png" width=600/>

Foram realizados testes com diversos modelos, com os melhores resultados sendo obtidos com o `Yolov5m6`:

![Model Tests](media/YoloModelsTests.png)

## Conjunto de Dados

Para o treinamento do classificador, e para a realização de testes, foi preparado um conjunto de dados de *sketches* de interfaces de usuário, feitos com base em *screenshot* de aplicativos App Inventor:

| Screenshot                              | *Sketch*
| :-------------------------------------: | :--------------------------------------:
| <img src="media/ExampleScreenshot1.png" width=256/> | <img src="media/ExampleSketch1.jpg" width=256/>

Foram selecionados originalmente *screenshots* com apenas os 9 componentes mais comuns em aplicativos de App Inventor<a name="cite_ref-1"></a>[<sup>[1]</sup>](#cite_note-1), visando simplificar a tarefa de classificação destes, visto que outros componentes muito pouco utilizados são visualmente muito parecidos em *sketches*:

| Label                                   | Button                                   | TextBox
| :-------------------------------------: | :--------------------------------------: | :----:
| <img src="media/Label1.jpg" width=256/> | <img src="media/Botao1.jpg" width=256/>  | <img src="media/TextBox1.jpg" width=256/> 

| Checkbox                                | Slider                                   | ListPicker
| :-------------------------------------: | :--------------------------------------: | :----:
| <img src="media/Checkbox1.jpg" width=256/> | <img src="media/Slider1.jpg" width=256/> | <img src="media/ListPicker1.jpg" width=256/>

| Switch                                   | Image                                    | Map
| :-------------------------------------:  | :--------------------------------------: | :----:
| <img src="media/Switch1.jpg" width=256/> | <img src="media/Image1.jpg" width=256/>  | <img src="media/Map1.jpg" width=256/>

Com a ajuda de voluntários, foram coletados *sketches* com base nestes *screenshots* selecionados, gerando assim um conjunto de dados completo com diversos estilos de desenho e com variação de câmera e condições luminosas:

<table><tr>
    <td> <img src="media/ExampleSketch2.jpg" width=256/> </td>
    <td> <img src="media/ExampleSketch3.jpg" width=256/> </td>
    <td> <img src="media/ExampleSketch4.jpg" width=256/> </td>
</tr></table>

Os *sketches* feitos pelos voluntários foram então rotulados manualmente, com anotações de posição e tipo de cada componente, bem como a posição da tela (*screen*) como um todo:

<img src="media/Annotations.png" width=600/>

Resultando em um conjunto de dados com 402 imagens de *sketches* de interfaces de usuário, com anotações de 3584 componentes:

![Class Balance](media/ClassBalance2.png)

Estas foram divididas em conjuntos de treino, validação e testes com as seguintes proporções<a name="cite_ref-1"></a>[<sup>[1]</sup>](#cite_note-1):

![Split](media/Split2.png)

In [6]:
# Clone YOLOv5 and install dependencies
!git clone https://github.com/ultralytics/yolov5
%cd yolov5
%pip install -qr requirements.txt # install dependencies
%pip install -q roboflow

# Import libs
import torch
import os
from IPython.display import Image, clear_output

# Check if cuda enabled
print(f"Setup complete. Using torch {torch.__version__} ({torch.cuda.get_device_properties(0).name if torch.cuda.is_available() else 'CPU'})")

C:\Users\dsbau\OneDrive\Documents\UFSC\Mestrado\2o Semestre\INE410121 - Visão Computacional\INE410121-VisaoComputacional\yolov5


Cloning into 'yolov5'...


Note: you may need to restart the kernel to use updated packages.


ERROR: Invalid requirement: '#'


Note: you may need to restart the kernel to use updated packages.
Setup complete. Using torch 1.10.2+cpu (CPU)


In [9]:
# Configure model
os.environ["MODEL_NAME"] = "yolov5m6"

## Avaliação do Modelo

Métricas do treinamento do modelo podem ser obtidas por meio do Tensorboard:

In [None]:
!python val.py --weights ../yolov5m6/weights/best.pt --data 