# Escolha do modelo de rede neural

Um ponto a ser definido é: Vale a pena, dado os recursos temporais, computacionais e em relação ao banco de dados criar e treinar um novo modelo preditivo ou poderia ser utilizado, para fins de aceleração de treinamento, um modelo já existente e adapta-do ao novo desafio?

Pretendemos responder a essa pergunta com as informações a seguir:

## Modelos pré-treinados

Modelos pré-treinados são modelos da Rede Neural treinados em grandes conjuntos de dados de referência, como o ImageNet. A comunidade Deep Learning se beneficiou bastante com esses modelos de código aberto e esse também é um dos principais motivos para avanços rápidos na pesquisa da Computer Vision. Outros pesquisadores e profissionais podem usar esses modelos de ponta em vez de reinventar tudo do zero.

Dada a seguir, é apresentada uma linha do tempo aproximada de como os modelos mais avançados melhoraram com o tempo.

![Model_Timeline.png](attachment:Model_Timeline.png)

Antes de abordarmos os detalhes de como podemos usar modelos pré-treinados para classificação de imagens, vamos ver quais são os vários modelos pré-treinados que podemos usar.

A palavra pré-treinada aqui significa que as arquiteturas de aprendizado profundo pré-feitas já foram treinadas em alguns (enormes) conjuntos de dados e, portanto, carregam os pesos e preconceitos resultantes com eles. Essa diferença entre arquitetura e pesos e vieses deve ser muito clara, para termos pleno conhecimento das operações que estão sendo realizadas.

Os dados mostrados a seguir são oriundo do site [https://www.learnopencv.com/pytorch-for-beginners-image-classification-using-pre-trained-models/](https://www.learnopencv.com/pytorch-for-beginners-image-classification-using-pre-trained-models/).

### Comparação entre modelos

Até agora, discutimos como podemos usar modelos pré-treinados para executar a classificação de imagens, mas uma pergunta que ainda precisamos responder é como decidimos qual modelo escolher para uma tarefa específica. Nesta seção, compararemos os modelos pré-treinados com base nos seguintes critérios:

* **Top 1 error**: um erro 1 principal ocorre se a classe prevista por um modelo com maior confiança não for a mesma que a classe verdadeira.
* **Top 5 error**: ocorre um erro entre as 5 melhores quando a classe verdadeira não está entre as 5 principais previstas por um modelo (classificadas em termos de confiança).
* **Tempo de inferência na CPU**: Tempo de inferência é o tempo necessário para a etapa de inferência do modelo.
* **Tempo de inferência na GPU**
* **Tamanho do modelo**: Aqui o tamanho representa o espaço físico ocupado pelo arquivo do modelo pré-treinado.

Um bom modelo terá baixo erro Top 1, baixo erro Top 5, tempo de inferência baixo na CPU e GPU e tamanho baixo do modelo.

Todas as experiências foram realizadas na mesma imagem de entrada e várias vezes para que a média de todos os resultados de um modelo específico possa ser tomada para análise. Os experimentos foram realizados no Google Colab.

#### Comparação de precisão de modelos

![Accuracy-Comparison-of-Models.png](attachment:Accuracy-Comparison-of-Models.png)

Observe no gráfico que ambos os erros seguem uma tendência semelhante. AlexNet foi a primeira tentativa baseada no Deep Learning e houve melhorias no erro desde então. Menções notáveis são GoogLeNet, ResNet, VGGNet, ResNext.

#### Comparação de tempo de inferência

A seguir, compararemos os modelos com base no tempo necessário para a inferência do modelo. Uma imagem foi fornecida para cada modelo várias vezes e o tempo de inferência para todas as iterações foi medido. Processo semelhante foi realizado para CPU e, em seguida, para GPU no Google Colab. Embora existam algumas variações na ordem, podemos ver que o SqueezeNet, ShuffleNet e ResNet-18 tiveram um tempo de inferência muito baixo, exatamente o que queremos.

![Model-Inference-Time-Comparison-on-CPU-ms-Lower-is-better-.png](attachment:Model-Inference-Time-Comparison-on-CPU-ms-Lower-is-better-.png)

![Model-Inference-Time-Comparison-on-GPU-ms-Lower-is-better-.png](attachment:Model-Inference-Time-Comparison-on-GPU-ms-Lower-is-better-.png)

#### Comparação de tamanho de modelo

Muitas vezes, quando estamos usando um modelo de Deep Learning em um dispositivo Android ou iOS, o tamanho do modelo se torna um fator decisivo, às vezes até mais importante que a precisão. O SqueezeNet possui o tamanho mínimo do modelo (5 MB), seguido pelo ShuffleNet V2 (6 MB) e MobileNet V2 (14 MB). É óbvio por que esses modelos são preferidos em aplicativos móveis que utilizam aprendizado profundo.

![Model-Size-Comparison.png](attachment:Model-Size-Comparison.png)

#### Comparação geral

Discutimos sobre qual modelo teve melhor desempenho com base em um critério específico. Podemos espremer todos esses detalhes importantes em um gráfico de bolhas aos quais podemos nos referir para decidir qual modelo seguir com base em nossos requisitos.

* A coordenada x que estamos usando é o erro Top 1 (quanto menor, melhor).
* A coordenada y é o tempo de inferência na GPU em milissegundos (quanto menor, melhor).
* O tamanho da bolha representa o tamanho do modelo (quanto menor, melhor).

NOTA :
* Bolhas menores são melhores em termos de tamanho do modelo.
* Bolhas próximas à origem são melhores em termos de precisão e velocidade.

![Pre-Trained-Model-Comparison.png](attachment:Pre-Trained-Model-Comparison.png)

#### Veredito final

Fica claro pelo gráfico, que o modelo ResNet50 performou bem nos 3 critérios.

### ResNet 50

O ResNet-50 tem 50 camadas de profundidade e é treinado em um milhão de imagens de 1000 categorias no banco de dados ImageNet. Além disso, o modelo possui mais de 23 milhões de parâmetros treináveis, o que indica uma arquitetura profunda que melhora o reconhecimento de imagens.

ResNet significa Rede Residual e, mais especificamente, é de uma arquitetura de Rede Neural Residual. O que caracteriza uma rede residual são suas conexões de identidade. As conexões de identidade levam a entrada diretamente para o final de cada bloco residual.

#### Skip Connection - A força da ResNet

A ResNet introduziu pela primeira vez o conceito de pular conexão. O diagrama abaixo ilustra a conexão de salto. A figura à esquerda está empilhando camadas de convolução uma após a outra. À direita, ainda empilhamos as camadas de convolução como antes, mas agora também adicionamos a entrada original à saída do bloco de convolução. Isso é chamado de pular conexão

![1_kanYOsFl0MmaPk5ZWDjJmw.png](attachment:1_kanYOsFl0MmaPk5ZWDjJmw.png)

Por que o Skip Connections funciona?

* Eles atenuam o problema de desaparecer o gradiente, permitindo que esse caminho alternativo de atalho flua através do gradiente.
* Eles permitem que o modelo aprenda uma função de identidade que garante que a camada superior tenha um desempenho tão bom quanto a camada inferior, e não pior.

Especificamente, o modelo ResNet-50 consiste em 5 estágios, cada um com um bloco residual. Cada bloco residual possui 3 camadas com convoluções 1 * 1 e 3 * 3. O conceito de blocos residuais é bastante simples. Nas redes neurais tradicionais, cada camada é inserida na próxima camada. Em uma rede com blocos residuais, cada camada é inserida na próxima camada e diretamente nas camadas a cerca de 2 a 3 saltos, chamadas conexões de identidade.

## Conclusão

Dados as informações apresentadas, fica decidido utilizar métodos de **transferência de conhecimento** para utilizar o modelo de rede **ResNet50**.

#### Bibliografia:

As informações utilizadas e os dados apresentados foram obtidos em:
* [https://www.learnopencv.com/pytorch-for-beginners-image-classification-using-pre-trained-models/](https://www.learnopencv.com/pytorch-for-beginners-image-classification-using-pre-trained-models/).
* [https://mc.ai/simple-image-classification-with-resnet-50/](https://mc.ai/simple-image-classification-with-resnet-50/).
* [https://towardsdatascience.com/understanding-and-coding-a-resnet-in-keras-446d7ff84d33](https://towardsdatascience.com/understanding-and-coding-a-resnet-in-keras-446d7ff84d33).