# Aprendizado por transferência

Aprendizado por transferência envolve pegar uma rede neural pré-treinada e adaptá-la para um novo e diferente conjunto de dados.

Dependendo do tamanho do novo conjunto de dados e da similaridade do novo conjunto de dados e do conjunto de dados original, a abordagem para o aprendizado por transferência será diferente. Existem quatro casos principais:

* novo conjunto de dados é pequeno, novos dados são similares aos dados de treinamento originais
* novo conjunto de dados é pequeno, novos dados são diferentes dos dados de treinamento originais
* novo conjunto de dados é grande, novos dados são similares aos dados de treinamento originais
* novo conjunto de dados é grande, novos dados são diferentes dos dados de treinamento originais

<img src='img/01-guide-how-transfer-learning.png' width=800px>

Um conjunto de dados grande pode ter um milhão de imagens. Um conjunto de dados pequeno pode ter duas mil imagens. A linha que divide um conjunto de dados grande e um pequeno é, de certa forma, subjetiva. Uma preocupação comum quando usamos aprendizado por transferência em um conjunto de dados pequeno é que ocorra sobreajuste.

Imagens de cachorros e imagens de lobos seriam consideradas similares; as imagens compartilhariam características comuns. Um conjunto de imagens de flores seria diferente de um conjunto de imagens de cachorros.

Como dito anteriormente, cada um dos quatro casos de aprendizado por transferência tem sua própria abordagem. Nas seções a seguir, vamos analisar cada caso separadamente.

---
## Rede de demonstração

Para explicar como cada situação funciona, vamos começar com uma rede neural convolucional pré-treinada genérica e explicar como ajustar a rede para cada caso. Nossa rede exemplo contém três camadas convolucionais e três camadas completamente conectadas:

<img src='img/02-guide-how-transfer-learning.png' width=800px>

Aqui vai uma visão geral do que uma rede neural convolucional faz:

* a primeira camada vai detectar bordas na imagem
* a segunda camada vai detectar formas
* a terceira camada detecta caraterísticas de ordem mais elevada

Cada caso de aprendizado por transferência vai usar a rede neural convolucional pré-treinada de uma forma diferente.

---
## Caso 1: conjunto de dados pequeno, dados semelhantes

<img src='img/03-guide-how-transfer-learning.png' width='800px'>

Se o novo conjunto de dados é pequeno e similar aos dados de treinamento originais:

* remova o final da rede neural
* adicione uma nova camada completamente conectada que corresponde ao número de classes no novo conjunto de dados
* atribua valores aleatórios para os pesos da nova camada completamente conectada; congele todos os pesos da rede pré-treinada
* treine a rede para atualizar os pesos da nova camada completamente conectada

Para evitar um sobreajuste no conjunto de dados pequeno, os pesos da rede original serão mantidos constantes, em vez de serem treinados novamente.

Já que os conjuntos de dados são similiares, imagens de cada conjunto de dados terão características de alto nível similares. Portanto, boa parte ou todas as camadas da rede neural pré-treinada já contêm informações relevantes sobre o novo conjunto de dados e devem ser mantidas.

É assim que você deve visualizar esta abordagem:

<img src='img/04-guide-how-transfer-learning.png' width=800px>

---
## Caso 2: conjunto de dados pequeno, dados diferentes

<img src='img/05-guide-how-transfer-learning.png' width=800px>

Se o novo conjunto de dados é pequeno e diferente dos dados de treinamento originais:

* remova a maior parte das camadas pré-treinadas próxima ao início da rede
* adicione às camadas pré-treinadas que sobraram uma nova camada completamente conectada que corresponde ao número de classes no novo conjunto de dados
* atribua valores aleatórios para os pesos da nova camada completamente conectada; congele todos os pesos da rede pré-treinada
* treine a rede para atualizar os pesos da nova camada completamente conectada

Já que o conjunto de dados continua pequeno, ainda nos preocupamos com o sobreajuste. Para evitar um possível sobreajuste, os pesos da rede neural original são mantidos constantes, como no primeiro caso.

Mas o conjunto de treinamento original e o novo conjunto de dados não compartilham as mesmas características de alto nível. Neste caso, a nova rede usará somente as camadas contendo características de baixo nível.

É assim que você deve visualizar essa abordagem:

<img src='img/06-guide-how-transfer-learning.png' width=800px>

---
## Caso 3: conjunto de dados grande, dados similares

<img src='img/07-guide-how-transfer-learning.png' width=800px>

Se o novo conjunto de dados for grande e similar aos dados de treinamento originais:

* remova a última camada completamente conectada e substitua por uma camada correspondente ao número de classes no novo conjunto de dados
* inicialize os pesos de forma aleatória na nova camada completamente conectada
* inicialize o restante dos pesos usando pesos pré-treinados
* treine a rede neural inteira novamente

Sobreajuste não é mais uma grande preocupação quando temos um grande conjunto de dados; portanto, você pode treinar todos os pesos novamente.

Já que o conjunto de treinamento original e o novo conjunto de dados compartilham as mesmas características de alto nível, toda a rede neural é usada também.

É assim que você deve visualizar esta abordagem:

<img src='img/08-guide-how-transfer-learning.png' width=800px>

---
## Caso 4: conjunto de dados grande, dados diefrentes

<img src='img/09-guide-how-transfer-learning.png' width=800px>

Se o novo conjunto de dados é grande e diferente dos dados de treinamento originais:

* remova a última camada completamente conectada e substitua por uma camada correspondente ao número de classes no novo conjunto de dados
* treine a rede novamente do zero com pesos inicializados de forma aleatória
* como alternativa, voce pode simplesmente usar a mesma estratégia que o caso dos dados "grandes e similares"

Embora o conjunto de dados seja diferente dos dados de treinamento, inicializar os pesos com a rede neural pré-treinada pode fazer com que o treinamento seja mais rápido. Então este caso é exatamente o mesmo que o caso com o conjunto de dados grande e similar.

Se usar a rede neural pré-treinada como ponto de partida não produzir um modelo de sucesso, outra opção é inicializar aleatoriamente os pesos da rede neural convolucional e treinar a rede do zero.

É assim que você deve visualizar esta abordagem:

<img src='img/10-guide-how-transfer-learning.png' width=800px>