# Visualização com TensorBoard e Ajuste de Hiperparâmetros 

## TensorBoard: Visualizando o Treinamento

**TensorBoard** é uma ferramenta visual interativa que permite acompanhar o treinamento de redes neurais em tempo real. Com ele, você pode:

* Visualizar curvas de aprendizado (perda e métricas)
* Comparar execuções diferentes do modelo
* Inspecionar o grafo computacional
* Ver projeções de dados em alta dimensão
* Monitorar imagens, histogramas e outros dados (dependendo da configuração)



## Ajustando Hiperparâmetros 

Redes neurais têm muitos hiperparâmetros: número de camadas, neurônios, taxa de aprendizado, função de ativação etc. Para descobrir os melhores valores, usamos buscas como:

* **Grid Search**: testa combinações exaustivamente
* **Randomized Search**: testa combinações aleatórias dentro de um intervalo


### Número de Camadas Ocultas (Hidden Layers)

* **Ponto de partida**: Uma única camada oculta pode ser suficiente para muitos problemas simples.
* **Teorema Universal da Aproximação**: Uma rede com apenas uma camada oculta e neurônios suficientes pode aproximar qualquer função contínua.
* **Por que redes profundas são melhores?**

  * Elas são **mais eficientes em termos de parâmetros**: podem representar funções complexas com menos neurônios.
  * Capturam **estruturas hierárquicas** nos dados, como:

    * Camadas inferiores → padrões simples (ex: linhas)
    * Camadas intermediárias → formas (ex: quadrados, círculos)
    * Camadas superiores → objetos completos (ex: rostos)
* **Exemplo intuitivo**: desenhar uma floresta sem copiar/colar folhas → redes profundas fazem "copy/cola" estrutural.
* **Benefícios**:

  * Convergência mais rápida
  * Melhor generalização
  * Possibilidade de **Transfer Learning**

### Transfer Learning (Aprendizado por Transferência)

* Reutiliza as **camadas inferiores** de uma rede treinada em uma nova tarefa semelhante.
* Exemplo:

  * Rede pré-treinada para detectar rostos → camadas inferiores aprendem formas básicas.
  * Nova rede para detectar penteados → pode reaproveitar essas camadas e treinar só as superiores.


### Número de Neurônios por Camada Oculta

* **Entrada/Saída**: Definidos pela natureza do problema (ex: MNIST → 784 entradas e 10 saídas).
* **Prática antiga**: Arquitetura piramidal (300 → 200 → 100).
* **Prática atual**: Manter o mesmo número de neurônios em todas as camadas pode funcionar melhor.
* **Dica**:

  * Aumente o número de neurônios **ou** camadas até começar a **overfitting**.
  * Melhor investir em mais camadas do que em mais neurônios por camada.


### Taxa de Aprendizado (Learning Rate)

* Hiperparâmetro mais crítico.
* Estratégia:

  * Comece com uma taxa **grande que cause divergência**.
  * Divida por 3 até parar de divergir.
* Reduzir durante o treinamento pode ajudar (ex: *learning rate schedules*).

### Otimizador

* Use otimizadores mais avançados que SGD simples, como:

  * **Adam**
  * **RMSProp**

### Tamanho do Lote (Batch Size)

* Afeta **desempenho** e **tempo de treinamento**.
* Dicas:

  * Ideal geralmente < 32
  * > 10 permite otimizações de hardware/software
  * Com *Batch Normalization*, evite batches < 20


### Função de Ativação

* **ReLU**: padrão recomendado para camadas ocultas.
* A função de ativação da **camada de saída** depende da tarefa:

  * Classificação binária → Sigmoid
  * Classificação multiclasse → Softmax
  * Regressão → Linear


### Número de Iterações

* Em vez de fixar manualmente, use **Early Stopping**:

  * Para o treinamento quando o desempenho em validação para de melhorar.