#Métodos de Inicialização de Pesos

Os métodos de inicialização de pesos em redes neurais são técnicas utilizadas para definir os valores iniciais dos parâmetros de uma rede antes do treinamento.

A escolha da inicialização pode impactar diretamente a convergência do modelo, afetando a estabilidade do gradiente e a velocidade de aprendizado. Inicializações inadequadas podem levar a problemas como gradientes desaparecendo (vanishing gradients) ou gradientes explosivos (exploding gradients), dificultando o treinamento da rede.

Para mitigar esses problemas, diferentes estratégias foram desenvolvidas, como inicialização aleatória, Xavier/Glorot, He e até inicialização zero (que, apesar de ser um caso extremo, exemplifica a importância de um bom método).

O objetivo principal dessas abordagens é garantir que os pesos sejam pequenos o suficiente para evitar explosões de gradientes, mas suficientemente diversos para que diferentes neurônios aprendam representações distintas dos dados.



##Inicialização Aleatória

A inicialização aleatória de pesos é uma das estratégias mais simples utilizadas para definir os valores iniciais dos parâmetros em redes neurais antes do treinamento. Seu principal objetivo é evitar a simetria entre os neurônios, garantindo que cada um aprenda diferentes padrões dos dados. Se todos os pesos fossem inicializados com zero, os neurônios dentro de uma mesma camada receberiam gradientes idênticos, tornando-se redundantes e limitando a capacidade da rede. Para evitar esse problema, os pesos podem ser gerados aleatoriamente a partir de distribuições uniformes ou normais (gaussianas). Na distribuição uniforme, os pesos são amostrados dentro de um intervalo
[
−
𝑟
,
𝑟
]
, enquanto na distribuição normal, os pesos seguem uma distribuição gaussiana com média zero e um desvio padrão controlado. No entanto, a inicialização aleatória pura pode causar problemas como gradientes explosivos (se os valores dos pesos forem muito grandes) ou gradientes desaparecendo (se forem muito pequenos), dificultando o treinamento da rede. Além disso, a escolha inadequada da distribuição pode interagir negativamente com funções de ativação como sigmoid e tanh, levando a saturação e reduzindo a eficiência da retropropagação. Por conta dessas limitações, métodos mais avançados, como Xavier/Glorot e He, foram desenvolvidos para ajustar dinamicamente os valores iniciais dos pesos de acordo com a arquitetura da rede, otimizando a propagação dos gradientes e melhorando a estabilidade do treinamento.

###Formulas



A inicialização aleatória de pesos em redes neurais é essencial para evitar a simetria entre os neurônios e permitir um aprendizado eficaz. Para isso, dois métodos comuns de geração de pesos são a distribuição uniforme e a distribuição normal (gaussiana). Ambas são utilizadas para definir valores iniciais dos pesos antes do treinamento da rede, mas cada uma tem suas características específicas e aplicações ideais.

A inicialização uniforme define os pesos
𝑊
W dentro de um intervalo
[
−
𝑟
,
𝑟
]
, onde todos os valores dentro desse intervalo têm a mesma probabilidade de serem escolhidos. A fórmula geral para a distribuição uniforme é:

𝑊
∼
𝑈
(
−
𝑟
,
𝑟
)

Isso significa que os pesos são amostrados de uma distribuição uniforme no intervalo definido. A função densidade de probabilidade (PDF) dessa distribuição é dada por:

$$\
P(W) =
\begin{cases}
\frac{1}{2r}, & \text{se } -r \leq W \leq r \\
0, & \text{caso contrário}
\end{cases}$$

Ou seja, todos os valores dentro do intervalo possuem a mesma probabilidade
$ \frac{1}{2r} $ , garantindo que os pesos sejam distribuídos de maneira uniforme.

O valor de
𝑟 pode ser determinado empiricamente ou definido com base no número de neurônios na camada. Se os pesos forem muito grandes, podem causar exploding gradients; se forem muito pequenos, podem levar a vanishing gradients.

Essa inicialização tem algumas vantagens e desvantagens, como as seguintes:

Vantagem: Simplicidade e controle explícito sobre o intervalo dos pesos.

Desvantagem: Pode não ser ideal para funções de ativação como sigmoid e tanh, pois não leva em conta a variação do gradiente.



Outra abordagem comum é inicializar os pesos seguindo uma distribuição normal (gaussiana) com média zero e variância
𝜎
2
 , ou seja:

𝑊
∼
𝑁
(
0
,
𝜎
2
)

A função densidade de probabilidade (PDF) para a distribuição normal é:

$$
P(W) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{W^2}{2\sigma^2}}
$$

Isso significa que os pesos estarão concentrados em torno da média 0, com maior probabilidade de assumir valores próximos de zero e menos probabilidade de assumir valores extremos.

Escolha de
𝜎
: O desvio padrão
𝜎
 precisa ser ajustado para garantir que os gradientes não sejam muito grandes nem muito pequenos.
Existem algumas vantagens desse método de iniciação, e desventagens, descritas a seguir:

Vantagem: Apresenta Variância do Gradiente equilibrada entre as camadas, Melhor compatibilidade com redes profundas e algumas funções de ativação, além de  resolver o problema de Simetria entre Neurônios ao atribuir pesos ligeiramente diferentes para cada neurônio, permitindo que cada um aprenda representações distintas.

Desvantagem: Pode ser sensível ao valor escolhido para
𝜎
σ, exigindo ajuste cuidadoso.

##Inicialização Xavier/Glorot

##Inicialização He

##Inicialização Zero

##Comparação Com Experimento

#Impacto da Inicialização de Pesos



##Importância da inicialização de pesos


##Problemas causados por inicialização inadequada:


###Gradientes explosivos (exploding gradients)


###Gradientes desaparecendo (vanishing gradients)

##Testes práticos comparando os métodos de inicialização

##Gráficos de convergência e impacto na performance