<h2>Weight Initialization Techniques</h2>

<h3>What is Weight Initialization?</h3>
<ul>
  <li><b>English:</b> Weight initialization is the process of setting the initial values of the weights in a neural network before training begins. Poor initialization can lead to vanishing or exploding gradients and slow or failed training.</li>
  <li><b>বাংলা:</b> Weight Initialization হচ্ছে নিউরাল নেটওয়ার্ক ট্রেনিং শুরুর আগে ওজনের প্রাথমিক মান নির্ধারণ করার প্রক্রিয়া। ভুলভাবে ওজন নির্ধারণ করলে গ্র্যাডিয়েন্ট হারিয়ে যেতে পারে (vanishing) বা অতিরিক্ত বড় হতে পারে (exploding), ফলে ট্রেনিং ব্যর্থ হতে পারে।</li>
</ul>

<h3>Common Techniques</h3>

<h4>1. Zero Initialization</h4>
<ul>
  <li><b>English:</b> All weights are set to zero.</li>
  <li><b>বাংলা:</b> সব ওজনকে শূন্য রাখা হয়।</li>
  <li><b>Problem:</b> All neurons learn the same features. No symmetry is broken.</li>
</ul>

<h4>2. Random Initialization</h4>
<ul>
  <li><b>English:</b> Weights are initialized with small random values (e.g., from a uniform or normal distribution).</li>
  <li><b>বাংলা:</b> ওজনকে ছোট ছোট র‍্যান্ডম মান দিয়ে শুরু করা হয়।</li>
  <li><b>Problem:</b> May still lead to unstable gradients in deep networks.</li>
</ul>

<h4>3. Xavier/Glorot Initialization</h4>
<ul>
  <li><b>English:</b> Designed for activation functions like sigmoid and tanh. It maintains the variance of activations across layers.</li>
  <li><b>বাংলা:</b> Sigmoid এবং tanh ফাংশনের জন্য ডিজাইন করা হয়েছে। এটি প্রতিটি লেয়ারে একটিভেশন এর ভ্যারিয়েন্স একই রাখে।</li>
  <li><b>Formula:</b> 
    <pre>W ~ N(0, 1 / n)</pre> 
    where <code>n</code> is the number of input nodes.
  </li>
</ul>

<h4>4. He Initialization</h4>
<ul>
  <li><b>English:</b> Designed for ReLU and its variants. It scales the weights more than Xavier to handle non-symmetric functions like ReLU.</li>
  <li><b>বাংলা:</b> ReLU ও এর ভেরিয়েন্টগুলোর জন্য ডিজাইন করা হয়েছে। এটি Xavier থেকে ওজন বেশি স্কেল করে।</li>
  <li><b>Formula:</b>
    <pre>W ~ N(0, 2 / n)</pre>
    where <code>n</code> is the number of input nodes.
  </li>
</ul>

<h3>Comparison Table</h3>
<table border="1" cellpadding="5">
  <tr>
    <th>Method</th>
    <th>Best For</th>
    <th>Formula</th>
    <th>বাংলা</th>
  </tr>
  <tr>
    <td>Zero Initialization</td>
    <td>Not recommended</td>
    <td>W = 0</td>
    <td>সব ওজন শূন্য, ট্রেনিং নষ্ট হয়</td>
  </tr>
  <tr>
    <td>Random Initialization</td>
    <td>Simple models</td>
    <td>W ~ small random values</td>
    <td>র‍্যান্ডম ওজন</td>
  </tr>
  <tr>
    <td>Xavier (Glorot)</td>
    <td>Sigmoid, tanh</td>
    <td>W ~ N(0, 1/n)</td>
    <td>Sigmoid ও tanh ফাংশনের জন্য</td>
  </tr>
  <tr>
    <td>He Initialization</td>
    <td>ReLU, Leaky ReLU</td>
    <td>W ~ N(0, 2/n)</td>
    <td>ReLU ফাংশনের জন্য</td>
  </tr>
</table>

<h3>Weight Initialization in Keras</h3>
<pre>
from tensorflow.keras.layers import Dense
from tensorflow.keras.initializers import HeNormal

model.add(Dense(64, activation='relu', kernel_initializer=HeNormal()))
</pre>
