<h2>Exploding Gradient Problem</h2>

<h3>What is Exploding Gradient?</h3>
<ul>
  <li><b>English:</b> The exploding gradient problem occurs when gradients become excessively large during training. This causes the model's weights to grow uncontrollably, resulting in unstable training and NaN (Not a Number) loss values.</li>
  <li><b>বাংলা:</b> Exploding Gradient সমস্যাটি তখন ঘটে যখন ট্রেনিং চলাকালীন গ্র্যাডিয়েন্টের মান অতিরিক্ত বড় হয়ে যায়। এর ফলে মডেলের ওজন (weights) অত্যধিক বৃদ্ধি পায় এবং ট্রেনিং প্রক্রিয়া অনিয়ন্ত্রিত ও অস্থির হয়ে পড়ে। Loss NaN দেখাতে পারে।</li>
</ul>

<h3>Why Does It Happen?</h3>
<ul>
  <li><b>English:</b> When using deep networks or recurrent neural networks (RNNs), the repeated multiplication of gradients can result in very large values — especially if the weights are initialized poorly or if the learning rate is too high.</li>
  <li><b>বাংলা:</b> খুব গভীর (deep) নেটওয়ার্ক বা RNN ব্যবহারের সময় একাধিক ধাপে গ্র্যাডিয়েন্টের গুণফল খুব বড় হয়ে যেতে পারে। এটি সাধারণত খারাপভাবে ইনিশিয়ালাইজড ওজন অথবা অত্যধিক লার্নিং রেট এর কারণে হয়।</li>
</ul>

<h3>Symptoms</h3>
<ul>
  <li><b>English:</b> Loss becomes NaN or suddenly increases to a very high value.</li>
  <li><b>বাংলা:</b> Loss এর মান NaN দেখাতে পারে অথবা হঠাৎ অনেক বেড়ে যায়।</li>
</ul>

<h3>Mathematical Insight</h3>
<pre>
In deep networks:
Gradient = ∂L/∂w = ∂L/∂z_n * ∂z_n/∂z_{n-1} * ... * ∂z_2/∂z_1 * ∂z_1/∂w

If each ∂z/∂z is large (>1), then gradient can explode exponentially.
</pre>

<h3>How to Fix Exploding Gradient?</h3>
<ul>
  <li><b>1. Gradient Clipping:</b> Forcefully limit gradients to a maximum value.</li>
  <li><b>2. Proper Weight Initialization:</b> Use techniques like Xavier or He initialization.</li>
  <li><b>3. Lower Learning Rate:</b> Reduce the learning rate to slow down updates.</li>
  <li><b>4. Use Normalization:</b> Apply Batch Normalization or Layer Normalization.</li>
</ul>

<h4>বাংলা ব্যাখ্যা:</h4>
<ul>
  <li><b>১. Gradient Clipping:</b> একটি নির্দিষ্ট সীমার বাইরে গেলে গ্র্যাডিয়েন্ট কেটে ফেলা হয়।</li>
  <li><b>২. সঠিক ওজন Initialization:</b> Xavier বা He initialization ব্যবহার করা উচিত।</li>
  <li><b>৩. লার্নিং রেট কমানো:</b> লার্নিং রেট কমিয়ে ওজন পরিবর্তন ধীর করা।</li>
  <li><b>৪. Normalization ব্যবহার:</b> BatchNorm বা LayerNorm ব্যবহার করা।</li>
</ul>

<h3>Gradient Clipping Example (Keras)</h3>
<pre>
from tensorflow.keras.optimizers import Adam

optimizer = Adam(learning_rate=0.001, clipvalue=1.0)

model.compile(optimizer=optimizer, loss='mse')
</pre>

<h3>Summary Table</h3>
<table border="1" cellpadding="5">
  <tr>
    <th>Aspect</th>
    <th>Explanation</th>
    <th>বাংলা</th>
  </tr>
  <tr>
    <td>Problem</td>
    <td>Very large gradients cause unstable weights</td>
    <td>গ্র্যাডিয়েন্ট বড় হলে ওজন অনিয়ন্ত্রিত হয়ে যায়</td>
  </tr>
  <tr>
    <td>When</td>
    <td>Deep or recurrent networks</td>
    <td>Deep অথবা RNN মডেলে</td>
  </tr>
  <tr>
    <td>Fix</td>
    <td>Gradient clipping, normalization, better initialization</td>
    <td>Gradient clipping, normalization, ভালো initialization</td>
  </tr>
</table>
