<h2>SGD with Momentum</h2>

<h3>What is SGD with Momentum?</h3>
<ul>
  <li><b>English:</b> Stochastic Gradient Descent (SGD) with Momentum is an enhancement of the standard SGD. It adds a fraction of the previous weight update to the current update to accelerate convergence and reduce oscillations.</li>
  <li><b>বাংলা:</b> SGD with Momentum হল সাধারণ SGD এর একটি উন্নত সংস্করণ। এটি আগের ওয়েট আপডেটের একটি অংশ বর্তমান আপডেটে যোগ করে, যাতে কনভার্জেন্স দ্রুত হয় এবং ওঠানামা কমে।</li>
</ul>

<h3>How Does It Work?</h3>
<ul>
  <li><b>English:</b> The key idea behind momentum is that the update rule is influenced by the previous update, helping the optimizer build up velocity in the right direction. This reduces oscillations, especially in the case of steep or narrow valleys.</li>
  <li><b>বাংলা:</b> Momentum এর মূল ধারণা হল যে আপডেট রুলটি আগের আপডেট দ্বারা প্রভাবিত হয়, যা অপটিমাইজারকে সঠিক দিকে গতি (velocity) তৈরি করতে সাহায্য করে। এর ফলে steep বা narrow valleys তে ওঠানামা কম হয়।</li>
</ul>

<h3>Momentum Formula</h3>
<ul>
  <li><b>English:</b> The update rule with momentum is:
    <br>v<sub>t</sub> = β * v<sub>t-1</sub> + (1 - β) * ∇J(θ)
    <br>θ = θ - η * v<sub>t</sub>
  </li>
  <li><b>Where:</b></li>
  <ul>
    <li>v<sub>t</sub> = velocity at time step t</li>
    <li>β = momentum factor (typically between 0.9 and 0.99)</li>
    <li>∇J(θ) = gradient of the loss function at step t</li>
    <li>η = learning rate</li>
  </ul>
</ul>

<p><b>বাংলায়:</b> Momentum আপডেট রুল হল:
    <br>v<sub>t</sub> = β * v<sub>t-1</sub> + (1 - β) * ∇J(θ)
    <br>θ = θ - η * v<sub>t</sub>
</p>

<h3>Advantages of SGD with Momentum</h3>
<ul>
  <li><b>English:</b> Helps to accelerate convergence, reduces oscillations, especially for steep or narrow regions, and helps escape local minima.</li>
  <li><b>বাংলা:</b> এটি কনভার্জেন্স দ্রুত করতে সাহায্য করে, steep বা narrow রিজনে ওঠানামা কমিয়ে দেয় এবং local minima থেকে বের হতে সাহায্য করে।</li>
</ul>

<h3>Disadvantages of SGD with Momentum</h3>
<ul>
  <li><b>English:</b> Can overshoot the optimal solution if the learning rate is too high, requires tuning of the momentum parameter.</li>
  <li><b>বাংলা:</b> যদি learning rate খুব বেশি হয়, তবে এটি অপটিমাল সলিউশন পাস করে যেতে পারে, এবং momentum প্যারামিটারটি টিউন করা প্রয়োজন।</li>
</ul>

<h3>When to Use SGD with Momentum?</h3>
<ul>
  <li><b>English:</b> SGD with momentum is typically used when training deep neural networks where the cost function has many local minima or when convergence is slow.</li>
  <li><b>বাংলা:</b> যখন গভীর নিউরাল নেটওয়ার্ক ট্রেনিং করা হয়, যেখানে কস্ট ফাংশনে অনেকগুলো লোকাল মিনিমা থাকে বা কনভার্জেন্স ধীর হয়, তখন SGD with Momentum ব্যবহার করা হয়।</li>
</ul>

<h3>SGD with Momentum in Keras Example</h3>
<pre>
from tensorflow.keras.optimizers import SGD

# Example of SGD with Momentum in Keras
optimizer = SGD(learning_rate=0.01, momentum=0.9)

model.compile(optimizer=optimizer, loss='categorical_crossentropy', metrics=['accuracy'])
model.fit(X_train, y_train, epochs=10, batch_size=32)
</pre>

<h3>Summary Table</h3>
<table border="1" cellpadding="5">
  <tr>
    <th>Aspect</th>
    <th>SGD</th>
    <th>SGD with Momentum</th>
  </tr>
  <tr>
    <td>Speed</td>
    <td>Slow</td>
    <td>Faster convergence</td>
  </tr>
  <tr>
    <td>Stability</td>
    <td>Oscillates in steep regions</td>
    <td>Less oscillation</td>
  </tr>
  <tr>
    <td>Usage</td>
    <td>Simple tasks</td>
    <td>Complex deep learning tasks</td>
  </tr>
</table>
