<h2>Stochastic Gradient Descent (SGD)</h2>

<h3>What is SGD?</h3>
<ul>
  <li><b>English:</b> SGD updates the model’s parameters using a single training example (or a small mini-batch) at a time. It is a faster and more memory-efficient version of gradient descent.</li>
  <li><b>বাংলা:</b> SGD হল এমন একটি পদ্ধতি, যেখানে প্রতিবার একটি মাত্র উদাহরণ (বা ছোট একটি ব্যাচ) ব্যবহার করে gradient হিসাব ও weight আপডেট করা হয়। এটি দ্রুত এবং কম মেমোরি ব্যবহার করে।</li>
</ul>

<h3>Update Rule</h3>
<ul>
  <li><b>Formula:</b> 
    <br>θ = θ − η × ∇J(θ; x<sup>(i)</sup>, y<sup>(i)</sup>)
  </li>
  <li><b>Where:</b>
    <ul>
      <li>θ = model parameters</li>
      <li>η = learning rate</li>
      <li>∇J = gradient of the cost function</li>
      <li>x<sup>(i)</sup>, y<sup>(i)</sup> = a single training sample</li>
    </ul>
  </li>
</ul>

<h3>Advantages</h3>
<ul>
  <li><b>English:</b> Fast updates, low memory usage, useful for large datasets.</li>
  <li><b>বাংলা:</b> দ্রুত কাজ করে, কম মেমোরি লাগে এবং বড় ডেটাসেটের জন্য কার্যকর।</li>
</ul>

<h3>Disadvantages</h3>
<ul>
  <li><b>English:</b> Noisy updates, may overshoot minima, hard to converge smoothly.</li>
  <li><b>বাংলা:</b> কখনো কখনো খুব বেশি উঠানামা করে, ফলে নিখুঁত সমাধানে পৌঁছানো কঠিন হয়।</li>
</ul>

<h3>Techniques to Improve SGD</h3>
<ul>
  <li><b>Mini-Batch SGD:</b> Use a small group of samples instead of one → more stable.</li>
  <li><b>Momentum:</b> Add a fraction of previous gradient → reduces oscillation.</li>
  <li><b>Learning Rate Decay:</b> Reduce η over time → helps convergence.</li>
</ul>

<h3> Where is SGD Used?</h3>
<ul>
  <li>Neural Networks</li>
  <li>Logistic/Linear Regression</li>
  <li>Deep Learning with large datasets</li>
</ul>

<h3> SGD in Keras</h3>

<pre>
from tensorflow.keras.optimizers import SGD

# Basic usage
optimizer = SGD(learning_rate=0.01)

# With momentum
optimizer = SGD(learning_rate=0.01, momentum=0.9)

# Compile with model
model.compile(optimizer=optimizer, loss='binary_crossentropy', metrics=['accuracy'])
</pre>

<h3>📊 Summary Table</h3>
<table border="1" cellpadding="5">
  <tr>
    <th>Aspect</th>
    <th>SGD</th>
    <th>বাংলা</th>
  </tr>
  <tr>
    <td>Update</td>
    <td>One sample at a time</td>
    <td>প্রতিবার একটি উদাহরণ ব্যবহার</td>
  </tr>
  <tr>
    <td>Speed</td>
    <td>Fast</td>
    <td>দ্রুত</td>
  </tr>
  <tr>
    <td>Stability</td>
    <td>Low (oscillations)</td>
    <td>কম (ওঠানামা করে)</td>
  </tr>
  <tr>
    <td>Best for</td>
    <td>Large datasets</td>
    <td>বড় ডেটাসেট</td>
  </tr>
</table>


## Mini Batch SGD

<h2>Mini-Batch Stochastic Gradient Descent (Mini-Batch SGD)</h2>

<h3>What is Mini-Batch SGD?</h3>
<ul>
  <li><b>English:</b> Mini-Batch SGD updates model weights using a small batch of training samples (e.g., 16, 32, 64). It combines the efficiency of batch gradient descent with the speed of stochastic gradient descent.</li>
  <li><b>বাংলা:</b> Mini-Batch SGD হল এমন একটি পদ্ধতি যেখানে প্রতিবার একটি ছোট গ্রুপ (batch) ডেটা ব্যবহার করে ওজন আপডেট করা হয় (যেমন ১৬, ৩২ বা ৬৪)। এটি Stochastic GD ও Batch GD এর মিশ্র রূপ।</li>
</ul>

<h3>How Does Mini-Batch SGD Work?</h3>
<ol>
  <li>Split training data into small batches (e.g., 32 samples each).</li>
  <li>For each batch:
    <ul>
      <li>Calculate the average gradient of the loss function.</li>
      <li>Update model weights using this gradient.</li>
    </ul>
  </li>
  <li>Repeat this process for all batches in an epoch.</li>
</ol>

<p><b>বাংলায় কাজের ধাপ:</b></p>
<ol>
  <li>ডেটাসেটকে ছোট ছোট ব্যাচে ভাগ করা হয়।</li>
  <li>প্রতিটি ব্যাচের জন্য gradient হিসাব করা হয় এবং ওজন আপডেট করা হয়।</li>
  <li>এই কাজটি সব ব্যাচের জন্য বারবার করা হয় (একটি epoch)।</li>
</ol>

<h3>Advantages of Mini-Batch SGD</h3>
<ul>
  <li><b>English:</b> Faster than batch GD, more stable than SGD, suitable for parallel computing (GPU).</li>
  <li><b>বাংলা:</b> Batch GD এর চেয়ে দ্রুত এবং SGD এর চেয়ে স্থির। GPU-তে efficiently কাজ করে।</li>
</ul>

<h3>Disadvantages of Mini-Batch SGD</h3>
<ul>
  <li><b>English:</b> Choosing batch size can be tricky. Too small = noisy updates, too large = memory issues.</li>
  <li><b>বাংলা:</b> ব্যাচ সাইজ বাছাই করা কঠিন হতে পারে। খুব ছোট হলে আপডেট অস্থির, বড় হলে মেমোরি সমস্যা।</li>
</ul>

<h3>Common Batch Sizes</h3>
<ul>
  <li>16, 32, 64, 128 — depends on dataset size and GPU RAM.</li>
  <li><b>বাংলা:</b> সাধারনতঃ ১৬, ৩২, ৬৪, ১২৮ ব্যবহার করা হয়। ডেটাসেট ও GPU-এর উপর নির্ভর করে।</li>
</ul>

<h3>Python (Keras) Example</h3>

<pre>
from tensorflow.keras.optimizers import SGD

model.compile(optimizer=SGD(learning_rate=0.01),
              loss='categorical_crossentropy',
              metrics=['accuracy'])

model.fit(X_train, y_train, epochs=10, batch_size=32)
</pre>

<h3>Summary Table</h3>
<table border="1" cellpadding="5">
  <tr>
    <th>Aspect</th>
    <th>Mini-Batch SGD</th>
    <th>বাংলা</th>
  </tr>
  <tr>
    <td>Speed</td>
    <td>Faster than Batch GD</td>
    <td>Batch GD এর চেয়ে দ্রুত</td>
  </tr>
  <tr>
    <td>Stability</td>
    <td>More stable than SGD</td>
    <td>SGD এর চেয়ে বেশি স্থির</td>
  </tr>
  <tr>
    <td>Memory Usage</td>
    <td>Moderate</td>
    <td>মাঝারি মেমোরি ব্যবহার করে</td>
  </tr>
  <tr>
    <td>Best for</td>
    <td>Large datasets with GPU</td>
    <td>বড় ডেটাসেট ও GPU</td>
  </tr>
</table>
