<h1>Artificial Neural Network (ANN) - Backpropagation এর গাণিতিক ব্যাখ্যা</h1>

<hr>

<h2>Backpropagation কী?</h2>
<p>
Backpropagation হলো এমন একটি অ্যালগরিদম, যা Cost Function মিনিমাইজ করার জন্য প্রতিটি ওজন ও বায়াসের জন্য Gradient (অর্থাৎ আংশিক ডেরিভেটিভ) হিসাব করে এবং Gradient Descent পদ্ধতিতে তাদের আপডেট করে।
</p>

<hr>

<h2>ধাপসমূহের সারাংশ:</h2>
<ol>
  <li>Forward Propagation: Prediction তৈরি করা হয়।</li>
  <li>Cost Function: Prediction ও Actual value এর মধ্যে পার্থক্য মাপা হয়।</li>
  <li>Backward Propagation: Gradient বের করে ওজন/বায়াস আপডেট করা হয়।</li>
</ol>

<hr>

<h2>চলুন ধাপে ধাপে গাণিতিক ব্যাখ্যা করি</h2>

<h3>ধরা যাক:</h3>
<ul>
  <li><code>a</code> = অ্যাক্টিভেশন (output of layer)</li>
  <li><code>z</code> = Weighted sum = w·a + b</li>
  <li><code>L</code> = Total number of layers</li>
  <li><code>σ</code> = Activation function</li>
  <li><code>C</code> = Cost function</li>
</ul>

<hr>

<h2>ধাপ ১: Output layer-এ ত্রুটি বের করা (Error delta)</h2>

<p>Output layer এর জন্য ত্রুটি:</p>

<pre>
δ<sup>[L]</sup> = ∂C/∂a<sup>[L]</sup> ⊙ σ'(z<sup>[L]</sup>)
</pre>

<p>যেখানে:</p>
<ul>
  <li>δ = Error/Delta (Layer-wise)</li>
  <li>σ'(z) = Activation function-এর ডেরিভেটিভ</li>
  <li>⊙ = element-wise গুণফল</li>
</ul>

<hr>

<h2>ধাপ ২: Hidden layer-গুলোর জন্য ত্রুটি</h2>

<p>Layer L−1 থেকে শুরু করে Layer 1 পর্যন্ত:</p>

<pre>
δ<sup>[l]</sup> = (W<sup>[l+1]</sup>)<sup>T</sup> · δ<sup>[l+1]</sup> ⊙ σ'(z<sup>[l]</sup>)
</pre>

<ul>
  <li>W<sup>[l+1]</sup> = পরবর্তী লেয়ারের ওজন ম্যাট্রিক্স</li>
  <li>δ<sup>[l+1]</sup> = পরবর্তী লেয়ারের ত্রুটি</li>
</ul>

<hr>

<h2>ধাপ ৩: Gradient বের করা</h2>

<p>Cost function কে respect করে ওজন ও বায়াসের partial derivative হিসাব করা হয়:</p>

<pre>
∂C/∂W<sup>[l]</sup> = δ<sup>[l]</sup> · (a<sup>[l−1]</sup>)<sup>T</sup>
∂C/∂b<sup>[l]</sup> = δ<sup>[l]</sup>
</pre>

<p>এই Gradient ব্যবহার করে Gradient Descent দিয়ে ওজন ও বায়াস আপডেট করা হয়।</p>

<hr>

<h2>ধাপ ৪: ওজন ও বায়াস আপডেট</h2>

<p>Gradient Descent Rule:</p>

<pre>
W<sup>[l]</sup> := W<sup>[l]</sup> − α * ∂C/∂W<sup>[l]</sup>
b<sup>[l]</sup> := b<sup>[l]</sup> − α * ∂C/∂b<sup>[l]</sup>
</pre>

<ul>
  <li>α = Learning Rate</li>
</ul>

<hr>

<h2>সারাংশ টেবিল</h2>

<table border="1" cellpadding="6" cellspacing="0">
  <thead>
    <tr>
      <th>ধাপ</th>
      <th>গাণিতিক রূপ</th>
      <th>ব্যাখ্যা</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>Output Error</td>
      <td>δ<sup>[L]</sup> = ∂C/∂a<sup>[L]</sup> ⊙ σ'(z<sup>[L]</sup>)</td>
      <td>Prediction ও Actual মানের পার্থক্য</td>
    </tr>
    <tr>
      <td>Hidden Error</td>
      <td>δ<sup>[l]</sup> = (W<sup>[l+1]</sup>)<sup>T</sup> · δ<sup>[l+1]</sup> ⊙ σ'(z<sup>[l]</sup>)</td>
      <td>পরবর্তী লেয়ার থেকে ব্যাকপ্রোপাগেটেড ত্রুটি</td>
    </tr>
    <tr>
      <td>Weight Gradient</td>
      <td>∂C/∂W<sup>[l]</sup> = δ<sup>[l]</sup> · (a<sup>[l−1]</sup>)<sup>T</sup></td>
      <td>ওজন পরিবর্তনের নির্দেশনা</td>
    </tr>
    <tr>
      <td>Bias Gradient</td>
      <td>∂C/∂b<sup>[l]</sup> = δ<sup>[l]</sup></td>
      <td>বায়াস পরিবর্তনের নির্দেশনা</td>
    </tr>
    <tr>
      <td>Update</td>
      <td>W := W − α·∇W, b := b − α·∇b</td>
      <td>Gradient Descent দিয়ে আপডেট</td>
    </tr>
  </tbody>
</table>

<hr>

<h2>উল্লেখযোগ্য বিষয়:</h2>
<ul>
  <li>Backpropagation ব্যাকওয়ার্ডভাবে প্রতিটি লেয়ারে error ছড়িয়ে দেয়।</li>
  <li>এটি Chain Rule (Calculus) ব্যবহার করে Gradient বের করে।</li>
  <li>Gradient Descent এই Gradient ব্যবহার করে ওজন ও বায়াস আপডেট করে।</li>
</ul>
