<h2>Adagrad Optimizer</h2>

<h3>What is Adagrad?</h3>
<ul>
  <li><b>English:</b> Adagrad (Adaptive Gradient Algorithm) is an optimizer that adapts the learning rate for each parameter individually. It gives smaller learning rates to parameters associated with frequently occurring features, and larger learning rates to infrequent ones.</li>
  <li><b>বাংলা:</b> Adagrad একটি অপটিমাইজার যা প্রতিটি প্যারামিটারের জন্য স্বয়ংক্রিয়ভাবে লার্নিং রেট অ্যাডজাস্ট করে। এটি যেসব ফিচার বেশি ঘন ঘন আসে, তাদের জন্য ছোট লার্নিং রেট এবং যেসব কম আসে, তাদের জন্য বড় লার্নিং রেট ব্যবহার করে।</li>
</ul>

<h3>How Does It Work?</h3>
<ul>
  <li><b>English:</b> Adagrad maintains a sum of the squares of all past gradients for each parameter. When updating weights, it divides the learning rate by the square root of this sum. This slows down the learning for frequently updated parameters.</li>
  <li><b>বাংলা:</b> Adagrad প্রতিটি প্যারামিটারের জন্য পূর্ববর্তী গ্র্যাডিয়েন্টগুলোর বর্গের যোগফল রাখে। ওজন আপডেট করার সময় এটি সেই যোগফলের বর্গমূল দিয়ে লার্নিং রেট ভাগ করে দেয়। এর ফলে যেসব প্যারামিটার বেশি আপডেট হয়, তাদের জন্য লার্নিং রেট ধীরে ধীরে কমে যায়।</li>
</ul>

<h3>Mathematical Formula</h3>
<pre>
θ = θ - (η / sqrt(G + ε)) * ∇J(θ)

Where:
- θ = parameter (weight)
- η = learning rate
- G = sum of squares of past gradients
- ε = small constant to avoid division by zero
- ∇J(θ) = gradient of the loss function
</pre>

<h3>Advantages of Adagrad</h3>
<ul>
  <li><b>English:</b> No need to manually tune learning rate.</li>
  <li>Good for sparse data (e.g., text data or NLP tasks).</li>
  <li><b>বাংলা:</b> লার্নিং রেট ম্যানুয়ালি টিউন করার দরকার নেই।</li>
  <li>স্পার্স ডেটার জন্য (যেমন NLP) ভালো কাজ করে।</li>
</ul>

<h3>Disadvantages of Adagrad</h3>
<ul>
  <li><b>English:</b> Accumulated gradient squares keep growing, which can make the effective learning rate shrink too much and cause the training to stop prematurely.</li>
  <li><b>বাংলা:</b> আগের গ্র্যাডিয়েন্টের বর্গের যোগফল বাড়তে থাকে, যার ফলে লার্নিং রেট অনেক কমে গিয়ে ট্রেনিং থেমে যেতে পারে।</li>
</ul>

<h3>When to Use Adagrad?</h3>
<ul>
  <li><b>English:</b> Adagrad is useful when working with sparse data or features, such as in natural language processing (NLP), recommendation systems, or computer vision with rare events.</li>
  <li><b>বাংলা:</b> যখন স্পার্স ডেটা বা বিরল ফিচার নিয়ে কাজ করা হয়, যেমন NLP, রিকমেন্ডেশন সিস্টেম ইত্যাদিতে Adagrad ব্যবহার করা ভালো।</li>
</ul>

<h3>Keras Example</h3>
<pre>
from tensorflow.keras.optimizers import Adagrad

optimizer = Adagrad(learning_rate=0.01)

model.compile(optimizer=optimizer,
              loss='categorical_crossentropy',
              metrics=['accuracy'])

model.fit(X_train, y_train, epochs=10, batch_size=32)
</pre>

<h3>Summary Table</h3>
<table border="1" cellpadding="5">
  <tr>
    <th>Aspect</th>
    <th>Adagrad</th>
    <th>বাংলা</th>
  </tr>
  <tr>
    <td>Learning Rate</td>
    <td>Automatically adjusted per parameter</td>
    <td>প্রতি প্যারামিটারে আলাদা লার্নিং রেট</td>
  </tr>
  <tr>
    <td>Strength</td>
    <td>Great for sparse data</td>
    <td>স্পার্স ডেটার জন্য চমৎকার</td>
  </tr>
  <tr>
    <td>Limitation</td>
    <td>Learning rate may shrink too much</td>
    <td>লার্নিং রেট অনেক কমে যেতে পারে</td>
  </tr>
</table>
