<h2>Adam Optimizer</h2>

<h3>What is Adam?</h3>
<ul>
  <li><b>English:</b> Adam (Adaptive Moment Estimation) is one of the most popular optimizers in deep learning. It combines the advantages of both Momentum and RMSProp, by using adaptive learning rates and momentum to accelerate training.</li>
  <li><b>বাংলা:</b> Adam (Adaptive Moment Estimation) হল ডিপ লার্নিং-এ ব্যবহৃত সবচেয়ে জনপ্রিয় অপটিমাইজার। এটি Momentum এবং RMSProp-এর সুবিধাগুলো একত্রিত করে, যার ফলে এটি দ্রুত ও স্থিতিশীলভাবে ট্রেনিং করতে পারে।</li>
</ul>

<h3>How Does It Work?</h3>
<ul>
  <li><b>English:</b> Adam keeps track of both:
    <ul>
      <li>First moment (mean of gradients)</li>
      <li>Second moment (uncentered variance of gradients)</li>
    </ul>
    These are used to adaptively adjust learning rates.
  </li>
  <li><b>বাংলা:</b> Adam দুই ধরনের হিসাব রাখে:
    <ul>
      <li>প্রথম মোমেন্ট (গ্র্যাডিয়েন্টের গড়)</li>
      <li>দ্বিতীয় মোমেন্ট (গ্র্যাডিয়েন্টের ভ্যারিয়েন্স)</li>
    </ul>
    এগুলোর মাধ্যমে এটি লার্নিং রেট অ্যাডজাস্ট করে।
  </li>
</ul>

<h3>Mathematical Formula</h3>
<pre>
m<sub>t</sub> = β₁ * m<sub>t-1</sub> + (1 - β₁) * g<sub>t</sub>
v<sub>t</sub> = β₂ * v<sub>t-1</sub> + (1 - β₂) * g<sub>t</sub>²

m̂<sub>t</sub> = m<sub>t</sub> / (1 - β₁ᵗ)
v̂<sub>t</sub> = v<sub>t</sub> / (1 - β₂ᵗ)

θ = θ - η * m̂<sub>t</sub> / (sqrt(v̂<sub>t</sub>) + ε)
</pre>

Where:
- η = learning rate
- β₁ = decay rate for first moment (default 0.9)
- β₂ = decay rate for second moment (default 0.999)
- ε = small constant to avoid division by 0

<h3>Advantages of Adam</h3>
<ul>
  <li><b>English:</b> Fast convergence and works well for most problems out of the box.</li>
  <li>Efficient with sparse gradients and large datasets.</li>
  <li><b>বাংলা:</b> দ্রুত কনভার্জ করে এবং অধিকাংশ ক্ষেত্রে খুব ভালো কাজ করে।</li>
  <li>স্পার্স গ্র্যাডিয়েন্ট এবং বড় ডেটাসেটের সাথে দক্ষ।</li>
</ul>

<h3>Disadvantages of Adam</h3>
<ul>
  <li><b>English:</b> May sometimes generalize poorly.</li>
  <li><b>বাংলা:</b> কিছু ক্ষেত্রে ট্রেইনিং ভালো হলেও জেনারালাইজেশন খারাপ হতে পারে।</li>
</ul>

<h3>When to Use Adam?</h3>
<ul>
  <li><b>English:</b> Adam is a great first choice optimizer for most deep learning tasks. It is ideal for problems with noisy gradients, sparse data, or complex architecture.</li>
  <li><b>বাংলা:</b> Adam অধিকাংশ ডিপ লার্নিং সমস্যার জন্য প্রাথমিকভাবে সেরা অপশন। এটি noisy gradient, sparse data বা complex architecture থাকলে বিশেষভাবে কার্যকর।</li>
</ul>

<h3>Adam in Keras Example</h3>
<pre>
from tensorflow.keras.optimizers import Adam

optimizer = Adam(learning_rate=0.001)

model.compile(optimizer=optimizer,
              loss='categorical_crossentropy',
              metrics=['accuracy'])

model.fit(X_train, y_train, epochs=10, batch_size=32)
</pre>

<h3>Summary Table</h3>
<table border="1" cellpadding="5">
  <tr>
    <th>Aspect</th>
    <th>Adam</th>
    <th>বাংলা</th>
  </tr>
  <tr>
    <td>Type</td>
    <td>Adaptive with momentum</td>
    <td>মোমেন্টামসহ অ্যাডাপটিভ</td>
  </tr>
  <tr>
    <td>Strength</td>
    <td>Fast and robust</td>
    <td>দ্রুত এবং নির্ভরযোগ্য</td
