# Softmax অ্যাক্টিভেশন ফাংশন

**Softmax** অ্যাক্টিভেশন ফাংশন সাধারণত **মাল্টি-ক্লাস ক্লাসিফিকেশন** সমস্যার আউটপুট লেয়ারে ব্যবহৃত হয়। এটি ইনপুট ভ্যালুগুলিকে একটি **প্রোবাবিলিটি ডিস্ট্রিবিউশনে** রূপান্তর করে।

---

## 1. Softmax ফাংশনের সূত্র:

\[
\text{Softmax}(z_i) = \frac{e^{z_i}}{\sum_{j=1}^{n} e^{z_j}}
\]

যেখানে:
- \(z_i\) হলো নির্দিষ্ট ক্লাসের স্কোর
- \(n\) হলো ক্লাসের সংখ্যা
- প্রতিটি আউটপুট হবে \(0\) থেকে \(1\) এর মধ্যে, এবং সব আউটপুটের যোগফল হবে \(1\)

---

## 2. Softmax-এর বৈশিষ্ট্য

- **Probability Distribution:** প্রতিটি ক্লাসের জন্য প্রোবাবিলিটি দেয়
- **Multiclass Classification:** Logistic regression বা neural network-এর আউটপুট লেয়ারে ব্যবহৃত হয়
- **Sensitive to large values:** ইনপুট ভ্যালু যত বড়, আউটপুট তত বেশি শার্প হয়

---

## 3. Python কোডে Softmax ফাংশনের উদাহরণ

```python
import numpy as np

# Softmax ফাংশন সংজ্ঞায়িত করা
def softmax(x):
    e_x = np.exp(x - np.max(x))  # numerical stability
    return e_x / np.sum(e_x)

# ইনপুট ভেক্টর
scores = [3.0, 1.0, 0.2]

# Softmax আউটপুট
probabilities = softmax(scores)
print(probabilities)
```

---

## 4. উদাহরণ:

ধরা যাক, 3টি ক্লাসের স্কোর হলো `[3.0, 1.0, 0.2]`  
তাহলে Softmax ফাংশন ফলাফল দিবে প্রোবাবিলিটির মত কিছু: `[0.836, 0.113, 0.051]`

- সর্বোচ্চ স্কোর পেয়েছে প্রথম ক্লাস, তাই তার প্রোবাবিলিটি সবচেয়ে বেশি

---

## 5. Softmax বনাম Sigmoid

| বৈশিষ্ট্য     | Sigmoid          | Softmax                   |
|---------------|------------------|----------------------------|
| ব্যবহৃত হয়    | Binary Classification | Multiclass Classification |
| আউটপুট        | প্রতিটি ক্লাস আলাদাভাবে | একসাথে সব ক্লাসের জন্য   |
| আউটপুট যোগফল | না                | হ্যাঁ (1 হয়)              |

---

## 6. সংক্ষিপ্তসার:

- Softmax ফাংশন ইনপুট স্কোরকে প্রোবাবিলিটিতে রূপান্তর করে
- এটি একাধিক ক্লাসে কোনটি সম্ভাব্য তা নির্ধারণে সাহায্য করে
- Neural network-এর শেষ লেয়ারে Softmax সাধারণত CrossEntropy loss-এর সাথে ব্যবহৃত হয়


## Softmax অ্যাক্টিভেশন ফাংশনের সুবিধা ও অসুবিধা

### ✅ সুবিধা (Advantages):

- প্রতিটি আউটপুটকে প্রোবাবিলিটি রূপে প্রকাশ করে (0 থেকে 1 এর মধ্যে)
- সব আউটপুটের যোগফল 1 হয় — ফলে মাল্টি-ক্লাস ক্লাসিফিকেশনে খুব কার্যকর
- সহজে সবচেয়ে সম্ভাব্য ক্লাস নির্ধারণ করা যায়
- Cross-Entropy Loss ফাংশনের সঙ্গে ভালোভাবে কাজ করে

---

### ❌ অসুবিধা (Disadvantages):

- আউটপুট ভ্যালুতে **large input differences** থাকলে অত্যধিক confident prediction দেয় (Overconfident Probabilities)
- **Numerical instability** তৈরি হতে পারে (exp ফাংশন ব্যবহারের কারণে overflow হতে পারে)
- Outliers বা extreme values দ্বারা সহজে প্রভাবিত হয়
