# سفر یادگیری: آشنایی با الگوریتم SVM 🚀📊

**بیایید یکی از قدرتمندترین الگوریتم‌های یادگیری ماشین را کشف کنیم:**

## <span style="color:#8e24aa;">SVM (ماشین بردار پشتیبان)</span> 🧭  
- **مرز دقیق بین دسته‌ها** ✂️  
- به‌دنبال یافتن یک ابرصفحه (Hyperplane) است که بهترین تفکیک بین کلاس‌ها را داشته باشد  
- نقاط نزدیک به مرز تصمیم‌گیری به نام <span style="color:#ff9800;">Support Vectors</span> شناخته می‌شوند  
- ایده‌آل برای داده‌های با ابعاد زیاد (High Dimensional) و مجموعه‌های کوچک  

## 🛠️ چطور کار می‌کند؟
- داده‌ها را در فضای n‌بعدی نگاشت می‌کند  
- سعی می‌کند فاصله بین کلاس‌ها را **ماکزیمم** کند  
- می‌تواند با هسته‌ها (Kernels) مرزهای غیرخطی هم بسازد!

## 🧠 کاربردها:
- تشخیص چهره 👤  
- دسته‌بندی ایمیل‌ها (Spam vs Ham) 📬  
- شناسایی الگوهای ژنتیکی 🧬  

📌 **نکته طلایی:**  
اگر داده‌ها جداپذیر نیستند، با استفاده از **هسته‌ها (Kernel Trick)** داده‌ها را به فضای بالاتری می‌برد که در آنجا جداپذیر باشند!

🎯 **هدف ما در این مسیر:**  
درک شهودی از مرز تصمیم‌گیری + آشنایی با Support Vectors + تمرین عملی با داده‌های واقعی


In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import LinearSVC
from sklearn.pipeline import make_pipeline

# 📝 داده‌های متنی ساده با برچسب احساسات (0 = منفی، 1 = مثبت)
texts = [
    "این فیلم عالی بود و خیلی دوستش داشتم",
    "واقعا افتضاح بود، وقت تلف کردن بود",
    "بازیگرها فوق‌العاده بودن و داستان جذاب بود",
    "کسل‌کننده و بی‌محتوا، پیشنهاد نمی‌کنم",
    "یکی از بهترین فیلم‌هایی که دیدم",
    "خیلی بد بود، اصلاً خوشم نیومد"
]
labels = [1, 0, 1, 0, 1, 0]  # برچسب‌ها

# 🔧 ساخت pipeline: تبدیل متن به بردار + مدل SVM خطی
model = make_pipeline(TfidfVectorizer(), LinearSVC())

# 🧠 آموزش مدل
model.fit(texts, labels)

# 🧪 پیش‌بینی احساس جمله‌ی جدید
new_text = "فیلم خیلی قشنگ و الهام‌بخش بود"
prediction = model.predict([new_text])

print("🌟 نتیجه تحلیل احساسات:", "مثبت" if prediction[0] == 1 else "منفی")


# 🌳 درخت تصمیم (Decision Tree)

---

## ⚙️ چگونه کار می‌کند؟

درخت تصمیم شبیه یک درخت منطقی است که در آن هر **گره (Node)** یک سؤال می‌پرسد و براساس پاسخ (مثلاً «بله» یا «خیر») به یکی از شاخه‌های بعدی می‌رویم.  
در نهایت به **برگ (Leaf)** می‌رسیم که نتیجه نهایی (مثلاً «ایمیل اسپم است» یا «نیست») را تعیین می‌کند.

---

### 💡 فرآیند اصلی

1. **بررسی داده‌ها** برای پیدا کردن بهترین ویژگی (feature) جهت تقسیم داده‌ها.
2. استفاده از معیارهایی مانند:
    - Information Gain
    - Gini Index
3. الگوریتم مشخص می‌کند کدام ویژگی بیشترین اطلاعات را برای تصمیم‌گیری فراهم می‌کند.
4. این روند **به‌صورت بازگشتی** تکرار می‌شود تا:
    - همه داده‌ها به‌خوبی طبقه‌بندی شوند،
    - یا به عمق مشخصی از درخت برسیم.

---

## 🎯 کاربردهای مهم

- ✅ شناسایی ایمیل‌های اسپم یا غیر اسپم
- ✅ تحلیل احساسات در متون (مثبت / منفی / خنثی)
- ✅ پیش‌بینی بیماری‌ها در داده‌های پزشکی
- ✅ ارزیابی اعتبار مشتریان در امور بانکی
- ✅ تصمیم‌گیری خودکار در سیستم‌های توصیه‌گر (Recommendation Systems)

---

## 💬 خلاصه در یک جمله:

> **درخت تصمیم، داده‌ها را با پرسش‌های متوالی تقسیم می‌کند تا در نهایت با منطق ساده و قابل فهم، بهترین تصمیم یا پیش‌بینی را ارائه دهد.**

---


In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# 📝 داده‌ها (مثال‌هایی از جمله‌هایی که احساس پنهان هم دارن)
texts = [
    "این محصول عالی بود",         # مثبت
    "افتضاحه، هیچ‌وقت نمی‌خرم",    # منفی
    "می‌تونست بهتر باشه",          # منفیِ ملایم (نشونه نارضایتی ناخودآگاه)
    "واقعا دوستش داشتم",          # مثبت
    "نه بد بود نه خوب",           # خنثی
    "بد نبود ولی عالی هم نبود",   # خنثی / منفی ملایم
    "یکی از بهترین تجربه‌هام بود", # مثبت
    "بی‌نظر بود، البته اگه مشکلش نبود", # احساسی دوگانه (مخلوط)
]

labels = ["positive", "negative", "negative", "positive", "neutral", "neutral", "positive", "negative"]

# 🔤 تبدیل متن به ویژگی عددی (Bag of Words)
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texts)

# 🎯 مدل و آموزش
X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.25, random_state=42)
model = DecisionTreeClassifier()
model.fit(X_train, y_train)

# 📈 ارزیابی مدل
y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))

# 🔍 پیش‌بینی یک جمله جدید
new_text = ["خیلی هم جالب نبود"]
new_vec = vectorizer.transform(new_text)
prediction = model.predict(new_vec)
print("🌟 نتیجه تحلیل جمله:", prediction[0])


# 🍃 الگوریتم: Random Forests (جنگل تصادفی)

---

## ⚙️ چگونه کار می‌کند؟

الگوریتم **Random Forest** در واقع مجموعه‌ای از چندین **درخت تصمیم** (Decision Trees) است که به‌صورت گروهی با هم همکاری می‌کنند!

🧠 **ایده اصلی:**  
اگر از چندین درخت که هرکدام به‌صورت تصادفی آموزش دیده‌اند نظر بگیریم،  
نتیجه‌ی نهایی **دقیق‌تر، پایدارتر** و **کم‌خطاتر** خواهد بود.

---

### 🔍 مراحل اجرا

1. **ساخت چندین درخت تصمیم** به‌صورت مستقل.
2. هر درخت فقط **بخشی از داده‌ها** را (با جایگزینی) و **بخشی از ویژگی‌ها** را می‌بیند → ایجاد تصادفی بودن (Randomness).
3. هر درخت به‌تنهایی پیش‌بینی می‌کند.
4. **رأی‌گیری** (در طبقه‌بندی/Classification) یا **میانگین‌گیری** (در رگرسیون/Regression) روی نتایج همه درخت‌ها انجام می‌شود.

---

## 🎯 کاربردهای مهم

- ✅ تشخیص ایمیل‌های Spam یا Not Spam
- ✅ تحلیل احساسات (مثبت / منفی / خنثی)
- ✅ تحلیل نظرات کاربران در اپلیکیشن‌ها یا فروشگاه‌ها
- ✅ شناسایی رفتار کاربران در شبکه‌های اجتماعی
- ✅ تشخیص بیماری‌ها در پزشکی
- ✅ پیش‌بینی تقلب‌های مالی
- ✅ مدل‌های شناختی برای تحلیل لحن و احساسات ناخودآگاه

---

## 💬 خلاصه در یک جمله:

> **جنگل تصادفی، با ترکیب نتایج چندین درخت تصمیم تصادفی، پیش‌بینی‌هایی قوی، پایدار و دقیق‌تر ارائه می‌دهد و نسبت به مدل‌های تکی کمتر دچار خطا می‌شود.**

---


In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# داده‌های نمونه (دارای احساس مستقیم و غیرمستقیم)
texts = [
    "واقعا عالی بود",              # مثبت
    "هیچ وقت نمی‌خرم دیگه",        # منفی
    "نه خوب بود نه بد",           # خنثی
    "دوسش داشتم",                  # مثبت
    "بد نبود ولی بازم نمی‌خرم",    # منفی پنهان
    "پیشنهاد نمی‌کنم",             # منفی
    "ارزش خرید داشت",             # مثبت
    "متوسط بود",                  # خنثی/پنهان
]

labels = ["positive", "negative", "neutral", "positive", "negative", "negative", "positive", "neutral"]

# پردازش متن به ویژگی‌های عددی
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texts)

# آموزش مدل
X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.25, random_state=42)
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# ارزیابی
y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))

# پیش‌بینی احساس پنهان یک جمله
sentence = ["نه خیلی خوب بود نه خیلی بد ولی یه چیزی کم داشت"]
vector = vectorizer.transform([sentence[0]])
prediction = model.predict(vector)
print("🔍 احساس پیش‌بینی‌شده:", prediction[0])


# 👥 K-Nearest Neighbors (KNN)  
### یا الگوریتم k تا نزدیک‌ترین همسایه

---

## ⚙️ چگونه کار می‌کند؟

**KNN** یکی از ساده‌ترین و در عین حال مؤثرترین الگوریتم‌های یادگیری ماشین است که بر پایه‌ی "نزدیکی" یا شباهت بین داده‌ها تصمیم‌گیری می‌کند.

---

### مراحل اجرا

1. **ورود یک نمونه جدید** (مثلاً یک جمله یا تصویر)
2. پیدا کردن **k تا نزدیک‌ترین همسایه** به آن نمونه (با استفاده از معیار فاصله، مثل فاصله اقلیدسی)
3. بررسی برچسب همسایه‌ها:
    - اگر اکثریت **مثبت** باشند → نتیجه مثبت است.
    - اگر اکثریت **منفی** باشند → نتیجه منفی است.

> **KNN هیچ مدلی نمی‌سازد؛ فقط داده‌ها را ذخیره می‌کند و هنگام نیاز از آن‌ها استفاده می‌کند. به این نوع الگوریتم‌ها Lazy Learning گفته می‌شود.**

---

## 🎯 کاربردهای KNN

- ✅ تشخیص احساسات در متن (مثبت / منفی / خنثی)
- ✅ دسته‌بندی تصاویر (مثل گربه/سگ)
- ✅ شناسایی ایمیل‌های اسپم
- ✅ تشخیص بیماری بر اساس علائم مشابه
- ✅ تحلیل گفتار افراد برای فهم ناخودآگاه (به‌ویژه وقتی بیان غیرمستقیم دارند)

---

## 💬 خلاصه در یک جمله:

> **KNN، بدون ساختن مدل، با مقایسه‌ی یک نمونه جدید با نزدیک‌ترین همسایه‌ها در داده‌های قبلی، تصمیم نهایی را تعیین می‌کند.**

---


In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# داده‌های ساده
texts = [
    "خیلی عالی بود",          # مثبت
    "اصلاً راضی نبودم",       # منفی
    "نه خیلی بد بود نه خوب",  # خنثی
    "عاشقش شدم",              # مثبت
    "خرید بدی بود",           # منفی
    "معمولی بود",             # خنثی
]

labels = ["positive", "negative", "neutral", "positive", "negative", "neutral"]

# تبدیل متن به بردار عددی
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texts)

# مدل و آموزش
X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.3, random_state=0)
model = KNeighborsClassifier(n_neighbors=3)
model.fit(X_train, y_train)

# ارزیابی
y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))

# پیش‌بینی جمله جدید
sentence = ["تجربه‌ی خوبی نبود راستش"]
vec = vectorizer.transform(sentence)
pred = model.predict(vec)
print("🔍 احساس شناسایی‌شده:", pred[0])


# 📊 Naive Bayes (بایز ساده)

---

## ⚙️ چگونه کار می‌کند؟

**Naive Bayes** یک الگوریتم مبتنی بر احتمال است که از **قانون بایز (Bayes' Theorem)** استفاده می‌کند.  
این قانون به ما می‌گوید:  
وقتی یک ویژگی (مثلاً یک کلمه) دیده شد، چقدر احتمال دارد جمله متعلق به یک کلاس خاص باشد (مثلاً «مثبت» یا «منفی»).

---

### 🔍 نکته جالب

- **فرض مهم:** همه ویژگی‌ها (مثلاً کلمات) کاملاً مستقل از هم هستند.  
  (در عمل همیشه درست نیست، ولی الگوریتم خیلی خوب جواب می‌دهد!)
- این فرض ساده‌انگارانه باعث می‌شود مدل بسیار **سریع** و **سبک** باشد.

---

## 🎯 کاربردهای Naive Bayes

- ✅ تحلیل احساسات (Sentiment Analysis)
- ✅ تشخیص اسپم یا ایمیل سالم
- ✅ دسته‌بندی متون (اخبار، نظرات، پیام‌ها)
- ✅ تشخیص زبان
- ✅ پیش‌بینی نیت پنهان یا احساس غیرمستقیم
- ✅ طبقه‌بندی اسناد یا دسته‌بندی کاربران بر اساس رفتار

---

## 💬 خلاصه در یک جمله:

> **بایز ساده، با فرض مستقل بودن ویژگی‌ها و با محاسبات سریع احتمال، یکی از کارآمدترین الگوریتم‌ها برای طبقه‌بندی سریع داده‌ها است.**

---


In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# داده‌های نمونه
texts = [
    "خیلی خوب بود",               # مثبت
    "افتضاح بود، اصلاً دوست نداشتم", # منفی
    "نه بد بود نه خوب",           # خنثی
    "عاشق این محصول شدم",         # مثبت
    "نمی‌خرم دیگه",               # منفی
    "معمولی بود",                 # خنثی
]

labels = ["positive", "negative", "neutral", "positive", "negative", "neutral"]

# تبدیل متن به بردار عددی
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texts)

# آموزش مدل
X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.3, random_state=0)
model = MultinomialNB()
model.fit(X_train, y_train)

# ارزیابی
y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))

# پیش‌بینی یک جمله‌ی پنهان‌احساس
sentence = ["بد نبود ولی حس خوبی نداشتم"]
vec = vectorizer.transform(sentence)
prediction = model.predict(vec)
print("🔍 احساس شناسایی‌شده:", prediction[0])


# ⚡️ Gradient Boosting Machines (ماشین‌های گرادیان بوستینگ)
گاهی بهش می‌گن: **GBM** یا «بوستینگ تدریجی گرادیان»

---

## ⚙️ چگونه کار می‌کند؟

الگوریتم **GBM** یکی از قوی‌ترین روش‌ها در یادگیری ماشین برای دسته‌بندی (Classification) و رگرسیون (Regression) است.

- ابتدا یک مدل ضعیف (مانند یک درخت تصمیم کوچک) ساخته می‌شود.
- مدل دوم ساخته می‌شود تا **اشتباهات مدل قبلی** را اصلاح کند.
- این فرآیند به‌صورت تدریجی و تکراری ادامه می‌یابد؛ هر مدل جدید سعی می‌کند **خطاهای قبلی** را جبران کند.
- در پایان، همه مدل‌ها با هم ترکیب می‌شوند تا یک **مدل قوی و دقیق** بسازند.

🌱 **بوستینگ** یعنی تقویت تدریجی مدل‌ها.  
📉 **گرادیان** یعنی حرکت به سمت کاهش خطاها با استفاده از شیب (gradient) خطاها.

---

## 🎯 کاربردهای مهم GBM

- **تحلیل احساسات (Sentiment Analysis):**  
  تشخیص دقیق احساسات مثبت، منفی یا خنثی، حتی در جملات پیچیده یا چندمعنایی ✨

- **تحلیل ناخودآگاه در متون:**  
  شناسایی لحن یا احساسات پنهان (مثلاً جملات طعنه‌آمیز یا غیرمستقیم) 😌

- **تشخیص اسپم:**  
  شناسایی ایمیل‌ها یا پیام‌های اسپم، حتی اگر حرفه‌ای و شبیه پیام‌های معمولی نوشته شده باشند.

- **سیستم‌های پیشنهاددهنده (Recommendation Systems):**  
  پیشنهاد فیلم، کتاب یا محصول بر اساس الگوهای خرید و واکنش کاربران.

- **پیش‌بینی رفتار کاربر:**  
  پیش‌بینی احساسات یا تصمیم‌های آینده کاربر بر اساس رفتارهای قبلی 🧠

- **پیش‌بینی در بازارهای مالی:**  
  شناسایی روابط غیرخطی بین پارامترهای مالی و پیش‌بینی قیمت یا ریسک 📉📈

- **پزشکی و سلامت روان:**  
  تحلیل گزارش‌ها، علائم بیماران یا یادداشت‌های روان‌شناسی برای کشف الگوهای پنهان و تشخیص زودهنگام بیماری‌ها.

---

## 💬 خلاصه در یک جمله:

> **GBM با ترکیب مدل‌های ضعیف و اصلاح تدریجی خطاها، یکی از قدرتمندترین و دقیق‌ترین الگوریتم‌ها برای پیش‌بینی و تحلیل داده‌های پیچیده است.**

---


In [None]:
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# داده‌های نمونه
texts = [
    "خیلی خوشم اومد",        # مثبت
    "افتضاح بود",             # منفی
    "نه خوب بود نه بد",      # خنثی
    "عاشق این محصول شدم",     # مثبت
    "واقعا پشیمونم",          # منفی
    "معمولی بود",            # خنثی
]

labels = ["positive", "negative", "neutral", "positive", "negative", "neutral"]

# بردارسازی متن
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texts)

# آموزش مدل
X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.3, random_state=42)
model = GradientBoostingClassifier()
model.fit(X_train.toarray(), y_train)

# ارزیابی
y_pred = model.predict(X_test.toarray())
print(classification_report(y_test, y_pred))

# پیش‌بینی یک جمله‌ی احساس‌پنهان
sentence = ["مثلاً چیز خوبی بود"]
vec = vectorizer.transform(sentence)
prediction = model.predict(vec.toarray())
print("🔍 احساس شناسایی‌شده:", prediction[0])


# 🔢 Logistic Regression (رگرسیون لجستیک)

---

## ⚙️ چگونه کار می‌کند؟

**رگرسیون لجستیک** برخلاف اسمش، برای **طبقه‌بندی (Classification)** استفاده می‌شود، نه رگرسیون عددی!  
هدف آن محاسبه احتمال تعلق یک ورودی به یک کلاس خاص است، مثلاً:

> «این جمله احتمالاً ۹۰٪ احساس مثبته و ۱۰٪ منفی.»

- **فرمول اصلی:**  
  تابع سیگموید (Sigmoid Function) که خروجی را بین ۰ و ۱ نگه می‌دارد؛ این مقدار همان احتمال تعلق به یک کلاس خاص است.

---

## 🌍 کاربردهای مهم

- **تحلیل احساسات (Sentiment Analysis):**  
  تشخیص مثبت یا منفی بودن نظرات، توییت‌ها، پیام‌ها و نقدها.

- **تشخیص اسپم:**  
  پیش‌بینی احتمال اسپم بودن ایمیل‌ها یا پیام‌ها.

- **تحلیل ناخودآگاه و لحن:**  
  حدس زدن احساس واقعی یا لحن پشت یک جمله بر اساس انتخاب کلمات و نحوه بیان.

- **تشخیص بیماری بر اساس داده‌های پزشکی:**  
  مثلاً پیش‌بینی احتمال افسردگی یا بیماری دیگر از روی داده‌های متنی/عددی.

- **پیش‌بینی نرخ ریزش کاربران (Churn Prediction):**  
  آیا کاربر اپلیکیشن یا سایت را ترک می‌کند یا نه؟

- **تشخیص تقلب (Fraud Detection):**  
  سنجش احتمال تقلب در تراکنش‌های بانکی یا خریدها.

---

## 💬 خلاصه در یک جمله:

> **رگرسیون لجستیک، با استفاده از تابع سیگموید، احتمال تعلق یک نمونه به هر کلاس را تخمین می‌زند و به طبقه‌بندی داده‌ها کمک می‌کند.**

---


In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import LogisticRegression

# داده‌های آموزشی
texts = ["I love this!", "This is bad", "What a great movie", "Horrible experience"]
labels = [1, 0, 1, 0]  # 1 = مثبت، 0 = منفی

# تبدیل متن به ویژگی عددی
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texts)

# آموزش مدل
model = LogisticRegression()
model.fit(X, labels)

# تست
test_text = ["I hate this movie"]
test_vec = vectorizer.transform(test_text)
prediction = model.predict(test_vec)

print("Prediction:", "مثبت" if prediction[0] == 1 else "منفی")
