# سفر یادگیری: آشنایی با الگوریتم SVM 🚀📊

**بیایید یکی از قدرتمندترین الگوریتم‌های یادگیری ماشین را کشف کنیم:**

## <span style="color:#8e24aa;">SVM (ماشین بردار پشتیبان)</span> 🧭  
- **مرز دقیق بین دسته‌ها** ✂️  
- به‌دنبال یافتن یک ابرصفحه (Hyperplane) است که بهترین تفکیک بین کلاس‌ها را داشته باشد  
- نقاط نزدیک به مرز تصمیم‌گیری به نام <span style="color:#ff9800;">Support Vectors</span> شناخته می‌شوند  
- ایده‌آل برای داده‌های با ابعاد زیاد (High Dimensional) و مجموعه‌های کوچک  

## 🛠️ چطور کار می‌کند؟
- داده‌ها را در فضای n‌بعدی نگاشت می‌کند  
- سعی می‌کند فاصله بین کلاس‌ها را **ماکزیمم** کند  
- می‌تواند با هسته‌ها (Kernels) مرزهای غیرخطی هم بسازد!

## 🧠 کاربردها:
- تشخیص چهره 👤  
- دسته‌بندی ایمیل‌ها (Spam vs Ham) 📬  
- شناسایی الگوهای ژنتیکی 🧬  

📌 **نکته طلایی:**  
اگر داده‌ها جداپذیر نیستند، با استفاده از **هسته‌ها (Kernel Trick)** داده‌ها را به فضای بالاتری می‌برد که در آنجا جداپذیر باشند!

🎯 **هدف ما در این مسیر:**  
درک شهودی از مرز تصمیم‌گیری + آشنایی با Support Vectors + تمرین عملی با داده‌های واقعی


In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import LinearSVC
from sklearn.pipeline import make_pipeline

# 📝 داده‌های متنی ساده با برچسب احساسات (0 = منفی، 1 = مثبت)
texts = [
    "این فیلم عالی بود و خیلی دوستش داشتم",
    "واقعا افتضاح بود، وقت تلف کردن بود",
    "بازیگرها فوق‌العاده بودن و داستان جذاب بود",
    "کسل‌کننده و بی‌محتوا، پیشنهاد نمی‌کنم",
    "یکی از بهترین فیلم‌هایی که دیدم",
    "خیلی بد بود، اصلاً خوشم نیومد"
]
labels = [1, 0, 1, 0, 1, 0]  # برچسب‌ها

# 🔧 ساخت pipeline: تبدیل متن به بردار + مدل SVM خطی
model = make_pipeline(TfidfVectorizer(), LinearSVC())

# 🧠 آموزش مدل
model.fit(texts, labels)

# 🧪 پیش‌بینی احساس جمله‌ی جدید
new_text = "فیلم خیلی قشنگ و الهام‌بخش بود"
prediction = model.predict([new_text])

print("🌟 نتیجه تحلیل احساسات:", "مثبت" if prediction[0] == 1 else "منفی")


درخت تصمیم (Decision Tree)

⚙️ چطور کار می‌کند؟
درخت تصمیم مانند یک درخت منطقی رفتار می‌کند که در آن هر گره (Node) یک سوال می‌پرسد و بر اساس جواب آن (مثلاً «بله» یا «خیر»)، به سمت شاخه‌های بعدی حرکت می‌کنیم تا در نهایت به یک برگ (Leaf) برسیم که نتیجه نهایی (مثلاً «ایمیل اسپم است» یا «نیست») را مشخص می‌کند.

💡 فرآیند اصلی به این صورت است:

داده‌ها بررسی می‌شوند تا بهترین ویژگی (feature) برای تقسیم آن‌ها پیدا شود.

با استفاده از معیارهایی مانند:

Information Gain

Gini Index
الگوریتم مشخص می‌کند که کدام ویژگی بیشترین اطلاعات را برای تصمیم‌گیری می‌دهد.

این روند به‌صورت بازگشتی ادامه پیدا می‌کند تا زمانی که:

همه داده‌ها به‌خوبی طبقه‌بندی شده باشند

یا به عمق مشخصی از درخت برسیم.

🎯 کاربردها:
درخت تصمیم یکی از پراستفاده‌ترین الگوریتم‌های یادگیری ماشین در کاربردهای زیر است:

✅ شناسایی ایمیل‌های اسپم یا غیر اسپم

✅ تحلیل احساسات در متون (مثبت / منفی / خنثی)

✅ پیش‌بینی بیماری‌ها در داده‌های پزشکی

✅ ارزیابی اعتبار مشتریان در امور بانکی

✅ تصمیم‌گیری خودکار در سیستم‌های توصیه‌گر (Recommendation Systems)



In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# 📝 داده‌ها (مثال‌هایی از جمله‌هایی که احساس پنهان هم دارن)
texts = [
    "این محصول عالی بود",         # مثبت
    "افتضاحه، هیچ‌وقت نمی‌خرم",    # منفی
    "می‌تونست بهتر باشه",          # منفیِ ملایم (نشونه نارضایتی ناخودآگاه)
    "واقعا دوستش داشتم",          # مثبت
    "نه بد بود نه خوب",           # خنثی
    "بد نبود ولی عالی هم نبود",   # خنثی / منفی ملایم
    "یکی از بهترین تجربه‌هام بود", # مثبت
    "بی‌نظر بود، البته اگه مشکلش نبود", # احساسی دوگانه (مخلوط)
]

labels = ["positive", "negative", "negative", "positive", "neutral", "neutral", "positive", "negative"]

# 🔤 تبدیل متن به ویژگی عددی (Bag of Words)
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texts)

# 🎯 مدل و آموزش
X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.25, random_state=42)
model = DecisionTreeClassifier()
model.fit(X_train, y_train)

# 📈 ارزیابی مدل
y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))

# 🔍 پیش‌بینی یک جمله جدید
new_text = ["خیلی هم جالب نبود"]
new_vec = vectorizer.transform(new_text)
prediction = model.predict(new_vec)
print("🌟 نتیجه تحلیل جمله:", prediction[0])


🍃 الگوریتم: Random Forests (جنگل تصادفی)
⚙️ چطور کار می‌کند؟
الگوریتم Random Forest در واقع مجموعه‌ای از درخت‌های تصمیم (Decision Trees) هست که با هم همکاری می‌کنن!
🧠 ایده‌اش اینه که:

«اگه از چندین درخت که به‌صورت تصادفی آموزش دیده‌ان نظر بگیریم، نتیجه‌ی نهایی دقیق‌تر، پایدارتر و کمتر دچار اشتباه خواهد بود.»

🔍 مراحل کار:

چندین درخت تصمیم به صورت مستقل ساخته می‌شن.

هر درخت فقط بخشی از داده‌ها رو (با جایگزینی) و بخشی از ویژگی‌ها رو می‌بینه → تصادفی بودن

هر درخت به تنهایی پیش‌بینی می‌کنه.

رأی‌گیری (برای Classification) یا میانگین‌گیری (برای Regression) انجام می‌شه.

🎯 کاربردها
✅ تشخیص ایمیل‌های Spam یا Not Spam
✅ تحلیل احساسات (مثبت / منفی / خنثی)
✅ تحلیل نظرات کاربران در اپلیکیشن‌ها یا فروشگاه‌ها
✅ شناسایی رفتار کاربران در شبکه‌های اجتماعی
✅ تشخیص بیماری‌ها در پزشکی
✅ پیش‌بینی تقلب‌های مالی
✅ مدل‌های شناختی برای تحلیل لحن و احساسات ناخودآگاه

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# داده‌های نمونه (دارای احساس مستقیم و غیرمستقیم)
texts = [
    "واقعا عالی بود",              # مثبت
    "هیچ وقت نمی‌خرم دیگه",        # منفی
    "نه خوب بود نه بد",           # خنثی
    "دوسش داشتم",                  # مثبت
    "بد نبود ولی بازم نمی‌خرم",    # منفی پنهان
    "پیشنهاد نمی‌کنم",             # منفی
    "ارزش خرید داشت",             # مثبت
    "متوسط بود",                  # خنثی/پنهان
]

labels = ["positive", "negative", "neutral", "positive", "negative", "negative", "positive", "neutral"]

# پردازش متن به ویژگی‌های عددی
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texts)

# آموزش مدل
X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.25, random_state=42)
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# ارزیابی
y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))

# پیش‌بینی احساس پنهان یک جمله
sentence = ["نه خیلی خوب بود نه خیلی بد ولی یه چیزی کم داشت"]
vector = vectorizer.transform([sentence[0]])
prediction = model.predict(vector)
print("🔍 احساس پیش‌بینی‌شده:", prediction[0])
