# سفر یادگیری: آشنایی با الگوریتم SVM 🚀📊

**بیایید یکی از قدرتمندترین الگوریتم‌های یادگیری ماشین را کشف کنیم:**

## <span style="color:#8e24aa;">SVM (ماشین بردار پشتیبان)</span> 🧭  
- **مرز دقیق بین دسته‌ها** ✂️  
- به‌دنبال یافتن یک ابرصفحه (Hyperplane) است که بهترین تفکیک بین کلاس‌ها را داشته باشد  
- نقاط نزدیک به مرز تصمیم‌گیری به نام <span style="color:#ff9800;">Support Vectors</span> شناخته می‌شوند  
- ایده‌آل برای داده‌های با ابعاد زیاد (High Dimensional) و مجموعه‌های کوچک  

## 🛠️ چطور کار می‌کند؟
- داده‌ها را در فضای n‌بعدی نگاشت می‌کند  
- سعی می‌کند فاصله بین کلاس‌ها را **ماکزیمم** کند  
- می‌تواند با هسته‌ها (Kernels) مرزهای غیرخطی هم بسازد!

## 🧠 کاربردها:
- تشخیص چهره 👤  
- دسته‌بندی ایمیل‌ها (Spam vs Ham) 📬  
- شناسایی الگوهای ژنتیکی 🧬  

📌 **نکته طلایی:**  
اگر داده‌ها جداپذیر نیستند، با استفاده از **هسته‌ها (Kernel Trick)** داده‌ها را به فضای بالاتری می‌برد که در آنجا جداپذیر باشند!

🎯 **هدف ما در این مسیر:**  
درک شهودی از مرز تصمیم‌گیری + آشنایی با Support Vectors + تمرین عملی با داده‌های واقعی


In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import LinearSVC
from sklearn.pipeline import make_pipeline

# 📝 داده‌های متنی ساده با برچسب احساسات (0 = منفی، 1 = مثبت)
texts = [
    "این فیلم عالی بود و خیلی دوستش داشتم",
    "واقعا افتضاح بود، وقت تلف کردن بود",
    "بازیگرها فوق‌العاده بودن و داستان جذاب بود",
    "کسل‌کننده و بی‌محتوا، پیشنهاد نمی‌کنم",
    "یکی از بهترین فیلم‌هایی که دیدم",
    "خیلی بد بود، اصلاً خوشم نیومد"
]
labels = [1, 0, 1, 0, 1, 0]  # برچسب‌ها

# 🔧 ساخت pipeline: تبدیل متن به بردار + مدل SVM خطی
model = make_pipeline(TfidfVectorizer(), LinearSVC())

# 🧠 آموزش مدل
model.fit(texts, labels)

# 🧪 پیش‌بینی احساس جمله‌ی جدید
new_text = "فیلم خیلی قشنگ و الهام‌بخش بود"
prediction = model.predict([new_text])

print("🌟 نتیجه تحلیل احساسات:", "مثبت" if prediction[0] == 1 else "منفی")


درخت تصمیم (Decision Tree)

⚙️ چطور کار می‌کند؟
درخت تصمیم مانند یک درخت منطقی رفتار می‌کند که در آن هر گره (Node) یک سوال می‌پرسد و بر اساس جواب آن (مثلاً «بله» یا «خیر»)، به سمت شاخه‌های بعدی حرکت می‌کنیم تا در نهایت به یک برگ (Leaf) برسیم که نتیجه نهایی (مثلاً «ایمیل اسپم است» یا «نیست») را مشخص می‌کند.

💡 فرآیند اصلی به این صورت است:

داده‌ها بررسی می‌شوند تا بهترین ویژگی (feature) برای تقسیم آن‌ها پیدا شود.

با استفاده از معیارهایی مانند:

Information Gain

Gini Index
الگوریتم مشخص می‌کند که کدام ویژگی بیشترین اطلاعات را برای تصمیم‌گیری می‌دهد.

این روند به‌صورت بازگشتی ادامه پیدا می‌کند تا زمانی که:

همه داده‌ها به‌خوبی طبقه‌بندی شده باشند

یا به عمق مشخصی از درخت برسیم.

🎯 کاربردها:
درخت تصمیم یکی از پراستفاده‌ترین الگوریتم‌های یادگیری ماشین در کاربردهای زیر است:

✅ شناسایی ایمیل‌های اسپم یا غیر اسپم

✅ تحلیل احساسات در متون (مثبت / منفی / خنثی)

✅ پیش‌بینی بیماری‌ها در داده‌های پزشکی

✅ ارزیابی اعتبار مشتریان در امور بانکی

✅ تصمیم‌گیری خودکار در سیستم‌های توصیه‌گر (Recommendation Systems)



In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# 📝 داده‌ها (مثال‌هایی از جمله‌هایی که احساس پنهان هم دارن)
texts = [
    "این محصول عالی بود",         # مثبت
    "افتضاحه، هیچ‌وقت نمی‌خرم",    # منفی
    "می‌تونست بهتر باشه",          # منفیِ ملایم (نشونه نارضایتی ناخودآگاه)
    "واقعا دوستش داشتم",          # مثبت
    "نه بد بود نه خوب",           # خنثی
    "بد نبود ولی عالی هم نبود",   # خنثی / منفی ملایم
    "یکی از بهترین تجربه‌هام بود", # مثبت
    "بی‌نظر بود، البته اگه مشکلش نبود", # احساسی دوگانه (مخلوط)
]

labels = ["positive", "negative", "negative", "positive", "neutral", "neutral", "positive", "negative"]

# 🔤 تبدیل متن به ویژگی عددی (Bag of Words)
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texts)

# 🎯 مدل و آموزش
X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.25, random_state=42)
model = DecisionTreeClassifier()
model.fit(X_train, y_train)

# 📈 ارزیابی مدل
y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))

# 🔍 پیش‌بینی یک جمله جدید
new_text = ["خیلی هم جالب نبود"]
new_vec = vectorizer.transform(new_text)
prediction = model.predict(new_vec)
print("🌟 نتیجه تحلیل جمله:", prediction[0])


🍃 الگوریتم: Random Forests (جنگل تصادفی)
⚙️ چطور کار می‌کند؟
الگوریتم Random Forest در واقع مجموعه‌ای از درخت‌های تصمیم (Decision Trees) هست که با هم همکاری می‌کنن!
🧠 ایده‌اش اینه که:

«اگه از چندین درخت که به‌صورت تصادفی آموزش دیده‌ان نظر بگیریم، نتیجه‌ی نهایی دقیق‌تر، پایدارتر و کمتر دچار اشتباه خواهد بود.»

🔍 مراحل کار:

چندین درخت تصمیم به صورت مستقل ساخته می‌شن.

هر درخت فقط بخشی از داده‌ها رو (با جایگزینی) و بخشی از ویژگی‌ها رو می‌بینه → تصادفی بودن

هر درخت به تنهایی پیش‌بینی می‌کنه.

رأی‌گیری (برای Classification) یا میانگین‌گیری (برای Regression) انجام می‌شه.

🎯 کاربردها
✅ تشخیص ایمیل‌های Spam یا Not Spam
✅ تحلیل احساسات (مثبت / منفی / خنثی)
✅ تحلیل نظرات کاربران در اپلیکیشن‌ها یا فروشگاه‌ها
✅ شناسایی رفتار کاربران در شبکه‌های اجتماعی
✅ تشخیص بیماری‌ها در پزشکی
✅ پیش‌بینی تقلب‌های مالی
✅ مدل‌های شناختی برای تحلیل لحن و احساسات ناخودآگاه

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# داده‌های نمونه (دارای احساس مستقیم و غیرمستقیم)
texts = [
    "واقعا عالی بود",              # مثبت
    "هیچ وقت نمی‌خرم دیگه",        # منفی
    "نه خوب بود نه بد",           # خنثی
    "دوسش داشتم",                  # مثبت
    "بد نبود ولی بازم نمی‌خرم",    # منفی پنهان
    "پیشنهاد نمی‌کنم",             # منفی
    "ارزش خرید داشت",             # مثبت
    "متوسط بود",                  # خنثی/پنهان
]

labels = ["positive", "negative", "neutral", "positive", "negative", "negative", "positive", "neutral"]

# پردازش متن به ویژگی‌های عددی
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texts)

# آموزش مدل
X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.25, random_state=42)
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# ارزیابی
y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))

# پیش‌بینی احساس پنهان یک جمله
sentence = ["نه خیلی خوب بود نه خیلی بد ولی یه چیزی کم داشت"]
vector = vectorizer.transform([sentence[0]])
prediction = model.predict(vector)
print("🔍 احساس پیش‌بینی‌شده:", prediction[0])


K-Nearest Neighbors (KNN)
یا الگوریتم k تا نزدیک‌ترین همسایه

⚙️ چطور کار می‌کند؟
KNN یک الگوریتم ساده ولی بسیار مؤثر در یادگیری ماشین (Machine Learning) است که بر اساس "نزدیکی" تصمیم می‌گیرد.

مراحل کار:
وقتی یک نمونه جدید (مثلاً یک جمله یا تصویر) وارد می‌شه،

KNN میاد و توی داده‌های آموزش، k تا نزدیک‌ترین همسایه رو به اون نمونه پیدا می‌کنه (بر اساس فاصله‌ی ریاضی مثل اقلیدسی).

سپس بررسی می‌کنه که اکثریت اون k تا همسایه چه برچسبی دارند؟

اگر بیشترشون مثبت بودن → خروجی هم مثبت می‌شه

اگر منفی بودن → نتیجه منفی می‌شه

✅ الگوریتم هیچ مدلی نمی‌سازه، فقط داده‌ها رو ذخیره می‌کنه و موقع نیاز ازشون استفاده می‌کنه (بهش می‌گن Lazy Learning).

🎯 کاربردها:
✅ تشخیص احساسات در متن (مثبت / منفی / خنثی)

✅ دسته‌بندی تصاویر (مثل گربه/سگ)

✅ شناسایی ایمیل‌های اسپم

✅ تشخیص بیماری بر اساس علائم مشابه

✅ تحلیل گفتار افراد برای فهم ناخودآگاه (وقتی بیان غیرمستقیم دارن)



In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# داده‌های ساده
texts = [
    "خیلی عالی بود",          # مثبت
    "اصلاً راضی نبودم",       # منفی
    "نه خیلی بد بود نه خوب",  # خنثی
    "عاشقش شدم",              # مثبت
    "خرید بدی بود",           # منفی
    "معمولی بود",             # خنثی
]

labels = ["positive", "negative", "neutral", "positive", "negative", "neutral"]

# تبدیل متن به بردار عددی
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texts)

# مدل و آموزش
X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.3, random_state=0)
model = KNeighborsClassifier(n_neighbors=3)
model.fit(X_train, y_train)

# ارزیابی
y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))

# پیش‌بینی جمله جدید
sentence = ["تجربه‌ی خوبی نبود راستش"]
vec = vectorizer.transform(sentence)
pred = model.predict(vec)
print("🔍 احساس شناسایی‌شده:", pred[0])


Naive Bayes (بایز ساده)
الگوریتمی بر پایه‌ی احتمال‌ها که از قانون بایز استفاده می‌کنه.

⚙️ چطور کار می‌کند؟
Naive Bayes بر اساس قانون احتمال بایز (Bayes' Theorem) کار می‌کنه. این قانون به ما می‌گه:

وقتی یک ویژگی (مثل کلمه) دیده شد، چقدر احتمال داره جمله متعلق به یک کلاس خاص (مثلاً "مثبت" یا "منفی") باشه؟

🔍 نکته‌ی جالب:

فرض می‌کنه که تمام ویژگی‌ها (کلمات) مستقل از هم هستن (که در واقعیت همیشه درست نیست، ولی جواب می‌ده!)

این فرض ساده‌انگارانه باعث می‌شه مدل خیلی سریع و سبک باشه.



🎯 کاربردها:
✅ تحلیل احساسات (Sentiment Analysis)

✅ تشخیص اسپم یا ایمیل سالم

✅ دسته‌بندی متون (اخبار، نظرات، پیام‌ها)

✅ تشخیص زبان

✅ پیش‌بینی نیت پنهان یا احساس غیرمستقیم

✅ طبقه‌بندی اسناد یا دسته‌بندی کاربران بر اساس رفتار



In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# داده‌های نمونه
texts = [
    "خیلی خوب بود",               # مثبت
    "افتضاح بود، اصلاً دوست نداشتم", # منفی
    "نه بد بود نه خوب",           # خنثی
    "عاشق این محصول شدم",         # مثبت
    "نمی‌خرم دیگه",               # منفی
    "معمولی بود",                 # خنثی
]

labels = ["positive", "negative", "neutral", "positive", "negative", "neutral"]

# تبدیل متن به بردار عددی
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texts)

# آموزش مدل
X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.3, random_state=0)
model = MultinomialNB()
model.fit(X_train, y_train)

# ارزیابی
y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))

# پیش‌بینی یک جمله‌ی پنهان‌احساس
sentence = ["بد نبود ولی حس خوبی نداشتم"]
vec = vectorizer.transform(sentence)
prediction = model.predict(vec)
print("🔍 احساس شناسایی‌شده:", prediction[0])



Gradient Boosting Machines (ماشین‌های گرادیان بوستینگ)
گاهی بهش می‌گن: GBM یا «بوستینگ تدریجی گرادیان»
⚙️ چطور کار می‌کند؟
الگوریتم GBM یکی از قوی‌ترین الگوریتم‌های یادگیری ماشین (Machine Learning) در دسته‌بندی و رگرسیونه.
روش کارش به این شکله:

ابتدا یک مدل ضعیف (مثل درخت تصمیم کوچک) ساخته می‌شه.

سپس مدل دوم ساخته می‌شه تا اشتباهات مدل قبلی رو اصلاح کنه.

این فرایند تکرار می‌شه و در هر مرحله، مدل جدید تلاش می‌کنه خطاهای قبلی رو جبران کنه.

در نهایت، همه‌ی مدل‌ها با هم ترکیب می‌شن و یک مدل قوی می‌سازن.

🌱 «بوستینگ» یعنی تقویت تدریجی.

📉 «گرادیان» به معنی حرکت به سمت کاهش خطاها با استفاده از شیب (gradient) خطاهاست.
:

🎯 کاربردهای GBM در دنیای واقعی:
تحلیل احساسات (Sentiment Analysis):
GBM خیلی خوب می‌تونه تفاوت بین احساسات مثبت، منفی یا حتی خنثی رو تشخیص بده. به‌خصوص در جملات پیچیده یا چند‌معنایی که مدل‌های ساده‌تر نمی‌تونن دقیق قضاوت کنن، GBM درخشان عمل می‌کنه ✨

تحلیل ناخودآگاه در متن‌ها:
مثلاً وقتی کسی یه نظر غیرمستقیم یا با طعنه می‌نویسه («چه محصول خفنی 😒»)، GBM می‌تونه با توجه به الگوهای قبلی متوجه بشه که در واقع این یه نظر منفیه. این یعنی قدرت درک احساسات پنهان و لحن متن 😌

تشخیص اسپم:
توی ایمیل‌ها یا پیام‌ها، GBM می‌تونه اسپم‌هایی که خیلی حرفه‌ای و شبیه پیام‌های عادی نوشته شدن رو هم تشخیص بده. چون یاد می‌گیره که الگوهای اسپم حتی اگه مستقیم نباشن، معمولاً نشونه‌هایی دارن.

سیستم‌های پیشنهاددهنده (Recommendation Systems):
مثلاً وقتی GBM روی اطلاعات خرید قبلی و واکنش‌های کاربران آموزش داده بشه، می‌تونه خیلی دقیق بهشون فیلم، کتاب یا محصول مناسب پیشنهاد بده.

پیش‌بینی رفتار کاربر:
GBM می‌تونه بر اساس حرکات قبلی کاربر (مثل کلیک‌ها، تایپ‌ها، انتخاب‌ها) احساسات یا تصمیم‌های آینده‌ش رو پیش‌بینی کنه، حتی اگر خودش دقیق ندونه چرا اون تصمیمو گرفته (یعنی ناخودآگاهش دخیل بوده) 🧠

پیش‌بینی در بازارهای مالی:
در تحلیل داده‌های مالی که پر از نوسانات و عوامل پنهانه، GBM می‌تونه رابطه‌های غیرخطی بین پارامترها رو شناسایی کنه و آینده قیمت‌ها یا ریسک‌ها رو پیش‌بینی کنه 📉📈

پزشکی و سلامت روان:
GBM برای تحلیل گزارش‌های پزشکی، علائم بیماران، یا حتی یادداشت‌های روان‌شناسان می‌تونه الگوهای مهم و پنهان رو کشف کنه. این خیلی کاربردیه در تشخیص زودهنگام بیماری‌ها یا افسردگی از روی متن گفت‌وگوها.




In [None]:
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# داده‌های نمونه
texts = [
    "خیلی خوشم اومد",        # مثبت
    "افتضاح بود",             # منفی
    "نه خوب بود نه بد",      # خنثی
    "عاشق این محصول شدم",     # مثبت
    "واقعا پشیمونم",          # منفی
    "معمولی بود",            # خنثی
]

labels = ["positive", "negative", "neutral", "positive", "negative", "neutral"]

# بردارسازی متن
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texts)

# آموزش مدل
X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.3, random_state=42)
model = GradientBoostingClassifier()
model.fit(X_train.toarray(), y_train)

# ارزیابی
y_pred = model.predict(X_test.toarray())
print(classification_report(y_test, y_pred))

# پیش‌بینی یک جمله‌ی احساس‌پنهان
sentence = ["مثلاً چیز خوبی بود"]
vec = vectorizer.transform(sentence)
prediction = model.predict(vec.toarray())
print("🔍 احساس شناسایی‌شده:", prediction[0])


 Logistic Regression
(رگرسیون لجستیک)

⚙️ چطور کار می‌کند؟
رگرسیون لجستیک برخلاف اسمش، برای طبقه‌بندی (Classification) استفاده می‌شه، نه رگرسیون واقعی!
هدفش اینه که احتمال تعلق یک ورودی به یک کلاس خاص رو حساب کنه، مثلاً:

«این جمله احتمالاً ۹۰٪ احساس مثبته و ۱۰٪ منفی.»

فرمولش یه تابع به اسم سیگموید (Sigmoid) داره که خروجی بین ۰ و ۱ تولید می‌کنه. این مقدار، همون احتمال تعلق به یک کلاس خاصه.

🌍 کاربردها:
تحلیل احساسات (Sentiment Analysis):
خیلی پرکاربرده برای تشخیص مثبت یا منفی بودن نظرات، توییت‌ها، پیام‌ها و نقدها.

تشخیص اسپم:
ایمیل یا پیام رو می‌گیره و احتمال اسپم بودنش رو پیش‌بینی می‌کنه.

تحلیل ناخودآگاه و لحن:
می‌تونه بر اساس انتخاب کلمات و نحوه بیان، احساس واقعی پشت جمله رو حدس بزنه.

تشخیص بیماری از روی داده‌های پزشکی متنی یا عددی:
مثلاً آیا فرد احتمال داره افسرده باشه یا نه.

پیش‌بینی نرخ ریزش کاربران (Churn Prediction):
آیا این کاربر اپلیکیشن یا سایت رو ترک می‌کنه یا نه؟

تشخیص تقلب (Fraud Detection):
روی تراکنش‌های بانکی یا خریدها کار می‌کنه و احتمال تقلب رو می‌سنجه.



In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import LogisticRegression

# داده‌های آموزشی
texts = ["I love this!", "This is bad", "What a great movie", "Horrible experience"]
labels = [1, 0, 1, 0]  # 1 = مثبت، 0 = منفی

# تبدیل متن به ویژگی عددی
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texts)

# آموزش مدل
model = LogisticRegression()
model.fit(X, labels)

# تست
test_text = ["I hate this movie"]
test_vec = vectorizer.transform(test_text)
prediction = model.predict(test_vec)

print("Prediction:", "مثبت" if prediction[0] == 1 else "منفی")
