<div dir="rtl" align="right">


# 📚 هفته سوم: یادگیری ماشین کلاسیک (Machine Learning)

این نوت‌بوک شامل **تمام درس‌های هفته سوم** با توضیحات کامل، ریشه‌ی اصطلاحات، معرفی کتابخانه‌ها و کلاس‌ها، کدهای قابل اجرا، **نمودارهای مفهومی (متنی)** و تمرین‌های progressive با برچسب‌های **ex-xx** و **project-xx** است.


</div>

<div dir="rtl" align="right">


## 🔧 (اختیاری) آماده‌سازی دادهٔ نمونه برای اجرای مثال‌ها
برای اینکه سلول‌های کد در درس‌های ۲ تا ۵ بدون خطا اجرا شوند، در این بخش یک دیتاست اسباب‌بازی می‌سازیم و آن را به `X_train, X_test, y_train, y_test` تقسیم می‌کنیم.  
در صورتیکه دیتاست خودت را داری، می‌توانی این سلول را نادیده بگیری.


</div>

In [None]:

# ساخت دیتاست نمونهٔ طبقه‌بندی و رگرسیون
from sklearn.datasets import make_classification, make_regression
from sklearn.model_selection import train_test_split
import numpy as np

# دیتاست طبقه‌بندی برای مدل‌های دسته‌بندی
X_cls, y_cls = make_classification(n_samples=600, n_features=6, n_informative=4, n_redundant=0, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X_cls, y_cls, test_size=0.2, random_state=42)

# دیتاست رگرسیون (در صورت نیاز)
X_reg, y_reg = make_regression(n_samples=600, n_features=6, n_informative=4, noise=15.0, random_state=42)
Xr_train, Xr_test, yr_train, yr_test = train_test_split(X_reg, y_reg, test_size=0.2, random_state=42)

print("Shapes (classification):", X_train.shape, X_test.shape, y_train.shape, y_test.shape)
print("Shapes (regression):", Xr_train.shape, Xr_test.shape, yr_train.shape, yr_test.shape)


<div dir="rtl" align="right">


# 📘 درس ۱: مفاهیم پایه یادگیری ماشین

### تعریف یادگیری ماشین و انواع آن
یادگیری ماشین (Machine Learning) شاخه‌ای از هوش مصنوعی است که به کامپیوترها امکان می‌دهد بدون برنامه‌نویسی صریح، از داده‌ها یاد بگیرند و پیش‌بینی یا تصمیم‌گیری کنند.

#### انواع یادگیری ماشین:
- **یادگیری نظارت‌شده (Supervised Learning):** مدل با داده‌های برچسب‌دار آموزش می‌بیند (مثلاً پیش‌بینی قیمت خانه).
- **یادگیری بدون نظارت (Unsupervised Learning):** مدل با داده‌های بدون برچسب کار می‌کند (مثلاً خوشه‌بندی مشتریان).
- **یادگیری نیمه‌نظارتی و تقویتی:** حالت‌های ترکیبی یا مبتنی بر پاداش.

#### اصطلاحات کلیدی:
- **ویژگی (Feature):** متغیرهای ورودی مدل (مثلاً سن، درآمد)
- **برچسب (Label):** خروجی مورد انتظار (مثلاً قبول/رد)
- **داده‌های آموزش و تست:** داده‌هایی که مدل با آن‌ها آموزش می‌بیند و سپس ارزیابی می‌شود.
- **Overfitting و Underfitting:** بیش‌برازش و کم‌برازش مدل نسبت به داده‌ها


</div>

<div dir="rtl" align="right">


### نمودار مفهومی

```
[یادگیری ماشین]
   |
   |---> یادگیری نظارت‌شده
   |---> یادگیری بدون نظارت
   |---> یادگیری تقویتی
   |
   |---> ویژگی ← داده ← برچسب
   |---> آموزش ← تست
   |---> Overfitting / Underfitting
```


</div>

<div dir="rtl" align="right">


### تمرین‌ها
- **ex-22:** سه مثال واقعی از یادگیری نظارت‌شده و سه مثال از یادگیری بدون نظارت بنویس.  
- **ex-23:** تفاوت Overfitting و Underfitting را با یک مثال ساده توضیح بده.  
- **ex-24:** یک دیتاست فرضی با سه ویژگی و یک برچسب طراحی کن و توضیح بده هر ستون چه معنایی دارد.


</div>

<div dir="rtl" align="right">


# 📘 درس ۲: رگرسیون خطی و لجستیک

### ریشه‌ی اصطلاحات
- **Regression (رگرسیون):** از واژه‌ی لاتین *regressus* به معنی "بازگشت" گرفته شده است. در آمار، اولین بار توسط فرانسیس گالتون برای توصیف بازگشت قد فرزندان به میانگین جامعه استفاده شد. در یادگیری ماشین، مدل‌هایی که هدفشان پیش‌بینی مقدار عددی (مثلاً قیمت، دما، درآمد) هستند، رگرسیون نامیده می‌شوند.
- **Logistic (لجستیک):** از تابع لجستیک (Logistic Function) گرفته شده که یک تابع S-شکل است و خروجی آن بین ۰ و ۱ قرار می‌گیرد. در رگرسیون لجستیک، هدف پیش‌بینی احتمال وقوع یک رویداد است.


</div>

<div dir="rtl" align="right">


### معرفی کتابخانه و کلاس‌ها
- **کتابخانه:** scikit-learn (sklearn)  
- **ماژول:** `sklearn.linear_model`  
- **کلاس‌ها:**  
  - `LinearRegression`: مدل رگرسیون خطی  
  - `LogisticRegression`: مدل رگرسیون لجستیک

#### چرا این نام‌ها؟
- **LinearRegression:** مدل خطی برای پیش‌بینی مقدار عددی.  
- **LogisticRegression:** مدل مبتنی بر تابع لجستیک برای پیش‌بینی احتمال و دسته‌بندی دودویی.


</div>

In [None]:

# رگرسیون خطی
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

model_lr = LinearRegression()
model_lr.fit(Xr_train, yr_train)           # از دیتاست رگرسیون استفاده می‌کنیم
y_pred_lr = model_lr.predict(Xr_test)
mse = mean_squared_error(yr_test, y_pred_lr)
print("میانگین مربع خطا:", mse)


In [None]:

# رگرسیون لجستیک
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

model_log = LogisticRegression(max_iter=1000)
model_log.fit(X_train, y_train)            # از دیتاست طبقه‌بندی استفاده می‌کنیم
y_pred_log = model_log.predict(X_test)
acc = accuracy_score(y_test, y_pred_log)
print("دقت مدل لجستیک:", acc)


<div dir="rtl" align="right">


### نکات و تفاوت‌ها
- **LinearRegression:** خروجی عددی (مثلاً قیمت خانه)  
- **LogisticRegression:** خروجی احتمال (مثلاً قبول/رد)  
- **پارامترهای مهم:**  
  - در `LogisticRegression`، پارامتر `solver` روش حل را تعیین می‌کند؛ `max_iter` تعداد تکرار را کنترل می‌کند.


</div>

<div dir="rtl" align="right">


### تمرین‌ها
- **ex-25:** یک دیتاست فرضی بساز برای پیش‌بینی قیمت خانه و مدل رگرسیون خطی را آموزش بده.  
- **ex-26:** یک دیتاست فرضی بساز برای پیش‌بینی قبولی دانش‌آموز و مدل رگرسیون لجستیک را آموزش بده.  
- **ex-27:** تفاوت خروجی مدل خطی و لجستیک را با مثال عددی توضیح بده.


</div>

<div dir="rtl" align="right">


# 📘 درس ۳: درخت تصمیم و جنگل تصادفی

### ریشه‌ی اصطلاحات
- **Decision Tree (درخت تصمیم):** ساختار درختی که هر گره یک تصمیم می‌گیرد و داده را به شاخه‌های بعدی هدایت می‌کند. شبیه فرآیند تصمیم‌گیری انسان.  
- **Random Forest (جنگل تصادفی):** مجموعه‌ای از درخت‌های تصمیم که هرکدام با نمونه‌گیری تصادفی از داده‌ها و ویژگی‌ها ساخته می‌شوند. واژه‌ی "جنگل" به مجموعه‌ای از درخت‌ها اشاره دارد.  
- **Ensemble (مجموعه):** ترکیب چند مدل ساده برای ساخت مدل قوی‌تر.


</div>

<div dir="rtl" align="right">


### معرفی کتابخانه و کلاس‌ها
- **کتابخانه:** scikit-learn (sklearn)  
- **ماژول‌ها:**  
  - `sklearn.tree`: ابزارهای الگوریتم‌های درختی  
  - `sklearn.ensemble`: ابزارهای ترکیبی  
- **کلاس‌ها:**  
  - `DecisionTreeClassifier`: دسته‌بندی با درخت تصمیم  
  - `RandomForestClassifier`: جنگل تصادفی برای دسته‌بندی


</div>

In [None]:

from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# درخت تصمیم
dt_model = DecisionTreeClassifier(random_state=42)
dt_model.fit(X_train, y_train)
y_pred_dt = dt_model.predict(X_test)
acc_dt = accuracy_score(y_test, y_pred_dt)
print("دقت مدل درخت تصمیم:", acc_dt)

# جنگل تصادفی
rf_model = RandomForestClassifier(n_estimators=200, random_state=42)
rf_model.fit(X_train, y_train)
y_pred_rf = rf_model.predict(X_test)
acc_rf = accuracy_score(y_test, y_pred_rf)
print("دقت مدل جنگل تصادفی:", acc_rf)


<div dir="rtl" align="right">


### نکات و تفاوت‌ها
- **درخت تصمیم:** ساده، تفسیرپذیر، اما مستعد Overfitting  
- **جنگل تصادفی:** دقت بالاتر، مقاوم‌تر در برابر Overfitting، اما تفسیرپذیری کمتر


</div>

<div dir="rtl" align="right">


### تمرین‌ها
- **ex-28:** یک مدل درخت تصمیم بساز و دقت آن را روی داده‌های تست محاسبه کن.  
- **ex-29:** یک مدل جنگل تصادفی بساز و دقت آن را با مدل درخت تصمیم مقایسه کن.  
- **ex-30:** تفاوت ساختاری بین درخت تصمیم و جنگل تصادفی را با مثال توضیح بده.


</div>

<div dir="rtl" align="right">


# 📘 درس ۴: KNN و K-Means

### ریشه‌ی اصطلاحات
- **KNN (K-Nearest Neighbors):** الگوریتمی که برای پیش‌بینی برچسب یک نمونه جدید، به K نمونه‌ی نزدیک‌تر در داده‌های آموزش نگاه می‌کند. "Neighbor" به دلیل شباهت داده‌ها و "K" به تعداد همسایه‌هایی که بررسی می‌شوند اشاره دارد.  
- **KMeans:** الگوریتم خوشه‌بندی که داده‌ها را به K خوشه تقسیم می‌کند و هر خوشه حول میانگین (مرکز ثقل) خودش شکل می‌گیرد.


</div>

<div dir="rtl" align="right">


### معرفی کتابخانه و کلاس‌ها
- **کتابخانه:** scikit-learn (sklearn)  
- **ماژول‌ها:**  
  - `sklearn.neighbors`: ابزارهای مبتنی بر همسایگی  
  - `sklearn.cluster`: ابزارهای خوشه‌بندی  
- **کلاس‌ها:**  
  - `KNeighborsClassifier`: دسته‌بندی با KNN  
  - `KMeans`: خوشه‌بندی K-میانگین


</div>

In [None]:

from sklearn.neighbors import KNeighborsClassifier
from sklearn.cluster import KMeans
from sklearn.metrics import accuracy_score

# KNN
knn_model = KNeighborsClassifier(n_neighbors=3)
knn_model.fit(X_train, y_train)
y_pred_knn = knn_model.predict(X_test)
acc_knn = accuracy_score(y_test, y_pred_knn)
print("دقت مدل KNN:", acc_knn)


In [None]:

# KMeans
kmeans_model = KMeans(n_clusters=3, random_state=42, n_init="auto")
kmeans_model.fit(X_train)   # روی داده‌های آموزش خوشه‌بندی می‌کنیم
labels = kmeans_model.labels_
print("برچسب خوشه برای بخش آموزش:", labels[:20])


<div dir="rtl" align="right">


### نکات و تفاوت‌ها
- **KNN:** الگوریتم نظارتی (Supervised)، برای دسته‌بندی یا رگرسیون، نیاز به داده‌های برچسب‌دار دارد.  
- **KMeans:** الگوریتم بدون نظارت (Unsupervised)، برای خوشه‌بندی داده‌های بدون برچسب.


</div>

<div dir="rtl" align="right">


### تمرین‌ها
- **ex-31:** یک مدل KNN با K=3 بساز و دقت آن را روی داده‌های تست محاسبه کن.  
- **ex-32:** یک مدل K-Means با K=3 روی داده‌های بدون برچسب اجرا کن و برچسب خوشه‌ها را چاپ کن.  
- **ex-33:** تفاوت کاربردی KNN و K-Means را با مثال توضیح بده.


</div>

<div dir="rtl" align="right">


# 📘 درس ۵: SVM و مقایسه الگوریتم‌ها

### ریشه‌ی اصطلاحات
- **SVM (Support Vector Machine):** الگوریتمی که یک مرز (خط یا صفحه) پیدا می‌کند که داده‌ها را با بیشترین فاصله از نزدیک‌ترین نمونه‌های هر کلاس (بردار پشتیبان) جدا کند.  
- **Support Vector:** نمونه‌هایی که نزدیک‌ترین فاصله را به مرز تصمیم دارند و تعیین‌کننده‌ی موقعیت مرز هستند.  
- **kernel:** تابعی که داده‌ها را به فضای بالاتر می‌برد تا مرز تصمیم ساده‌تر شود. واژه‌ی "kernel" به معنی "هسته" است.  
- **metrics:** ابزارهای ارزیابی مدل.


</div>

<div dir="rtl" align="right">


### معرفی کتابخانه و کلاس‌ها
- **کتابخانه:** scikit-learn (sklearn)  
- **ماژول‌ها:**  
  - `sklearn.svm`: ابزارهای ماشین بردار پشتیبان  
  - `sklearn.metrics`: ابزارهای ارزیابی مدل  
- **کلاس‌ها و توابع:**  
  - `SVC`: دسته‌بندی با SVM  
  - `accuracy_score`, `confusion_matrix`: ارزیابی مدل


</div>

In [None]:

from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, confusion_matrix

svm_model = SVC(kernel='linear', probability=False, random_state=42)
svm_model.fit(X_train, y_train)
y_pred_svm = svm_model.predict(X_test)
acc_svm = accuracy_score(y_test, y_pred_svm)
cm_svm = confusion_matrix(y_test, y_pred_svm)
print("دقت مدل SVM:", acc_svm)
print("ماتریس درهم‌ریختگی:\n", cm_svm)


<div dir="rtl" align="right">


### نکات و تفاوت‌ها
- **SVM:** مناسب برای داده‌هایی با مرز تصمیم واضح، مقاوم در برابر Overfitting، اما حساس به داده‌های پرت.  
- **kernel:** می‌تواند مرز تصمیم را خطی یا غیرخطی کند (مثلاً `'linear'` یا `'rbf'`).


</div>

<div dir="rtl" align="right">


### تمرین‌ها
- **ex-34:** یک مدل SVM با kernel خطی بساز و دقت آن را روی داده‌های تست محاسبه کن.  
- **ex-35:** دقت مدل‌های KNN، درخت تصمیم، جنگل تصادفی و SVM را روی یک دیتاست مقایسه کن و نتیجه را تحلیل کن.  
- **ex-36:** توضیح بده SVM در چه شرایطی نسبت به سایر الگوریتم‌ها برتری دارد.


</div>

<div dir="rtl" align="right">


# 📘 درس ۶: جمع‌بندی و پروژه‌ی عملی

### مرور مفاهیم
در این هفته با الگوریتم‌های کلاسیک یادگیری ماشین، ریشه‌ی اصطلاحات، ساختار کتابخانه‌ها و ماژول‌ها، تفاوت‌ها و کاربردهای هر مدل آشنا شدیم. همچنین یاد گرفتیم که هر الگوریتم برای نوع خاصی از داده و مسئله مناسب‌تر است و معیارهای مقایسه مدل‌ها را بررسی کردیم.


</div>

<div dir="rtl" align="right">


### تمرین‌ها
- **ex-37:** یک جدول مقایسه‌ای از ویژگی‌های اصلی الگوریتم‌های هفته سوم تهیه کن (نوع داده، کاربرد، مزایا، معایب).  
- **ex-38:** یک مثال واقعی برای هر الگوریتم بنویس که در دنیای واقعی کاربرد دارد.


</div>

<div dir="rtl" align="right">


### پروژه‌ی عملی — project-02
یک پروژه‌ی کامل یادگیری ماشین کلاسیک انجام بده:
1. یک دیتاست واقعی یا فرضی انتخاب کن (مثلاً اطلاعات دانش‌آموزان، مشتریان یا داده‌های پزشکی)  
2. مراحل زیر را انجام بده:  
   - پیش‌پردازش داده‌ها (پاک‌سازی، نرمال‌سازی، تبدیل داده‌های متنی)  
   - تقسیم داده‌ها به آموزش و تست  
   - ساخت و آموزش حداقل سه مدل مختلف (مثلاً رگرسیون لجستیک، درخت تصمیم، SVM)  
   - ارزیابی و مقایسه دقت مدل‌ها  
   - تحلیل و انتخاب بهترین مدل برای مسئله  
3. کدها و تحلیل‌ها را به صورت مستند و قابل اجرا آماده کن.


</div>

<div dir="rtl" align="right">


## 📚 منابع جلسه
- **Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow (Géron)** — فصل‌های 1، 2، 3، 4  
- **Pattern Recognition and Machine Learning (Bishop)** — فصل 1 (مقدمات)، 4 (مدل‌های خطی)، 7 (SVM)  
- **Python for Data Analysis (McKinney)** — فصل‌های مقدماتی برای آماده‌سازی داده  
- **Fluent Python (Ramalho)** — فصل‌های مربوط به مدل ذهنی پایتون و ساختارهای داده (برای کدنویسی بهتر)  
- **Effective Python (Slatkin)** — آیتم‌های مربوط به سبک کدنویسی و تست‌پذیری


</div>