<div dir="rtl" align="right">

# 📘 L0_1 — S1: انتخاب امن داده با `loc`/`iloc` + جداسازی استاندارد `X`,`y`

**Roadmap (L0):**  
L0_0 ✅ → **L0_1 (الان)** → L0_2 → L0_3 → L0_4

**جریان افقی جلسه (Sها):**  
Load → Frame → X,y → **S1: انتخاب امن + جداسازی** → S2: ارزیابی پایه → S3: Pipeline تمیز → S4: منحنی k

</div>

<div dir="rtl" align="right">

## 🎯 هدف و جایگاه (#S1-00)
- انتخاب دقیق و **ایمن** سطر/ستون با `loc` و `iloc`
- ساخت `X` و `y` به‌صورت استاندارد و **هم‌تراز** برای مدل‌سازی
- پیوند افقی با S2 (ارزیابی) و S3 (Pipeline)، و پیوند عمودی با L1/L2 برای انتخاب‌های پیشرفته

**پیش‌نیاز:** DataFrame از L0_0 (در این یادداشت با Iris بارگذاری می‌شود)

</div>

In [None]:

# تنظیمات پایه: بارگذاری داده Iris و ساخت DataFrame
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris(as_frame=True)
df = iris.frame.copy()

feature_names = iris.feature_names
target_name = "target"

df.head()


<div dir="rtl" align="right">

## 🔎 تفاوت بنیادی `loc` و `iloc` (#S1-01)

| ویژگی | `loc` | `iloc` |
|---|---|---|
| مبنا | **برچسب (Label)** | **موقعیت عددی (Index Position)** |
| ورودی | نام ستون/ایندکس، شرط، لیست برچسب‌ها | اعداد صحیح یا بازه‌های عددی |
| رفتار اسلایس | **شامل انتهای بازه** (`0:4` شامل 4) | **غیرشامل انتهای بازه** (`0:4` بدون 4) |
| شرط‌پذیری | بله (ماسک‌های بولی) | خیر (نیاز به تبدیل پیشین) |

**الگوی کلی:**
```
df.loc[row_selector, col_selector]
df.iloc[row_index, col_index]
```

</div>

<div dir="rtl" align="right">

## 📌 مثال 1 — انتخاب برچسب‌محور با `loc` (#S1-02)

</div>

In [None]:

# سطرهای 0 تا 4 و ستون‌های مشخص (در loc انتها شامل می‌شود)
ex_loc_1 = df.loc[0:4, ["sepal length (cm)", "target"]]
ex_loc_1.head()


<div dir="rtl" align="right">

## 📌 مثال 2 — انتخاب شرطی با `loc` (#S1-03)

</div>

In [None]:

# سطرهایی که طول کاسبرگ > 5.5 باشند و دو ستون انتخاب‌شده
ex_loc_2 = df.loc[df["sepal length (cm)"] > 5.5, ["sepal length (cm)", "target"]]
ex_loc_2.head()


<div dir="rtl" align="right">

## 📌 مثال 3 — انتخاب عدد-محور با `iloc` (#S1-04)

</div>

In [None]:

# سطرهای 0 تا 4 (4 شامل نمی‌شود) و ستون‌های 0 و 4
ex_iloc = df.iloc[0:4, [0, 4]]
ex_iloc


<div dir="rtl" align="right">

## ⚠️ خطاهای رایج و نکات ایمنی (#S1-05)
- **ترکیب اشتباه انتخاب‌گرها:** `df.loc[0:5, 0:3]` ❌ (در loc ستون باید برچسب باشد) / `df.iloc[:, ["c1"]]` ❌ (در iloc ستون باید عدد باشد)
- **جاافتادن `:`:** `df.loc[:, "col"]` برای همهٔ سطرها/یک ستون
- **تک‌ورودی در `loc`:** `df.loc['col']` همیشه **انتخاب سطر** است، نه ستون
- **کپی/ویو و هشدار SettingWithCopy:** در انتخاب‌های زنجیره‌ای، از `df.loc[rows, cols] = ...` استفاده کن

</div>

<div dir="rtl" align="right">

## 🧪 دموی تله — `loc` تک‌ورودی (#S1-06) *(آموزشی، نه تمرین)*

</div>

In [None]:

# تلاش برای گرفتن ستون 'target' با loc تک‌ورودی (منجر به KeyError چون انتخاب سطر است)
try:
    df.loc['target']
except KeyError as e:
    print(f"❌ KeyError: {e}")

# دو روش صحیح برای گرفتن ستون:
col_target_a = df['target']          # Series
col_target_b = df.loc[:, 'target']   # Series (در حالت ستون یکتا)
col_target_a.head(), col_target_b.head()


<div dir="rtl" align="right">

## 🧱 جداسازی استاندارد `X` و `y` (#S1-07)
- تا قبل از Split/مدل، `X` را **DataFrame** و `y` را **Series** نگه می‌داریم تا **هم‌ترازی ایندکس** حفظ شود.
- مزایا: خوانایی، ایمنی در Split/Join، سازگاری با Pipeline.

</div>

In [None]:

X = df[feature_names]      # DataFrame
y = df[target_name]        # Series

print(X.shape, y.shape)
print("Aligned:", (X.index.equals(y.index)))
X.head(), y.head()


<div dir="rtl" align="right">

## ⏭ ادامه مسیر
- **S2**: ارزیابی پایه با `accuracy_score`، `confusion_matrix`، `classification_report`
- **S3**: Pipeline تمیز: `StandardScaler → KNN` و جلوگیری از Data Leakage
- **L1**: انتخاب‌های پیشرفته (multi-index، `.at/.iat`، `query`)، کنترل Series vs DataFrame

</div>

In [None]:

import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris(as_frame=True)
df = iris.frame.copy()

feature_names = iris.feature_names
target_name = "target"

df.head()


<div dir="rtl" align="right">

## 🧪 تمرین 1 — `loc` برچسب‌محور + شرط (#S1-01)
- سطرهای 0 تا 4 و ستون‌های `sepal length (cm)` و `target` را با `loc` انتخاب کن.
- سپس سطرهایی با شرط `sepal length (cm) > 5.5` را برای همان ستون‌ها بگیر.

</div>

In [None]:

# --- حل ایمان: تمرین 1 ---
from sklearn.datasets import load_iris
iris = load_iris(as_frame = True)
df = iris.frame.copy()

selected_df_1 = df.loc[0:4, ['sepal length (cm)','target']]
print(selected_df_1)

selected_df_2 = df[df['sepal length (cm)']>5.5]
print(selected_df_2)


<div dir="rtl" align="right">

### 📝 توضیح کوتاه
- در `loc` انتهای بازه **شامل** است؛ `0:4` شامل ردیف 4 نیز می‌شود.
- برای وضوح، وقتی فیلتر شرطی می‌نویسی بهتر است ستون‌های مورد نیاز را صریح مشخص کنی تا DataFrame کوچکتری بسازی:
</div>

```
df.loc[df['sepal length (cm)'] > 5.5, ['sepal length (cm)', 'target']]
```



In [None]:

# --- حل حرفه‌ای: تمرین 1 ---
ex_loc_1 = df.loc[0:4, ["sepal length (cm)", "target"]]
ex_loc_2 = df.loc[df["sepal length (cm)"] > 5.5, ["sepal length (cm)", "target"]]
ex_loc_1.head(), ex_loc_2.head()


<div dir="rtl" align="right">

## 🧪 تمرین 2 — `iloc` عدد-محور (#S1-02)
- با `iloc` سطرهای 0 تا 4 (بدون 4) و ستون‌های 0 و 4 را انتخاب کن.

</div>

In [None]:

# --- حل ایمان: تمرین 2 ---
selected_df_3 = df.iloc[0:4,[0,4]]
print(selected_df_3)


<div dir="rtl" align="right">

### 📝 توضیح کوتاه
- در `iloc` انتهای بازه **شامل نمی‌شود**؛ بنابراین `0:4` ردیف‌های 0،1،2،3 را می‌دهد.
- ستون‌ها در `iloc` با **شماره** تعیین می‌شوند و حساس به جابجایی ترتیب ستون‌ها هستند.

</div>

In [None]:

# --- حل حرفه‌ای: تمرین 2 ---
ex_iloc = df.iloc[0:4, [0, 4]]
ex_iloc


<div dir="rtl" align="right">

## 🧪 تمرین 3 — جداسازی استاندارد `X` و `y` (#S1-03)
- `X` را از روی `feature_names` و `y` را از ستون `target` بساز (تا قبل از مدل‌سازی از نوع DataFrame/Series نگه داریم).

</div>

In [None]:

# --- حل ایمان: تمرین 3 ---
feature_names = iris.feature_names
target = "target"
X, y = df[feature_names].to_numpy(), df[target].to_numpy()


<div dir="rtl" align="right">

### 📝 توضیح کوتاه
- برای حفظ **هم‌ترازی ایندکس**، بهتر است تا قبل از Split/مدل، `X` را DataFrame و `y` را Series نگه داریم:
```
X = df[feature_names]     # DataFrame
y = df[target_name]       # Series
```
- تبدیل به NumPy را در صورت نیاز بعداً انجام بده.

</div>

In [None]:

# --- حل حرفه‌ای: تمرین 3 ---
X_std = df[feature_names]   # DataFrame
y_std = df[target_name]     # Series
X_std.head(), y_std.head()


<div dir="rtl" align="right">

## 🧪 تمرین 4 — دام `loc` تک‌ورودی (#S1-04)
- `df.loc['target']` را اجرا کن (باید `KeyError` بدهد چون این انتخاب **سطر** است).
- سپس همان ستون را با `df['target']` و `df.loc[:, 'target']` بگیر و تفاوت منطقی را توضیح بده.

</div>

In [None]:

# --- حل ایمان: تمرین 4 ---
try:
  df.loc['target']
  print("df.loc['target']")
except:
  print("df.loc['target'] triggers a key error")
  selected_df_4 = df.loc[:,'target']
  print(selected_df_4)
  selected_df_5 = df['target']
  print(selected_df_5)


<div dir="rtl" align="right">

### 📝 توضیح کوتاه
- `df.loc['target']` همیشه انتخاب **سطر** بر اساس برچسب ایندکس است؛ اگر چنین برچسبی در ایندکس سطر وجود نداشته باشد، `KeyError` دریافت می‌کنیم.
- `df['target']` و `df.loc[:, 'target']` هر دو ستون را برمی‌گردانند (Series). اگر **اجباراً DataFrame** می‌خواهی، از لیست استفاده کن: `df.loc[:, ['target']]`.

</div>

In [None]:

# --- حل حرفه‌ای: تمرین 4 ---
trap_error = None
try:
    _ = df.loc['target']
except KeyError as e:
    trap_error = str(e)

col_series_a = df['target']
col_series_b = df.loc[:, 'target']

trap_error, col_series_a.head(), col_series_b.head()


<div dir="rtl" align="right">

## 🧾 خلاصهٔ جلسه S1
- `loc` برچسب‌محور و شامل انتهای بازه است؛ `iloc` عدد-محور و انتها را شامل نمی‌شود.
- برای جلوگیری از باگ‌های انتخاب ستون/سطر، از الگوی صریح `df.loc[rows, cols]` استفاده کن.
- تا قبل از Split/مدل، `X` را DataFrame و `y` را Series نگه دار تا هم‌ترازی ایندکس حفظ شود.
- دام رایج: `df.loc['col']` → انتخاب **سطر**؛ برای ستون از `df['col']` یا `df.loc[:, 'col']` استفاده کن.

**بعدی: S2 — ارزیابی پایه (accuracy, confusion_matrix, classification_report)**

</div>