<div dir="rtl" align="right">


# 📘 L0_0 — ساختار ویژهٔ تمرین‌ها و تشریحی‌ها (نسخهٔ v4)

**ساختار هر تمرین (#1 تا #8):**  
- **code — جواب ایمان**  
- **markdown — توضیح (اگر لازم بود)**  
- **code — جواب حرفه‌ای (اگر لازم بود)**

**ساختار سؤالات تشریحی (#9 تا #14):**  
- **markdown — صورت سؤال**  
- **markdown — پاسخ درست زیر همان سؤال**


</div>

<div dir="rtl" align="right">

## آماده‌سازی محیط (Import و دادهٔ پایه برای تمرین‌ها)

</div>

In [None]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from scipy.stats import describe
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt

# دادهٔ پایه برای استفادهٔ برخی تمرین‌ها (X, y آماده)
b_env = load_iris(as_frame=True)
df_env = b_env.frame.copy()
X_env = df_env[b_env.feature_names].to_numpy()
y_env = df_env['target'].to_numpy()

<div dir="rtl" align="right">

## #سوال 1 — #تمرین_1

</div>

In [None]:
# code — جواب ایمان
a = np.arange(1,13).reshape(4,3)
print(a)
print(a[:,1])

np.linspace(0,1,5, endpoint=True)
np.linspace(0,1,5,endpoint = False)
# age endpoint=True, stop آخرین المان آرایهٔ ساخته‌شده خواهد بود؛
# در غیر این صورت، stop از آرایه کنار گذاشته می‌شود.


<div dir="rtl" align="right">

**توضیح کوتاه:** برای مقایسهٔ واضح‌تر `endpoint=True/False` بهتر است خروجی‌ها چاپ شوند؛
و مطابق صورت سؤال، `reshape(3,4)` مدنظر بود (اینجا خروجی با `4×3` هم درست اجرا می‌شود).

</div>

In [None]:
# code — جواب حرفه‌ای (نمایش و مقایسهٔ linspace)
a2 = np.arange(1, 13).reshape(3, 4)
print("a2 =\n", a2)
print("ستون دوم:", a2[:, 1])

inc = np.linspace(0, 1, 5, endpoint=True)
exc = np.linspace(0, 1, 5, endpoint=False)
print("endpoint=True :", inc)
print("endpoint=False:", exc)

<div dir="rtl" align="right">

## #سوال 2 — #تمرین_2

</div>

In [None]:
# code — جواب ایمان
a = np.arange(1,10).reshape(3,3)
df = pd.DataFrame(a, columns = ["c1", "c2", "c3"])
df["c_sum"]= df.sum(axis=1)
df

<div dir="rtl" align="right">

**توضیح کوتاه:** در داده‌های آمیخته (عددی+متنی)، برای اطمینان از جمع‌زدنِ فقط ستون‌های عددی از `numeric_only=True` استفاده کن.

</div>

In [None]:
# code — جواب حرفه‌ای (دو رویکرد ممکن)
a2 = np.arange(1,10).reshape(3,3)
df2 = pd.DataFrame(a2, columns=["c1","c2","c3"])
df2["c_sum"] = df2.sum(axis=1)  # رویکرد پانداسی
# df2["c_sum"] = a2.sum(axis=1)  # رویکرد مستقیم NumPy
df2

<div dir="rtl" align="right">

## #سوال 3 — #تمرین_3

</div>

In [None]:
# code — جواب ایمان
try:
  print("without index", pd.DataFrame(dict(a=1,b=2)))
except:
  print("with index\n",pd.DataFrame(dict(a=1,b=2), index=["A","B"]))

<div dir="rtl" align="right">

**توضیح کوتاه:** بهتر است نوع خطا را مشخصاً صید کنی (`except TypeError as e:`).  
وقتی همهٔ مقادیر اسکالر باشند، باید `index` بدهی؛ وگرنه مبهم است که چند ردیف بسازد.

</div>

In [None]:
# code — جواب حرفه‌ای
try:
    _ = pd.DataFrame(dict(a=1, b=2))  # همه اسکالر → باید index بدهی
except TypeError as e:
    print("TypeError:", e)

df_one = pd.DataFrame(dict(a=1, b=2), index=[0])       # یک ردیف
df_two = pd.DataFrame(dict(a=1, b=2), index=["A","B"]) # دو ردیف با مقدار تکراری
print(df_one, "\n---\n", df_two)

<div dir="rtl" align="right">

## #سوال 4 — #تمرین_4

</div>

In [None]:
# code — جواب ایمان
from sklearn.datasets import load_iris
#1
b = load_iris()
df = pd.DataFrame(b.data, columns = b.feature_names)
df["target"] = b.target
X,y = df[b.feature_names].to_numpy(), b.target
#2
b = load_iris(as_frame= True)
print(b.frame.head)
df = b.frame.copy()
X,y = df[b.feature_names], df["target"]
#3
b = load_iris(return_X_y=True)
X,y=b.data, b.target
names = load_iris().feature_names
df = pd.DataFrame(X,columns=names).assign(y,"target")

<div dir="rtl" align="right">

**توضیح کوتاه:**  
- در حالت `as_frame=True` باید `b.frame.head()` باشد (پرانتز!).  
- در حالت `return_X_y=True`، خروجی تاپل است؛ باید `X, y = b` و برای افزودن ستون هدف در DataFrame از `.assign(target=y)` یا `df["target"]=y` استفاده شود.

</div>

In [None]:
# code — جواب حرفه‌ای (سه الگو)
from sklearn.datasets import load_iris

# 1) Bunch → DataFrame دستی
b1 = load_iris()
df1 = pd.DataFrame(b1.data, columns=b1.feature_names)
df1["target"] = b1.target
X1, y1 = df1[b1.feature_names].to_numpy(), df1["target"].to_numpy()

# 2) as_frame=True → DataFrame آماده
b2 = load_iris(as_frame=True)
df2 = b2.frame.copy()
X2, y2 = df2[b2.feature_names].to_numpy(), df2["target"].to_numpy()

# 3) return_X_y=True → تاپل
X3, y3 = load_iris(return_X_y=True)
names = load_iris().feature_names
df3 = pd.DataFrame(X3, columns=names).assign(target=y3)
(df1.head(), df2.head(), df3.head())

<div dir="rtl" align="right">

## #سوال 5 — #تمرین_5

</div>

In [None]:
# code — جواب ایمان
pd.Series(y).value_counts()
from sklearn.model_selection import train_test_split
train_test_split()

<div dir="rtl" align="right">

**توضیح کوتاه:** `train_test_split` باید با `X, y` و پارامترهای کلیدی صدا زده شود؛
برای طبقه‌بندی بهتر است `stratify=y` بدهی تا نسبت کلاس‌ها حفظ شود.

</div>

In [None]:
# code — جواب حرفه‌ای
all_counts = pd.Series(y_env).value_counts()
all_ratio  = pd.Series(y_env).value_counts(normalize=True)

X_tr, X_te, y_tr, y_te = train_test_split(
    X_env, y_env, test_size=0.2, random_state=42, stratify=y_env
)

tr_ratio = pd.Series(y_tr).value_counts(normalize=True)
te_ratio = pd.Series(y_te).value_counts(normalize=True)
(all_counts, all_ratio, tr_ratio, te_ratio)

<div dir="rtl" align="right">

## #سوال 6 — #تمرین_6

</div>

In [None]:
# code — جواب ایمان (ایمان می‌تواند در این سلول پاسخ خود را بنویسد)


<div dir="rtl" align="right">

**توضیح کوتاه:** از `scipy.stats.describe(X_env, axis=0, ddof=1)` استفاده کن و جدول بساز.

</div>

In [None]:
# code — جواب حرفه‌ای
stats_all = describe(X_env, axis=0, ddof=1)
summary = pd.DataFrame({
    "min":   stats_all.minmax[0],
    "max":   stats_all.minmax[1],
    "mean":  stats_all.mean,
    "var":   stats_all.variance,
    "skew":  stats_all.skewness,
    "kurt":  stats_all.kurtosis
}, index=b_env.feature_names)
summary

<div dir="rtl" align="right">

## #سوال 7 — #تمرین_7

</div>

In [None]:
# code — جواب ایمان (ایمان می‌تواند در این سلول پاسخ خود را بنویسد)


<div dir="rtl" align="right">

**توضیح کوتاه:** میانگین و انحراف معیار هر ستون را حساب کن و `X_std=(X-mean)/std` بساز؛ سپس دوباره `describe`.

</div>

In [None]:
# code — جواب حرفه‌ای
mean = X_env.mean(axis=0)
std  = X_env.std(axis=0, ddof=0)
X_std = (X_env - mean) / std

stats_std = describe(X_std, axis=0, ddof=1)
summary_std = pd.DataFrame({
    "min":   stats_std.minmax[0],
    "max":   stats_std.minmax[1],
    "mean":  stats_std.mean,
    "var":   stats_std.variance,
    "skew":  stats_std.skewness,
    "kurt":  stats_std.kurtosis
}, index=b_env.feature_names)
summary_std

<div dir="rtl" align="right">

## #سوال 8 — #تمرین_8

</div>

In [None]:
# code — جواب ایمان (ایمان می‌تواند در این سلول پاسخ خود را بنویسد)


<div dir="rtl" align="right">

**توضیح کوتاه:** یک scatter از دو ویژگی اول بکش و رنگ را بر اساس y تنظیم کن.

</div>

In [None]:
# code — جواب حرفه‌ای
plt.figure()
plt.scatter(X_env[:, 0], X_env[:, 1], c=y_env)
plt.xlabel(b_env.feature_names[0]); plt.ylabel(b_env.feature_names[1])
plt.title("Iris: Feature 0 vs 1")
plt.show()

<div dir="rtl" align="right">


## #تشریحی‌ها — #9 تا #14 (صورت سؤال + پاسخ زیر همان سؤال)


</div>

<div dir="rtl" align="right">


### #تشریحی_9 — تفاوت `return_X_y=True` با حالت پیش‌فرض در `load_iris` چیست؟ مزایا/معایب هرکدام؟
**پاسخ:** حالت پیش‌فرض یک Bunch با متادیتاست (و در صورت `as_frame=True` یک `frame` آماده). `return_X_y=True` یک تاپل `(X,y)` برمی‌گرداند: سبک و مناسب محاسبات عددی، اما نام ستون‌ها را از دست می‌دهی و اگر DataFrame بخواهی باید خودت بسازی.


</div>

<div dir="rtl" align="right">


### #تشریحی_10 — چرا در `train_test_split` بهتر است `stratify=y` بدهیم؟
**پاسخ:** نسبت کلاس‌ها را در train/test حفظ می‌کند → ارزیابی منصفانه‌تر، نوسان کمتر، جلوگیری از نامتوازن‌شدن بخش‌ها (حیاتی در دیتاست‌های نامتوازن).


</div>

<div dir="rtl" align="right">


### #تشریحی_11 — `as_frame=True` چه فرقی می‌کند و کی مفیدتر است؟
**پاسخ:** `b.frame` (DataFrame کامل) می‌دهد؛ مزیت: نام ستون‌ها، EDA سریع، سازگاری با ابزارهای نام‌محور. عیب: کمی سربار حافظه/زمان نسبت به ndarray. مفید وقتی تحلیل ستونی و مهندسی ویژگی داری.


</div>

<div dir="rtl" align="right">


### #تشریحی_12 — `scipy.stats.describe` فراتر از `DataFrame.describe()` چه می‌دهد؟
**پاسخ:** علاوه بر `min/max/mean/var`, **کجی (skewness)** و **کشیدگی (kurtosis)** می‌دهد؛ برای سنجش نرمال‌بودن، شناسایی پرت‌ها و تصمیم دربارهٔ تبدیل‌ها مفید است.


</div>

<div dir="rtl" align="right">


### #تشریحی_13 — چرا استانداردسازی مهم است و روی کدام الگوریتم‌ها اثر بیشتری دارد؟
**پاسخ:** مقیاس ستون‌ها را یکنواخت می‌کند (میانگین≈۰، واریانس≈۱) → آموزش پایدارتر و عادلانه‌تر. بیشترین اثر: KNN، SVM، Logistic/Linear (با رگولاریزیشن)، PCA، شبکه‌های عصبی. اثر کمتر: درخت‌ها/جنگل/بوسینگ.


</div>

<div dir="rtl" align="right">


### #تشریحی_14 — `ndarray` در برابر `DataFrame`: چه زمانی کدام بهتر است؟
**پاسخ:** `ndarray` برای محاسبات سنگین و SciPy/خطی‌الجبر (سریع و کم‌حافظه) بهتر است؛ `DataFrame` برای EDA/مهندسی ویژگی/گزارش (نام ستون‌ها و ابزارهای تحلیلی). راهبرد: DataFrame منبع حقیقت، تبدیل به ndarray در «مرز محاسبات».


</div>