


## Question 1: What is the difference between **Covariance** and **Correlation**?

### Covariance

- Measures how **two variables change together**
- **Scale-dependent**
- Indicates direction, not strength

$$
\mathrm{Cov}(X,Y) = \mathbb{E}\left[(X-\mu_X)(Y-\mu_Y)\right]
$$

### Correlation

- **Normalized covariance**
- Always in the range **[−1, +1]**
- **Scale-independent**
- Measures **strength and direction of linear relationship**

$$
\rho_{X,Y} = \frac{\mathrm{Cov}(X,Y)}{\sigma_X \sigma_Y}
$$

**Key takeaway:**

> Covariance shows direction; correlation shows direction **and strength**.

---

## Question 2: What is the difference between **Dependency** and **Correlation**?

### Dependency

- A **general concept**
- Includes **linear and non-linear** relationships

### Correlation

- Measures **only linear dependency**

**Important insight:**

Two variables can be **dependent but uncorrelated**, for example:

$$
Y = X^2
$$

---

## Question 3: What is the difference between **Regression** and **Classification**?

| Aspect | Regression | Classification |
|------|-----------|----------------|
| Output | Continuous | Discrete classes |
| Example | Price, temperature | Spam / Not spam |
| Loss | MSE, MAE | Cross-Entropy |
| Goal | Predict a value | Assign a class |

---

## Question 4: What is the effect of **noise** on **bias–variance**?

- Noise **does not affect bias**
- Noise increases **irreducible variance**

$$
\text{Total Error} = \text{Bias}^2 + \text{Variance} + \text{Noise}
$$

**Key insight:**

> No model can eliminate intrinsic data noise.

---

## Question 5: What is **uncertainty**?

What affects **model uncertainty** and **data uncertainty**?

### Model Uncertainty (Epistemic)

Caused by:
- Limited data
- Poor model choice
- Unstable parameters

✔ Can be reduced with more data or better models

### Data Uncertainty (Aleatoric)

- Inherent randomness
- Measurement noise

✘ Cannot be eliminated

---

## Question 6: What is the difference between **uncertainty** and **high dimensionality**?

### High Dimensionality

- Large number of features
- Leads to the **curse of dimensionality**

### Uncertainty

- Lack of confidence in predictions

### Relationship

- High dimension + small dataset ⇒ high uncertainty  
- High dimension + enough data ⇒ uncertainty may be low

**Conclusion:**

> High dimensionality does not always imply high uncertainty.

---

## Question 7: What is the difference between **white noise** and **colored noise**?

### White Noise

- Equal power at all frequencies
- No temporal correlation

### Colored Noise

- Power varies with frequency
- Has structure and correlation

| Type | Property |
|----|---------|
| White | Pure randomness |
| Pink | More low-frequency power |
| Brown | Strong temporal correlation |

---

## Question 8: What is the difference between **noise** and an **outlier**?

### Noise

- Small, random fluctuations
- Common and spread across data

### Outlier

- Rare, extreme values
- May be errors or meaningful events

---

## Question 9: What is the difference between **noise** and an **anomaly**?

### Noise

- Random and meaningless
- Small impact

### Anomaly

- Rare but **meaningful**
- Indicates abnormal system behavior

---

## Question 10: What is the difference between an **outlier** and an **anomaly**?

| Aspect | Outlier | Anomaly |
|-----|--------|---------|
| Nature | Statistical deviation | Contextual abnormal behavior |
| Meaning | May be error | Usually important |
| Handling | Often removed | Usually investigated |

**Example:**

- Outlier: Incorrect sensor reading  
- Anomaly: Fraudulent transaction  

---

## Final Professional Summary

- **Noise** → random error  
- **Outlier** → extreme data point  
- **Anomaly** → meaningful abnormal pattern  
- **Correlation** → linear dependency  
- **Dependency** → any relationship  
- **Uncertainty** → lack of confidence (model or data)




## 2

In [1]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error

np.random.seed(42)

# تعداد نمونه
N = 1000

# متغیر پایه
x = np.random.uniform(0, 2*np.pi, N)

# فیچرها
x1 = x**3
x2 = np.sin(x)

# نویز
mu = 1
sigma2 = 0.2
noise = np.random.normal(mu, np.sqrt(sigma2), N)

# خروجی واقعی
y = 2 - x1 + 3*x2 + noise

# تقسیم Train / Test
X1 = x2.reshape(-1, 1)        # فقط x2
X2 = np.column_stack([x1, x2])  # x1 و x2

X1_train, X1_test, y_train, y_test = train_test_split(X1, y, test_size=0.2, random_state=42)
X2_train, X2_test, _, _ = train_test_split(X2, y, test_size=0.2, random_state=42)


In [2]:
# مدل بدون بایاس (چون b=2 ثابت است)
model_a = LinearRegression(fit_intercept=False)

# حذف بایاس از y
y_train_adj = y_train - 2
y_test_adj  = y_test  - 2

model_a.fit(X1_train, y_train_adj)

y_train_pred = model_a.predict(X1_train) + 2
y_test_pred  = model_a.predict(X1_test)  + 2

def metrics(y_true, y_pred):
    mse = mean_squared_error(y_true, y_pred)
    rmse = np.sqrt(mse)
    ndei = rmse / np.std(y_true)
    return mse, rmse, ndei

mse_tr, rmse_tr, ndei_tr = metrics(y_train, y_train_pred)
mse_te, rmse_te, ndei_te = metrics(y_test, y_test_pred)

print("Train:", mse_tr, rmse_tr, ndei_tr)
print("Test :", mse_te, rmse_te, ndei_te)


Train: 6541.2952397769295 80.87827421364113 1.1143142542347606
Test : 5486.323916490389 74.0697233455775 1.0909649774903394


In [3]:
scaler = StandardScaler()

X1_train_s = scaler.fit_transform(X1_train)
X1_test_s  = scaler.transform(X1_test)

model_a_s = LinearRegression(fit_intercept=False)
model_a_s.fit(X1_train_s, y_train_adj)

y_train_pred_s = model_a_s.predict(X1_train_s) + 2
y_test_pred_s  = model_a_s.predict(X1_test_s)  + 2

print("Train (scaled):", metrics(y_train, y_train_pred_s))
print("Test  (scaled):", metrics(y_test, y_test_pred_s))


Train (scaled): (6420.91415312053, np.float64(80.13060684358088), np.float64(1.1040131391827306))
Test  (scaled): (5384.32118414231, np.float64(73.37793390483483), np.float64(1.080775685326702))


In [4]:
#هر دو فیچر، بدون بایاس
model_b = LinearRegression(fit_intercept=False)
model_b.fit(X2_train, y_train)

y_train_pred = model_b.predict(X2_train)
y_test_pred  = model_b.predict(X2_test)

print("Train:", metrics(y_train, y_train_pred))
print("Test :", metrics(y_test, y_test_pred))


Train: (4.061958970807997, np.float64(2.015430219781374), np.float64(0.027767934518304734))
Test : (4.2235362815530175, np.float64(2.055124395639597), np.float64(0.030269705876559992))


## هر دو فیچر + بایاس آزاد

In [5]:
model_c = LinearRegression(fit_intercept=True)
model_c.fit(X2_train, y_train)

y_train_pred = model_c.predict(X2_train)
y_test_pred  = model_c.predict(X2_test)

print("Train:", metrics(y_train, y_train_pred))
print("Test :", metrics(y_test, y_test_pred))

print("Estimated bias:", model_c.intercept_)
print("Estimated weights:", model_c.coef_)


Train: (0.20047462544003955, np.float64(0.44774392842342325), np.float64(0.006168868543996932))
Test : (0.1712434563169082, np.float64(0.41381572748858664), np.float64(0.006095047280228429))
Estimated bias: 3.0775816678770767
Estimated weights: [-1.00050827  2.98714397]


| تغییر نویز | اثر روی ضرایب         | اثر روی MSE      |
| ---------- | --------------------- | ---------------- |
| ↑ μ        | جذب توسط b            | MSE تقریباً ثابت |
| ↑ σ²       | ضرایب پایدار          | MSE ↑            |
| ↓ σ²       | نزدیک‌تر به مدل واقعی | MSE ↓            |


In [9]:
sigma2_list = [0.05, 0.2, 1.0]

for s2 in sigma2_list:
    noise = np.random.normal(mu, np.sqrt(s2), N)
    y_noisy = 2 - x1 + 3*x2 + noise

    Xtr, Xte, ytr, yte = train_test_split(X2, y_noisy, test_size=0.2)

    model = LinearRegression()
    model.fit(Xtr, ytr)

    y_pred = model.predict(Xte)
    mse, rmse, ndei = metrics(yte, y_pred)

    print(f"sigma^2={s2:.2f} → MSE={mse:.3f}, RMSE={rmse:.3f}, NDEI={ndei:.3f}")


sigma^2=0.05 → MSE=0.052, RMSE=0.227, NDEI=0.003
sigma^2=0.20 → MSE=0.227, RMSE=0.476, NDEI=0.007
sigma^2=1.00 → MSE=0.914, RMSE=0.956, NDEI=0.014


In [10]:
# حل تحلیلی Least Squares (ماتریسی)
# افزودن ستون 1 برای بایاس
X_ls = np.column_stack([np.ones(N), x1, x2])

theta_ls = np.linalg.inv(X_ls.T @ X_ls) @ X_ls.T @ y

print("θ_LS =", theta_ls)


θ_LS = [ 3.07815123 -1.00055281  2.97192212]


| مدل    | وضعیت بایاس      | کیفیت               |
| ------ | ---------------- | ------------------- |
| (الف)  | ثابت             | ضعیف (Underfit)     |
| (ب)    | حذف شده          | Bias Error بالا     |
| (ج)    | تخمین زده می‌شود | **بهترین مدل**      |
| نویز ↑ | –                | MSE ↑               |
| نویز ↓ | –                | Generalization بهتر |


<div dir=rtl >

## 2 تمرین شماره :

In [None]:

import os
import json
import joblib
import numpy as np
import pandas as pd

from sklearn.model_selection import train_test_split
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.metrics import (
    classification_report,
    confusion_matrix,
    roc_auc_score,
    average_precision_score,
    RocCurveDisplay,
    PrecisionRecallDisplay
)
from sklearn.preprocessing import OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.ensemble import RandomForestClassifier
from sklearn.inspection import permutation_importance
from sklearn.utils.class_weight import compute_class_weight

import matplotlib.pyplot as plt

from xgboost import XGBClassifier
 


# 1) تنظیمات کلی پروژه

RANDOM_STATE = 42
TEST_SIZE = 0.2

DATA_PATH = "diabetic_data.csv"  # مسیر فایل csv
ARTIFACT_DIR = "artifacts_diabetes_readmission"
os.makedirs(ARTIFACT_DIR, exist_ok=True)



# 2) توابع کمکی: پاکسازی، ساخت هدف، و Encode ICD-9

def load_data(path: str) -> pd.DataFrame:
    """
    داده را از CSV می‌خواند.
    """
    if not os.path.exists(path):
        raise FileNotFoundError(
            f"فایل دیتاست پیدا نشد: {path}\n"
            "لطفاً diabetic_data.csv را کنار اسکریپت قرار دهید یا مسیر صحیح بدهید."
        )
    df = pd.read_csv(path)
    return df


def replace_question_marks_with_nan(df: pd.DataFrame) -> pd.DataFrame:
    """
    در این دیتاست مقدار '?' به معنی داده گم‌شده است.
    آن را به NaN تبدیل می‌کنیم تا مراحل Imputation درست انجام شود.
    """
    df = df.replace("?", np.nan)
    return df


def build_target_readmitted_30(df: pd.DataFrame) -> pd.DataFrame:
    """
    ستون readmitted معمولاً یکی از مقادیر:
    '<30', '>30', 'NO' است.

    هدف: 1 اگر <30 باشد، در غیر این صورت 0
    """
    if "readmitted" not in df.columns:
        raise ValueError("ستون readmitted در دیتاست وجود ندارد.")

    df = df.copy()
    df["target_readmit_30"] = (df["readmitted"] == "<30").astype(int)
    return df


def icd9_to_group(code: str) -> str:
    """
    Encode کردن ICD-9 به گروه‌های قابل استفاده برای مدل.

    ایده: کدهای ICD-9 را به دسته‌های سطح بالا تبدیل می‌کنیم تا:
    1) مدل با یک متغیر متنیِ پرنویز مواجه نشود
    2) اطلاعات بالینی همچنان حفظ شود
    3) تعداد دسته‌ها محدود و پایدار باشد

    قواعد متداول:
    - کدهای عددی را به بازه‌های ICD-9 تبدیل می‌کنیم
    - کدهای V و E گروه جداگانه می‌گیرند
    - مقادیر NaN یا نامعتبر -> 'UNKNOWN'
    """
    if pd.isna(code):
        return "UNKNOWN"

    code = str(code).strip()

    # دسته‌های خاص
    if code.startswith("V"):
        return "V_CODE"
    if code.startswith("E"):
        return "E_CODE"

    # تلاش برای تبدیل به عدد (بعضی کدها مثل '250.13' هستند)
    try:
        num = float(code)
    except ValueError:
        return "UNKNOWN"

    # بازه‌بندی ICD-9 (سطح بالا)
    # 001–139: Infectious and parasitic diseases
    if 1 <= num <= 139:
        return "INFECTIOUS"
    # 140–239: Neoplasms
    if 140 <= num <= 239:
        return "NEOPLASMS"
    # 240–279: Endocrine, nutritional and metabolic diseases (دیابت هم در 250 است)
    if 240 <= num <= 279:
        return "ENDO_METABOLIC"
    # 280–289: Diseases of the blood
    if 280 <= num <= 289:
        return "BLOOD"
    # 290–319: Mental disorders
    if 290 <= num <= 319:
        return "MENTAL"
    # 320–389: Nervous system and sense organs
    if 320 <= num <= 389:
        return "NERVOUS"
    # 390–459: Circulatory system
    if 390 <= num <= 459:
        return "CIRCULATORY"
    # 460–519: Respiratory system
    if 460 <= num <= 519:
        return "RESPIRATORY"
    # 520–579: Digestive system
    if 520 <= num <= 579:
        return "DIGESTIVE"
    # 580–629: Genitourinary system
    if 580 <= num <= 629:
        return "GENITOURINARY"
    # 630–679: Pregnancy/childbirth
    if 630 <= num <= 679:
        return "PREGNANCY"
    # 680–709: Skin and subcutaneous tissue
    if 680 <= num <= 709:
        return "SKIN"
    # 710–739: Musculoskeletal
    if 710 <= num <= 739:
        return "MUSCULOSKELETAL"
    # 740–759: Congenital anomalies
    if 740 <= num <= 759:
        return "CONGENITAL"
    # 760–779: Perinatal conditions
    if 760 <= num <= 779:
        return "PERINATAL"
    # 780–799: Symptoms, signs, ill-defined conditions
    if 780 <= num <= 799:
        return "SYMPTOMS"
    # 800–999: Injury and poisoning
    if 800 <= num <= 999:
        return "INJURY"

    return "OTHER"


def encode_icd_columns(df: pd.DataFrame, cols=("diag_1", "diag_2", "diag_3")) -> pd.DataFrame:
    """
    ستون‌های تشخیصی diag_1, diag_2, diag_3 را به گروه ICD تبدیل می‌کنیم.
    """
    df = df.copy()
    for c in cols:
        if c in df.columns:
            df[c + "_group"] = df[c].apply(icd9_to_group)
        else:
            # اگر ستون وجود نداشت، رد می‌کنیم
            pass
    return df


def drop_leaky_or_id_columns(df: pd.DataFrame) -> pd.DataFrame:
    """
    ستون‌هایی که معمولاً شناسه‌ای هستند یا ارزش پیش‌بینی ندارند را حذف می‌کنیم.
    (این انتخاب می‌تواند پروژه‌ای باشد؛ اینجا یک انتخاب رایج و امن انجام می‌دهیم)
    """
    df = df.copy()

    # شناسه‌ها و ستون‌های غالباً غیرمفید/خاص دیتاست
    drop_cols = [
        "encounter_id",
        "patient_nbr",
        "readmitted"  # چون از آن هدف ساختیم
    ]
    existing = [c for c in drop_cols if c in df.columns]
    df = df.drop(columns=existing, errors="ignore")
    return df


def make_feature_sets(df: pd.DataFrame) -> tuple[pd.DataFrame, pd.Series]:
    """
    X و y را جدا می‌کنیم.
    """
    if "target_readmit_30" not in df.columns:
        raise ValueError("target_readmit_30 ساخته نشده است.")

    y = df["target_readmit_30"].astype(int)
    X = df.drop(columns=["target_readmit_30"])
    return X, y


def get_main_feature_subset_columns(X: pd.DataFrame) -> list[str]:
    """
    لیست فیچرهای «کلیدی» پیشنهادی:
    - جنسیت، سن، نژاد (اگر موجود باشد)
    - گروه‌های ICD (diag_1_group, diag_2_group, diag_3_group)
    - تعداد بستری‌ها/ویزیت‌ها/آزمایش‌ها/داروها (اگر ستون‌هایشان باشد)
    - زمان بستری (time_in_hospital) و ... (در صورت وجود)

    هدف: ساخت مدل سبک‌تر و قابل توضیح‌تر.
    """
    candidates = [
        "gender",
        "age",
        "race",
        "time_in_hospital",
        "num_lab_procedures",
        "num_procedures",
        "num_medications",
        "number_outpatient",
        "number_emergency",
        "number_inpatient",
        "diag_1_group",
        "diag_2_group",
        "diag_3_group",
        "admission_type_id",
        "discharge_disposition_id",
        "admission_source_id",
        "change",
        "diabetesMed"
    ]
    return [c for c in candidates if c in X.columns]


# ------------------------------------------------------------
# 3) ساخت Preprocessor (عددی/دسته‌ای) به صورت استاندارد
# ------------------------------------------------------------
def build_preprocessor(X: pd.DataFrame) -> ColumnTransformer:
    """
    برای ستون‌های عددی: impute با median
    برای ستون‌های دسته‌ای: impute با most_frequent و سپس OneHot
    """
    # تشخیص ستون‌ها
    numeric_cols = X.select_dtypes(include=[np.number]).columns.tolist()
    categorical_cols = [c for c in X.columns if c not in numeric_cols]

    numeric_transformer = Pipeline(steps=[
        ("imputer", SimpleImputer(strategy="median"))
    ])

    categorical_transformer = Pipeline(steps=[
        ("imputer", SimpleImputer(strategy="most_frequent")),
        ("onehot", OneHotEncoder(handle_unknown="ignore", sparse_output=False))
    ])

    preprocessor = ColumnTransformer(
        transformers=[
            ("num", numeric_transformer, numeric_cols),
            ("cat", categorical_transformer, categorical_cols)
        ],
        remainder="drop"
    )

    return preprocessor


# ------------------------------------------------------------
# 4) متریک‌ها و ارزیابی (تمرکز بر Sensitivity/Recall)
# ------------------------------------------------------------
def evaluate_classifier(name: str, model, X_test: pd.DataFrame, y_test: pd.Series) -> dict:
    """
    ارزیابی استاندارد برای مسئله نامتوازن:
    - ROC-AUC
    - PR-AUC (Average Precision)
    - گزارش طبقه‌بندی و ماتریس درهم‌ریختگی
    - تمرکز ویژه روی Recall کلاس 1 (Sensitivity)
    """
    y_pred = model.predict(X_test)

    # برای AUC باید احتمال داشته باشیم
    if hasattr(model, "predict_proba"):
        y_proba = model.predict_proba(X_test)[:, 1]
    else:
        # برخی مدل‌ها ممکن است decision_function داشته باشند
        if hasattr(model, "decision_function"):
            scores = model.decision_function(X_test)
            # تبدیل تقریبی به [0,1] برای PR/AUC (اگر لازم باشد)
            y_proba = (scores - scores.min()) / (scores.max() - scores.min() + 1e-9)
        else:
            y_proba = None

    cm = confusion_matrix(y_test, y_pred)

    report = classification_report(y_test, y_pred, output_dict=True, zero_division=0)
    # Sensitivity = Recall کلاس 1
    sensitivity = report.get("1", {}).get("recall", np.nan)

    out = {
        "model_name": name,
        "confusion_matrix": cm.tolist(),
        "classification_report": report,
        "sensitivity_recall_class_1": float(sensitivity)
    }

    if y_proba is not None:
        out["roc_auc"] = float(roc_auc_score(y_test, y_proba))
        out["pr_auc"] = float(average_precision_score(y_test, y_proba))
    else:
        out["roc_auc"] = None
        out["pr_auc"] = None

    return out


def plot_curves(model, X_test, y_test, title_prefix: str, out_dir: str):
    """
    رسم ROC و Precision-Recall (برای دیتای نامتوازن بسیار مهم است)
    """
    if not hasattr(model, "predict_proba"):
        return

    y_proba = model.predict_proba(X_test)[:, 1]

    # ROC
    plt.figure()
    RocCurveDisplay.from_predictions(y_test, y_proba)
    plt.title(f"{title_prefix} - ROC Curve")
    plt.tight_layout()
    plt.savefig(os.path.join(out_dir, f"{title_prefix}_roc.png"), dpi=150)
    plt.close()

    # PR
    plt.figure()
    PrecisionRecallDisplay.from_predictions(y_test, y_proba)
    plt.title(f"{title_prefix} - Precision-Recall Curve")
    plt.tight_layout()
    plt.savefig(os.path.join(out_dir, f"{title_prefix}_pr.png"), dpi=150)
    plt.close()



# 5) آموزش RandomForest با max_leaf_nodes = 100 و 300

def train_random_forest_models(X_train, y_train, X_test, y_test, feature_set_name: str, preprocessor):
    """
    دو مدل RF با تعداد برگ‌های متفاوت می‌سازیم و ارزیابی می‌کنیم.
    همچنین برای مقابله با Imbalance از class_weight='balanced' استفاده می‌کنیم.
    """
    results = []
    models = {}

    for max_leaf_nodes in [100, 300]:
        clf = RandomForestClassifier(
            n_estimators=400,
            random_state=RANDOM_STATE,
            n_jobs=-1,
            max_leaf_nodes=max_leaf_nodes,   # حساسیت به تعداد برگ‌ها
            class_weight="balanced"          # کمک برای دیتای نامتوازن
        )

        pipe = Pipeline(steps=[
            ("preprocess", preprocessor),
            ("model", clf)
        ])

        name = f"RF_leaf{max_leaf_nodes}_{feature_set_name}"
        pipe.fit(X_train, y_train)

        metrics = evaluate_classifier(name, pipe, X_test, y_test)
        results.append(metrics)
        models[name] = pipe

        # ذخیره مدل
        joblib.dump(pipe, os.path.join(ARTIFACT_DIR, f"{name}.joblib"))

        # ذخیره نمودارها
        plot_curves(pipe, X_test, y_test, title_prefix=name, out_dir=ARTIFACT_DIR)

    return results, models



# 6) آموزش XGBoost با max_leaves = 100 و 300 (grow_policy=lossguide)

def train_xgboost_models(X_train, y_train, X_test, y_test, feature_set_name: str, preprocessor):
    """
    اگر XGBoost نصب باشد:
    - از grow_policy='lossguide' استفاده می‌کنیم تا max_leaves معنی‌دار شود.
    - برای Imbalance از scale_pos_weight استفاده می‌کنیم.
    """
    
    # نسبت منفی به مثبت برای scale_pos_weight
    pos = (y_train == 1).sum()
    neg = (y_train == 0).sum()
    scale_pos_weight = float(neg / (pos + 1e-9))

    results = []
    models = {}

    for max_leaves in [100, 300]:
        xgb = XGBClassifier(
            n_estimators=800,
            learning_rate=0.05,
            subsample=0.9,
            colsample_bytree=0.9,
            random_state=RANDOM_STATE,

            # کنترل ساختار درخت
            grow_policy="lossguide",
            max_leaves=max_leaves,

            # برای جلوگیری از overfitting
            reg_lambda=1.0,
            reg_alpha=0.0,

            # برای دیتای نامتوازن
            scale_pos_weight=scale_pos_weight,

            # سرعت/پایداری
            tree_method="hist",
            eval_metric="logloss"
        )

        pipe = Pipeline(steps=[
            ("preprocess", preprocessor),
            ("model", xgb)
        ])

        name = f"XGB_leaves{max_leaves}_{feature_set_name}"
        pipe.fit(X_train, y_train)

        metrics = evaluate_classifier(name, pipe, X_test, y_test)
        results.append(metrics)
        models[name] = pipe

        # ذخیره کل پایپلاین (پیش‌پردازش + مدل)
        joblib.dump(pipe, os.path.join(ARTIFACT_DIR, f"{name}.joblib"))

        # ذخیره مدل XGB به فرمت json هم (قابل حمل‌تر برای سرویس‌دهی)
        xgb_model = pipe.named_steps["model"]
        xgb_model.save_model(os.path.join(ARTIFACT_DIR, f"{name}_xgb.json"))

        # نمودارها
        plot_curves(pipe, X_test, y_test, title_prefix=name, out_dir=ARTIFACT_DIR)

    return results, models



# 7) انتخاب فیچرهای مهم (Feature Selection) با Permutation Importance

def select_top_features_with_permutation_importance(
    trained_pipeline: Pipeline,
    X_valid: pd.DataFrame,
    y_valid: pd.Series,
    top_k: int = 30
) -> list[str]:
    """
    برای اینکه Feature Selection «سازگار با پیش‌پردازش OneHot» باشد:
    - از permutation_importance روی خود Pipeline استفاده می‌کنیم
    - اما خروجی permutation_importance به سطح ستون‌های بعد از OneHot مربوط است

    راه حل عملی:
    - اگر هدف شما "ستون‌های اصلی" باشد، بهتر است از قبل subset تعریف کنید (مثل gender, age, diag_group)
    - اگر top features واقعی بعد از OneHot بخواهید، باید نام فیچرهای OneHot را استخراج کنید و نگه دارید
      (که اینجا به صورت گزارش و Explainability خوب است)

    در این پروژه، برای Feature Set دوم (Most Important) همان subset بالینی-توضیح‌پذیر را استفاده می‌کنیم.
    با این حال، این تابع را برای گزارش اهمیت‌ها نگه می‌داریم.
    """
    r = permutation_importance(
        trained_pipeline,
        X_valid,
        y_valid,
        n_repeats=5,
        random_state=RANDOM_STATE,
        scoring="average_precision"  # مناسب دیتای نامتوازن
    )

    # گرفتن نام فیچرها بعد از preprocess
    pre = trained_pipeline.named_steps["preprocess"]

    # استخراج feature names
    feature_names = []
    try:
        # num names
        num_cols = pre.transformers_[0][2]
        feature_names.extend(list(num_cols))

        # cat names (بعد از onehot)
        cat_pipe = pre.transformers_[1][1]
        ohe = cat_pipe.named_steps["onehot"]
        cat_cols = pre.transformers_[1][2]
        ohe_names = ohe.get_feature_names_out(cat_cols).tolist()
        feature_names.extend(ohe_names)
    except Exception:
        # اگر به هر دلیل نتوانستیم نام‌ها را بگیریم
        feature_names = [f"f_{i}" for i in range(len(r.importances_mean))]

    importances = pd.DataFrame({
        "feature": feature_names,
        "importance_mean": r.importances_mean
    }).sort_values(by="importance_mean", ascending=False)

    # ذخیره گزارش
    importances.to_csv(os.path.join(ARTIFACT_DIR, "permutation_importances.csv"), index=False)

    return importances.head(top_k)["feature"].tolist()



# 8) بررسی Bias (ساده و عملی): متریک به تفکیک گروه‌ها

def subgroup_performance(model: Pipeline, X_test: pd.DataFrame, y_test: pd.Series, group_col: str) -> pd.DataFrame:
    """
    بررسی ساده‌ی بایاس: عملکرد مدل در گروه‌های مختلف (مثلاً gender یا race یا age)
    خروجی: recall/precision/F1 برای کلاس 1 در هر گروه
    """
    if group_col not in X_test.columns:
        return pd.DataFrame()

    rows = []
    for g, idx in X_test.groupby(group_col).groups.items():
        Xi = X_test.loc[idx]
        yi = y_test.loc[idx]
        yp = model.predict(Xi)
        rep = classification_report(yi, yp, output_dict=True, zero_division=0)
        rows.append({
            "group_col": group_col,
            "group_value": str(g),
            "n": int(len(yi)),
            "recall_class1": rep.get("1", {}).get("recall", np.nan),
            "precision_class1": rep.get("1", {}).get("precision", np.nan),
            "f1_class1": rep.get("1", {}).get("f1-score", np.nan),
        })
    return pd.DataFrame(rows).sort_values(by="n", ascending=False)


# ------------------------------------------------------------
# 9) اجرای اصلی پروژه
# ------------------------------------------------------------
def main():
    # -------------------------
    # 9-1) Load
    # -------------------------
    df = load_data(DATA_PATH)
    print("Shape raw:", df.shape)

    # -------------------------
    # 9-2) Clean: '?' -> NaN
    # -------------------------
    df = replace_question_marks_with_nan(df)

    # -------------------------
    # 9-3) Encode ICD ستون‌ها
    # -------------------------
    df = encode_icd_columns(df, cols=("diag_1", "diag_2", "diag_3"))

    # -------------------------
    # 9-4) ساخت هدف readmission <30
    # -------------------------
    df = build_target_readmitted_30(df)

    # -------------------------
    # 9-5) حذف ستون‌های ID و leakage
    # -------------------------
    df = drop_leaky_or_id_columns(df)

    # -------------------------
    # 9-6) جدا کردن X و y
    # -------------------------
    X, y = make_feature_sets(df)

    # -------------------------
    # 9-7) Split
    # -------------------------
    X_train, X_test, y_train, y_test = train_test_split(
        X, y,
        test_size=TEST_SIZE,
        random_state=RANDOM_STATE,
        stratify=y  # چون داده نامتوازن است، stratify مهم است
    )

    print("Train shape:", X_train.shape, "Test shape:", X_test.shape)
    print("Positive rate (train):", y_train.mean(), "Positive rate (test):", y_test.mean())

    # -------------------------
    # 9-8) Feature sets
    #   الف) همه فیچرها
    #   ب) فیچرهای مهم/بالینی
    # -------------------------
    feature_sets = {
        "ALL": X.columns.tolist(),
        "MAIN": get_main_feature_subset_columns(X)
    }

    all_results = []

    # -------------------------
    # 9-9) آموزش برای هر Feature Set
    # -------------------------
    for fs_name, fs_cols in feature_sets.items():
        print("\n" + "=" * 70)
        print(f"Feature Set: {fs_name} | #cols={len(fs_cols)}")
        print("=" * 70)

        Xtr = X_train[fs_cols].copy()
        Xte = X_test[fs_cols].copy()

        # ساخت preprocessor برای همین feature set
        preprocessor = build_preprocessor(Xtr)

        # -------------------------
        # Random Forest (leaf 100/300)
        # -------------------------
        rf_results, rf_models = train_random_forest_models(
            Xtr, y_train, Xte, y_test,
            feature_set_name=fs_name,
            preprocessor=preprocessor
        )
        all_results.extend(rf_results)

        # یک مدل RF را برای گزارش importance انتخاب می‌کنیم (مثلاً leaf=300)
        rf_key = f"RF_leaf300_{fs_name}"
        if rf_key in rf_models:
            # گزارش permutation importance (اختیاری و برای تحلیل)
            top_ohe_features = select_top_features_with_permutation_importance(
                rf_models[rf_key],
                Xte,
                y_test,
                top_k=30
            )
            # ذخیره top features
            with open(os.path.join(ARTIFACT_DIR, f"top_features_ohe_{fs_name}.json"), "w", encoding="utf-8") as f:
                json.dump(top_ohe_features, f, ensure_ascii=False, indent=2)

            # بررسی Bias ساده بر اساس gender/race/age اگر وجود داشته باشد
            for col in ["gender", "race", "age"]:
                bias_df = subgroup_performance(rf_models[rf_key], Xte, y_test, group_col=col)
                if len(bias_df) > 0:
                    bias_df.to_csv(os.path.join(ARTIFACT_DIR, f"bias_subgroup_{rf_key}_{col}.csv"), index=False)

        # -------------------------
        # XGBoost (leaves 100/300)
        # -------------------------
        xgb_results, xgb_models = train_xgboost_models(
            Xtr, y_train, Xte, y_test,
            feature_set_name=fs_name,
            preprocessor=preprocessor
        )
        all_results.extend(xgb_results)

        # Bias check برای XGB هم (اگر leaf300 موجود باشد)
        xgb_key = f"XGB_leaves300_{fs_name}"
        if xgb_key in xgb_models:
            for col in ["gender", "race", "age"]:
                bias_df = subgroup_performance(xgb_models[xgb_key], Xte, y_test, group_col=col)
                if len(bias_df) > 0:
                    bias_df.to_csv(os.path.join(ARTIFACT_DIR, f"bias_subgroup_{xgb_key}_{col}.csv"), index=False)

    # -------------------------
    # 9-10) ذخیره نتایج کلی
    # -------------------------
    with open(os.path.join(ARTIFACT_DIR, "all_results.json"), "w", encoding="utf-8") as f:
        json.dump(all_results, f, ensure_ascii=False, indent=2)

    # همچنین یک جدول خلاصه هم ذخیره می‌کنیم
    summary_rows = []
    for r in all_results:
        summary_rows.append({
            "model": r["model_name"],
            "roc_auc": r.get("roc_auc"),
            "pr_auc": r.get("pr_auc"),
            "sensitivity_recall_class1": r.get("sensitivity_recall_class_1")
        })
    summary_df = pd.DataFrame(summary_rows).sort_values(
        by=["pr_auc", "sensitivity_recall_class1"],
        ascending=False
    )
    summary_df.to_csv(os.path.join(ARTIFACT_DIR, "summary_metrics.csv"), index=False)

    print("\n=== DONE ===")
    print("Artifacts saved to:", ARTIFACT_DIR)
    print("\nTop models by PR-AUC / Sensitivity:")
    print(summary_df.head(10).to_string(index=False))


if __name__ == "__main__":
    main()


Shape raw: (101766, 50)
Train shape: (81412, 50) Test shape: (20354, 50)
Positive rate (train): 0.11160516877118852 Positive rate (test): 0.11157512036946055

Feature Set: ALL | #cols=50
