<a href="https://colab.research.google.com/github/faNa-ml/CNN/blob/main/Untitled10.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers
from tensorflow.keras.preprocessing.image import ImageDataGenerator
from sklearn.model_selection import train_test_split
from sklearn.utils import class_weight
from sklearn.metrics import f1_score, accuracy_score, precision_score, recall_score, classification_report, confusion_matrix
import numpy as np
import pandas as pd
import os
import matplotlib.pyplot as plt
import seaborn as sns
import shutil # برای مدیریت فایل‌ها (ساخت و حذف پوشه‌ها)
import zipfile # برای کار با فایل‌های زیپ
from tqdm import tqdm # برای نمایش نوار پیشرفت در هنگام کپی فایل‌ها

# --- ۰. نصب و به‌روزرسانی کتابخانه‌ها (مخصوص Colab) ---
print("Installing and upgrading necessary libraries...")
!pip install --upgrade tensorflow
!pip install scikit-learn pandas matplotlib tqdm
print("Libraries installed/upgraded successfully.")

# --- ۱. تنظیمات اولیه و بررسی دسترسی به GPU ---
gpus = tf.config.list_physical_devices('GPU')
if gpus:
    try:
        for gpu in gpus:
            tf.config.experimental.set_memory_growth(gpu, True)
        logical_gpus = tf.config.list_logical_devices('GPU')
        print(f"Using {len(gpus)} Physical GPUs, {len(logical_gpus)} Logical GPUs")
    except RuntimeError as e:
        print(e)
else:
    print("No GPU found, using CPU.")

# --- ۲. دانلود و آماده‌سازی دیتاست در Colab (با مدیریت Double-Zipping) ---
print("\n--- Downloading and preparing dataset (handling nested zips) ---")
DATASET_URL = "Majeed Wani, Insha ; Arora, Sakshi (2021), “Knee X-ray Osteoporosis Database”, Mendeley Data, V2, doi: 10.17632/fxjm8fb6mw.2"
OUTER_ZIP_FILE_NAME = "Knee-X-ray_outer.zip"
FIRST_EXTRACT_DIR = "/content/first_extracted_zip_contents" # مسیری برای اولین استخراج

# دانلود فایل زیپ بیرونی
print(f"Downloading dataset from {DATASET_URL}...")
# اگر لینک دانلود مجددا خراب شد، ممکن است نیاز به لینک جدید باشد یا آپلود دستی.
!wget -O {OUTER_ZIP_FILE_NAME} "{DATASET_URL}"
print(f"Downloaded {OUTER_ZIP_FILE_NAME} successfully.")

# ایجاد دایرکتوری برای اولین استخراج
os.makedirs(FIRST_EXTRACT_DIR, exist_ok=True)

# استخراج فایل زیپ بیرونی
print(f"Extracting {OUTER_ZIP_FILE_NAME} to {FIRST_EXTRACT_DIR}...")
try:
    with zipfile.ZipFile(OUTER_ZIP_FILE_NAME, 'r') as zip_ref:
        zip_ref.extractall(FIRST_EXTRACT_DIR)
    print("First level extraction complete.")
except zipfile.BadZipFile:
    print(f"Error: {OUTER_ZIP_FILE_NAME} is not a valid zip file or is corrupted. Attempting to proceed assuming it's an empty or problematic zip, check manually.")
    # در این حالت، ممکن است zipfile.BadZipFile رخ دهد اما wget فایل را دانلود کرده باشد.
    # باید مطمئن شویم که یا یک فایل زیپ داخلی هست یا خطا جدی‌تر است.
    # فعلا اجازه می‌دهیم کد ادامه یابد تا شاید زیپ داخلی را پیدا کند.


# --- جستجو و استخراج فایل زیپ داخلی ---
INNER_ZIP_FILE_PATH = None
# جستجو در پوشه استخراج شده اول برای یافتن فایل زیپ داخلی
for root, dirs, files in os.walk(FIRST_EXTRACT_DIR):
    for file in files:
        if file.lower().endswith('.zip'):
            INNER_ZIP_FILE_PATH = os.path.join(root, file)
            break
    if INNER_ZIP_FILE_PATH:
        break

FINAL_DATA_EXTRACT_DIR = "/content/final_dataset_extracted" # مسیر نهایی برای استخراج دیتاست واقعی
os.makedirs(FINAL_DATA_EXTRACT_DIR, exist_ok=True) # اطمینان از وجود این پوشه

if INNER_ZIP_FILE_PATH is None:
    print(f"No inner zip file found in {FIRST_EXTRACT_DIR}. Assuming the first extraction contained the data directly.")
    # اگر زیپ داخلی پیدا نشد، فرض می‌کنیم دیتاست مستقیماً در FIRST_EXTRACT_DIR قرار دارد.
    # در این حالت، فقط محتویات را از FIRST_EXTRACT_DIR به FINAL_DATA_EXTRACT_DIR کپی می‌کنیم.
    print(f"Copying contents from {FIRST_EXTRACT_DIR} to {FINAL_DATA_EXTRACT_DIR}...")
    for item in os.listdir(FIRST_EXTRACT_DIR):
        s = os.path.join(FIRST_EXTRACT_DIR, item)
        d = os.path.join(FINAL_DATA_EXTRACT_DIR, item)
        if os.path.isdir(s):
            shutil.copytree(s, d, symlinks=False, ignore_dangling_symlinks=True)
        else:
            shutil.copy2(s, d)
    print("Contents copied successfully.")
else:
    print(f"Found inner zip: {INNER_ZIP_FILE_PATH}. Extracting to {FINAL_DATA_EXTRACT_DIR}...")
    try:
        with zipfile.ZipFile(INNER_ZIP_FILE_PATH, 'r') as inner_zip_ref:
            inner_zip_ref.extractall(FINAL_DATA_EXTRACT_DIR)
        print("Inner dataset extracted successfully.")
    except zipfile.BadZipFile:
        print(f"Error: Inner zip file '{INNER_ZIP_FILE_PATH}' is corrupted or not a valid zip. Please check the downloaded dataset.")
        raise
    except Exception as e:
        print(f"An error occurred during inner zip extraction: {e}")
        raise

# --- تعیین مسیر ریشه نهایی دیتاست (BASE_DATA_ROOT) ---
# اکنون که فایل زیپ داخلی (یا محتویات اولین زیپ) استخراج شده است،
# باید پوشه ای را پیدا کنیم که شامل normal, osteopenia, osteoporosis باشد.
# این پوشه معمولاً نامی شبیه به "Knee-X-ray" یا خود نام دیتاست دارد.
BASE_DATA_ROOT = None
found_data_dir = False
for root, dirs, files in os.walk(FINAL_DATA_EXTRACT_DIR):
    # چک می‌کنیم آیا هر سه پوشه کلاس‌های ما در یک دایرکتوری خاص وجود دارند یا خیر.
    if all(folder in dirs for folder in ['normal', 'osteopenia', 'osteoporosis']):
        BASE_DATA_ROOT = root
        found_data_dir = True
        break
    # همچنین ممکن است پوشه 'Knee-X-ray' یک مرحله بالاتر باشد که شامل این کلاس‌ها باشد.
    if 'Knee-X-ray' in dirs and all(folder in os.listdir(os.path.join(root, 'Knee-X-ray')) for folder in ['normal', 'osteopenia', 'osteoporosis']):
        BASE_DATA_ROOT = os.path.join(root, 'Knee-X-ray')
        found_data_dir = True
        break

if not found_data_dir:
    print(f"Error: Could not find 'normal', 'osteopenia', 'osteoporosis' directories within {FINAL_DATA_EXTRACT_DIR}.")
    # در این حالت، بهتر است محتویات FINAL_DATA_EXTRACT_DIR را لیست کنیم تا کاربر ببیند مشکل کجاست.
    print("\n--- Contents of FINAL_DATA_EXTRACT_DIR ---")
    !ls -R {FINAL_DATA_EXTRACT_DIR}
    raise FileNotFoundError("Class directories not found. Please verify the dataset structure after extraction.")


print(f"Final BASE_DATA_ROOT set to: {BASE_DATA_ROOT}")


# --- ۳. تعریف نام کلاس‌ها و جمع‌آوری تمام مسیرهای فایل‌ها و لیبل‌های اصلی ---
# نام‌های کلاس‌ها مطابق با ساختار پوشه‌هایی که شما ارسال کردید.
CLASS_FOLDERS = ['normal', 'osteopenia', 'osteoporosis']
FINAL_NUM_CLASSES = len(CLASS_FOLDERS) # خروجی مدل: 3 کلاس

all_filepaths = []
all_original_labels = []

print(f"\nCollecting images from: {BASE_DATA_ROOT} with classes: {CLASS_FOLDERS}")
for class_name in CLASS_FOLDERS:
    current_class_path = os.path.join(BASE_DATA_ROOT, class_name)
    if not os.path.exists(current_class_path):
        print(f"Warning: Class directory '{current_class_path}' not found. Skipping.")
        continue # اگر پوشه ای نبود، ردش می‌کنیم

    for img_name in os.listdir(current_class_path):
        if img_name.lower().endswith(('.png', '.jpg', '.jpeg', '.bmp', '.gif')):
            all_filepaths.append(os.path.join(current_class_path, img_name))
            all_original_labels.append(class_name)

print(f"Found {len(all_filepaths)} total images for classes: {np.unique(all_original_labels)}.")

# --- ۴. تعریف نگاشت کلاس‌ها (اختیاری، اما برای class_weight مفید است) ---
# flow_from_directory به صورت خودکار mapping را بر اساس نام پوشه انجام می‌دهد.
# اما برای class_weight باید mapping عددی داشته باشیم.
unique_sorted_labels = sorted(np.unique(all_original_labels))
CLASS_TO_INT_MAPPING = {label: i for i, label in enumerate(unique_sorted_labels)}
INT_TO_CLASS_MAPPING = {i: label for i, label in enumerate(unique_sorted_labels)}

print(f"Class to integer mapping: {CLASS_TO_INT_MAPPING}")


# --- ۵. تنظیم هایپرپارامترها ---
IMG_HEIGHT = 224
IMG_WIDTH = 224
BATCH_SIZE = 32

TEST_SPLIT_RATIO = 0.2
VALIDATION_SPLIT_RATIO = 0.1
RANDOM_SEED = 42

EPOCHS_CNN = 20
EPOCHS_TRANSFER = 15

LEARNING_RATE_CNN = 0.001
LEARNING_RATE_TRANSFER = 0.0001

# --- ۶. آماده‌سازی ساختار موقت برای ImageDataGenerator ---
TEMP_SPLIT_DIR = "/content/temp_dataset_split"
TRAIN_TEMP_DIR = os.path.join(TEMP_SPLIT_DIR, 'train')
VAL_TEMP_DIR = os.path.join(TEMP_SPLIT_DIR, 'validation')
TEST_TEMP_DIR = os.path.join(TEMP_SPLIT_DIR, 'test')

if os.path.exists(TEMP_SPLIT_DIR):
    shutil.rmtree(TEMP_SPLIT_DIR)
os.makedirs(TRAIN_TEMP_DIR, exist_ok=True)
os.makedirs(VAL_TEMP_DIR, exist_ok=True) # این پوشه ها در نهایت توسط ImageDataGenerator ایجاد می‌شوند
os.makedirs(TEST_TEMP_DIR, exist_ok=True)


df_full = pd.DataFrame({'filepath': all_filepaths, 'original_label': all_original_labels})
# اضافه کردن ستون برای لیبل‌های عددی
df_full['int_label'] = df_full['original_label'].map(CLASS_TO_INT_MAPPING)


df_train_val, df_test = train_test_split(
    df_full, test_size=TEST_SPLIT_RATIO, random_state=RANDOM_SEED, stratify=df_full['int_label']
)

def populate_temp_dirs(dataframe, base_target_dir):
    # استفاده از tqdm برای نمایش نوار پیشرفت کپی کردن فایل‌ها
    for _, row in tqdm(dataframe.iterrows(), total=len(dataframe), desc=f"Copying to {os.path.basename(base_target_dir)}"):
        original_path = row['filepath']
        # از لیبل اصلی (نام پوشه) استفاده می‌کنیم، چون flow_from_directory به آن نیاز دارد
        class_folder_name = row['original_label']

        target_dir = os.path.join(base_target_dir, class_folder_name)
        os.makedirs(target_dir, exist_ok=True)

        target_file = os.path.join(target_dir, os.path.basename(original_path))
        if not os.path.exists(target_file):
            shutil.copy(original_path, target_file)

print("\nPopulating temporary train/test directories...")
populate_temp_dirs(df_train_val, TRAIN_TEMP_DIR)
populate_temp_dirs(df_test, TEST_TEMP_DIR)
print("Temporary directories populated.")

# --- ۷. تعریف تبدیل‌ها (Data Augmentation) و ImageDataGenerator ---
train_datagen = ImageDataGenerator(
    rescale=1./255,
    rotation_range=15,
    width_shift_range=0.1,
    height_shift_range=0.1,
    shear_range=0.1,
    zoom_range=0.1,
    horizontal_flip=True,
    brightness_range=[0.8, 1.2],
    validation_split=VALIDATION_SPLIT_RATIO
)

test_datagen = ImageDataGenerator(rescale=1./255)

train_generator = train_datagen.flow_from_directory(
    TRAIN_TEMP_DIR,
    target_size=(IMG_HEIGHT, IMG_WIDTH),
    batch_size=BATCH_SIZE,
    class_mode='categorical', # برای دسته‌بندی چندکلاسه
    subset='training',
    seed=RANDOM_SEED
)

validation_generator = train_datagen.flow_from_directory(
    TRAIN_TEMP_DIR,
    target_size=(IMG_HEIGHT, IMG_WIDTH),
    batch_size=BATCH_SIZE,
    class_mode='categorical', # برای دسته‌بندی چندکلاسه
    subset='validation',
    seed=RANDOM_SEED
)

test_generator = test_datagen.flow_from_directory(
    TEST_TEMP_DIR,
    target_size=(IMG_HEIGHT, IMG_WIDTH),
    batch_size=BATCH_SIZE,
    class_mode='categorical', # برای دسته‌بندی چندکلاسه
    shuffle=False # برای ارزیابی نهایی، shuffle نباید باشد
)

# محاسبه class_weights برای مقابله با عدم تعادل کلاس‌ها
# از df_train_val برای محاسبه وزن‌ها استفاده می‌کنیم، زیرا این مجموعه واقعی آموزش و اعتبارسنجی است.
# از ستون 'int_label' که حاوی لیبل‌های عددی است، استفاده می‌کنیم.
unique_classes_for_weight = np.unique(df_train_val['int_label'])
calculated_class_weights = class_weight.compute_class_weight(
    class_weight='balanced',
    classes=unique_classes_for_weight,
    y=df_train_val['int_label']
)
class_weights_dict = {i: calculated_class_weights[i] for i in range(len(unique_classes_for_weight))}
print(f"Calculated class weights for training: {class_weights_dict}")

# --- ۸. تعریف مدل CNN سفارشی از پایه ---
def build_custom_cnn(input_shape, num_classes):
    model = keras.Sequential([
        layers.Conv2D(32, (3, 3), padding='same', activation='relu', input_shape=input_shape),
        layers.BatchNormalization(),
        layers.Conv2D(32, (3, 3), padding='same', activation='relu'),
        layers.BatchNormalization(),
        layers.MaxPooling2D((2, 2)),
        layers.Dropout(0.25),

        layers.Conv2D(64, (3, 3), padding='same', activation='relu'),
        layers.BatchNormalization(),
        layers.Conv2D(64, (3, 3), padding='same', activation='relu'),
        layers.BatchNormalization(),
        layers.MaxPooling2D((2, 2)),
        layers.Dropout(0.25),

        layers.Conv2D(128, (3, 3), padding='same', activation='relu'),
        layers.BatchNormalization(),
        layers.Conv2D(128, (3, 3), padding='same', activation='relu'),
        layers.BatchNormalization(),
        layers.MaxPooling2D((2, 2)),
        layers.Dropout(0.25),

        layers.Flatten(),
        layers.Dense(256, activation='relu'),
        layers.BatchNormalization(),
        layers.Dropout(0.5),
        layers.Dense(128, activation='relu'),
        layers.BatchNormalization(),
        layers.Dropout(0.5),
        layers.Dense(num_classes, activation='softmax') # Softmax برای دسته‌بندی چندکلاسه
    ])
    return model

input_shape = (IMG_HEIGHT, IMG_WIDTH, 3)
model_cnn = build_custom_cnn(input_shape, FINAL_NUM_CLASSES)
model_cnn.compile(optimizer=keras.optimizers.Adam(learning_rate=LEARNING_RATE_CNN),
                  loss='categorical_crossentropy', # برای دسته‌بندی چندکلاسه
                  metrics=['accuracy'])

print("\n--- مدل CNN سفارشی از پایه ---")
model_cnn.summary()

# --- ۹. تعریف مدل یادگیری انتقالی (Transfer Learning - ResNet50) ---
def build_transfer_model(input_shape, num_classes):
    base_model = keras.applications.ResNet50(
        weights='imagenet',
        include_top=False,
        input_shape=input_shape
    )
    base_model.trainable = False

    model = keras.Sequential([
        base_model,
        layers.GlobalAveragePooling2D(),
        layers.Dense(256, activation='relu'),
        layers.BatchNormalization(),
        layers.Dropout(0.5),
        layers.Dense(128, activation='relu'),
        layers.BatchNormalization(),
        layers.Dropout(0.5),
        layers.Dense(num_classes, activation='softmax') # Softmax برای دسته‌بندی چندکلاسه
    ])
    return model

model_transfer = build_transfer_model(input_shape, FINAL_NUM_CLASSES)
model_transfer.compile(optimizer=keras.optimizers.Adam(learning_rate=LEARNING_RATE_TRANSFER),
                       loss='categorical_crossentropy', # برای دسته‌بندی چندکلاسه
                       metrics=['accuracy'])

print("\n--- مدل یادگیری انتقالی (ResNet50) ---")
model_transfer.summary()


# --- ۱۰. آموزش و ارزیابی مدل‌ها ---
print("\n" + "="*50)
print("--- شروع آموزش Custom CNN ---")
print("="*50)
history_cnn = model_cnn.fit(
    train_generator,
    epochs=EPOCHS_CNN,
    validation_data=validation_generator,
    class_weight=class_weights_dict
)

print("\n" + "="*50)
print("--- شروع آموزش Transfer Learning (ResNet50) ---")
print("="*50)
history_transfer = model_transfer.fit(
    train_generator,
    epochs=EPOCHS_TRANSFER,
    validation_data=validation_generator,
    class_weight=class_weights_dict
)

# --- ۱۱. ارزیابی نهایی و نمایش نتایج در یک جدول ---
print("\n" + "="*50)
print("--- نتایج نهایی ارزیابی روی مجموعه تست ---")
print("="*50)

# این متغیر برای نام کلاس‌ها در گزارش طبقه‌بندی استفاده می‌شود.
target_names_for_report = [INT_TO_CLASS_MAPPING[i] for i in sorted(INT_TO_CLASS_MAPPING.keys())]


y_pred_cnn_probs = model_cnn.predict(test_generator)
y_pred_cnn = np.argmax(y_pred_cnn_probs, axis=1)
y_true_test_indices = test_generator.classes # لیبل‌های واقعی تست جنراتور (عددی)

cnn_acc = accuracy_score(y_true_test_indices, y_pred_cnn)
cnn_prec = precision_score(y_true_test_indices, y_pred_cnn, average='weighted', zero_division=0)
cnn_rec = recall_score(y_true_test_indices, y_pred_cnn, average='weighted', zero_division=0)
cnn_f1 = f1_score(y_true_test_indices, y_pred_cnn, average='weighted', zero_division=0)

print(f"Custom CNN -> Accuracy: {cnn_acc:.4f}, Precision: {cnn_prec:.4f}, Recall: {cnn_rec:.4f}, F1-score: {cnn_f1:.4f}")
print("\nClassification Report for Custom CNN:")
print(classification_report(y_true_test_indices, y_pred_cnn, target_names=target_names_for_report, zero_division=0))
print("Confusion Matrix for Custom CNN:")
print(confusion_matrix(y_true_test_indices, y_pred_cnn))


y_pred_transfer_probs = model_transfer.predict(test_generator)
y_pred_transfer = np.argmax(y_pred_transfer_probs, axis=1)

transfer_acc = accuracy_score(y_true_test_indices, y_pred_transfer)
transfer_prec = precision_score(y_true_test_indices, y_pred_transfer, average='weighted', zero_division=0)
transfer_rec = recall_score(y_true_test_indices, y_pred_transfer, average='weighted', zero_division=0)
transfer_f1 = f1_score(y_true_test_indices, y_pred_transfer, average='weighted', zero_division=0)

print(f"\nTransfer Learning (ResNet50) -> Accuracy: {transfer_acc:.4f}, Precision: {transfer_prec:.4f}, Recall: {transfer_rec:.4f}, F1-score: {transfer_f1:.4f}")
print("\nClassification Report for Transfer Learning (ResNet50):")
print(classification_report(y_true_test_indices, y_pred_transfer, target_names=target_names_for_report, zero_division=0))
print("Confusion Matrix for Transfer Learning (ResNet50):")
print(confusion_matrix(y_true_test_indices, y_pred_transfer))


data = {
    'Model': ['Custom CNN', 'Transfer Learning (ResNet50)'],
    'Accuracy': [cnn_acc, transfer_acc],
    'Precision': [cnn_prec, transfer_prec],
    'Recall': [cnn_rec, transfer_rec],
    'F1-score': [cnn_f1, transfer_f1]
}
df_results = pd.DataFrame(data)

print("\n--- جدول نتایج نهایی مقایسه مدل‌ها ---")
print(df_results.round(4).to_markdown(index=False))


# --- ۱۲. رسم نمودار Loss و Accuracy در طول آموزش ---
def plot_history(history, model_name):
    plt.figure(figsize=(14, 6))

    plt.subplot(1, 2, 1)
    plt.plot(history.history['accuracy'], label='Train Accuracy', color='blue', marker='o', linestyle='--', markersize=4)
    plt.plot(history.history['val_accuracy'], label='Validation Accuracy', color='red', marker='x', linestyle='-', markersize=4)
    plt.title(f'{model_name} - Accuracy over Epochs', fontsize=14)
    plt.xlabel('Epoch', fontsize=12)
    plt.ylabel('Accuracy', fontsize=12)
    plt.legend(fontsize=10)
    plt.grid(True, linestyle=':', alpha=0.7)
    plt.ylim(0, 1)

    plt.subplot(1, 2, 2)
    plt.plot(history.history['loss'], label='Train Loss', color='green', marker='o', linestyle='--', markersize=4)
    plt.plot(history.history['val_loss'], label='Validation Loss', color='purple', marker='x', linestyle='-', markersize=4)
    plt.title(f'{model_name} - Loss over Epochs', fontsize=14)
    plt.xlabel('Epoch', fontsize=12)
    plt.ylabel('Loss', fontsize=12)
    plt.legend(fontsize=10)
    plt.grid(True, linestyle=':', alpha=0.7)

    plt.tight_layout()
    plt.show()

print("\n--- رسم نمودارهای آموزش ---")
plot_history(history_cnn, "Custom CNN Model")
plot_history(history_transfer, "Transfer Learning (ResNet50) Model")

# --- ۱۳. پاکسازی پوشه‌های موقت ---
print("\n--- Cleaning up temporary directories and downloaded files ---")
if os.path.exists(FIRST_EXTRACT_DIR):
    shutil.rmtree(FIRST_EXTRACT_DIR)
    print(f"Removed first extraction directory: '{FIRST_EXTRACT_DIR}'.")
if os.path.exists(FINAL_DATA_EXTRACT_DIR) and FINAL_DATA_EXTRACT_DIR != FIRST_EXTRACT_DIR:
    shutil.rmtree(FINAL_DATA_EXTRACT_DIR)
    print(f"Removed final dataset extraction directory: '{FINAL_DATA_EXTRACT_DIR}'.")
if os.path.exists(TEMP_SPLIT_DIR):
    shutil.rmtree(TEMP_SPLIT_DIR)
    print(f"Removed temporary data split directory: '{TEMP_SPLIT_DIR}'.")
if os.path.exists(OUTER_ZIP_FILE_NAME):
    os.remove(OUTER_ZIP_FILE_NAME)
    print(f"Removed downloaded outer zip file: '{OUTER_ZIP_FILE_NAME}'.")
if INNER_ZIP_FILE_PATH and os.path.exists(INNER_ZIP_FILE_PATH):
    # این خط فقط اگر زیپ داخلی در یک مسیر جداگانه باقی مانده باشد آن را حذف می‌کند
    # (نه اگر بخشی از محتوای FIRST_EXTRACT_DIR باشد که خودش حذف می‌شود)
    if not INNER_ZIP_FILE_PATH.startswith(FIRST_EXTRACT_DIR) or not os.path.exists(FIRST_EXTRACT_DIR):
        os.remove(INNER_ZIP_FILE_PATH)
        print(f"Removed inner zip file: '{INNER_ZIP_FILE_PATH}'.")

print("\n" + "="*50)
print("--- پایان اجرای برنامه ---")
print("="*50)

Installing and upgrading necessary libraries...
Libraries installed/upgraded successfully.
No GPU found, using CPU.

--- Downloading and preparing dataset (handling nested zips) ---
Downloading dataset from Majeed Wani, Insha ; Arora, Sakshi (2021), “Knee X-ray Osteoporosis Database”, Mendeley Data, V2, doi: 10.17632/fxjm8fb6mw.2...
--2025-06-07 08:39:54--  ftp://majeed%20wani,%20insha%20/;%20Arora,%20Sakshi%20(2021),%20%E2%80%9CKnee%20X-ray%20Osteoporosis%20Database%E2%80%9D,%20Mendeley%20Data,%20V2,%20doi/%2010.17632/fxjm8fb6mw.2
           => ‘.listing’
Resolving majeed wani, insha  (majeed wani, insha )... failed: Name or service not known.
wget: unable to resolve host address ‘majeed wani, insha ’
Downloaded Knee-X-ray_outer.zip successfully.
Extracting Knee-X-ray_outer.zip to /content/first_extracted_zip_contents...
Error: Knee-X-ray_outer.zip is not a valid zip file or is corrupted. Attempting to proceed assuming it's an empty or problematic zip, check manually.
No inner zip fil

FileNotFoundError: Class directories not found. Please verify the dataset structure after extraction.

In [None]:
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers
from tensorflow.keras.preprocessing.image import ImageDataGenerator
from sklearn.model_selection import train_test_split
from sklearn.utils import class_weight
from sklearn.metrics import f1_score, accuracy_score, precision_score, recall_score, classification_report, confusion_matrix
import numpy as np
import pandas as pd
import os
import matplotlib.pyplot as plt
import seaborn as sns
import shutil # برای مدیریت فایل‌ها (ساخت و حذف پوشه‌ها)
import zipfile # برای کار با فایل‌های زیپ
from tqdm import tqdm # برای نمایش نوار پیشرفت در هنگام کپی فایل‌ها

# --- ۰. نصب و به‌روزرسانی کتابخانه‌ها (مخصوص Colab) ---
print("Installing and upgrading necessary libraries...")
!pip install --upgrade tensorflow
!pip install scikit-learn pandas matplotlib tqdm
print("Libraries installed/upgraded successfully.")

# --- ۱. تنظیمات اولیه و بررسی دسترسی به GPU ---
gpus = tf.config.list_physical_devices('GPU')
if gpus:
    try:
        for gpu in gpus:
            tf.config.experimental.set_memory_growth(gpu, True)
        logical_gpus = tf.config.list_logical_devices('GPU')
        print(f"Using {len(gpus)} Physical GPUs, {len(logical_gpus)} Logical GPUs")
    except RuntimeError as e:
        print(e)
else:
    print("No GPU found, using CPU.")

# --- ۲. دانلود و آماده‌سازی دیتاست در Colab (با مدیریت Double-Zipping) ---
print("\n--- Downloading and preparing dataset (handling nested zips) ---")
DATASET_URL = "https://prod-dcd-datasets-public-files-eu-west-1.s3.eu-west-1.amazonaws.com/2617b452-9878-477e-b0e7-4f7bfe7ea873"
OUTER_ZIP_FILE_NAME = "Knee-X-ray_outer.zip"
FIRST_EXTRACT_DIR = "/content/first_extracted_zip_contents" # مسیری برای اولین استخراج

# دانلود فایل زیپ بیرونی
print(f"Downloading dataset from {DATASET_URL}...")
# اگر لینک دانلود مجددا خراب شد، ممکن است نیاز به لینک جدید باشد یا آپلود دستی.
!wget -O {OUTER_ZIP_FILE_NAME} "{DATASET_URL}"
print(f"Downloaded {OUTER_ZIP_FILE_NAME} successfully.")

# ایجاد دایرکتوری برای اولین استخراج
os.makedirs(FIRST_EXTRACT_DIR, exist_ok=True)

# استخراج فایل زیپ بیرونی
print(f"Extracting {OUTER_ZIP_FILE_NAME} to {FIRST_EXTRACT_DIR}...")
try:
    with zipfile.ZipFile(OUTER_ZIP_FILE_NAME, 'r') as zip_ref:
        zip_ref.extractall(FIRST_EXTRACT_DIR)
    print("First level extraction complete.")
except zipfile.BadZipFile:
    print(f"Error: {OUTER_ZIP_FILE_NAME} is not a valid zip file or is corrupted. Attempting to proceed assuming it's an empty or problematic zip, check manually.")
    # در این حالت، ممکن است zipfile.BadZipFile رخ دهد اما wget فایل را دانلود کرده باشد.
    # باید مطمئن شویم که یا یک فایل زیپ داخلی هست یا خطا جدی‌تر است.
    # فعلا اجازه می‌دهیم کد ادامه یابد تا شاید زیپ داخلی را پیدا کند.


# --- جستجو و استخراج فایل زیپ داخلی ---
INNER_ZIP_FILE_PATH = None
# جستجو در پوشه استخراج شده اول برای یافتن فایل زیپ داخلی
for root, dirs, files in os.walk(FIRST_EXTRACT_DIR):
    for file in files:
        if file.lower().endswith('.zip'):
            INNER_ZIP_FILE_PATH = os.path.join(root, file)
            break
    if INNER_ZIP_FILE_PATH:
        break

FINAL_DATA_EXTRACT_DIR = "/content/final_dataset_extracted" # مسیر نهایی برای استخراج دیتاست واقعی
os.makedirs(FINAL_DATA_EXTRACT_DIR, exist_ok=True) # اطمینان از وجود این پوشه

if INNER_ZIP_FILE_PATH is None:
    print(f"No inner zip file found in {FIRST_EXTRACT_DIR}. Assuming the first extraction contained the data directly.")
    # اگر زیپ داخلی پیدا نشد، فرض می‌کنیم دیتاست مستقیماً در FIRST_EXTRACT_DIR قرار دارد.
    # در این حالت، فقط محتویات را از FIRST_EXTRACT_DIR به FINAL_DATA_EXTRACT_DIR کپی می‌کنیم.
    print(f"Copying contents from {FIRST_EXTRACT_DIR} to {FINAL_DATA_EXTRACT_DIR}...")
    for item in os.listdir(FIRST_EXTRACT_DIR):
        s = os.path.join(FIRST_EXTRACT_DIR, item)
        d = os.path.join(FINAL_DATA_EXTRACT_DIR, item)
        if os.path.isdir(s):
            shutil.copytree(s, d, symlinks=False, ignore_dangling_symlinks=True)
        else:
            shutil.copy2(s, d)
    print("Contents copied successfully.")
else:
    print(f"Found inner zip: {INNER_ZIP_FILE_PATH}. Extracting to {FINAL_DATA_EXTRACT_DIR}...")
    try:
        with zipfile.ZipFile(INNER_ZIP_FILE_PATH, 'r') as inner_zip_ref:
            inner_zip_ref.extractall(FINAL_DATA_EXTRACT_DIR)
        print("Inner dataset extracted successfully.")
    except zipfile.BadZipFile:
        print(f"Error: Inner zip file '{INNER_ZIP_FILE_PATH}' is corrupted or not a valid zip. Please check the downloaded dataset.")
        raise
    except Exception as e:
        print(f"An error occurred during inner zip extraction: {e}")
        raise

# --- تعیین مسیر ریشه نهایی دیتاست (BASE_DATA_ROOT) ---
# اکنون که فایل زیپ داخلی (یا محتویات اولین زیپ) استخراج شده است،
# باید پوشه ای را پیدا کنیم که شامل normal, osteopenia, osteoporosis باشد.
# این پوشه معمولاً نامی شبیه به "Knee-X-ray" یا خود نام دیتاست دارد.
BASE_DATA_ROOT = None
found_data_dir = False
for root, dirs, files in os.walk(FINAL_DATA_EXTRACT_DIR):
    # چک می‌کنیم آیا هر سه پوشه کلاس‌های ما در یک دایرکتوری خاص وجود دارند یا خیر.
    if all(folder in dirs for folder in ['normal', 'osteopenia', 'osteoporosis']):
        BASE_DATA_ROOT = root
        found_data_dir = True
        break
    # همچنین ممکن است پوشه 'Knee-X-ray' یک مرحله بالاتر باشد که شامل این کلاس‌ها باشد.
    if 'Knee-X-ray' in dirs and all(folder in os.listdir(os.path.join(root, 'Knee-X-ray')) for folder in ['normal', 'osteopenia', 'osteoporosis']):
        BASE_DATA_ROOT = os.path.join(root, 'Knee-X-ray')
        found_data_dir = True
        break

if not found_data_dir:
    print(f"Error: Could not find 'normal', 'osteopenia', 'osteoporosis' directories within {FINAL_DATA_EXTRACT_DIR}.")
    # در این حالت، بهتر است محتویات FINAL_DATA_EXTRACT_DIR را لیست کنیم تا کاربر ببیند مشکل کجاست.
    print("\n--- Contents of FINAL_DATA_EXTRACT_DIR ---")
    !ls -R {FINAL_DATA_EXTRACT_DIR}
    raise FileNotFoundError("Class directories not found. Please verify the dataset structure after extraction.")


print(f"Final BASE_DATA_ROOT set to: {BASE_DATA_ROOT}")


# --- ۳. تعریف نام کلاس‌ها و جمع‌آوری تمام مسیرهای فایل‌ها و لیبل‌های اصلی ---
# نام‌های کلاس‌ها مطابق با ساختار پوشه‌هایی که شما ارسال کردید.
CLASS_FOLDERS = ['normal', 'osteopenia', 'osteoporosis']
FINAL_NUM_CLASSES = len(CLASS_FOLDERS) # خروجی مدل: 3 کلاس

all_filepaths = []
all_original_labels = []

print(f"\nCollecting images from: {BASE_DATA_ROOT} with classes: {CLASS_FOLDERS}")
for class_name in CLASS_FOLDERS:
    current_class_path = os.path.join(BASE_DATA_ROOT, class_name)
    if not os.path.exists(current_class_path):
        print(f"Warning: Class directory '{current_class_path}' not found. Skipping.")
        continue # اگر پوشه ای نبود، ردش می‌کنیم

    for img_name in os.listdir(current_class_path):
        if img_name.lower().endswith(('.png', '.jpg', '.jpeg', '.bmp', '.gif')):
            all_filepaths.append(os.path.join(current_class_path, img_name))
            all_original_labels.append(class_name)

print(f"Found {len(all_filepaths)} total images for classes: {np.unique(all_original_labels)}.")

# --- ۴. تعریف نگاشت کلاس‌ها (اختیاری، اما برای class_weight مفید است) ---
# flow_from_directory به صورت خودکار mapping را بر اساس نام پوشه انجام می‌دهد.
# اما برای class_weight باید mapping عددی داشته باشیم.
unique_sorted_labels = sorted(np.unique(all_original_labels))
CLASS_TO_INT_MAPPING = {label: i for i, label in enumerate(unique_sorted_labels)}
INT_TO_CLASS_MAPPING = {i: label for i, label in enumerate(unique_sorted_labels)}

print(f"Class to integer mapping: {CLASS_TO_INT_MAPPING}")


# --- ۵. تنظیم هایپرپارامترها ---
IMG_HEIGHT = 224
IMG_WIDTH = 224
BATCH_SIZE = 32

TEST_SPLIT_RATIO = 0.2
VALIDATION_SPLIT_RATIO = 0.1
RANDOM_SEED = 42

EPOCHS_CNN = 20
EPOCHS_TRANSFER = 15

LEARNING_RATE_CNN = 0.001
LEARNING_RATE_TRANSFER = 0.0001

# --- ۶. آماده‌سازی ساختار موقت برای ImageDataGenerator ---
TEMP_SPLIT_DIR = "/content/temp_dataset_split"
TRAIN_TEMP_DIR = os.path.join(TEMP_SPLIT_DIR, 'train')
VAL_TEMP_DIR = os.path.join(TEMP_SPLIT_DIR, 'validation')
TEST_TEMP_DIR = os.path.join(TEMP_SPLIT_DIR, 'test')

if os.path.exists(TEMP_SPLIT_DIR):
    shutil.rmtree(TEMP_SPLIT_DIR)
os.makedirs(TRAIN_TEMP_DIR, exist_ok=True)
os.makedirs(VAL_TEMP_DIR, exist_ok=True) # این پوشه ها در نهایت توسط ImageDataGenerator ایجاد می‌شوند
os.makedirs(TEST_TEMP_DIR, exist_ok=True)


df_full = pd.DataFrame({'filepath': all_filepaths, 'original_label': all_original_labels})
# اضافه کردن ستون برای لیبل‌های عددی
df_full['int_label'] = df_full['original_label'].map(CLASS_TO_INT_MAPPING)


df_train_val, df_test = train_test_split(
    df_full, test_size=TEST_SPLIT_RATIO, random_state=RANDOM_SEED, stratify=df_full['int_label']
)

def populate_temp_dirs(dataframe, base_target_dir):
    # استفاده از tqdm برای نمایش نوار پیشرفت کپی کردن فایل‌ها
    for _, row in tqdm(dataframe.iterrows(), total=len(dataframe), desc=f"Copying to {os.path.basename(base_target_dir)}"):
        original_path = row['filepath']
        # از لیبل اصلی (نام پوشه) استفاده می‌کنیم، چون flow_from_directory به آن نیاز دارد
        class_folder_name = row['original_label']

        target_dir = os.path.join(base_target_dir, class_folder_name)
        os.makedirs(target_dir, exist_ok=True)

        target_file = os.path.join(target_dir, os.path.basename(original_path))
        if not os.path.exists(target_file):
            shutil.copy(original_path, target_file)

print("\nPopulating temporary train/test directories...")
populate_temp_dirs(df_train_val, TRAIN_TEMP_DIR)
populate_temp_dirs(df_test, TEST_TEMP_DIR)
print("Temporary directories populated.")

# --- ۷. تعریف تبدیل‌ها (Data Augmentation) و ImageDataGenerator ---
train_datagen = ImageDataGenerator(
    rescale=1./255,
    rotation_range=15,
    width_shift_range=0.1,
    height_shift_range=0.1,
    shear_range=0.1,
    zoom_range=0.1,
    horizontal_flip=True,
    brightness_range=[0.8, 1.2],
    validation_split=VALIDATION_SPLIT_RATIO
)

test_datagen = ImageDataGenerator(rescale=1./255)

train_generator = train_datagen.flow_from_directory(
    TRAIN_TEMP_DIR,
    target_size=(IMG_HEIGHT, IMG_WIDTH),
    batch_size=BATCH_SIZE,
    class_mode='categorical', # برای دسته‌بندی چندکلاسه
    subset='training',
    seed=RANDOM_SEED
)

validation_generator = train_datagen.flow_from_directory(
    TRAIN_TEMP_DIR,
    target_size=(IMG_HEIGHT, IMG_WIDTH),
    batch_size=BATCH_SIZE,
    class_mode='categorical', # برای دسته‌بندی چندکلاسه
    subset='validation',
    seed=RANDOM_SEED
)

test_generator = test_datagen.flow_from_directory(
    TEST_TEMP_DIR,
    target_size=(IMG_HEIGHT, IMG_WIDTH),
    batch_size=BATCH_SIZE,
    class_mode='categorical', # برای دسته‌بندی چندکلاسه
    shuffle=False # برای ارزیابی نهایی، shuffle نباید باشد
)

# محاسبه class_weights برای مقابله با عدم تعادل کلاس‌ها
# از df_train_val برای محاسبه وزن‌ها استفاده می‌کنیم، زیرا این مجموعه واقعی آموزش و اعتبارسنجی است.
# از ستون 'int_label' که حاوی لیبل‌های عددی است، استفاده می‌کنیم.
unique_classes_for_weight = np.unique(df_train_val['int_label'])
calculated_class_weights = class_weight.compute_class_weight(
    class_weight='balanced',
    classes=unique_classes_for_weight,
    y=df_train_val['int_label']
)
class_weights_dict = {i: calculated_class_weights[i] for i in range(len(unique_classes_for_weight))}
print(f"Calculated class weights for training: {class_weights_dict}")

# --- ۸. تعریف مدل CNN سفارشی از پایه ---
def build_custom_cnn(input_shape, num_classes):
    model = keras.Sequential([
        layers.Conv2D(32, (3, 3), padding='same', activation='relu', input_shape=input_shape),
        layers.BatchNormalization(),
        layers.Conv2D(32, (3, 3), padding='same', activation='relu'),
        layers.BatchNormalization(),
        layers.MaxPooling2D((2, 2)),
        layers.Dropout(0.25),

        layers.Conv2D(64, (3, 3), padding='same', activation='relu'),
        layers.BatchNormalization(),
        layers.Conv2D(64, (3, 3), padding='same', activation='relu'),
        layers.BatchNormalization(),
        layers.MaxPooling2D((2, 2)),
        layers.Dropout(0.25),

        layers.Conv2D(128, (3, 3), padding='same', activation='relu'),
        layers.BatchNormalization(),
        layers.Conv2D(128, (3, 3), padding='same', activation='relu'),
        layers.BatchNormalization(),
        layers.MaxPooling2D((2, 2)),
        layers.Dropout(0.25),

        layers.Flatten(),
        layers.Dense(256, activation='relu'),
        layers.BatchNormalization(),
        layers.Dropout(0.5),
        layers.Dense(128, activation='relu'),
        layers.BatchNormalization(),
        layers.Dropout(0.5),
        layers.Dense(num_classes, activation='softmax') # Softmax برای دسته‌بندی چندکلاسه
    ])
    return model

input_shape = (IMG_HEIGHT, IMG_WIDTH, 3)
model_cnn = build_custom_cnn(input_shape, FINAL_NUM_CLASSES)
model_cnn.compile(optimizer=keras.optimizers.Adam(learning_rate=LEARNING_RATE_CNN),
                  loss='categorical_crossentropy', # برای دسته‌بندی چندکلاسه
                  metrics=['accuracy'])

print("\n--- مدل CNN سفارشی از پایه ---")
model_cnn.summary()

# --- ۹. تعریف مدل یادگیری انتقالی (Transfer Learning - ResNet50) ---
def build_transfer_model(input_shape, num_classes):
    base_model = keras.applications.ResNet50(
        weights='imagenet',
        include_top=False,
        input_shape=input_shape
    )
    base_model.trainable = False

    model = keras.Sequential([
        base_model,
        layers.GlobalAveragePooling2D(),
        layers.Dense(256, activation='relu'),
        layers.BatchNormalization(),
        layers.Dropout(0.5),
        layers.Dense(128, activation='relu'),
        layers.BatchNormalization(),
        layers.Dropout(0.5),
        layers.Dense(num_classes, activation='softmax') # Softmax برای دسته‌بندی چندکلاسه
    ])
    return model

model_transfer = build_transfer_model(input_shape, FINAL_NUM_CLASSES)
model_transfer.compile(optimizer=keras.optimizers.Adam(learning_rate=LEARNING_RATE_TRANSFER),
                       loss='categorical_crossentropy', # برای دسته‌بندی چندکلاسه
                       metrics=['accuracy'])

print("\n--- مدل یادگیری انتقالی (ResNet50) ---")
model_transfer.summary()


# --- ۱۰. آموزش و ارزیابی مدل‌ها ---
print("\n" + "="*50)
print("--- شروع آموزش Custom CNN ---")
print("="*50)
history_cnn = model_cnn.fit(
    train_generator,
    epochs=EPOCHS_CNN,
    validation_data=validation_generator,
    class_weight=class_weights_dict
)

print("\n" + "="*50)
print("--- شروع آموزش Transfer Learning (ResNet50) ---")
print("="*50)
history_transfer = model_transfer.fit(
    train_generator,
    epochs=EPOCHS_TRANSFER,
    validation_data=validation_generator,
    class_weight=class_weights_dict
)

# --- ۱۱. ارزیابی نهایی و نمایش نتایج در یک جدول ---
print("\n" + "="*50)
print("--- نتایج نهایی ارزیابی روی مجموعه تست ---")
print("="*50)

# این متغیر برای نام کلاس‌ها در گزارش طبقه‌بندی استفاده می‌شود.
target_names_for_report = [INT_TO_CLASS_MAPPING[i] for i in sorted(INT_TO_CLASS_MAPPING.keys())]


y_pred_cnn_probs = model_cnn.predict(test_generator)
y_pred_cnn = np.argmax(y_pred_cnn_probs, axis=1)
y_true_test_indices = test_generator.classes # لیبل‌های واقعی تست جنراتور (عددی)

cnn_acc = accuracy_score(y_true_test_indices, y_pred_cnn)
cnn_prec = precision_score(y_true_test_indices, y_pred_cnn, average='weighted', zero_division=0)
cnn_rec = recall_score(y_true_test_indices, y_pred_cnn, average='weighted', zero_division=0)
cnn_f1 = f1_score(y_true_test_indices, y_pred_cnn, average='weighted', zero_division=0)

print(f"Custom CNN -> Accuracy: {cnn_acc:.4f}, Precision: {cnn_prec:.4f}, Recall: {cnn_rec:.4f}, F1-score: {cnn_f1:.4f}")
print("\nClassification Report for Custom CNN:")
print(classification_report(y_true_test_indices, y_pred_cnn, target_names=target_names_for_report, zero_division=0))
print("Confusion Matrix for Custom CNN:")
print(confusion_matrix(y_true_test_indices, y_pred_cnn))


y_pred_transfer_probs = model_transfer.predict(test_generator)
y_pred_transfer = np.argmax(y_pred_transfer_probs, axis=1)

transfer_acc = accuracy_score(y_true_test_indices, y_pred_transfer)
transfer_prec = precision_score(y_true_test_indices, y_pred_transfer, average='weighted', zero_division=0)
transfer_rec = recall_score(y_true_test_indices, y_pred_transfer, average='weighted', zero_division=0)
transfer_f1 = f1_score(y_true_test_indices, y_pred_transfer, average='weighted', zero_division=0)

print(f"\nTransfer Learning (ResNet50) -> Accuracy: {transfer_acc:.4f}, Precision: {transfer_prec:.4f}, Recall: {transfer_rec:.4f}, F1-score: {transfer_f1:.4f}")
print("\nClassification Report for Transfer Learning (ResNet50):")
print(classification_report(y_true_test_indices, y_pred_transfer, target_names=target_names_for_report, zero_division=0))
print("Confusion Matrix for Transfer Learning (ResNet50):")
print(confusion_matrix(y_true_test_indices, y_pred_transfer))


data = {
    'Model': ['Custom CNN', 'Transfer Learning (ResNet50)'],
    'Accuracy': [cnn_acc, transfer_acc],
    'Precision': [cnn_prec, transfer_prec],
    'Recall': [cnn_rec, transfer_rec],
    'F1-score': [cnn_f1, transfer_f1]
}
df_results = pd.DataFrame(data)

print("\n--- جدول نتایج نهایی مقایسه مدل‌ها ---")
print(df_results.round(4).to_markdown(index=False))


# --- ۱۲. رسم نمودار Loss و Accuracy در طول آموزش ---
def plot_history(history, model_name):
    plt.figure(figsize=(14, 6))

    plt.subplot(1, 2, 1)
    plt.plot(history.history['accuracy'], label='Train Accuracy', color='blue', marker='o', linestyle='--', markersize=4)
    plt.plot(history.history['val_accuracy'], label='Validation Accuracy', color='red', marker='x', linestyle='-', markersize=4)
    plt.title(f'{model_name} - Accuracy over Epochs', fontsize=14)
    plt.xlabel('Epoch', fontsize=12)
    plt.ylabel('Accuracy', fontsize=12)
    plt.legend(fontsize=10)
    plt.grid(True, linestyle=':', alpha=0.7)
    plt.ylim(0, 1)

    plt.subplot(1, 2, 2)
    plt.plot(history.history['loss'], label='Train Loss', color='green', marker='o', linestyle='--', markersize=4)
    plt.plot(history.history['val_loss'], label='Validation Loss', color='purple', marker='x', linestyle='-', markersize=4)
    plt.title(f'{model_name} - Loss over Epochs', fontsize=14)
    plt.xlabel('Epoch', fontsize=12)
    plt.ylabel('Loss', fontsize=12)
    plt.legend(fontsize=10)
    plt.grid(True, linestyle=':', alpha=0.7)

    plt.tight_layout()
    plt.show()

print("\n--- رسم نمودارهای آموزش ---")
plot_history(history_cnn, "Custom CNN Model")
plot_history(history_transfer, "Transfer Learning (ResNet50) Model")

# --- ۱۳. پاکسازی پوشه‌های موقت ---
print("\n--- Cleaning up temporary directories and downloaded files ---")
if os.path.exists(FIRST_EXTRACT_DIR):
    shutil.rmtree(FIRST_EXTRACT_DIR)
    print(f"Removed first extraction directory: '{FIRST_EXTRACT_DIR}'.")
if os.path.exists(FINAL_DATA_EXTRACT_DIR) and FINAL_DATA_EXTRACT_DIR != FIRST_EXTRACT_DIR:
    shutil.rmtree(FINAL_DATA_EXTRACT_DIR)
    print(f"Removed final dataset extraction directory: '{FINAL_DATA_EXTRACT_DIR}'.")
if os.path.exists(TEMP_SPLIT_DIR):
    shutil.rmtree(TEMP_SPLIT_DIR)
    print(f"Removed temporary data split directory: '{TEMP_SPLIT_DIR}'.")
if os.path.exists(OUTER_ZIP_FILE_NAME):
    os.remove(OUTER_ZIP_FILE_NAME)
    print(f"Removed downloaded outer zip file: '{OUTER_ZIP_FILE_NAME}'.")
if INNER_ZIP_FILE_PATH and os.path.exists(INNER_ZIP_FILE_PATH):
    # این خط فقط اگر زیپ داخلی در یک مسیر جداگانه باقی مانده باشد آن را حذف می‌کند
    # (نه اگر بخشی از محتوای FIRST_EXTRACT_DIR باشد که خودش حذف می‌شود)
    if not INNER_ZIP_FILE_PATH.startswith(FIRST_EXTRACT_DIR) or not os.path.exists(FIRST_EXTRACT_DIR):
        os.remove(INNER_ZIP_FILE_PATH)
        print(f"Removed inner zip file: '{INNER_ZIP_FILE_PATH}'.")

print("\n" + "="*50)
print("--- پایان اجرای برنامه ---")
print("="*50)

Installing and upgrading necessary libraries...
Libraries installed/upgraded successfully.
No GPU found, using CPU.

--- Downloading and preparing dataset (handling nested zips) ---
Downloading dataset from https://prod-dcd-datasets-public-files-eu-west-1.s3.eu-west-1.amazonaws.com/2617b452-9878-477e-b0e7-4f7bfe7ea873...
--2025-06-07 08:40:49--  https://prod-dcd-datasets-public-files-eu-west-1.s3.eu-west-1.amazonaws.com/2617b452-9878-477e-b0e7-4f7bfe7ea873
Resolving prod-dcd-datasets-public-files-eu-west-1.s3.eu-west-1.amazonaws.com (prod-dcd-datasets-public-files-eu-west-1.s3.eu-west-1.amazonaws.com)... 3.5.65.90, 52.218.62.32, 52.218.98.96, ...
Connecting to prod-dcd-datasets-public-files-eu-west-1.s3.eu-west-1.amazonaws.com (prod-dcd-datasets-public-files-eu-west-1.s3.eu-west-1.amazonaws.com)|3.5.65.90|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 190531319 (182M) [application/x-zip-compressed]
Saving to: ‘Knee-X-ray_outer.zip’


2025-06-07 08:41:06 (11.5

Copying to train: 100%|██████████| 191/191 [00:00<00:00, 272.24it/s]
Copying to test: 100%|██████████| 48/48 [00:00<00:00, 193.00it/s]

Temporary directories populated.
Found 174 images belonging to 3 classes.
Found 17 images belonging to 3 classes.
Found 48 images belonging to 3 classes.



  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


Calculated class weights for training: {0: np.float64(2.1954022988505746), 1: np.float64(0.5176151761517616), 2: np.float64(1.6324786324786325)}

--- مدل CNN سفارشی از پایه ---


Downloading data from https://storage.googleapis.com/tensorflow/keras-applications/resnet/resnet50_weights_tf_dim_ordering_tf_kernels_notop.h5
[1m94765736/94765736[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 0us/step

--- مدل یادگیری انتقالی (ResNet50) ---



--- شروع آموزش Custom CNN ---


  self._warn_if_super_not_called()


Epoch 1/20
[1m6/6[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m96s[0m 14s/step - accuracy: 0.3074 - loss: 2.5255 - val_accuracy: 0.1765 - val_loss: 2.2517
Epoch 2/20
[1m6/6[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m83s[0m 13s/step - accuracy: 0.3703 - loss: 1.6921 - val_accuracy: 0.1765 - val_loss: 6.8708
Epoch 3/20
[1m6/6[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m83s[0m 13s/step - accuracy: 0.4050 - loss: 1.4989 - val_accuracy: 0.1765 - val_loss: 8.8403
Epoch 4/20
[1m6/6[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m84s[0m 15s/step - accuracy: 0.3476 - loss: 2.1862 - val_accuracy: 0.1765 - val_loss: 9.6282
Epoch 5/20
[1m6/6[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m91s[0m 15s/step - accuracy: 0.3596 - loss: 1.8515 - val_accuracy: 0.1765 - val_loss: 9.0648
Epoch 6/20
[1m6/6[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m84s[0m 15s/step - accuracy: 0.2856 - loss: 2.0878 - val_accuracy: 0.1765 - val_loss: 8.5725
Epoch 7/20
[1m6/6[0m [32m━━━━━━━━━━━━━━━━━━

In [None]:
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers
from tensorflow.keras.preprocessing.image import ImageDataGenerator
from sklearn.model_selection import train_test_split
from sklearn.utils import class_weight
from sklearn.metrics import f1_score, accuracy_score, precision_score, recall_score, classification_report, confusion_matrix
import numpy as np
import pandas as pd
import os
import matplotlib.pyplot as plt
import seaborn as sns
import shutil # برای مدیریت فایل‌ها (ساخت و حذف پوشه‌ها)
import zipfile # برای کار با فایل‌های زیپ
from tqdm import tqdm # برای نمایش نوار پیشرفت در هنگام کپی فایل‌ها

# --- ۰. نصب و به‌روزرسانی کتابخانه‌ها (مخصوص Colab) ---
print("Installing and upgrading necessary libraries...")
!pip install --upgrade tensorflow
!pip install scikit-learn pandas matplotlib tqdm
print("Libraries installed/upgraded successfully.")

# --- ۱. تنظیمات اولیه و بررسی دسترسی به GPU ---
gpus = tf.config.list_physical_devices('GPU')
if gpus:
    try:
        for gpu in gpus:
            tf.config.experimental.set_memory_growth(gpu, True)
        logical_gpus = tf.config.list_logical_devices('GPU')
        print(f"Using {len(gpus)} Physical GPUs, {len(logical_gpus)} Logical GPUs")
    except RuntimeError as e:
        print(e)
else:
    print("No GPU found, using CPU.")

# --- ۲. دانلود و آماده‌سازی دیتاست در Colab (با مدیریت Double-Zipping) ---
print("\n--- Downloading and preparing dataset (handling nested zips) ---")
DATASET_URL = "https://prod-dcd-datasets-public-files-eu-west-1.s3.eu-west-1.amazonaws.com/2617b452-9878-477e-b0e7-4f7bfe7ea873"
OUTER_ZIP_FILE_NAME = "Knee-X-ray_outer.zip"
FIRST_EXTRACT_DIR = "/content/first_extracted_zip_contents" # مسیری برای اولین استخراج

# دانلود فایل زیپ بیرونی
print(f"Downloading dataset from {DATASET_URL}...")
# اگر لینک دانلود مجددا خراب شد، ممکن است نیاز به لینک جدید باشد یا آپلود دستی.
!wget -O {OUTER_ZIP_FILE_NAME} "{DATASET_URL}"
print(f"Downloaded {OUTER_ZIP_FILE_NAME} successfully.")

# ایجاد دایرکتوری برای اولین استخراج
os.makedirs(FIRST_EXTRACT_DIR, exist_ok=True)

# استخراج فایل زیپ بیرونی
print(f"Extracting {OUTER_ZIP_FILE_NAME} to {FIRST_EXTRACT_DIR}...")
try:
    with zipfile.ZipFile(OUTER_ZIP_FILE_NAME, 'r') as zip_ref:
        zip_ref.extractall(FIRST_EXTRACT_DIR)
    print("First level extraction complete.")
except zipfile.BadZipFile:
    print(f"Error: {OUTER_ZIP_FILE_NAME} is not a valid zip file or is corrupted. Attempting to proceed assuming it's an empty or problematic zip, check manually.")
    # در این حالت، ممکن است zipfile.BadZipFile رخ دهد اما wget فایل را دانلود کرده باشد.
    # باید مطمئن شویم که یا یک فایل زیپ داخلی هست یا خطا جدی‌تر است.
    # فعلا اجازه می‌دهیم کد ادامه یابد تا شاید زیپ داخلی را پیدا کند.


# --- جستجو و استخراج فایل زیپ داخلی ---
INNER_ZIP_FILE_PATH = None
# جستجو در پوشه استخراج شده اول برای یافتن فایل زیپ داخلی
for root, dirs, files in os.walk(FIRST_EXTRACT_DIR):
    for file in files:
        if file.lower().endswith('.zip'):
            INNER_ZIP_FILE_PATH = os.path.join(root, file)
            break
    if INNER_ZIP_FILE_PATH:
        break

FINAL_DATA_EXTRACT_DIR = "/content/final_dataset_extracted" # مسیر نهایی برای استخراج دیتاست واقعی
os.makedirs(FINAL_DATA_EXTRACT_DIR, exist_ok=True) # اطمینان از وجود این پوشه

if INNER_ZIP_FILE_PATH is None:
    print(f"No inner zip file found in {FIRST_EXTRACT_DIR}. Assuming the first extraction contained the data directly.")
    # اگر زیپ داخلی پیدا نشد، فرض می‌کنیم دیتاست مستقیماً در FIRST_EXTRACT_DIR قرار دارد.
    # در این حالت، فقط محتویات را از FIRST_EXTRACT_DIR به FINAL_DATA_EXTRACT_DIR کپی می‌کنیم.
    print(f"Copying contents from {FIRST_EXTRACT_DIR} to {FINAL_DATA_EXTRACT_DIR}...")
    for item in os.listdir(FIRST_EXTRACT_DIR):
        s = os.path.join(FIRST_EXTRACT_DIR, item)
        d = os.path.join(FINAL_DATA_EXTRACT_DIR, item)
        if os.path.isdir(s):
            shutil.copytree(s, d, symlinks=False, ignore_dangling_symlinks=True)
        else:
            shutil.copy2(s, d)
    print("Contents copied successfully.")
else:
    print(f"Found inner zip: {INNER_ZIP_FILE_PATH}. Extracting to {FINAL_DATA_EXTRACT_DIR}...")
    try:
        with zipfile.ZipFile(INNER_ZIP_FILE_PATH, 'r') as inner_zip_ref:
            inner_zip_ref.extractall(FINAL_DATA_EXTRACT_DIR)
        print("Inner dataset extracted successfully.")
    except zipfile.BadZipFile:
        print(f"Error: Inner zip file '{INNER_ZIP_FILE_PATH}' is corrupted or not a valid zip. Please check the downloaded dataset.")
        raise
    except Exception as e:
        print(f"An error occurred during inner zip extraction: {e}")
        raise

# --- تعیین مسیر ریشه نهایی دیتاست (BASE_DATA_ROOT) ---
# اکنون که فایل زیپ داخلی (یا محتویات اولین زیپ) استخراج شده است،
# باید پوشه ای را پیدا کنیم که شامل normal, osteopenia, osteoporosis باشد.
# این پوشه معمولاً نامی شبیه به "Knee-X-ray" یا خود نام دیتاست دارد.
BASE_DATA_ROOT = None
found_data_dir = False
for root, dirs, files in os.walk(FINAL_DATA_EXTRACT_DIR):
    # چک می‌کنیم آیا هر سه پوشه کلاس‌های ما در یک دایرکتوری خاص وجود دارند یا خیر.
    if all(folder in dirs for folder in ['normal', 'osteopenia', 'osteoporosis']):
        BASE_DATA_ROOT = root
        found_data_dir = True
        break
    # همچنین ممکن است پوشه 'Knee-X-ray' یک مرحله بالاتر باشد که شامل این کلاس‌ها باشد.
    if 'Knee-X-ray' in dirs and all(folder in os.listdir(os.path.join(root, 'Knee-X-ray')) for folder in ['normal', 'osteopenia', 'osteoporosis']):
        BASE_DATA_ROOT = os.path.join(root, 'Knee-X-ray')
        found_data_dir = True
        break

if not found_data_dir:
    print(f"Error: Could not find 'normal', 'osteopenia', 'osteoporosis' directories within {FINAL_DATA_EXTRACT_DIR}.")
    # در این حالت، بهتر است محتویات FINAL_DATA_EXTRACT_DIR را لیست کنیم تا کاربر ببیند مشکل کجاست.
    print("\n--- Contents of FINAL_DATA_EXTRACT_DIR ---")
    !ls -R {FINAL_DATA_EXTRACT_DIR}
    raise FileNotFoundError("Class directories not found. Please verify the dataset structure after extraction.")


print(f"Final BASE_DATA_ROOT set to: {BASE_DATA_ROOT}")


# --- ۳. تعریف نام کلاس‌ها و جمع‌آوری تمام مسیرهای فایل‌ها و لیبل‌های اصلی ---
# نام‌های کلاس‌ها مطابق با ساختار پوشه‌هایی که شما ارسال کردید.
CLASS_FOLDERS = ['normal', 'osteopenia', 'osteoporosis']
FINAL_NUM_CLASSES = len(CLASS_FOLDERS) # خروجی مدل: 3 کلاس

all_filepaths = []
all_original_labels = []

print(f"\nCollecting images from: {BASE_DATA_ROOT} with classes: {CLASS_FOLDERS}")
for class_name in CLASS_FOLDERS:
    current_class_path = os.path.join(BASE_DATA_ROOT, class_name)
    if not os.path.exists(current_class_path):
        print(f"Warning: Class directory '{current_class_path}' not found. Skipping.")
        continue # اگر پوشه ای نبود، ردش می‌کنیم

    for img_name in os.listdir(current_class_path):
        if img_name.lower().endswith(('.png', '.jpg', '.jpeg', '.bmp', '.gif')):
            all_filepaths.append(os.path.join(current_class_path, img_name))
            all_original_labels.append(class_name)

print(f"Found {len(all_filepaths)} total images for classes: {np.unique(all_original_labels)}.")

# --- ۴. تعریف نگاشت کلاس‌ها (اختیاری، اما برای class_weight مفید است) ---
# flow_from_directory به صورت خودکار mapping را بر اساس نام پوشه انجام می‌دهد.
# اما برای class_weight باید mapping عددی داشته باشیم.
unique_sorted_labels = sorted(np.unique(all_original_labels))
CLASS_TO_INT_MAPPING = {label: i for i, label in enumerate(unique_sorted_labels)}
INT_TO_CLASS_MAPPING = {i: label for i, label in enumerate(unique_sorted_labels)}

print(f"Class to integer mapping: {CLASS_TO_INT_MAPPING}")


# --- ۵. تنظیم هایپرپارامترها ---
IMG_HEIGHT = 224
IMG_WIDTH = 224
BATCH_SIZE = 32

TEST_SPLIT_RATIO = 0.2
VALIDATION_SPLIT_RATIO = 0.1
RANDOM_SEED = 42

# --- تغییر نام متغیرهای اپوک و نرخ یادگیری برای مدل‌ها ---
EPOCHS_ML_MODEL_1 = 20 # نام‌گذاری جدید
EPOCHS_ML_MODEL_2 = 15 # نام‌گذاری جدید

LEARNING_RATE_ML_MODEL_1 = 0.001 # نام‌گذاری جدید
LEARNING_RATE_ML_MODEL_2 = 0.0001 # نام‌گذاری جدید

# --- ۶. آماده‌سازی ساختار موقت برای ImageDataGenerator ---
TEMP_SPLIT_DIR = "/content/temp_dataset_split"
TRAIN_TEMP_DIR = os.path.join(TEMP_SPLIT_DIR, 'train')
VAL_TEMP_DIR = os.path.join(TEMP_SPLIT_DIR, 'validation')
TEST_TEMP_DIR = os.path.join(TEMP_SPLIT_DIR, 'test')

if os.path.exists(TEMP_SPLIT_DIR):
    shutil.rmtree(TEMP_SPLIT_DIR)
os.makedirs(TRAIN_TEMP_DIR, exist_ok=True)
os.makedirs(VAL_TEMP_DIR, exist_ok=True) # این پوشه ها در نهایت توسط ImageDataGenerator ایجاد می‌شوند
os.makedirs(TEST_TEMP_DIR, exist_ok=True)


df_full = pd.DataFrame({'filepath': all_filepaths, 'original_label': all_original_labels})
# اضافه کردن ستون برای لیبل‌های عددی
df_full['int_label'] = df_full['original_label'].map(CLASS_TO_INT_MAPPING)


df_train_val, df_test = train_test_split(
    df_full, test_size=TEST_SPLIT_RATIO, random_state=RANDOM_SEED, stratify=df_full['int_label']
)

def populate_temp_dirs(dataframe, base_target_dir):
    # استفاده از tqdm برای نمایش نوار پیشرفت کپی کردن فایل‌ها
    for _, row in tqdm(dataframe.iterrows(), total=len(dataframe), desc=f"Copying to {os.path.basename(base_target_dir)}"):
        original_path = row['filepath']
        # از لیبل اصلی (نام پوشه) استفاده می‌کنیم، چون flow_from_directory به آن نیاز دارد
        class_folder_name = row['original_label']

        target_dir = os.path.join(base_target_dir, class_folder_name)
        os.makedirs(target_dir, exist_ok=True)

        target_file = os.path.join(target_dir, os.path.basename(original_path))
        if not os.path.exists(target_file):
            shutil.copy(original_path, target_file)

print("\nPopulating temporary train/test directories...")
populate_temp_dirs(df_train_val, TRAIN_TEMP_DIR)
populate_temp_dirs(df_test, TEST_TEMP_DIR)
print("Temporary directories populated.")

# --- ۷. تعریف تبدیل‌ها (Data Augmentation) و ImageDataGenerator ---
train_datagen = ImageDataGenerator(
    rescale=1./255,
    rotation_range=15,
    width_shift_range=0.1,
    height_shift_range=0.1,
    shear_range=0.1,
    zoom_range=0.1,
    horizontal_flip=True,
    brightness_range=[0.8, 1.2],
    validation_split=VALIDATION_SPLIT_RATIO
)

test_datagen = ImageDataGenerator(rescale=1./255)

train_generator = train_datagen.flow_from_directory(
    TRAIN_TEMP_DIR,
    target_size=(IMG_HEIGHT, IMG_WIDTH),
    batch_size=BATCH_SIZE,
    class_mode='categorical', # برای دسته‌بندی چندکلاسه
    subset='training',
    seed=RANDOM_SEED
)

validation_generator = train_datagen.flow_from_directory(
    TRAIN_TEMP_DIR,
    target_size=(IMG_HEIGHT, IMG_WIDTH),
    batch_size=BATCH_SIZE,
    class_mode='categorical', # برای دسته‌بندی چندکلاسه
    subset='validation',
    seed=RANDOM_SEED
)

test_generator = test_datagen.flow_from_directory(
    TEST_TEMP_DIR,
    target_size=(IMG_HEIGHT, IMG_WIDTH),
    batch_size=BATCH_SIZE,
    class_mode='categorical', # برای دسته‌بندی چندکلاسه
    shuffle=False # برای ارزیابی نهایی، shuffle نباید باشد
)

# محاسبه class_weights برای مقابله با عدم تعادل کلاس‌ها
unique_classes_for_weight = np.unique(df_train_val['int_label'])
calculated_class_weights = class_weight.compute_class_weight(
    class_weight='balanced',
    classes=unique_classes_for_weight,
    y=df_train_val['int_label']
)
class_weights_dict = {i: calculated_class_weights[i] for i in range(len(unique_classes_for_weight))}
print(f"Calculated class weights for training: {class_weights_dict}")

# --- ۸. تعریف مدل CNN سفارشی از پایه (ML Model 1) ---
def build_custom_cnn(input_shape, num_classes):
    model = keras.Sequential([
        layers.Conv2D(32, (3, 3), padding='same', activation='relu', input_shape=input_shape),
        layers.BatchNormalization(),
        layers.Conv2D(32, (3, 3), padding='same', activation='relu'),
        layers.BatchNormalization(),
        layers.MaxPooling2D((2, 2)),
        layers.Dropout(0.25),

        layers.Conv2D(64, (3, 3), padding='same', activation='relu'),
        layers.BatchNormalization(),
        layers.Conv2D(64, (3, 3), padding='same', activation='relu'),
        layers.BatchNormalization(),
        layers.MaxPooling2D((2, 2)),
        layers.Dropout(0.25),

        layers.Conv2D(128, (3, 3), padding='same', activation='relu'),
        layers.BatchNormalization(),
        layers.Conv2D(128, (3, 3), padding='same', activation='relu'),
        layers.BatchNormalization(),
        layers.MaxPooling2D((2, 2)),
        layers.Dropout(0.25),

        layers.Flatten(),
        layers.Dense(256, activation='relu'),
        layers.BatchNormalization(),
        layers.Dropout(0.5),
        layers.Dense(128, activation='relu'),
        layers.BatchNormalization(),
        layers.Dropout(0.5),
        layers.Dense(num_classes, activation='softmax')
    ])
    return model

input_shape = (IMG_HEIGHT, IMG_WIDTH, 3)
model_ml1 = build_custom_cnn(input_shape, FINAL_NUM_CLASSES) # تغییر نام
model_ml1.compile(optimizer=keras.optimizers.Adam(learning_rate=LEARNING_RATE_ML_MODEL_1), # تغییر نام
                  loss='categorical_crossentropy',
                  metrics=['accuracy'])

print("\n--- ML Model 1 (Custom CNN) ---") # تغییر نام
model_ml1.summary()

# --- ۹. تعریف مدل یادگیری انتقالی (ML Model 2 - ResNet50) ---
def build_transfer_model(input_shape, num_classes):
    base_model = keras.applications.ResNet50(
        weights='imagenet',
        include_top=False,
        input_shape=input_shape
    )
    base_model.trainable = False

    model = keras.Sequential([
        base_model,
        layers.GlobalAveragePooling2D(),
        layers.Dense(256, activation='relu'),
        layers.BatchNormalization(),
        layers.Dropout(0.5),
        layers.Dense(128, activation='relu'),
        layers.BatchNormalization(),
        layers.Dropout(0.5),
        layers.Dense(num_classes, activation='softmax')
    ])
    return model

model_ml2 = build_transfer_model(input_shape, FINAL_NUM_CLASSES) # تغییر نام
model_ml2.compile(optimizer=keras.optimizers.Adam(learning_rate=LEARNING_RATE_ML_MODEL_2), # تغییر نام
                       loss='categorical_crossentropy',
                       metrics=['accuracy'])

print("\n--- ML Model 2 (ResNet50) ---") # تغییر نام
model_ml2.summary()


# --- ۱۰. آموزش و ارزیابی مدل‌ها ---
print("\n" + "="*50)
print("--- شروع آموزش ML Model 1 ---") # تغییر نام
print("="*50)
history_ml1 = model_ml1.fit( # تغییر نام
    train_generator,
    epochs=EPOCHS_ML_MODEL_1, # تغییر نام
    validation_data=validation_generator,
    class_weight=class_weights_dict
)

print("\n" + "="*50)
print("--- شروع آموزش ML Model 2 ---") # تغییر نام
print("="*50)
history_ml2 = model_ml2.fit( # تغییر نام
    train_generator,
    epochs=EPOCHS_ML_MODEL_2, # تغییر نام
    validation_data=validation_generator,
    class_weight=class_weights_dict
)

# --- ۱۱. ارزیابی نهایی و نمایش نتایج در یک جدول ---
print("\n" + "="*50)
print("--- نتایج نهایی ارزیابی روی مجموعه تست ---")
print("="*50)

target_names_for_report = [INT_TO_CLASS_MAPPING[i] for i in sorted(INT_TO_CLASS_MAPPING.keys())]

# پیش‌بینی‌ها برای ML Model 1
y_pred_ml1_probs = model_ml1.predict(test_generator) # تغییر نام
y_pred_ml1 = np.argmax(y_pred_ml1_probs, axis=1)
y_true_test_indices = test_generator.classes

ml1_acc = accuracy_score(y_true_test_indices, y_pred_ml1) # تغییر نام
ml1_prec = precision_score(y_true_test_indices, y_pred_ml1, average='weighted', zero_division=0) # تغییر نام
ml1_rec = recall_score(y_true_test_indices, y_pred_ml1, average='weighted', zero_division=0) # تغییر نام
ml1_f1 = f1_score(y_true_test_indices, y_pred_ml1, average='weighted', zero_division=0) # تغییر نام

print(f"ML Model 1 -> Accuracy: {ml1_acc:.4f}, Precision: {ml1_prec:.4f}, Recall: {ml1_rec:.4f}, F1-score: {ml1_f1:.4f}") # تغییر نام
print("\nClassification Report for ML Model 1:") # تغییر نام
print(classification_report(y_true_test_indices, y_pred_ml1, target_names=target_names_for_report, zero_division=0))
print("Confusion Matrix for ML Model 1:") # تغییر نام
print(confusion_matrix(y_true_test_indices, y_pred_ml1))


# پیش‌بینی‌ها برای ML Model 2
y_pred_ml2_probs = model_ml2.predict(test_generator) # تغییر نام
y_pred_ml2 = np.argmax(y_pred_ml2_probs, axis=1)

ml2_acc = accuracy_score(y_true_test_indices, y_pred_ml2) # تغییر نام
ml2_prec = precision_score(y_true_test_indices, y_pred_ml2, average='weighted', zero_division=0) # تغییر نام
ml2_rec = recall_score(y_true_test_indices, y_pred_ml2, average='weighted', zero_division=0) # تغییر نام
ml2_f1 = f1_score(y_true_test_indices, y_pred_ml2, average='weighted', zero_division=0) # تغییر نام

print(f"\nML Model 2 -> Accuracy: {ml2_acc:.4f}, Precision: {ml2_prec:.4f}, Recall: {ml2_rec:.4f}, F1-score: {ml2_f1:.4f}") # تغییر نام
print("\nClassification Report for ML Model 2:") # تغییر نام
print(classification_report(y_true_test_indices, y_pred_ml2, target_names=target_names_for_report, zero_division=0))
print("Confusion Matrix for ML Model 2:") # تغییر نام
print(confusion_matrix(y_true_test_indices, y_pred_ml2))


data = {
    'Model': ['ML Model 1', 'ML Model 2'], # تغییر نام در جدول
    'Accuracy': [ml1_acc, ml2_acc],
    'Precision': [ml1_prec, ml2_prec],
    'Recall': [ml1_rec, ml2_rec],
    'F1-score': [ml1_f1, ml2_f1]
}
df_results = pd.DataFrame(data)

print("\n--- جدول نتایج نهایی مقایسه مدل‌ها ---")
print(df_results.round(4).to_markdown(index=False))


# --- ۱۲. رسم نمودار Loss و Accuracy در طول آموزش ---
def plot_history(history, model_name):
    plt.figure(figsize=(14, 6))

    plt.subplot(1, 2, 1)
    plt.plot(history.history['accuracy'], label='Train Accuracy', color='blue', marker='o', linestyle='--', markersize=4)
    plt.plot(history.history['val_accuracy'], label='Validation Accuracy', color='red', marker='x', linestyle='-', markersize=4)
    plt.title(f'{model_name} - Accuracy over Epochs', fontsize=14)
    plt.xlabel('Epoch', fontsize=12)
    plt.ylabel('Accuracy', fontsize=12)
    plt.legend(fontsize=10)
    plt.grid(True, linestyle=':', alpha=0.7)
    plt.ylim(0, 1)

    plt.subplot(1, 2, 2)
    plt.plot(history.history['loss'], label='Train Loss', color='green', marker='o', linestyle='--', markersize=4)
    plt.plot(history.history['val_loss'], label='Validation Loss', color='purple', marker='x', linestyle='-', markersize=4)
    plt.title(f'{model_name} - Loss over Epochs', fontsize=14)
    plt.xlabel('Epoch', fontsize=12)
    plt.ylabel('Loss', fontsize=12)
    plt.legend(fontsize=10)
    plt.grid(True, linestyle=':', alpha=0.7)

    plt.tight_layout()
    plt.show()

print("\n--- رسم نمودارهای آموزش ---")
plot_history(history_ml1, "ML Model 1") # تغییر نام
plot_history(history_ml2, "ML Model 2") # تغییر نام

# --- ۱۳. پاکسازی پوشه‌های موقت ---
print("\n--- Cleaning up temporary directories and downloaded files ---")
if os.path.exists(FIRST_EXTRACT_DIR):
    shutil.rmtree(FIRST_EXTRACT_DIR)
    print(f"Removed first extraction directory: '{FIRST_EXTRACT_DIR}'.")
if os.path.exists(FINAL_DATA_EXTRACT_DIR) and FINAL_DATA_EXTRACT_DIR != FIRST_EXTRACT_DIR:
    shutil.rmtree(FINAL_DATA_EXTRACT_DIR)
    print(f"Removed final dataset extraction directory: '{FINAL_DATA_EXTRACT_DIR}'.")
if os.path.exists(TEMP_SPLIT_DIR):
    shutil.rmtree(TEMP_SPLIT_DIR)
    print(f"Removed temporary data split directory: '{TEMP_SPLIT_DIR}'.")
if os.path.exists(OUTER_ZIP_FILE_NAME):
    os.remove(OUTER_ZIP_FILE_NAME)
    print(f"Removed downloaded outer zip file: '{OUTER_ZIP_FILE_NAME}'.")
if INNER_ZIP_FILE_PATH and os.path.exists(INNER_ZIP_FILE_PATH):
    # این خط فقط اگر زیپ داخلی در یک مسیر جداگانه باقی مانده باشد آن را حذف می‌کند
    # (نه اگر بخشی از محتوای FIRST_EXTRACT_DIR باشد که خودش حذف می‌شود)
    if not INNER_ZIP_FILE_PATH.startswith(FIRST_EXTRACT_DIR) or not os.path.exists(FIRST_EXTRACT_DIR):
        os.remove(INNER_ZIP_FILE_PATH)
        print(f"Removed inner zip file: '{INNER_ZIP_FILE_PATH}'.")

print("\n" + "="*50)
print("--- پایان اجرای برنامه ---")
print("="*50)