<a href="https://colab.research.google.com/github/nazaninzareirad/computational_data_mining_2025/blob/main/Untitled10.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

1. Dataset Preparation

1.1 loading SECOM dataset

In [5]:
import numpy as np
import pandas as pd
import time
from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_selection import RFE, mutual_info_classif
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer

# loading SECOM

print("=" * 70)
print("بخش اول: آماده‌سازی داده‌ها")
print("=" * 70)

# مرحله 1.1: بارگذاری دیتاست
print("\nمرحله 1.1: بارگذاری دیتاست...")

# بارگذاری داده‌ها (فرض بر این است که فایل‌ها در مسیر فعلی هستند)
X = pd.read_csv('secom.data', sep=r'\s+', header=None)
y = pd.read_csv('secom_labels.data', sep=r'\s+', header=None, usecols=[0])
y = y.iloc[:, 0].values  # تبدیل به آرایه numpy

print(f"شکل داده‌های اولیه: {X.shape}")
print(f"تعداد نمونه‌ها: {X.shape[0]}")
print(f"تعداد ویژگی‌ها: {X.shape[1]}")

# Remap -1 to 0 for bincount to work correctly
y_mapped = np.where(y == -1, 0, y)
print(f"توزیع کلاس‌ها: {np.bincount(y_mapped.astype(int))}")

بخش اول: آماده‌سازی داده‌ها

مرحله 1.1: بارگذاری دیتاست...
شکل داده‌های اولیه: (1221, 590)
تعداد نمونه‌ها: 1221
تعداد ویژگی‌ها: 590
توزیع کلاس‌ها: [1463  104]


In [6]:
# preprocessing
print("\nحذف ستون‌های با واریانس صفر...")
variances = X.var()
constant_columns = variances[variances == 0].index
X = X.drop(columns=constant_columns)
print(f"تعداد ستون‌های حذف شده: {len(constant_columns)}")
print(f"شکل داده‌ها پس از حذف ستون‌های ثابت: {X.shape}")

# پر کردن مقادیر گمشده با Median Imputation
print("\nپر کردن مقادیر گمشده با Median Imputation...")
missing_before = X.isnull().sum().sum()
print(f"تعداد مقادیر گمشده قبل از Imputation: {missing_before}")

imputer = SimpleImputer(strategy='median')
X_imputed = imputer.fit_transform(X)
X = pd.DataFrame(X_imputed, columns=X.columns)

missing_after = X.isnull().sum().sum()
print(f"تعداد مقادیر گمشده بعد از Imputation: {missing_after}")


حذف ستون‌های با واریانس صفر...
تعداد ستون‌های حذف شده: 122
شکل داده‌ها پس از حذف ستون‌های ثابت: (1221, 468)

پر کردن مقادیر گمشده با Median Imputation...
تعداد مقادیر گمشده قبل از Imputation: 33725
تعداد مقادیر گمشده بعد از Imputation: 0


1.2 normalizing the data with StandardScaler

In [7]:
# normalizing
print("\nمرحله 1.2: نرمال‌سازی داده‌ها با StandardScaler...")
print("(توجه: SVD حساس به مقیاس است. بدون استانداردسازی، سنسورهای با")
print("واحدهای بزرگ به طور مصنوعی بر مقادیر تکین تسلط خواهند داشت)")

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
print(f"شکل داده‌های نرمال شده: {X_scaled.shape}")
print(f"میانگین ویژگی اول بعد از استانداردسازی: {X_scaled[:, 0].mean():.6f}")
print(f"انحراف معیار ویژگی اول بعد از استانداردسازی: {X_scaled[:, 0].std():.6f}")


مرحله 1.2: نرمال‌سازی داده‌ها با StandardScaler...
(توجه: SVD حساس به مقیاس است. بدون استانداردسازی، سنسورهای با
واحدهای بزرگ به طور مصنوعی بر مقادیر تکین تسلط خواهند داشت)
شکل داده‌های نرمال شده: (1221, 468)
میانگین ویژگی اول بعد از استانداردسازی: -0.000000
انحراف معیار ویژگی اول بعد از استانداردسازی: 1.000000


2. classic methods

2.1 mutual information

In [11]:
print("\nمرحله 2.1: روش فیلتر - Mutual Information")
print("-" * 70)

start_time_mi = time.time()

# ensure y has the same number of samples as X_scaled
# truncate y to match X_scaled's number of samples.
if len(y) != X_scaled.shape[0]:
    print(f"هشدار: تعداد نمونه‌های y ({len(y)}) با تعداد نمونه‌های X_scaled ({X_scaled.shape[0]}) ناسازگار است. y به اندازه X_scaled کوتاه می‌شود.")
    y = y[:X_scaled.shape[0]]

# محاسبه Mutual Information
mi_scores = mutual_info_classif(X_scaled, y, random_state=42)

# انتخاب 20 ویژگی برتر
top_20_mi_indices = np.argsort(mi_scores)[-20:][::-1]
top_20_mi_scores = mi_scores[top_20_mi_indices]

end_time_mi = time.time()
elapsed_time_mi = end_time_mi - start_time_mi

print(f"\n Mutual Information execution time: {elapsed_time_mi:.4f} seconds")
print(f"\n20  Top 20 features based on Mutual Information:")
print(f"{'feature number':<15} {'MI score':<15}")
print("-" * 30)
for idx, score in zip(top_20_mi_indices, top_20_mi_scores):
    print(f"{idx:<15} {score:<15.6f}")


مرحله 2.1: روش فیلتر - Mutual Information
----------------------------------------------------------------------

 Mutual Information execution time: 6.8396 seconds

20  Top 20 features based on Mutual Information:
feature number  MI score       
------------------------------
39              0.038488       
419             0.034529       
143             0.033558       
38              0.033312       
343             0.032229       
240             0.030355       
60              0.028010       
448             0.027865       
262             0.027753       
328             0.027646       
361             0.026030       
324             0.025102       
382             0.024840       
114             0.024074       
230             0.023360       
162             0.023219       
466             0.023059       
455             0.022773       
54              0.022541       
31              0.022444       


2.2 RFE

In [12]:
print("\n\nمرحله 2.2: روش پوششی (Wrapper) - RFE با RandomForest")
print("-" * 70)

start_time_rfe = time.time()

# تعریف مدل برای RFE
model = RandomForestClassifier(n_estimators=100, random_state=42, n_jobs=-1)

# اجرای RFE برای انتخاب 20 ویژگی برتر
rfe = RFE(model, n_features_to_select=20, step=1)
rfe.fit(X_scaled, y)

end_time_rfe = time.time()
elapsed_time_rfe = end_time_rfe - start_time_rfe

# دریافت رتبه‌بندی ویژگی‌ها
rfe_ranking = rfe.ranking_

# 20 ویژگی برتر انتخاب شده توسط RFE
top_20_rfe_indices = np.where(rfe.support_)[0]

print(f"\n زمان اجرای RFE: {elapsed_time_rfe:.4f} ثانیه")
print(f"\n20 ویژگی برتر انتخاب شده توسط RFE:")
print(f"{'شماره ویژگی':<15} {'رتبه':<15}")
print("-" * 30)
for idx in sorted(top_20_rfe_indices):
    print(f"{idx:<15} {rfe_ranking[idx]:<15}")



مرحله 2.2: روش پوششی (Wrapper) - RFE با RandomForest
----------------------------------------------------------------------

 زمان اجرای RFE: 1007.4065 ثانیه

20 ویژگی برتر انتخاب شده توسط RFE:
شماره ویژگی     رتبه           
------------------------------
14              1              
19              1              
36              1              
38              1              
54              1              
59              1              
60              1              
74              1              
111             1              
142             1              
143             1              
221             1              
275             1              
279             1              
283             1              
341             1              
352             1              
381             1              
382             1              
409             1              


In [13]:
print("خلاصه نتایج")
print("=" * 70)

print(f"\n{'روش':<30} {'زمان اجرا (ثانیه)':<20}")
print("-" * 50)
print(f"{'Mutual Information':<30} {elapsed_time_mi:<20.4f}")
print(f"{'RFE (RandomForest)':<30} {elapsed_time_rfe:<20.4f}")

# مقایسه ویژگی‌های انتخاب شده
common_features = np.intersect1d(top_20_mi_indices, top_20_rfe_indices)
print(f"\nتعداد ویژگی‌های مشترک بین دو روش: {len(common_features)}")
print(f"ویژگی‌های مشترک: {sorted(common_features)}")

# ذخیره نتایج در دیکشنری برای استفاده بعدی
results = {
    'X_scaled': X_scaled,
    'y': y,
    'mi_features': top_20_mi_indices,
    'mi_scores': top_20_mi_scores,
    'rfe_features': top_20_rfe_indices,
    'rfe_ranking': rfe_ranking,
    'mi_time': elapsed_time_mi,
    'rfe_time': elapsed_time_rfe,
    'feature_columns': X.columns.tolist()
}

خلاصه نتایج

روش                            زمان اجرا (ثانیه)   
--------------------------------------------------
Mutual Information             6.8396              
RFE (RandomForest)             1007.4065           

تعداد ویژگی‌های مشترک بین دو روش: 5
ویژگی‌های مشترک: [np.int64(38), np.int64(54), np.int64(60), np.int64(143), np.int64(382)]


3. algebraic methods

In [14]:
print("\nمرحله 3.1: تجزیه SVD با numpy.linalg.svd")
print("-" * 70)

start_time_svd = time.time()

# محاسبه SVD
# X_scaled = U @ diag(Σ) @ V^T
U, sigma, Vt = np.linalg.svd(X_scaled, full_matrices=False)

end_time_svd = time.time()
elapsed_time_svd = end_time_svd - start_time_svd

print(f"✓ تجزیه SVD با موفقیت انجام شد!")
print(f"✓ زمان اجرای SVD: {elapsed_time_svd:.4f} ثانیه")
print(f"\nابعاد ماتریس‌ها:")
print(f"  U (بردارهای تکین چپ):  {U.shape}")
print(f"  Σ (مقادیر تکین):        {sigma.shape}")
print(f"  V^T (بردارهای تکین راست): {Vt.shape}")


مرحله 3.1: تجزیه SVD با numpy.linalg.svd
----------------------------------------------------------------------
✓ تجزیه SVD با موفقیت انجام شد!
✓ زمان اجرای SVD: 0.2206 ثانیه

ابعاد ماتریس‌ها:
  U (بردارهای تکین چپ):  (1221, 468)
  Σ (مقادیر تکین):        (468,)
  V^T (بردارهای تکین راست): (468, 468)


In [15]:
print("\n\nمرحله 3.2: تحلیل ریاضی - محاسبه امتیازهای ویژگی")
print("-" * 70)

# انتخاب k بردار تکین اول برای امتیازدهی
k = 50  # می‌توانید این مقدار را تغییر دهید

print(f"\nاستفاده از k = {k} بردار تکین اول")
print(f"(این بردارها بیشترین واریانس داده را توضیح می‌دهند)")

# نمایش چند مقدار تکین اول
print(f"\n10 مقدار تکین اول:")
for i in range(min(10, len(sigma))):
    print(f"  σ_{i+1} = {sigma[i]:.4f}")

# محاسبه نسبت واریانس توضیح داده شده توسط k بردار اول
explained_variance_ratio = np.sum(sigma[:k]**2) / np.sum(sigma**2)
print(f"\nواریانس توضیح داده شده توسط {k} بردار اول: {explained_variance_ratio*100:.2f}%")

# پیاده‌سازی تابع امتیازدهی
print(f"\nفرمول امتیازدهی: Score_j = Σ(i=1 to k) σ_i² · |V_ij|")
print("ایده: ویژگی j مهم است اگر در k بردار تکین اول، وزن زیادی داشته باشد")

# محاسبه امتیاز برای هر ویژگی
# V^T شکل دارد (n_features, n_features)
# بنابراین V = Vt.T شکل دارد (n_features, n_features)
V = Vt.T  # Transpose برای دریافت V

n_features = X_scaled.shape[1]
feature_scores = np.zeros(n_features)

# محاسبه امتیاز برای هر ویژگی j
for j in range(n_features):
    score = 0.0
    for i in range(k):
        # وزن‌دهی با مربع مقدار تکین (اهمیت بردار)
        # ضرب در قدر مطلق ضریب ویژگی در آن بردار
        score += (sigma[i] ** 2) * np.abs(V[j, i])
    feature_scores[j] = score

print(f"\n✓ امتیازهای {n_features} ویژگی محاسبه شد")
print(f"  حداقل امتیاز: {np.min(feature_scores):.4f}")
print(f"  حداکثر امتیاز: {np.max(feature_scores):.4f}")
print(f"  میانگین امتیاز: {np.mean(feature_scores):.4f}")
print(f"  انحراف معیار: {np.std(feature_scores):.4f}")



مرحله 3.2: تحلیل ریاضی - محاسبه امتیازهای ویژگی
----------------------------------------------------------------------

استفاده از k = 50 بردار تکین اول
(این بردارها بیشترین واریانس داده را توضیح می‌دهند)

10 مقدار تکین اول:
  σ_1 = 180.9977
  σ_2 = 148.3897
  σ_3 = 130.2853
  σ_4 = 122.2618
  σ_5 = 112.2312
  σ_6 = 105.5903
  σ_7 = 103.9375
  σ_8 = 100.1183
  σ_9 = 92.2500
  σ_10 = 91.1515

واریانس توضیح داده شده توسط 50 بردار اول: 62.26%

فرمول امتیازدهی: Score_j = Σ(i=1 to k) σ_i² · |V_ij|
ایده: ویژگی j مهم است اگر در k بردار تکین اول، وزن زیادی داشته باشد

✓ امتیازهای 468 ویژگی محاسبه شد
  حداقل امتیاز: 3836.8081
  حداکثر امتیاز: 15527.8726
  میانگین امتیاز: 10870.8740
  انحراف معیار: 2427.1086
