<a href="https://colab.research.google.com/github/nazaninzareirad/computational_data_mining_2025/blob/main/Untitled10.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

1. Dataset Preparation

1.1 loading SECOM dataset

In [5]:
import numpy as np
import pandas as pd
import time
from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_selection import RFE, mutual_info_classif
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer

# loading SECOM

print("=" * 70)
print("بخش اول: آماده‌سازی داده‌ها")
print("=" * 70)

# مرحله 1.1: بارگذاری دیتاست
print("\nمرحله 1.1: بارگذاری دیتاست...")

# بارگذاری داده‌ها (فرض بر این است که فایل‌ها در مسیر فعلی هستند)
X = pd.read_csv('secom.data', sep=r'\s+', header=None)
y = pd.read_csv('secom_labels.data', sep=r'\s+', header=None, usecols=[0])
y = y.iloc[:, 0].values  # تبدیل به آرایه numpy

print(f"شکل داده‌های اولیه: {X.shape}")
print(f"تعداد نمونه‌ها: {X.shape[0]}")
print(f"تعداد ویژگی‌ها: {X.shape[1]}")

# Remap -1 to 0 for bincount to work correctly
y_mapped = np.where(y == -1, 0, y)
print(f"توزیع کلاس‌ها: {np.bincount(y_mapped.astype(int))}")

بخش اول: آماده‌سازی داده‌ها

مرحله 1.1: بارگذاری دیتاست...
شکل داده‌های اولیه: (1221, 590)
تعداد نمونه‌ها: 1221
تعداد ویژگی‌ها: 590
توزیع کلاس‌ها: [1463  104]


In [6]:
# preprocessing
print("\nحذف ستون‌های با واریانس صفر...")
variances = X.var()
constant_columns = variances[variances == 0].index
X = X.drop(columns=constant_columns)
print(f"تعداد ستون‌های حذف شده: {len(constant_columns)}")
print(f"شکل داده‌ها پس از حذف ستون‌های ثابت: {X.shape}")

# پر کردن مقادیر گمشده با Median Imputation
print("\nپر کردن مقادیر گمشده با Median Imputation...")
missing_before = X.isnull().sum().sum()
print(f"تعداد مقادیر گمشده قبل از Imputation: {missing_before}")

imputer = SimpleImputer(strategy='median')
X_imputed = imputer.fit_transform(X)
X = pd.DataFrame(X_imputed, columns=X.columns)

missing_after = X.isnull().sum().sum()
print(f"تعداد مقادیر گمشده بعد از Imputation: {missing_after}")


حذف ستون‌های با واریانس صفر...
تعداد ستون‌های حذف شده: 122
شکل داده‌ها پس از حذف ستون‌های ثابت: (1221, 468)

پر کردن مقادیر گمشده با Median Imputation...
تعداد مقادیر گمشده قبل از Imputation: 33725
تعداد مقادیر گمشده بعد از Imputation: 0


1.2 normalizing the data with StandardScaler

In [7]:
# normalizing
print("\nمرحله 1.2: نرمال‌سازی داده‌ها با StandardScaler...")
print("(توجه: SVD حساس به مقیاس است. بدون استانداردسازی، سنسورهای با")
print("واحدهای بزرگ به طور مصنوعی بر مقادیر تکین تسلط خواهند داشت)")

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
print(f"شکل داده‌های نرمال شده: {X_scaled.shape}")
print(f"میانگین ویژگی اول بعد از استانداردسازی: {X_scaled[:, 0].mean():.6f}")
print(f"انحراف معیار ویژگی اول بعد از استانداردسازی: {X_scaled[:, 0].std():.6f}")


مرحله 1.2: نرمال‌سازی داده‌ها با StandardScaler...
(توجه: SVD حساس به مقیاس است. بدون استانداردسازی، سنسورهای با
واحدهای بزرگ به طور مصنوعی بر مقادیر تکین تسلط خواهند داشت)
شکل داده‌های نرمال شده: (1221, 468)
میانگین ویژگی اول بعد از استانداردسازی: -0.000000
انحراف معیار ویژگی اول بعد از استانداردسازی: 1.000000


2. classic methods

2.1 mutual information

In [11]:
print("\nمرحله 2.1: روش فیلتر - Mutual Information")
print("-" * 70)

start_time_mi = time.time()

# ensure y has the same number of samples as X_scaled
# truncate y to match X_scaled's number of samples.
if len(y) != X_scaled.shape[0]:
    print(f"هشدار: تعداد نمونه‌های y ({len(y)}) با تعداد نمونه‌های X_scaled ({X_scaled.shape[0]}) ناسازگار است. y به اندازه X_scaled کوتاه می‌شود.")
    y = y[:X_scaled.shape[0]]

# محاسبه Mutual Information
mi_scores = mutual_info_classif(X_scaled, y, random_state=42)

# انتخاب 20 ویژگی برتر
top_20_mi_indices = np.argsort(mi_scores)[-20:][::-1]
top_20_mi_scores = mi_scores[top_20_mi_indices]

end_time_mi = time.time()
elapsed_time_mi = end_time_mi - start_time_mi

print(f"\n Mutual Information execution time: {elapsed_time_mi:.4f} seconds")
print(f"\n20  Top 20 features based on Mutual Information:")
print(f"{'feature number':<15} {'MI score':<15}")
print("-" * 30)
for idx, score in zip(top_20_mi_indices, top_20_mi_scores):
    print(f"{idx:<15} {score:<15.6f}")


مرحله 2.1: روش فیلتر - Mutual Information
----------------------------------------------------------------------

 Mutual Information execution time: 6.8396 seconds

20  Top 20 features based on Mutual Information:
feature number  MI score       
------------------------------
39              0.038488       
419             0.034529       
143             0.033558       
38              0.033312       
343             0.032229       
240             0.030355       
60              0.028010       
448             0.027865       
262             0.027753       
328             0.027646       
361             0.026030       
324             0.025102       
382             0.024840       
114             0.024074       
230             0.023360       
162             0.023219       
466             0.023059       
455             0.022773       
54              0.022541       
31              0.022444       


2.2 RFE

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_selection import RFE

# define the model for RFE
model = RandomForestClassifier(n_estimators=100, random_state=42)

rfe = RFE(model, n_features_to_select=20)
rfe.fit(X_scaled, y)

# get the ranking of features
rfe_ranking = rfe.ranking_

# top 20 features selected by RFE
top_20_rfe_features = np.argsort(rfe_ranking)[:20]


KeyboardInterrupt: 