# Data Mining Project3: Classification on Given Dataset 
- e-mail: niejy20@lzu.edu.cn
- data：May 17th

## 1.1 数据集简介



### GSE235508 转录组数据集

- **数据来源**：来自类风湿关节炎（RA）、系统性红斑狼疮（SLE）患者及健康孕妇的血液转录组数据，旨在分析妊娠期免疫调节的基因表达差异。
- **分类任务**：将样本分为不同组别（如 `HEALTHY`、`SPRA`、`SLE`），属于多分类问题（具体类别需根据 `samplegroup:ch1` 的取值确定）。
- **数据规模**：包含 **335 个样本**，每个样本有 **60,218 个基因表达特征**（CPM 值），属于典型的高维小样本数据。
- **特征特点**：特征为基因表达量，需进行标准化处理（如 log 转换），且存在大量零值或低方差基因，需进行特征筛选。

---

### 数据集对比
- 在第一次作业中，我使用了数据挖掘领域较为经典的数据集：Breast Cancer Wisconsin，与本次作业的数据集同样应用于医学领域，这两个数据集的区别如下：

| 特征                  | GSE235508 转录组数据集       | Breast Cancer Wisconsin 数据集 |
|-----------------------|------------------------------|---------------------------------|
| **数据量**            | 335 个样本                   | 569 个样本                      |
| **特征数量**          | 60,218 个基因表达特征        | 30 个形态学特征                 |
| **应用领域**          | 自身免疫疾病研究             | 乳腺癌医学诊断                  |
| **分类任务**          | 多分类（疾病状态分组）       | 二分类（良性 vs 恶性）          
| **数据挑战**          | 高维度、小样本、特征稀疏     | 小样本、特征可解释性高          |
| **典型预处理方法**    | 标准化、特征选择、降维       | 标准化、特征相关性分析          |

---

### 对比分析

1. **数据维度差异**  
   - GSE235508 的特征数量（60k+）远超 Breast Cancer（30），需采用 **PCA、t-SNE 或 LASSO 特征选择** 避免维度灾难。
   - 与 Breast Cancer 数据集相比，GSE235508 的样本量更小，但特征维度更高，容易导致模型过拟合，需结合正则化或集成学习。

2. **领域特异性**  
   - **医学转录组数据** 的基因表达特征具有生物学意义，但需结合通路分析（如 GSEA）增强可解释性。
   - 不同于 MiniBooNE 的物理信号，基因表达数据通常需 **log 转换** 和 **批次效应校正**。

3. **实际应用建议**  
   - 对 GSE235508 优先使用 **随机森林、SVM（RBF 核）** 或 **XGBoost**，配合交叉验证。
   - 若需深度学习，可尝试 **自编码器降维** 或 **注意力机制** 处理高维稀疏特征。

---

通过对比可见，GSE235508 的 **高维小样本特性** 使其在模型选择上更接近基因组学研究的典型挑战，需综合特征工程与正则化策略平衡过拟合风险。

## 1.2 分类算法简介

分类算法可以根据不同的特点和学习方式来进行区分。以下是4种常见的分类方式：

### 一、基于学习方式

| 分类依据 | 常见算法 | 特点 |
| --- | --- | --- |
| 监督学习 | 决策树、逻辑回归、支持向量机、朴素贝叶斯等 | 从带标签的数据中学习，映射函数将输入数据映射到已知的输出标签 |
| 无监督学习 | k-均值聚类、层次聚类、高斯混合模型等 | 不依赖标记的训练数据，可以对数据进行聚类或降维等操作 |
| 半监督学习 | 自训练算法、多视图训练算法等 | 结合少量有标签数据和大量无标签数据进行学习，通过无标签数据来提高模型的性能 |
| 强化学习 | Q-learning、策略梯度方法等 | 通过与环境的交互来学习最优的行为策略，以最大化累积奖励 |

### 二、基于模型复杂度

| 分类依据 | 常见算法 | 特点 |
| --- | --- | --- |
| 简单模型 | 逻辑回归、决策树桩等 | 结构简单，训练和预测速度快，易于理解和解释，适用于数据规模较小或特征较少的情况 |
| 集成模型 | 随机森林、AdaBoost、梯度提升树、XGBoost等 | 组合多个弱学习器以构建强大的模型，能够提高模型的准确性和泛化能力，但模型复杂度较高，训练和预测时间较长 |

### 三、基于数据特点

| 分类依据 | 常见算法 | 特点 |
| --- | --- | --- |
| 线性可分数据 | 逻辑回归、线性支持向量机等 | 适用于数据在特征空间中线性可分的情况，通过寻找一个线性决策边界来区分不同类别的样本 |
| 非线性数据 | 决策树、支持向量机（非线性核函数）、神经网络等 | 适用于数据在特征空间中非线性可分的情况，能够学习复杂的非线性决策边界 |

### 四、基于模型可解释性

| 分类依据 | 常见算法 | 特点 |
| --- | --- | --- |
| 可解释模型 | 决策树、逻辑回归等 | 模型的决策过程易于理解和解释，能够提供直观的特征重要性和决策规则 |
| 黑盒模型 | 神经网络、梯度提升树等 | 模型的内部结构和决策过程较为复杂，可解释性差，但通常具有较高的预测性能|

在本次project中，共使用了10种用于分类任务的算法，这些算法的简介如下：

1. Logistic Regression：基于逻辑函数（Sigmoid函数）建模，输出概率值，能够提供可解释的特征权重。

2. k-NN（k-近邻算法）：懒惰学习（lazy learning），在预测阶段才进行计算，不显式训练模型。

3. Decision Tree：易于理解和解释，能够处理非线性关系，无需数据归一化。

4. Decision Stump：极其简单，计算效率高，但表达能力有限。

5. Random Forest：通过随机抽样和特征选择来降低过拟合风险，提高模型的泛化能力。

6. AdaBoost（自适应提升算法）：强调对分类错误的样本给予更高的权重，使得后续学习器更关注这些样本。

7. XGBoost（极端梯度提升）：高效、可扩展，支持自动处理缺失值，提供多种正则化选项。

8. LDA（Linear Discriminant Analysis）：假设数据服从高斯分布，计算类内和类间散度矩阵。

9. Naive Bayes：计算概率模型，对缺失数据具有鲁棒性，无需复杂的训练过程。

10. Maximal Entropy Model：在给定约束条件下选择最不确定的分布，避免过度拟合。

## 1.3 格式说明

### this is format description.

## 2.1 RandomForest

In [64]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import LabelEncoder
from sklearn.feature_selection import VarianceThreshold, SelectKBest, f_classif
from sklearn.decomposition import PCA
from imblearn.over_sampling import SMOTE
from imblearn.pipeline import make_pipeline
import joblib

# 加载元数据（使用geo_accession）
meta = pd.read_csv(
    "./Data/GSE235508.meta.txt",
    sep='\t',
    quotechar='"',
    encoding='utf-8',
    dtype=str
)
groups = meta[['geo_accession', 'samplegroup:ch1']].rename(
    columns={'geo_accession': 'sample_title', 'samplegroup:ch1': 'group'}
)

# 加载表达数据
expr = pd.read_csv(
    "./Data/GSE235508_mRNA_counts.txt",
    sep='\t',
    comment='!',
    index_col=0,
    encoding='utf-8'
).T.reset_index().rename(columns={'index': 'sample_title'})

# 合并数据
merged = pd.merge(expr, groups, on='sample_title', how='inner')
print(f"Merged shape: {merged.shape}")  # 应输出(335, 60220)

# 特征矩阵和目标变量
X = merged.drop(['sample_title', 'group'], axis=1).astype(float)  # 确保数值类型
y = merged['group']

# 标签编码
le = LabelEncoder()
y = le.fit_transform(y)

# 数据预处理管道
preprocessor = Pipeline([
    ('imputer', SimpleImputer(strategy='median')),  # 中位数填充缺失值
    ('variance_filter', VarianceThreshold(threshold=0.1*(1-0.1))),  # 移除低方差特征
    ('selector', SelectKBest(f_classif, k=500)),  # 选择top k个差异基因
    ('pca', PCA(n_components=0.95)),  # 保留95%方差的主成分
])

# 划分训练测试集（先预处理再划分）
X_preprocessed = preprocessor.fit_transform(X, y)
X_train, X_test, y_train, y_test = train_test_split(
    X_preprocessed, y, 
    test_size=0.2, 
    stratify=y,
    random_state=42
)

# 处理类别不平衡（仅在训练集应用SMOTE）
smote = SMOTE(sampling_strategy='auto', k_neighbors=10)
X_train_res, y_train_res = smote.fit_resample(X_train, y_train)

# 构建随机森林模型管道
rf_pipeline = Pipeline([
    ('rf', RandomForestClassifier(max_depth=10, min_samples_leaf=5))
])

# 超参数网格搜索
param_grid = {
    'rf__n_estimators': [50, 100, 200],
    'rf__max_depth': [None, 10, 20],
    'rf__min_samples_split': [2, 5],
    'rf__max_features': ['sqrt', 0.5],
    'rf__bootstrap': [True, False]
}

grid_search = GridSearchCV(
    estimator=rf_pipeline,
    param_grid=param_grid,
    scoring='f1_weighted',  # 使用加权F1-score
    cv=5,
    n_jobs=-1,
    verbose=2
)

# 训练与调优
grid_search.fit(X_train_res, y_train_res)

# 评估最佳模型
best_model = grid_search.best_estimator_
print(f"Best Parameters: {grid_search.best_params_}")
print(f"Train F1: {best_model.score(X_train_res, y_train_res):.3f}")
print(f"Test F1: {best_model.score(X_test, y_test):.3f}")

# 保存最佳模型
joblib.dump(best_model, 'best_rf_model.pkl')

# 特征重要性分析
# 获取特征选择后的基因索引
selected_idx = preprocessor.named_steps['selector'].get_support(indices=True)
feature_names = X.columns[selected_idx]

# 获取PCA前的特征重要性
importances = best_model.named_steps['rf'].feature_importances_
pca_components = preprocessor.named_steps['pca'].components_

# 映射回原始特征空间
raw_importances = np.abs(pca_components.T @ importances).flatten()

# 创建重要性DataFrame
importance_df = pd.DataFrame({
    'gene': feature_names,
    'importance': raw_importances
}).sort_values('importance', ascending=False)

print("Top 10重要基因:")
print(importance_df.head(10))

Merged shape: (335, 60220)
Fitting 5 folds for each of 72 candidates, totalling 360 fits
Best Parameters: {'rf__bootstrap': True, 'rf__max_depth': 10, 'rf__max_features': 0.5, 'rf__min_samples_split': 2, 'rf__n_estimators': 50}
Train F1: 0.787
Test F1: 0.418
Top 10重要基因:
                gene  importance
207  ENSG00000165887    0.233116
436  ENSG00000256128    0.200232
76   ENSG00000119906    0.157042
128  ENSG00000137877    0.152141
109  ENSG00000134283    0.142218
77   ENSG00000119913    0.140578
239  ENSG00000172971    0.116268
103  ENSG00000132182    0.109554
261  ENSG00000181092    0.089148
275  ENSG00000185551    0.085321


## Tips.随机森林参数调整
第一遍结果F1 score为0.448，k_neighbors（SMOTE参数）取3，SelectKBest参数取500。

调整后：F1=0.448

## 2.2 SVC

In [65]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.svm import SVC
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.feature_selection import VarianceThreshold, SelectKBest, f_classif
from sklearn.decomposition import PCA
from imblearn.over_sampling import SMOTE
from imblearn.pipeline import make_pipeline
import joblib

# 数据加载与合并（与原始代码一致）
meta = pd.read_csv(
    "./Data/GSE235508.meta.txt",
    sep='\t',
    quotechar='"',
    encoding='utf-8',
    dtype=str
)
groups = meta[['geo_accession', 'samplegroup:ch1']].rename(
    columns={'geo_accession': 'sample_title', 'samplegroup:ch1': 'group'}
)

expr = pd.read_csv(
    "./Data/GSE235508_mRNA_counts.txt",
    sep='\t',
    comment='!',
    index_col=0,
    encoding='utf-8'
).T.reset_index().rename(columns={'index': 'sample_title'})

merged = pd.merge(expr, groups, on='sample_title', how='inner')
print(f"Merged shape: {merged.shape}")

X = merged.drop(['sample_title', 'group'], axis=1).astype(float)
y = merged['group']

le = LabelEncoder()
y = le.fit_transform(y)

# 增加标准化步骤
preprocessor = Pipeline([
    ('imputer', SimpleImputer(strategy='median')),
    ('variance_filter', VarianceThreshold(threshold=0.1*(1-0.1))),
    ('selector', SelectKBest(f_classif, k=500)),
    ('scaler', StandardScaler()),  # SVC需要特征标准化
    ('pca', PCA(n_components=0.95)),
])

X_preprocessed = preprocessor.fit_transform(X, y)
X_train, X_test, y_train, y_test = train_test_split(
    X_preprocessed, y, 
    test_size=0.2, 
    stratify=y,
    random_state=42
)

smote = SMOTE(sampling_strategy='auto', k_neighbors=10)
X_train_res, y_train_res = smote.fit_resample(X_train, y_train)

svc_pipeline = Pipeline([
    ('svc', SVC(probability=True, decision_function_shape='ovr'))  # 启用概率估计
])

# 调整SVC参数
param_grid = {
    'svc__C': [0.1, 1, 10],  # 正则化参数
    'svc__kernel': ['linear', 'rbf', 'poly'],
    'svc__gamma': ['scale', 'auto'],  # 仅对非线性核有效
    'svc__class_weight': [None, 'balanced']
}

grid_search = GridSearchCV(
    estimator=svc_pipeline,
    param_grid=param_grid,
    scoring='f1_weighted',
    cv=3,  # 减少交叉验证折数以节省时间
    n_jobs=-1,
    verbose=2
)

grid_search.fit(X_train_res, y_train_res)

best_model = grid_search.best_estimator_
print(f"Best Parameters: {grid_search.best_params_}")
print(f"Train F1: {best_model.score(X_train_res, y_train_res):.3f}")
print(f"Test F1: {best_model.score(X_test, y_test):.3f}")

# 保存最佳模型
joblib.dump(best_model, 'best_svc_model.pkl')

# 特征重要性分析（仅适用于线性核）
if best_model.named_steps['svc'].kernel == 'linear':
    coef = best_model.named_steps['svc'].coef_
    pca_components = preprocessor.named_steps['pca'].components_
    
    raw_importances = np.abs(pca_components.T @ coef.mean(axis=0)).flatten()
    
    selected_idx = preprocessor.named_steps['selector'].get_support(indices=True)
    feature_names = X.columns[selected_idx]
    
    importance_df = pd.DataFrame({
        'gene': feature_names,
        'importance': raw_importances
    }).sort_values('importance', ascending=False)
    
    print("Top 10重要基因（线性核）:")
    print(importance_df.head(10))
else:
    print("特征重要性分析仅适用于线性核")

Merged shape: (335, 60220)
Fitting 3 folds for each of 36 candidates, totalling 108 fits
Best Parameters: {'svc__C': 1, 'svc__class_weight': None, 'svc__gamma': 'scale', 'svc__kernel': 'linear'}
Train F1: 1.000
Test F1: 0.836
Top 10重要基因（线性核）:
                gene  importance
499  ENSG00000277051    0.261370
176  ENSG00000156256    0.133494
297  ENSG00000196504    0.131095
452  ENSG00000261609    0.128555
182  ENSG00000158458    0.124338
364  ENSG00000228073    0.115773
343  ENSG00000211801    0.110355
471  ENSG00000266412    0.108808
211  ENSG00000166948    0.104328
193  ENSG00000163482    0.104199


## 2.3 Lasso Regression

In [75]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.feature_selection import VarianceThreshold, SelectKBest, f_classif
from sklearn.decomposition import PCA
from imblearn.over_sampling import SMOTE
from imblearn.pipeline import make_pipeline
import joblib

# 数据加载
meta = pd.read_csv(
    "./Data/GSE235508.meta.txt",
    sep='\t',
    quotechar='"',
    encoding='utf-8',
    dtype=str
)
groups = meta[['geo_accession', 'samplegroup:ch1']].rename(
    columns={'geo_accession': 'sample_title', 'samplegroup:ch1': 'group'}
)

expr = pd.read_csv(
    "./Data/GSE235508_mRNA_counts.txt",
    sep='\t',
    comment='!',
    index_col=0,
    encoding='utf-8'
).T.reset_index().rename(columns={'index': 'sample_title'})

merged = pd.merge(expr, groups, on='sample_title', how='inner')
print(f"Merged shape: {merged.shape}")

X = merged.drop(['sample_title', 'group'], axis=1).astype(float)
y = merged['group']

le = LabelEncoder()
y = le.fit_transform(y)

# 数据预处理管道
preprocessor = Pipeline([
    ('imputer', SimpleImputer(strategy='median')),
    ('variance_filter', VarianceThreshold(threshold=0.1*(1-0.1))),
    ('selector', SelectKBest(f_classif, k=500)),
    ('scaler', StandardScaler()),  # 必须标准化
    ('pca', PCA(n_components=0.95)),
])

# 划分训练测试集、处理类别不平衡
X_preprocessed = preprocessor.fit_transform(X, y)
X_train, X_test, y_train, y_test = train_test_split(
    X_preprocessed, y, 
    test_size=0.2, 
    stratify=y,
    random_state=42
)

smote = SMOTE(sampling_strategy='auto', k_neighbors=10)
X_train_res, y_train_res = smote.fit_resample(X_train, y_train)

# 构建Lasso逻辑回归模型
lasso_pipeline = Pipeline([
    ('lr', LogisticRegression(
        penalty='l1',  # L1正则化
        solver='saga',  # 唯一支持L1+多分类的求解器
        max_iter=10000,  
        tol=5e-4
    ))
])

param_grid = {
    'lr__C': np.logspace(-3, 2, 6),  # 正则化强度：0.001到100
}

grid_search = GridSearchCV(
    estimator=lasso_pipeline,
    param_grid=param_grid,
    scoring='f1_weighted',
    cv=3,
    n_jobs=-1,
    verbose=2
)

# 训练、调优、选择最佳超参数
grid_search.fit(X_train_res, y_train_res)

best_model = grid_search.best_estimator_
print(f"Best Parameters: {grid_search.best_params_}")
print(f"Train F1: {best_model.score(X_train_res, y_train_res):.3f}")
print(f"Test F1: {best_model.score(X_test, y_test):.3f}")

joblib.dump(best_model, 'best_lasso_lr_model.pkl')

coef_matrix = best_model.named_steps['lr'].coef_
pca_components = preprocessor.named_steps['pca'].components_

# 映射回原始特征空间（对各类别系数取平均）
raw_importances = np.abs(pca_components.T @ coef_matrix.mean(axis=0)).flatten()

selected_idx = preprocessor.named_steps['selector'].get_support(indices=True)
feature_names = X.columns[selected_idx]

importance_df = pd.DataFrame({
    'gene': feature_names,
    'importance': raw_importances
}).sort_values('importance', ascending=False)

print("Top 10重要基因:")
print(importance_df.head(10))

Merged shape: (335, 60220)
Fitting 3 folds for each of 6 candidates, totalling 18 fits
Best Parameters: {'lr__C': 100.0}
Train F1: 0.997
Test F1: 0.910
Top 10重要基因:
                gene  importance
347  ENSG00000216859    0.001634
370  ENSG00000229395    0.001155
297  ENSG00000196504    0.001147
302  ENSG00000197483    0.001126
354  ENSG00000222419    0.001118
493  ENSG00000274282    0.001038
45   ENSG00000101222    0.001027
470  ENSG00000265980    0.000989
265  ENSG00000182351    0.000934
6    ENSG00000007350    0.000912


## Tips.收敛警告
构建Lasso回归模型时，下列两个参数设置不合适可能会导致收敛警告：

- max_iter=1000, 
- tol=1e-4

C:\Users\20187\AppData\Local\Programs\Python\Python311\Lib\site-packages\sklearn\linear_model_sag.py:348: ConvergenceWarning: The max_iter was reached which means the coef_ did not converge
warnings.warn(

原因：1.迭代次数不足（max_iter 设置过小）、2.敛容差过严（tol 设置过小）

将迭代次数增加至10000、收敛阈值减半，警告消失。

## 2.4 XGBoost/LightGBM

In [3]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV
from xgboost import XGBClassifier
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import LabelEncoder
from sklearn.feature_selection import VarianceThreshold, SelectKBest, f_classif
from sklearn.decomposition import PCA
from imblearn.over_sampling import SMOTE
from imblearn.pipeline import make_pipeline
import joblib
import warnings

import warnings
warnings.filterwarnings("ignore", category=UserWarning, module='xgboost')

# 1. 数据加载与合并（保持原有流程）
meta = pd.read_csv(
    "./Data/GSE235508.meta.txt",
    sep='\t',
    quotechar='"',
    encoding='utf-8',
    dtype=str
)
groups = meta[['geo_accession', 'samplegroup:ch1']].rename(
    columns={'geo_accession': 'sample_title', 'samplegroup:ch1': 'group'}
)

expr = pd.read_csv(
    "./Data/GSE235508_mRNA_counts.txt",
    sep='\t',
    comment='!',
    index_col=0,
    encoding='utf-8'
).T.reset_index().rename(columns={'index': 'sample_title'})

merged = pd.merge(expr, groups, on='sample_title', how='inner')
print(f"Merged shape: {merged.shape}")

X = merged.drop(['sample_title', 'group'], axis=1).astype(float)
y = merged['group']

# 2. 标签编码（XGBoost需要从0开始的整数类别）
le = LabelEncoder()
y = le.fit_transform(y)

# 3. 数据预处理管道（移除标准化，树模型不需要）
preprocessor = Pipeline([
    ('imputer', SimpleImputer(strategy='median')),
    ('variance_filter', VarianceThreshold(threshold=0.1*(1-0.1))),
    ('selector', SelectKBest(f_classif, k=500)),
    ('pca', PCA(n_components=0.95)),
])

# 4. 划分训练测试集
X_preprocessed = preprocessor.fit_transform(X, y)
X_train, X_test, y_train, y_test = train_test_split(
    X_preprocessed, y, 
    test_size=0.2, 
    stratify=y,
    random_state=42
)

# 5. 处理类别不平衡（XGBoost支持样本权重，但保持SMOTE流程）
smote = SMOTE(sampling_strategy='auto', k_neighbors=10)
X_train_res, y_train_res = smote.fit_resample(X_train, y_train)

# 6. 构建XGBoost模型管道
xgb_pipeline = Pipeline([
    ('xgb', XGBClassifier(
        objective='multi:softmax',  # 多分类目标函数
        n_jobs=-1,
        eval_metric='mlogloss',     # 多分类对数损失
        early_stopping_rounds=10,   # 早停机制
        use_label_encoder=False     # 禁用旧版标签编码
    ))
])

# 7. 超参数网格搜索
param_grid = {
    'xgb__n_estimators': [100, 200],
    'xgb__max_depth': [3, 5, 7],
    'xgb__learning_rate': [0.01, 0.1],
    'xgb__subsample': [0.8, 1.0],
    'xgb__colsample_bytree': [0.8, 1.0],
    'xgb__gamma': [0, 0.1],
}

grid_search = GridSearchCV(
    estimator=xgb_pipeline,
    param_grid=param_grid,
    scoring='f1_weighted',
    cv=3,
    n_jobs=-1,
    verbose=2
)

# 8. 训练与调优（添加验证集用于早停）
grid_search.fit(
    X_train_res, y_train_res,
    xgb__eval_set=[(X_test, y_test)]  # 早停监控验证集
)

# 9. 评估最佳模型
best_model = grid_search.best_estimator_
print(f"Best Parameters: {grid_search.best_params_}")
print(f"Train F1: {best_model.score(X_train_res, y_train_res):.3f}")
print(f"Test F1: {best_model.score(X_test, y_test):.3f}")

# 10. 保存最佳模型
joblib.dump(best_model, 'best_xgb_model.pkl')

# 11. 特征重要性分析（基于树模型内置重要性）
selected_idx = preprocessor.named_steps['selector'].get_support(indices=True)
feature_names = X.columns[selected_idx]

# 获取PCA前的特征重要性
importances = best_model.named_steps['xgb'].feature_importances_
pca_components = preprocessor.named_steps['pca'].components_

# 映射回原始特征空间
raw_importances = np.abs(pca_components.T @ importances).flatten()

importance_df = pd.DataFrame({
    'gene': feature_names,
    'importance': raw_importances
}).sort_values('importance', ascending=False)

print("Top 10重要基因:")
print(importance_df.head(10))

Merged shape: (335, 60220)
Fitting 3 folds for each of 96 candidates, totalling 288 fits
[0]	validation_0-mlogloss:1.38309
[1]	validation_0-mlogloss:1.38040
[2]	validation_0-mlogloss:1.37819
[3]	validation_0-mlogloss:1.37580
[4]	validation_0-mlogloss:1.37319
[5]	validation_0-mlogloss:1.37179
[6]	validation_0-mlogloss:1.36978
[7]	validation_0-mlogloss:1.36784
[8]	validation_0-mlogloss:1.36600
[9]	validation_0-mlogloss:1.36329
[10]	validation_0-mlogloss:1.36190
[11]	validation_0-mlogloss:1.35988
[12]	validation_0-mlogloss:1.35750
[13]	validation_0-mlogloss:1.35589
[14]	validation_0-mlogloss:1.35342
[15]	validation_0-mlogloss:1.35220
[16]	validation_0-mlogloss:1.35057
[17]	validation_0-mlogloss:1.34893
[18]	validation_0-mlogloss:1.34713
[19]	validation_0-mlogloss:1.34577
[20]	validation_0-mlogloss:1.34402
[21]	validation_0-mlogloss:1.34178
[22]	validation_0-mlogloss:1.34013
[23]	validation_0-mlogloss:1.33881
[24]	validation_0-mlogloss:1.33718
[25]	validation_0-mlogloss:1.33487
[26]	valida

## 2.5 Elastic Net

## 2.6 PLS-DA

## 2.7 MLP

## 2.8 Naive Bayes

## 2.9 KNN

## 2.10 集成特征选择方法

## 3.1 Logistic Regression + Breast Cancer

## 3.2 K-nearest neighbors(Knn) + Breast Cancer

## 3.3 Decision Trees + Breast Cancer

## 3.4 Decision stump + Breast Cancer

## 3.5 Random Forest + Breast Cancer

## 3.6 AdaBoost + Breast Cancer

## 3.7 XGBoost + Breast Cancer

## 3.8 LDA + Breast Cancer

## 3.9 Naive Bayes + Breast Cancer

## 3.10 Maximal Entropy Model + Breast Cancer