# 🧠 一、机器学习模型模块（建模）

| 模块                           | 说明            | 常用模型                                                                |
| ---------------------------- | ------------- | ------------------------------------------------------------------- |
| `sklearn.linear_model`       | 线性模型类         | `LinearRegression`, `LogisticRegression`, `Ridge`, `Lasso`          |
| `sklearn.tree`               | 决策树模型         | `DecisionTreeClassifier`, `DecisionTreeRegressor`                   |
| `sklearn.ensemble`           | 集成方法（强大！）     | `RandomForest`, `GradientBoosting`, `Bagging`, `AdaBoost`, `Voting` |
| `sklearn.svm`                | 支持向量机         | `SVC`, `SVR`, `LinearSVC`                                           |
| `sklearn.neighbors`          | K 近邻          | `KNeighborsClassifier`, `KNeighborsRegressor`                       |
| `sklearn.naive_bayes`        | 朴素贝叶斯         | `GaussianNB`, `MultinomialNB`                                       |
| `sklearn.cluster`            | 聚类模型          | `KMeans`, `DBSCAN`, `AgglomerativeClustering`                       |
| `sklearn.decomposition`      | 降维算法          | `PCA`, `TruncatedSVD`                                               |
| `xgboost`                    | 高性能提升树        | `XGBClassifier`, `XGBRegressor`                                     |
| `lightgbm`                   | 高速梯度提升机       | `LGBMClassifier`, `LGBMRegressor`                                   |
| `catboost`                   | 处理类别特征特别好的提升树 | `CatBoostClassifier`, `CatBoostRegressor`                           |
| `tensorflow.keras` / `torch` | 深度学习框架        | 用于构建神经网络                                                            |


# 🔧 二、特征处理与预处理模块


| 模块                          | 功能         | 常用方法                                                                                    |
| --------------------------- | ---------- | --------------------------------------------------------------------------------------- |
| `sklearn.preprocessing`     | 特征缩放、编码、转换 | `StandardScaler`, `MinMaxScaler`, `OneHotEncoder`, `LabelEncoder`, `PolynomialFeatures` |
| `sklearn.impute`            | 缺失值填充      | `SimpleImputer`, `KNNImputer`                                                           |
| `sklearn.compose`           | 混合列处理      | `ColumnTransformer`, `make_column_transformer`                                          |
| `sklearn.feature_selection` | 特征选择       | `SelectKBest`, `RFE`, `VarianceThreshold`                                               |
| `sklearn.decomposition`     | 降维         | `PCA`, `NMF`, `TruncatedSVD`                                                            |


# 🧪 三、训练、评估与调参模块

| 模块                        | 功能        | 常用方法                                                                                                 |
| ------------------------- | --------- | ---------------------------------------------------------------------------------------------------- |
| `sklearn.model_selection` | 数据划分与交叉验证 | `train_test_split`, `KFold`, `GridSearchCV`, `RandomizedSearchCV`                                    |
| `sklearn.metrics`         | 模型评估      | `accuracy_score`, `roc_auc_score`, `confusion_matrix`, `classification_report`, `mean_squared_error` |
| `sklearn.pipeline`        | 管道封装      | `Pipeline`, `make_pipeline`                                                                          |
| `sklearn.utils`           | 通用工具      | `shuffle`, `resample`                                                                                |


# 📊 四、可视化与分析模块（配合使用）

| 模块                | 用途      | 常用图            |
| ----------------- | ------- | -------------- |
| `matplotlib`      | 通用绘图    | 折线图、散点图、热力图    |
| `seaborn`         | 统计图形封装  | 箱型图、分布图、相关性热力图 |
| `plotly`, `bokeh` | 交互式图形   | 动态可视化          |
| `yellowbrick`     | 模型可视化   | 分类报告、学习曲线、残差图等 |
| `mlxtend`         | 机器学习工具包 | 分类边界图、组合器      |


# 📂 五、数据处理模块（基础）

| 模块                  | 功能          |
| ------------------- | ----------- |
| `numpy`             | 数值计算        |
| `pandas`            | 表格数据处理      |
| `scipy`             | 高级统计函数、矩阵运算 |
| `joblib` / `pickle` | 模型保存和加载     |


# 🔎 六、特征工程 / 高级功能模块

| 模块                    | 功能                                             |                              |
| --------------------- | ---------------------------------------------- | ---------------------------- |
| `category_encoders`   | 多种类别编码方式：`TargetEncoding`, `Helmert`, `Binary` |                              |
| `imblearn`            | 处理不平衡样本                                        | `SMOTE`, `RandomOverSampler` |
| `optuna` / `hyperopt` | 自动化超参数优化                                       |                              |
| `shap` / `lime`       | 模型解释性分析工具                                      |                              |


# ✅ 常用模型 vs 数据特征对照表

| 模型                         | 所属模块                     | 适合的数据类型       | 特征要求              | 优点            | 注意事项          |
| -------------------------- | ------------------------ | ------------- | ----------------- | ------------- | ------------- |
| **LogisticRegression**     | `sklearn.linear_model`   | 数值型/离散型       | 特征需数值化、线性可分效果更好   | 简单高效、概率输出     | 对离群值敏感，需标准化   |
| **LinearRegression**       | `sklearn.linear_model`   | 数值型连续变量预测     | 特征应数值化、无共线性       | 可解释性好、训练快     | 对异常值敏感        |
| **DecisionTree**           | `sklearn.tree`           | 数值 + 类别型混合都可  | 无需归一化、自动处理缺失      | 可解释性强、处理类别变量好 | 容易过拟合         |
| **RandomForest**           | `sklearn.ensemble`       | 数值 + 类别型混合都可  | 无需归一化             | 强大的非线性建模能力    | 模型大、不易解释      |
| **GradientBoosting（GBDT）** | `sklearn.ensemble`       | 数值 + 类别型（转数值） | 一般需要数值化           | 表现优异、适合小数据    | 对超参敏感、训练慢     |
| **XGBoost/LightGBM**       | 外部库                      | 数值 + 类别型      | 类别型可以 label 编码    | 高效、精度高        | 安装复杂，需调参      |
| **KNeighbors**             | `sklearn.neighbors`      | 数值型           | 特征需归一化            | 易理解、无需训练      | 对高维敏感、速度慢     |
| **SVM（支持向量机）**             | `sklearn.svm`            | 数值型           | 特征需归一化，适合线性/核空间分布 | 小样本精度高        | 不适合大数据，调参困难   |
| **Naive Bayes**            | `sklearn.naive_bayes`    | 离散型/类别型       | 特征最好互相独立          | 快速稳定、文本分类常用   | 特征相关性大时效果差    |
| **MLPClassifier (神经网络)**   | `sklearn.neural_network` | 数值型           | 特征需归一化            | 可处理复杂非线性      | 对超参敏感，训练慢     |
| **KMeans**                 | `sklearn.cluster`        | 数值型           | 需归一化，适合球形聚类       | 简单高效          | 需设定簇数，容易受噪声影响 |
| **DBSCAN**                 | `sklearn.cluster`        | 数值型           | 适合密度分布明显数据        | 自动聚类数、抗噪声     | 不适合高维稠密数据     |
| **PCA (降维)**               | `sklearn.decomposition`  | 数值型           | 特征需标准化            | 可视化、压缩维度      | 信息丢失、线性降维     |


# 🧩 特征类型简表

| 特征类型       | 描述             | 常见处理方式                                |
| ---------- | -------------- | ------------------------------------- |
| 数值型        | 连续变量，如年龄、价格、温度 | 标准化（StandardScaler）、归一化（MinMaxScaler） |
| 类别型（有序/无序） | 如性别、职业、等级      | 编码：LabelEncoder / OneHotEncoder       |
| 文本型        | 评论、标题等         | TF-IDF / CountVectorizer / Embedding  |
| 时间型        | 日期、时间戳         | 提取：年/月/日/星期、时段、是否节假日等                 |
| 缺失值        | NaN/null       | 填补（均值、中位数、众数）、删除或插值                   |


# 💡 模型选择建议（按任务类型）

| 任务类型 | 推荐模型                                                      | 简要说明                      |
| ---- | --------------------------------------------------------- | ------------------------- |
| 二分类  | Logistic Regression, RandomForest, SVM, XGBoost           | 若需解释性用 Logistic，精度追求可用树模型 |
| 多分类  | RandomForest, GBDT, MLPClassifier                         | 多分类支持良好，注意标签编码            |
| 回归   | LinearRegression, RandomForestRegressor, XGBoostRegressor | 线性 vs 非线性关系               |
| 文本分类 | Naive Bayes, LogisticRegression + TF-IDF                  | 文本特征需向量化                  |
| 图像识别 | MLPClassifier, CNN（Keras/PyTorch）                         | sklearn 不适合大图像            |
| 聚类   | KMeans, DBSCAN                                            | 无监督学习                     |


# ✅ TensorFlow 常用模型 vs 数据特征对照表

| 模型类型                 | 具体模型 / API                                                        | 适用数据类型               | 场景          | 特征要求                                | 优点            | 注意事项          |
| -------------------- | ----------------------------------------------------------------- | -------------------- | ----------- | ----------------------------------- | ------------- | ------------- |
| **线性模型**             | `tf.keras.layers.Dense(units=1, activation='sigmoid' / 'linear')` | 数值型、稀疏类别             | 二分类 / 回归    | 特征需归一化 / 数值化                        | 简单、易解释、训练快    | 对特征线性依赖，泛化能力弱 |
| **DNN (全连接神经网络)**    | `tf.keras.Sequential([...])` + 多层 Dense                           | 数值型 + 类别型（Embedding） | 结构化分类、回归    | 特征数值化、类别编码                          | 强大的非线性建模能力    | 易过拟合，需正规化     |
| **CNN (卷积神经网络)**     | `Conv2D`, `MaxPooling2D`, `Flatten`, `Dense`                      | 图像、序列（可改为1D）         | 图像分类、目标检测   | 输入形状固定，如 `(H, W, C)`                | 捕捉空间局部特征      | 数据预处理复杂，参数多   |
| **RNN / LSTM / GRU** | `tf.keras.layers.LSTM`, `GRU`, `SimpleRNN`                        | 序列数据（文本、时间序列）        | 情感分析、时序预测   | 输入为 `(batch, time_steps, features)` | 捕捉时间上下文       | 长序列梯度消失，训练慢   |
| **Transformer**      | `tf.keras.layers.MultiHeadAttention`, Encoder 模块                  | 文本序列、图像块、音频等         | NLP、机器翻译    | Token 向量化后输入                        | 并行高效，处理长距离依赖  | 参数量大，需大量数据    |
| **Autoencoder**      | 编码器 + 解码器组合                                                       | 数值型、图像等              | 降维、异常检测     | 输入 = 输出特征形状                         | 无监督训练、自适应压缩   | 难以控制语义表达      |
| **GAN (生成对抗网络)**     | Generator + Discriminator 组合                                      | 图像、语音、风格转换等          | 图像生成、数据增强   | 输入通常为噪声向量                           | 生成能力强、可视化效果好  | 不稳定、训练困难      |
| **Wide & Deep**      | `tf.estimator.DNNLinearCombinedClassifier` / `tf.keras`实现         | 数值 + 类别型混合           | 推荐系统、CTR预估  | 特征交叉编码、Embedding                    | 同时学习记忆+泛化     | 架构复杂，调参较多     |
| **TabNet (结构化数据专用)** | 自定义模块或第三方实现                                                       | 数值 + 类别混合            | 表格数据建模      | 无需大量特征工程                            | 高效、可解释性强      | 官方TF未集成，需第三方包 |
| **强化学习模型**           | DQN, PPO, A3C (通过 TF-Agents)                                      | 状态-动作空间              | 游戏智能体、机器人控制 | 特征按时间步表示                            | 适合交互场景、长期奖励优化 | 学习过程不稳定、探索困难  |


# 🧩 不同数据类型的建模建议（配合模型选型）

| 数据类型     | 典型任务      | 推荐模型                          | 特征处理建议                        |
| -------- | --------- | ----------------------------- | ----------------------------- |
| 数值型（结构化） | 分类、回归     | Linear, DNN, Wide & Deep      | 标准化、归一化、缺失值填补                 |
| 类别型      | 分类        | DNN + Embedding、Wide & Deep   | LabelEncoding / Embedding     |
| 图像       | 分类、检测、生成  | CNN, ResNet, GAN              | Resize、归一化、Data Augmentation  |
| 文本       | 分类、生成、翻译  | LSTM, Transformer, BERT       | 分词、Token-ID、Padding、Embedding |
| 时间序列     | 预测、异常检测   | LSTM, GRU, 1D-CNN             | 滑窗分段、标准化、周期性编码                |
| 多模态      | 图文识别、语音理解 | 自定义模型 / 多路输入                  | 对每种模态分别建模再融合                  |
| 异常检测     | 工业、金融风控   | Autoencoder, Isolation Forest | 使用 Reconstruction Loss 等无监督方法 |
| 强化学习     | 策略学习      | DQN, PPO                      | 状态空间需向量化表示，奖励函数设计关键           |


# ⚙️ TensorFlow 特征处理相关工具（推荐）

| 工具                                 | 用途          | 常见用法                     |
| ---------------------------------- | ----------- | ------------------------ |
| `tf.keras.layers.Normalization`    | 数值特征标准化     | `.adapt(train_data)`     |
| `tf.keras.layers.StringLookup`     | 类别字符串转整数    | `.adapt(train_col)`      |
| `tf.keras.layers.CategoryEncoding` | 独热编码 / 多热编码 | 配合 StringLookup 后使用      |
| `tf.keras.layers.Discretization`   | 连续数值转分桶     | `.adapt(col)`，适合 Wide 模型 |
| `tf.data.Dataset`                  | 数据管道        | 用于高效构建训练输入               |
| `tf.feature_column`（旧）             | 特征列组合       | 推荐使用 `preprocessing` 替代  |


# 📌 模型选择建议（按任务目标）

| 任务类型       | 推荐模型                                  |
| ---------- | ------------------------------------- |
| 表格数据二分类/回归 | DNN / Wide & Deep / TabNet            |
| 图像分类       | CNN / ResNet / EfficientNet           |
| 时间序列预测     | LSTM / GRU / 1D-CNN                   |
| 文本分类       | Embedding + LSTM / Transformer / BERT |
| 图像生成       | GAN / VAE                             |
| 异常检测       | AutoEncoder / Isolation Forest        |
| 强化学习       | PPO / DQN（TF-Agents）                  |
