# **Guomics 实习生评测**

欢迎参加 Guomics 实习生评测。本次测试旨在评估您的 Python 熟练度以及从问题理解、抽象到最终解决的全流程能力。评测包含一个基础任务和一个附加任务，请在完成基础任务后，再对附加任务进行探索。

> ⚠️ 请不要过度依赖大语言模型。它们的回答可能不准确，并且其使用痕迹很容易被识别。如果您确实需要使用，请确保您完全理解其提供的方案，并已验证其正确性。

---

## **背景介绍**

在基于质谱的蛋白质组学中，分析结果通常被整合为一个**表达矩阵**，其中每一行代表一个样本，每一列代表一个蛋白。这些矩阵是下游生物信息学分析的基础。然而，一个普遍的挑战是表达矩阵中常常存在**缺失值**，且缺失比例不一。**这些缺失值的产生大都是由于该蛋白的表达量较低，在仪器的检测下限附近，并且表达量越低越容易产生缺失。** 您的任务是以一种可靠且合理的方式对这些缺失值进行插补。


## **基础任务**

我们为您准备了一套完整的模拟数据集。您会找到以下三个文件：

* `train_data.csv`：一个包含人为制造的缺失值的表达矩阵。
* `test_data.csv`：另一个同样包含缺失值的表达矩阵。
* `train_data_groundtruth.csv`：`train_data.csv` 对应的完整、无缺失的原始数据，供您用于训练和评估模型。

这些数据集源自于一个完整的表达矩阵。我们将其按 8:2 的比例分割，其中 80% 作为训练集，其余 20% 作为测试集。您的核心目标是，首先基于训练文件开发并验证您的数据插补方法，然后将该方法应用到测试文件上。

### **工作流程**

1.  **开发与验证方法**
    利用 `train_data.csv` 和 `train_data_groundtruth.csv`  来构建您的插补方法。您的目标是让填充后的 `train_data.csv` 与 `train_data_groundtruth.csv` 尽可能地接近。

2.  **应用于测试数据**
    当您对自己的方法有信心后，请将其应用于 `test_data.csv`，填充其中的所有缺失值。

3.  **提交结果**
    将您最终处理完成的、完整的测试数据矩阵保存为一个新文件，命名为 `test_data_imputed.csv`。该文件是您需要提交的成果，文件中填充值与真实值的RMSE是最终的评价指标。


### **方法建议**

以下是一些可供您探索的插补方法：

* 基于Random Forest的插补
* 基于 XGBoost 的插补
* 基于矩阵分解的插补

...

我们鼓励您**亲手实现一个方法**，而不仅仅是直接调用现有的库函数。这能更好地展示您对算法原理的理解。

---

### **提交要求**

1.  **最终产出**:
    将您最终处理完成的、完整的测试数据矩阵保存为一个新文件，命名为 `test_data_groundtruth.csv`。

2.  **过程记录**:
    您所有的实现代码、运行日志、关键步骤的注释以及必要的文字描述，都必须记录在本文件中一并提交。**我们不接受仅提交最终数据文件的形式。**

3.  **正确的引用**：
    如果您用到了非本人的实现，请在您的代码注释和文字描述中明确注明，并附上原始实现的链接或相关文献。尊重他人的工作是科研的基本准则。

以下是一个简单地用最小值填充的示例，你的实现应当和这个函数结构相似。

In [None]:
import numpy as np

def min_impute(train, test, train_gt):
    column_mins_np_array = np.zeros(test[1])
    for col_idx in range(test[1]):
        col_data = test[:, col_idx]
        non_zero_non_nan = col_data[(~np.isnan(col_data)) & (col_data != 0)]
        column_mins_np_array[col_idx] = np.min(non_zero_non_nan)

    imputed = test.copy()
    nan_indices = np.where(np.isnan(test))
    imputed[nan_indices] = np.take(column_mins_np_array, nan_indices[1])
    
    return imputed

## **附加任务**

在您收到的项目文件中，我们提供了一个 `modules.py` 文件。该文件中包含一个去噪自编码器类的基本框架，但其核心的**前向传播** (`forward`) 逻辑已被移除。

您的任务是：
1.  **补全代码**：请您在 `modules.py` 文件中，补全 `AE` 类里的 `forward` 方法。

2.  **训练与可视化**：完成代码补全后，在本文件中调用这个自编码器进行训练，**绘制训练过程中的损失（Loss）变化曲线**并展示。利用训练好的去噪自编码器对`test_data`进行填充，结果保存为`DAE_imputed_test_data.csv`我们推荐使用pytorch Lightning进行训练过程的封装，推荐使用tensorboard进行训练过程的记录。如果您有其他偏好的方法也没有问题。


## **加分项**
我们强烈建议您使用 conda 来管理您的项目环境。如果您能将最终使用的环境依赖导出，并保存为 environment.yml 或 requirements.txt 文件随项目一同提交，这将是一个有力的加分项。
