# Untargeted Bottom-Up Proteomics 实验流程笔记

## 实验总览 | Workflow Overview

本流程基于 label-free bottom-up proteomics 和 data-dependent acquisition (DDA)，用于大规模蛋白质鉴定和定量。  
This workflow uses label-free bottom-up proteomics with data-dependent acquisition (DDA) to identify and quantify proteins from complex samples.

---

## 1. 样品准备 | Sample Preparation

1. 细胞裂解 / 组织匀浆：提取总蛋白  
   Cell lysis / tissue homogenization: Extract total protein 

2. 蛋白定量：常用 BCA 法  
   Protein quantification: BCA assay is commonly used  

3. 蛋白变性：使用尿素 / 去污剂展开结构  
   Denaturation: Use urea or detergents to unfold protein structures  

4. 还原与烷基化：断开二硫键并封闭巯基  
   Reduction and alkylation: Break disulfide bonds (DTT/TCEP) and block thiols (IAA)  

5. 酶解：用 trypsin/LysC 消化生成肽段  
   Proteolysis: Digest proteins into peptides using trypsin and LysC  

6. 去除杂质 / 清洗：固相萃取去除盐和变性剂  
   Cleanup: Solid-phase extraction (SPE) removes salts and denaturants  

7. 重溶肽段：使用 LC-MS 兼容缓冲液重溶  
   Peptide resuspension: Use LC-MS compatible solvent (e.g., 0.1% FA)  

---

## 2. LC-MS/MS 分析 | LC-MS/MS Analysis

- 液相色谱分离：根据疏水性分离肽段  
  Liquid chromatography (LC): Separates peptides based on hydrophobicity  

- 电喷雾电离（ESI）：将肽段带电  
  Electrospray ionization (ESI): Ionizes peptides from liquid to gas phase  

- MS1 扫描：记录所有前体离子（m/z 和强度）  
  MS1 scan: Measures precursor ions (m/z and intensity)  

- MS2 扫描：选取前体离子碎裂生成碎片谱图  
  MS2 scan: Selects and fragments precursors to generate MS/MS spectra  

---

## 3. DDA 数据采集模式 | Data-Dependent Acquisition

- MS1 中选择最强信号的离子进行碎裂  
  Top N selection from MS1 for fragmentation  

- 使用动态排除防止重复采集  
  Dynamic exclusion prevents repeated fragmentation  

- 常用碎裂方式为 HCD 或 CID  
  HCD or CID are typical fragmentation methods  

---

## 4. 肽段鉴定 | Peptide Identification

- 使用数据库搜索（如 SEQUEST, Andromeda）匹配 MS2 谱图  
  Database search tools (e.g., SEQUEST, Andromeda) match MS2 spectra to theoretical peptides  
- 设置 FDR 控制假阳性率（常用 1%）  
  False Discovery Rate (FDR) is used to control identification quality (typically 1%)  

---

## 5. 蛋白定量 | Protein Quantification

- Label-Free Quantification (LFQ)：使用 MS1 色谱峰面积估算肽段丰度  
  LFQ estimates peptide abundance from MS1 chromatographic peak area

- 限制：不同肽段间信号不可直接比较  
  Limitation: Intensity is peptide-specific and not directly comparable between peptides  

---

## 6. 蛋白推断 | Protein Inference

- 多个肽段整合到蛋白组（protein group）中  
  Peptides are assigned to protein groups  
- 使用 parsimonious 原则，找出最小蛋白集合解释所有肽段  
  Parsimonious inference selects the minimal set of proteins to explain observed peptides  

---

## 7. 统计分析与功能注释 | Statistical Analysis & Functional Interpretation

- 差异分析：使用 Perseus、MSstats、R/Python 工具  
  Differential analysis: Tools include Perseus, MSstats, R/Python  
- 功能注释：GO 富集、KEGG 通路、STRING 网络  
  Biological interpretation: GO enrichment, KEGG pathway, STRING networks  

---

## 总流程总结 | Final Workflow Summary

| 步骤 Step | 中文 | English |
|----------|------|---------|
| 1 | 裂解 & 变性 | Lysis & Denaturation |
| 2 | 还原 & 烷基化 | Reduction & Alkylation |
| 3 | 酶解蛋白质 | Protease digestion |
| 4 | 去杂质 & 重溶 | Cleanup & Resuspension |
| 5 | LC-MS/MS 分析 | LC-MS/MS analysis |
| 6 | 谱图搜索与鉴定 | Spectral search & ID |
| 7 | 相对定量分析 | Relative quantification |
| 8 | 蛋白推断 | Protein inference |
| 9 | 功能注释 | Functional interpretation |




# BCA 蛋白浓度测定法（BCA Assay）

## 1. 原理 | Principle

BCA assay（Bicinchoninic Acid Assay）是一种用于测定蛋白质浓度的比色分析方法。  
The BCA assay is a colorimetric method for determining protein concentration.

它基于两步反应：  
It involves two sequential reactions:

1. **Biuret 反应**（铜还原）| **Biuret Reaction (Cu²⁺ reduction)**  
   在碱性条件下，蛋白质将 Cu²⁺ 还原为 Cu⁺  
   Proteins reduce Cu²⁺ to Cu⁺ under alkaline conditions.

2. **BCA 络合反应** | **BCA-Cu⁺ Complex Formation**  
   Cu⁺ 与 BCA（Bicinchoninic Acid）络合生成紫色化合物，在 562 nm 处吸光度最强。  
   Cu⁺ reacts with BCA to form a purple-colored complex that absorbs strongly at 562 nm.

---

## 2. 操作步骤 | Experimental Steps

| 步骤 Step | 中文说明 | English Description |
|-----------|----------|---------------------|
| 1 | 配制 BCA 工作液 | Prepare BCA working reagent |
| 2 | 加入蛋白样品（待测） | Add protein sample into wells |
| 3 | 加入 BCA 试剂 | Add BCA reagent to each well |
| 4 | 孵育（37–60°C，30 分钟） | Incubate at 37–60°C for 30 minutes |
| 5 | 读取吸光度（562 nm） | Measure absorbance at 562 nm |
| 6 | 根据标准曲线计算浓度 | Calculate protein concentration from standard curve |

---

## 3. 常用标准品 | Common Standard

- **BSA（牛血清白蛋白）** 作为标准品制备标准曲线  
  Bovine Serum Albumin (BSA) is used as the standard protein for calibration.

---

## 4. 优点与注意事项 | Advantages and Considerations

| 项目 Item | 中文说明 | English Description |
|-----------|----------|---------------------|
| 灵敏度 | 检测下限约 0.5 µg/mL | Sensitivity down to ~0.5 µg/mL |
| 稳定性 | 紫色产物稳定数小时 | Color product is stable for hours |
| 兼容性 | 可容忍多种缓冲液、去污剂 | Tolerates many buffers and detergents |
| 干扰物 | DTT、TCEP、EDTA 可能干扰反应 | Reducing agents (DTT, TCEP) and chelators (EDTA) may interfere |

---

## 5. 参考文献 | References

Smith, P. K., et al. (1985). Measurement of protein using bicinchoninic acid. *Analytical Biochemistry*, **150**(1), 76–85.  
https://doi.org/10.1016/0003-2697(85)90442-7


# BCA Assay 原理讲解

## 为什么 BCA assay 能测出蛋白质浓度？  
**Why can the BCA assay measure protein concentration?**

BCA（Bicinchoninic Acid）法测蛋白质，是基于蛋白质**可还原金属离子**这一性质，配合 BCA 显色的化学反应。  
The BCA assay is based on the ability of proteins to **reduce copper ions**, combined with the colorimetric detection by BCA.

---

## 原理分为两步 | Two-Step Mechanism

### 1. Biuret 反应：蛋白还原铜 | Biuret Reaction: Protein Reduces Cu²⁺

在碱性环境下（通常为碱性缓冲液），蛋白质中的以下结构会将二价铜离子（Cu²⁺）还原为一价铜离子（Cu⁺）：  
Under alkaline conditions, proteins reduce Cu²⁺ to Cu⁺ through:

- 肽键本身（尤其是两个以上连续肽键）；  
  **Peptide bonds**, especially dipeptides or longer chains  
- 含硫或芳香氨基酸（如 Cys, Trp, Tyr）  
  Amino acid residues like **cysteine, tryptophan, tyrosine**

生成的 Cu⁺ 量与蛋白质量成正比。  
The amount of Cu⁺ generated is **proportional to the protein content**.

---

### 2. Cu⁺ 与 BCA 络合显色 | Cu⁺ Forms a Purple Complex with BCA

随后，Cu⁺ 与两分子 BCA 形成紫色络合物，在 562 nm 波长具有强吸收：  
The Cu⁺ ion forms a **purple complex** with two BCA molecules, which absorbs strongly at **562 nm**.

$$
\text{Protein amount} \propto \text{Cu}^{+} \propto \text{Absorbance}_{562}
$$

紫色深浅与蛋白质浓度线性相关，可通过标准曲线反推出未知样品浓度。  
The intensity of the purple color correlates linearly with protein concentration, allowing quantification via a standard curve.

---

## 为什么不直接测 Cu⁺？| Why not measure Cu⁺ directly?

- Cu⁺ 本身无色，不能直接测吸光度；  
  **Cu⁺ is colorless** and does not absorb visible light.  
- BCA 与 Cu⁺ 形成的络合物稳定且易检测；  
  The **Cu⁺–BCA complex is stable and measurable**.


---

## 应用说明 | Notes

- 常用 BSA（牛血清白蛋白）制作标准曲线；  
  **BSA** is used as the standard for calibration.  
- 推荐使用空白对照（不含蛋白）扣除背景吸光度。  
  A **blank control** is recommended to subtract background absorbance.  
- 反应产物稳定，可在数小时内读取。  
  The color product is **stable**, allowing flexible reading time.

---

## 参考文献 | Reference

Smith, P. K., et al. (1985). Measurement of protein using bicinchoninic acid.  
*Analytical Biochemistry*, 150(1), 76–85.  
https://doi.org/10.1016/0003-2697(85)90442-7



# 电喷雾电离（ESI）原理

## 什么是 ESI？| What is Electrospray Ionization (ESI)?

ESI 是一种将液体样品（如肽段溶液）转化为 **带电气相粒子** 的方法，用于质谱分析。  
ESI is a technique that transforms liquid samples (e.g., peptide solutions) into **charged gas-phase ions** for mass spectrometry.

---

## 原理解释 | Step-by-Step Explanation

### 1. 带电液滴喷出 | Charged Droplets Ejected

- 肽段溶于水/甲醇等溶液，从一个**细金属喷嘴**喷出；
- 喷嘴上加有高压（例如 +3000 V）；
- 液滴被电场“充电”，带有多个正电荷（如 H⁺）；

Peptide-containing droplets are sprayed from a **metal capillary** under high voltage.  
This voltage **charges the droplets**, typically with protons (H⁺).

---

### 2. 液滴蒸发变小 | Droplet Shrinkage via Evaporation

- 带电液滴飞行过程中，**溶剂蒸发**；
- 液滴越来越小，但带电量不变；
- 电荷密度逐渐升高，电斥力增强。

As the solvent evaporates from the droplets, their size decreases while charge remains.  
This leads to increased surface charge density and electrostatic repulsion.

---

### 3. 液滴崩解释放肽段 | Coulomb Explosion and Ion Formation

- 当电斥力过大，液滴会崩解；
- 肽段以**带电离子形式**喷出（带 1 个或多个 H⁺）；
- 这些肽离子进入质谱仪。

Eventually, the droplet **breaks apart (Coulomb explosion)** and releases **charged peptides**,  
which then **enter the mass spectrometer** as individual ions.

---

## 比喻理解 | Analogy

就像一个装满水的小喷壶，带着电压往外喷，**水蒸发后只剩下被“电场推动”的肽离子**进入 MS 分析。

Think of ESI as a charged spray bottle: as the droplets evaporate, only **charged peptide ions** remain and fly into the MS.

---

## 为什么 ESI 很重要？| Why is ESI Important?

- 适用于液体样品，如 LC-MS；
- 是一种“温和电离”（soft ionization）方式，不破坏肽段；
- 可产生多电荷离子，适合分析高质量分子。

ESI is **compatible with liquid chromatography**, gentle enough to **preserve peptide integrity**,  
and capable of producing **multiply charged ions**, enabling analysis of large biomolecules.



## DDA 数据采集模式 | Data-Dependent Acquisition (DDA)

DDA 是质谱中最常用的一种 **MS/MS 数据采集方式**，通过对前体离子（MS1）进行选择性碎裂，获得其结构信息（MS2）。  
DDA is a common MS/MS data acquisition method that selects precursor ions from MS1 scans for fragmentation and MS2 analysis.

---

### 什么是 DDA？| What is DDA?

- 在每个扫描周期中，质谱仪先进行一次 MS1 扫描，记录所有肽段离子的 m/z 和强度；
- 然后从 MS1 图谱中选择**最强的 N 个离子（Top N）**，对它们进行碎裂；
- 每个被选中的离子会进入碰撞室（collision cell），生成 MS2 碎片图谱；
- 每秒可进行多个 MS1-MS2 扫描循环。

In each cycle, the mass spectrometer:

1. Performs an MS1 full scan;
2. Selects the **top N most intense ions** for fragmentation;
3. Acquires their MS2 spectra;
4. Repeats this cycle throughout the LC gradient.

---

### 为什么要动态排除？| What is Dynamic Exclusion?

#### 问题：强离子会反复被选中 ➜ 数据浪费  
If a strong ion appears repeatedly, it may be selected again and again, wasting MS2 time.

#### 解决：动态排除（Dynamic Exclusion）  
Once an ion is selected, it is temporarily **excluded** (e.g., for 20 seconds),  
so the instrument can focus on **lower-abundance ions**.

- 优点：提升检测覆盖率，避免“看重一个离子看到死”；
- 设置方式：排除时间（如 20–60 秒）、质量误差范围等。

Dynamic exclusion prevents redundant fragmentation of the same precursor,  
allowing broader coverage of peptides.

---

### 常用碎裂方式：HCD vs. CID | Fragmentation Methods: HCD vs. CID

| 方法 | 中文名称 | 机制 | 特点 |
|------|----------|------|------|
| **CID** | 碰撞诱导解离（Collision-Induced Dissociation） | 离子撞击惰性气体（He、N₂），逐步加热断裂 | 常用于离子阱，生成 **b/y 离子** |
| **HCD** | 高能碰撞解离（Higher-energy Collisional Dissociation） | 更高能量一次性碰撞打断 | 常用于 Orbitrap，产生清晰 MS2 图谱、适合 TMT 实验 |

- CID: Traditional, slow heating, useful for ion trap instruments.
- HCD: High-energy, beam-type fragmentation, often used on Orbitraps and TMT workflows.

---

### 举个例子 | Example (Top 10 + Dynamic Exclusion)

- MS1 扫描检测到 1000 个带电肽段；
- 仪器选择强度最高的 10 个进行 MS2 碎裂（Top 10）；
- 设定“动态排除 30 秒” ➜ 同一个肽段 30 秒内不会再被碎裂；
- 下一次扫描选择其余较强的肽段进行分析。

---

### 总结 | Summary

DDA 是一种**基于信号强度选择性采集 MS2 数据**的策略，配合动态排除和合适的碎裂方式（CID/HCD），可有效提高蛋白质组的覆盖率和定性质量。



# DIA 数据采集模式 | Data-Independent Acquisition (DIA)

---

## 什么是 DIA？| What is DIA?

DIA 是一种不再“挑选前体离子”的数据采集方式，而是把**整个 m/z 范围系统性分段，每段全部碎裂**，记录所有片段信息。  
DIA is a data acquisition strategy that **fragments all ions within defined m/z windows**, regardless of their intensity.

---

## DIA vs DDA 核心区别 | Key Differences: DIA vs. DDA

| 特点 | DDA（数据依赖采集） | DIA（数据非依赖采集） |
|------|---------------------|------------------------|
| 选择方式 | Top N 强度离子 | 所有离子 |
| 碎裂方式 | 一个一个碎（有选择） | 分段全部碎裂（无选择） |
| 重现性 | 较低（Top N 不稳定） | 高（全段覆盖） |
| 数据复杂度 | 简单，谱图干净 | 高度重叠，需要复杂解卷积 |
| 常见软件 | MaxQuant, Proteome Discoverer | Spectronaut, DIA-NN, OpenSWATH |
| 适用场景 | 鉴定为主 | 定量为主、高通量实验 |

---

## DIA 工作流程 | How DIA Works

1. 将整个 MS1 的 m/z 范围划分为多个小窗口（如 400–1000 分为 20 个 30 m/z 窗）；
2. 每一窗口内**所有前体离子同时碎裂**；
3. 得到的是**混合 MS2 谱图**，包含多个肽段的碎片信息；
4. 用**谱图库（spectral library）**或预测方法进行解卷积分析。

---

## 举例说明 | Example

- m/z 范围：400–1000；
- 设置 30 个 DIA 窗口，每个宽 20 m/z；
- 扫描顺序为：
  - Window 1: 400–420 → 所有离子碎裂；
  - Window 2: 420–440 → 所有离子碎裂；
  - ...
  - Window 30: 980–1000；

每个 MS2 谱图都包含多个肽段 → 数据分析需要更高算法支持。

---

## DIA 的优点 | Advantages of DIA

- **无偏性**：不会错过低丰度肽段；
- **高度重现性**：不同实验间一致性好；
- **适合定量**：可用于大队列、高通量项目；
- **兼容谱图库 / AI 预测**：如使用 DIA-NN 或 Prosit。

---

## DIA 的挑战 | Challenges of DIA

- **谱图复杂**：MS2 是混合的，不如 DDA 干净；
- **需要专门算法解卷积**；
- 依赖高质量谱图库（或深度学习预测）来解释复杂信号。

---

## 总结 | Summary

DIA 提供了一种全面、重复性强的肽段采集方式，适合于**高通量定量研究**。随着 DIA 分析工具（如 DIA-NN、Spectronaut）的发展，DIA 在蛋白质组学中已成为主流定量方法之一。



# DDA vs. DIA：碎裂方式 & 鉴定 vs. 定量

---

## 一、碎裂方式对比 | Fragmentation Mode Comparison

### DDA（Data-Dependent Acquisition）  
**“一个个碎，有选择”**  
质谱仪在 MS1 扫描后选出最强的 Top N 个离子，**逐个进行碎裂（MS2）**。  
MS2 谱图较干净，但容易漏掉低丰度离子。

> 比喻：像老师点名，“你最吵，你上台回答问题”。

**DDA selects the top N most intense precursor ions from MS1 and fragments them one-by-one.**  
This yields clean MS2 spectra but may miss low-abundance peptides.

---

### DIA（Data-Independent Acquisition）  
**“分段全部碎裂，无选择”**  
仪器把整个 m/z 范围分段（如 400–1000 Da），每段内所有离子一起碎裂。  
MS2 是混合谱图，后期需要解卷积。

> 比喻：像老师按号码段，“1~10号你们一起上来发言”。

**DIA fragments all ions within predefined m/z windows simultaneously, creating complex MS2 spectra.**  
This provides comprehensive coverage but requires advanced data processing.

---

## 表格总结 | Comparison Table

| 特征 Feature | DDA | DIA |
|--------------|-----|-----|
| 离子选择 | Top N 强度 | 所有离子（分段） |
| MS2 谱图 | 干净，容易解析 | 混合，需解卷 |
| 漏检风险 | 高（低丰度肽可能漏掉） | 低（全面采集） |
| 数据复杂度 | 低 | 高 |
| 适合用途 | 鉴定为主 | 定量为主、高通量分析 |

---

## 二、鉴定 vs 定量 | Identification vs Quantification

### 鉴定（Identification）  
> 问题：**“这个碎片是谁？”**  
目标是找出每条 MS2 谱图对应的肽段和蛋白。

- 靠 MS2 中的 b/y 离子；
- 比对数据库；
- 输出：蛋白/肽段列表。

**Identification asks "What is this peptide/protein?" using MS2 spectra and database matching.**

---

### 定量（Quantification）  
> 问题：**“这个蛋白有多少？”**  
目标是比较不同样本中相同蛋白/肽段的含量差异。

- Label-free ➜ 看 MS1 峰面积；
- TMT ➜ 看 reporter ion 强度；
- 输出：表达量、差异表达统计。

**Quantification asks "How much of it is present?" by comparing signal intensities across samples.**

---

## 对比总结 | Summary Table

| 项目 | 鉴定 Identification | 定量 Quantification |
|------|---------------------|----------------------|
| 意义 | 这是谁？ | 有多少？ |
| 数据来源 | MS2 碎片 | MS1 强度或 reporter ion |
| 输出 | 蛋白/肽列表 | 表达量/丰度变化 |
| 类比 | 谁来了？ | 来了多少人？ |
| 关键软件 | 搜索引擎：Andromeda, SEQUEST | 定量软件：MaxQuant, DIA-NN |



# 肽段鉴定详细解释 | Peptide Identification Explained

---

## 什么是肽段鉴定？| What is Peptide Identification?

目标是：**根据 MS2 谱图，判断这个肽段是谁？**

质谱仪不会直接告诉你氨基酸序列，只会给出一组碎片离子的质量（m/z）和强度。  
因此我们需要通过 **数据库搜索** 来还原肽段序列。

---

## 1. 数据库搜索是怎么做的？| How Does Database Searching Work?

### 步骤如下：

1. 提供一个蛋白质数据库（如 SwissProt）；
2. **软件工具**（如 SEQUEST, Andromeda）将数据库中的蛋白质**模拟酶切**生成所有可能的肽段；
3. 对每条肽段模拟其理论碎片谱图（b/y 离子）；
4. 将实验中获得的 MS2 谱图与这些理论谱图一一比对；
5. 计算相似度得分，找出匹配最好的肽段。

> 就像“看残片猜原句”：  
> MS2 碎片 = 残缺的句子，数据库 = 所有可能的原句，  
> 软件负责匹配：哪个原句最可能产生这些残片？

---

## 2. 什么是 FDR？| What is False Discovery Rate?

数据库越大，随机匹配的“伪匹配”就越多。为了不把这些错配当成真结果，我们需要设置统计过滤阈值——这就是 FDR。

### FDR 的定义：

**在所有被认为是“真实鉴定”的结果中，有多少比例是错误的？**

$$
\text{FDR} = \frac{\text{False Positives}}{\text{All Positives}}
$$

---

### 怎么估算 FDR？

使用 **target-decoy 策略**：

- 在数据库中加入一份“假的反向或打乱序列”（decoy）；
- 把真实（target）和假（decoy）肽段都参与搜索；
- 观察 decoy 匹配占比，估算整体的错误识别率。

---

### 举个例子：

- 总共匹配出 1000 条肽段；
- 其中 10 条匹配到了 decoy 库；
- 则估计有 10 条 target 匹配也是错的 ➜ FDR = 10 / 1000 = **1%**

所以：**设置 FDR ≤ 1% 意味着你最多接受 1% 的假阳性结果。**

---

## 总结表格 | Summary Table

| 项目 | 内容（中文） | 内容（English） |
|------|--------------|------------------|
| 鉴定方法 | 数据库搜索（MS2 vs 理论肽段） | Database search (MS2 vs theoretical peptides) |
| 工具 | SEQUEST, Andromeda | SEQUEST, Andromeda |
| 数据库 | SwissProt, UniProt | SwissProt, UniProt |
| 匹配依据 | b/y 离子的 m/z 与强度 | b/y ion patterns (m/z & intensity) |
| FDR 含义 | 假阳性比例 | False discovery rate |
| 常用 FDR 阈值 | ≤ 1% | ≤ 1% |

---

## 延伸阅读 | Further Reading

- Elias, J. E., & Gygi, S. P. (2007). *Target-decoy search strategy for increased confidence in large-scale protein identifications by mass spectrometry*. Nat. Methods, 4(3), 207–214.  
  https://doi.org/10.1038/nmeth1019



# Peptide Identification 中谱图匹配的数学原理

---

## 1. 问题背景 | Problem Setting

在质谱（MS/MS）中，我们的目标是根据实验获得的 MS2 谱图，识别出最可能的肽段序列。  
This requires comparing the experimental MS2 spectrum to many theoretical spectra and **scoring their similarity**.

---

## 2. 向量表示谱图 | Representing Spectra as Vectors

我们可以将谱图离散化成向量的形式，令：

$$
S_{\text{exp}} = [I_1^{\text{(exp)}}, I_2^{\text{(exp)}}, \ldots, I_n^{\text{(exp)}}]
$$

$$
S_{\text{theory}} = [I_1^{\text{(theory)}}, I_2^{\text{(theory)}}, \ldots, I_n^{\text{(theory)}}]
$$

其中第 \( i \) 个元素表示某个 m/z 区间（bin）上的离子强度。


---

## 3. 匹配打分方法 | Matching Score Methods

### 3.1 Dot Product（向量内积）

$$
\text{DotScore} = \sum_{i=1}^{n} I_i^{\text{(exp)}} \cdot I_i^{\text{(theory)}}
$$

- 度量两个谱图在每个 m/z 上的强度一致性；
- 如果强度在相同位置都很高，则分数高；
- 常用于余弦相似度计算（见下）。

---

### 3.2 Cosine Similarity（余弦相似度）

$$
\text{CosineScore} = \frac{\sum_{i=1}^{n} I_i^{\text{(exp)}} \cdot I_i^{\text{(theory)}}}{\sqrt{\sum_{i=1}^{n} \left(I_i^{\text{(exp)}}\right)^2} \cdot \sqrt{\sum_{i=1}^{n} \left(I_i^{\text{(theory)}}\right)^2}}
$$

- 归一化后计算两个谱图夹角的余弦；
- 接近 1 表示高度相似。

---

### 3.3 XCorr（交叉相关打分）数学定义

XCorr（Cross-correlation score）是 SEQUEST 中用于谱图匹配的鲁棒打分方式，基本思想是：

> **将实验谱图与理论谱图对齐后计算匹配强度（RawScore），再减去其“随机错位匹配”的平均强度（ExpectedBackground），提高抗噪性能。**


#### 原始匹配得分（Raw Score）

$$
\text{RawScore} = \sum_{k=1}^{n} x_k \cdot y_k
$$

- \( x_k \)：理论谱图向量中的第 \( k \) 个 bin，通常为 0 或 1，表示是否有预测碎片；
- \( y_k \)：实验谱图向量中的第 \( k \) 个 bin 的离子强度。


#### 背景期望（Expected Background）

为估计“随机匹配”的平均值，SEQUEST 计算错位后的匹配情况：

$$
\text{ExpectedBackground} = \frac{1}{2L + 1} \sum_{\delta = -L}^{L} \sum_{k=1}^{n} x_k \cdot y_{k + \delta}, \quad \delta \ne 0
$$

- \( \delta \)：滑动偏移量（shift），表示谱图错位的程度；
- 排除 \(\delta = 0\) 是因为那就是正对齐（RawScore），不能算背景；
- 总共用了 \( 2L \) 个非中心位置（前 \( L \) 个 + 后 \( L \) 个）；
- **加上中心 \(\delta = 0\)** 一共是 \( 2L + 1 \) 项，所以为了取“平均”，分母设为 \( 2L + 1 \)。

> ⚠️ **注意**：虽然 \(\delta = 0\) 被排除在求和之外，但分母仍设为 \( 2L + 1 \)（而不是 \( 2L \)），
> 这是因为 SEQUEST 设计中为了标准化背景分数，使其能与 RawScore 直接做差时有更平衡的尺度。


#### 最终打分公式（XCorr）

$$
\text{XCorr} = \text{RawScore} - \text{ExpectedBackground}
$$

- 如果某个肽段的匹配是“真实的”，那么正对齐的得分（RawScore）应远高于随机错位匹配（背景）；
- 所以 XCorr 会高；
- 如果是随机匹配，RawScore 与背景相似，XCorr 会接近 0。


#### 实验谱图预处理（补充）

在实际实现中，为了避免强峰主导得分，SEQUEST 会对 \( y_k \) 做如下归一化：

- 强度归一化（sqrt scaling）：\( y_k \leftarrow \sqrt{y_k} \)
- 或最大值缩放（normalization）：\( y_k \leftarrow \frac{y_k}{\max(y)} \)


---

## 4. 是不是期望？| Is the dot product an expectation?

$$
\sum_{i=1}^{n} I_i^{\text{(exp)}} \cdot I_i^{\text{(theory)}}
$$

这不是统计学意义上的期望（expectation），因为：

- 没有概率权重；
- 不是对随机变量的加权平均；
- 它是 **线性代数中的内积操作**（dot product），衡量谱图向量对齐程度。

---

## 参考资料 | References

- Eng, J. K., McCormack, A. L., & Yates, J. R. (1994). *An approach to correlate tandem mass spectral data of peptides with amino acid sequences in a protein database*. JASMS.
- Cox, J., & Mann, M. (2008). *MaxQuant enables high peptide identification rates...*. Nat Biotech.
- Frank, A., & Pevzner, P. (2005). *PepNovo: de novo peptide sequencing via probabilistic network modeling*. Anal Chem.


## 5. 蛋白定量 | Protein Quantification

---

### Label-Free Quantification (LFQ) 是什么？

LFQ 是通过 MS1 色谱峰面积来估算肽段在样本中的丰度：

- 对每个肽段，提取其 **XIC（Extracted Ion Chromatogram）**；
- 计算保留时间区间内的峰面积；
- 面积大小反映该肽段在样本中的丰度（相对量）。

---

### ✅ 什么能比较？

- 同一个肽段，在不同样本之间的强度变化  
  ✅ 可以比较，因为它们经历了相同的电离和检测过程

- 同一个蛋白的多个肽段，在不同样本中汇总后的平均  
  ✅ 通常可以比较（通过多个肽段平均误差）

---

### ❌ 什么不能直接比较？

- 不同肽段之间的强度大小  
  ❌ 不可以比较，因为它们的电离效率、色谱行为等不同

- 不同蛋白之间的总强度大小  
  ❌ 通常不建议比较，除非做过归一化和标准化

---

### 📉 为什么不同肽段不能直接比较？

#### 1. 离子化效率不同（Ionization Efficiency）

- 不同肽段带电能力差异大（如含多个 K/R 的更容易电离）；
- 即使浓度一样，强度可能差别 10 倍以上。

#### 2. 色谱行为不同（Retention Profile）

- 峰展宽 vs. 峰集中，面积和峰值关系不同；
- 对比瞬时强度易受干扰。

#### 3. 仪器响应曲线差异

- 不同 m/z 的检测灵敏度略有偏差；
- 大肽段或带多电荷的响应可能偏低。

---

### 📐 数学表达

对于肽段 \( P \)，在样本 \( i \) 中的 MS1 强度记为：

$$
\text{Intensity}_{P, i} = k_P \cdot A_{P, i}
$$

其中：

- \( A_{P, i} \)：第 \( i \) 个样本中该肽段的实际丰度；
- \( k_P \)：肽段 \( P \) 的电离常数（未知但固定）；

因此：

- 对于同一肽段比较不同样本：
  
  $$
  \frac{\text{Intensity}_{P, i}}{\text{Intensity}_{P, j}} = \frac{A_{P, i}}{A_{P, j}} \quad \text{（可比较）}
  $$

- 但对于两个不同肽段 \( P \) 和 \( Q \)：

  $$
  \frac{\text{Intensity}_{P}}{\text{Intensity}_{Q}} = \frac{k_P \cdot A_P}{k_Q \cdot A_Q} \quad \text{（不可比较）}
  $$

---

### ✅ 总结 | Summary

| 比较对象 | 是否推荐？ | 原因 |
|-----------|--------------|--------|
| 同一肽段在不同样本中的强度 | ✅ 可以 | 电离效率相同，可反映相对丰度 |
| 同一蛋白在不同样本中（多个肽段汇总） | ✅ 可以 | 误差可平均 |
| 不同肽段之间的强度 | ❌ 不推荐 | 电离行为不同 |
| 不同蛋白之间的总强度 | ❌ 不推荐 | 缺乏统一标准，误差大 |



## 什么是 XIC 面积？| What is XIC Area?

XIC（Extracted Ion Chromatogram）面积是定量质谱中的关键指标：

- 对某个 m/z 匹配的肽段，提取其在 LC-MS 过程中的保留时间窗口；
- 在该窗口内记录 MS1 层上的信号强度曲线；
- 对该强度曲线积分，得到面积；
- 面积越大，说明该肽段在样本中的丰度越高。

---

### 数学表达 | Mathematical Expression

令：

- \( I(t) \)：在时间 \( t \) 上某个 m/z 的 MS1 信号；
- \( t_1, t_2 \)：肽段色谱峰的开始和结束时间；

则 XIC 面积为：

$$
A = \int_{t_1}^{t_2} I(t) \, dt
$$

在实际采样中，用离散求和近似：

$$
A \approx \sum_{t = t_1}^{t_2} I(t) \cdot \Delta t
$$

---

### 说明 | Notes

- 面积越大，肽段浓度越高（相对）；
- 同一个肽段跨样本比较是可靠的；
- 但不同肽段面积不可直接比较（见前节说明）。


## MS1 信号的函数模型 | Mathematical Shape of MS1 Signal

---

### 什么是 MS1 信号？

MS1 信号指的是在质谱一级（MS1）中，**某个特定 m/z 离子**在随时间变化过程中的信号强度：

- 每次 LC-MS 扫描时记录该 m/z 的强度；
- 连续扫描获得其随时间的强度变化；
- 称为 **XIC（Extracted Ion Chromatogram）** 曲线。

---

### MS1 信号长什么样？| What Does MS1 Signal Look Like?

在色谱过程中，肽段被洗脱出来时会形成一个“峰”：

- 通常是近似 **高斯分布（Gaussian peak）**；
- 有时存在拖尾（tailing） ➜ 类似于 **偏高斯峰** 或 **EMG（Exponentially Modified Gaussian）**。

---

### 理想模型：高斯函数 | Ideal Case: Gaussian Function

$$
I(t) = A \cdot \exp\left( -\frac{(t - t_r)^2}{2\sigma^2} \right)
$$

- \( I(t) \)：保留时间 \( t \) 时的 MS1 强度；
- \( A \)：峰高（最大信号强度）；
- \( t_r \)：色谱保留时间（肽段流出的中心时间）；
- \( \sigma \)：峰宽，决定峰的扩散程度。

---

### 实际模型：Exponentially Modified Gaussian（EMG）

考虑洗脱过程中出现拖尾，实际模型可以使用 EMG 表示：

$$
I(t) = A \cdot \exp\left( -\frac{t - t_r}{\tau} \right) \cdot \Phi\left( \frac{t - t_r}{\sigma} \right)
$$

其中：

- \( \Phi(\cdot) \)：标准正态分布的累积分布函数（CDF）；
- \( \tau \)：指数衰减项，控制拖尾程度；
- 当 \( \tau \to \infty \) 时恢复为标准高斯。

---

### 为什么是峰形？| Why Is It Peak-Shaped?

- LC（液相色谱）使肽段按疏水性分离，每种肽段在特定时间洗脱；
- 这个时间窗口内，该 m/z 的信号会出现强度上升 → 峰值 → 下降；
- MS1 连续采集信号就形成了时间轴上的峰曲线。

---

### 应用：XIC 面积定量

提取该峰区间的积分面积作为相对丰度指标：

$$
\text{XIC Area} = \int_{t_1}^{t_2} I(t) \, dt \approx \sum_{i=1}^{n} I(t_i) \cdot \Delta t
$$

- XIC 面积反映该肽段被检测到的“总量”；
- 只在同一个肽段不同样本中具有可比性。

---

### 总结 | Summary

| 属性 | 模型 | 特征 |
|------|------|------|
| 理想信号 | 高斯函数 | 对称峰 |
| 实际信号 | EMG 模型 | 拖尾偏移 |
| 用途 | XIC 积分定量 | 面积与丰度相关 |

