2025-10-28 23:38:55 Tuesday


面试问题记录


## 1.分类任务与异常检测的区别

**分类任务**：目标是区分多个“已知类别”，假设每个类别都有充足的标注样本。模型通过学习不同类别之间的判别边界来实现分类，常采用**交叉熵损失（cross-entropy loss）**作为训练目标。

**异常检测**：目标是发现“未知或罕见的异常”，假设只有“正常类”样本充足，而异常样本极少甚至完全没有标签。此类任务通常缺乏完整的监督信号，因此模型更关注学习“正常样本的分布特征”，并通过**距离度量**或**重构误差**来识别那些偏离正常分布的样本。

---

### 将异常检测任务直接建模为分类任务的问题

在实际应用中，例如“风险问题识别”场景下，风险样本往往极为稀少，而正常问题占绝大多数。
如果直接将任务建模为“有风险 / 无风险”的二分类问题，模型会因数据极度不平衡而难以学习到可靠的判别边界，往往表现为：

* 风险识别的准确率与召回率难以同时提升，二者此消彼长；
* 对未见过的或新型风险类型缺乏泛化能力。

---

### 改造思路：将任务转化为异常检测

为缓解上述问题，可以将任务改造为**异常检测问题**：
首先，仅利用大量“正常”问题样本，通过 **BERT 编码器**提取每条文本的语义向量，使文本在语义空间中获得结构化的语义表示；
然后，使用这些语义向量训练一个 **Auto-Encoder（自编码器）** 网络，使模型学习“正常问题”的语义分布规律。
将稀少的风险样本作为验证集，用于**阈值校准（threshold calibration）**，确定合适的重构误差阈值。

在推理阶段，当新的输入样本到来时，将其语义向量输入 Auto-Encoder 并计算重构误差——若该误差显著大于校准阈值，即表示该问题在语义上偏离了正常分布，可被判定为“潜在风险”或“异常样本”。

---

### 相较于直接二分类的优势

1. **避免数据不平衡影响**：训练阶段仅使用正常样本，无需依赖大量风险样本标注。
2. **具备更强的泛化能力**：模型学习的是“正常样本的分布”，因此即便出现新的风险类型，只要其语义特征与正常样本差异显著，也能被识别为异常。
3. **风险控制更具可解释性**：通过重构误差或语义距离可以量化“样本偏离正常分布的程度”，从而实现动态阈值调整与分级风控处理。




## 2.bert的输出

bert的输出有两类结果

| 输出                       | 形状                                   | 含义                                       |
| ------------------------ | ------------------------------------ | ---------------------------------------- |
| **1. last_hidden_state** | `[batch_size, seq_len, hidden_size]` | 每个 token 的上下文向量表示                        |
| **2. pooler_output**     | `[batch_size, hidden_size]`          | [CLS] 位置经过一个 `tanh` 层后的句向量（BERT 的默认句子表示） |


下面是一个代码实现，注意看结尾注释


In [4]:
import torch
from transformers import BertTokenizer, BertModel

# 1. 加载预训练的中文 or 英文 BERT
# 如果你主要是英文文本，用 'bert-base-uncased'
# 如果你想中文，用 'bert-base-chinese'
MODEL_NAME = "bert-base-uncased"

tokenizer = BertTokenizer.from_pretrained(MODEL_NAME)
model = BertModel.from_pretrained(MODEL_NAME)

# 2. 准备输入文本（单句 or 句对都行）
sentence_a = "Hello world."
sentence_b = "How are you today?"
# sentence_c = "How are you today?"


# 3. tokenizer：把文本 → token ids / segment ids / attention mask
encoded = tokenizer(
    sentence_a,
    sentence_b,                    # 传第二个句子 -> 会自动加 [SEP] 并生成 token_type_ids区分句A/B
    # sentence_c,
    
    padding=True,
    truncation=True,
    return_tensors="pt",           # 直接返回 PyTorch tensor
)

print("=== tokenizer 输出张量 ===")
for k, v in encoded.items():
    print(k, v.shape, v)

# encoded 里典型有：
# - input_ids:        token id 序列
# - token_type_ids:   句子A是0，句子B是1
# - attention_mask:   1=有效token，0=padding

# 4. 前向：送进 BERT
with torch.no_grad():
    outputs = model(**encoded)

# 5. 拿结果
last_hidden_state = outputs.last_hidden_state    # [batch, seq_len, hidden]
pooler_output    = outputs.pooler_output         # [batch, hidden]，等价于"句子向量"

print("\n=== BERT 输出 ===")
print("last_hidden_state:", last_hidden_state.shape)
print("pooler_output:", pooler_output.shape)

# 6. 看看 [CLS] 向量，和任意一个 token 的向量
cls_embedding = last_hidden_state[:, 0, :]       # 第0个位置是 [CLS]
tok1_embedding = last_hidden_state[:, 1, :]      # 第1个位置是第一个真实token

print("\n[CLS] embedding shape:", cls_embedding.shape)
print("First real token embedding shape:", tok1_embedding.shape)

# 7. 举个实际数值片段
print("\n[CLS] embedding (前10维):")
print(cls_embedding[0, :10])

print("\n第一个token的embedding (前10维):")
print(tok1_embedding[0, :10])


##########################################
# 📌 关键解读（看看打印出来的东西时可以对照下面读）
##########################################

# 1) input_ids
#    这是 tokenizer 把 "[CLS] Hello world . [SEP] How are you today ? [SEP]"
#    全部换成词表ID后的整数序列。
#
# 2) token_type_ids
#    同长度向量，比如 [0,0,0,0,0,1,1,1,1,1,1,...]
#    0 表示属于句子A，1 表示属于句子B。
#
# 3) attention_mask
#    和 seq_len 等长，比如 [1,1,1,1,1,1,...,1,0,0,0]
#    告诉BERT哪些位置是真实token(1)，哪些是padding(0)，
#    注意力会在padding上被屏蔽，不会影响别的词。
#
# 4) last_hidden_state
#    形状 [batch_size, seq_len, hidden_size]
#    每个token一个向量（768维 for bert-base）。
#    适合做 token-level 任务，例如 NER、问答里的span抽取。
#
# 5) pooler_output
#    形状 [batch_size, hidden_size]
#    这是 BERT 官方"句子向量"：它取 last_hidden_state[:,0,:] 也就是 [CLS]，
#    但还过了一层线性+Tanh。常拿来做句子分类。
#
# 6) cls_embedding
#    我们手动取的 last_hidden_state[:,0,:]。
#    跟 pooler_output 很接近，但 pooler_output 还多一层变换。
#
# ✅ 总结:
# - 如果你要句子分类，用 pooler_output 或 [CLS] 向量接线性层。
# - 如果你要逐词标注，用 last_hidden_state 的每个位置。


=== tokenizer 输出张量 ===
input_ids torch.Size([1, 11]) tensor([[ 101, 7592, 2088, 1012,  102, 2129, 2024, 2017, 2651, 1029,  102]])
token_type_ids torch.Size([1, 11]) tensor([[0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1]])
attention_mask torch.Size([1, 11]) tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])

=== BERT 输出 ===
last_hidden_state: torch.Size([1, 11, 768])
pooler_output: torch.Size([1, 768])

[CLS] embedding shape: torch.Size([1, 768])
First real token embedding shape: torch.Size([1, 768])

[CLS] embedding (前10维):
tensor([-0.2158,  0.2033, -0.0384, -0.3991, -0.4776, -0.2867,  0.7173,  0.7658,
        -0.0283, -0.3685])

第一个token的embedding (前10维):
tensor([ 0.0255,  0.0870,  0.7774, -0.7172,  0.2613, -0.0265,  0.5924,  0.6962,
        -0.6278, -1.4433])
