## 背景
随着网络诈骗越来越多，经常有一些不法分子利用网络会议软件进行诈骗，为此需要训练一个文本分类检测模型，来实时检测会议中的对话内容是否存在诈骗风险，以帮助用户在网络会议中增强警惕，减少受到欺诈的风险。

考虑模型的预训练成本高昂，选择一个通用能力强的模型底座进行微调是一个比较经济的做法，我们选择模型底座主要考虑以下几个因素：
- 预训练主要采用中文语料，具有良好的中文支持能力
- 模型需要具备基本的指令遵循能力。
- 模型要能理解json格式，具备输出json格式的能力。
- 在满足以上几个能力的基础上，模型参数量越小越好。

选厂商：
- 智谱AI：清华，参数规模主要在6B、9B
- 书生浦语：商汤，只有一个7B规模的参数
- 零一万物：创新工厂，只有一个6B模型
- 通义千问：阿里，参数规模有0.5B、1.5B、7B、72B

通义千问Qwen2提供了不同参数大小的模型，能让我们有更多的选择。我们需要做的是从大到小依次测试每个模型的能力，找到满足自己需要的最小参数模型。

## 模型下载

依次下载qwen2的不同尺寸的模型：0.5B-Instruct、1.5B、1.5B-Instruct、7B-Instruct，下载完后会输出模型在本地磁盘的路径。
> 1.5B和1.5B-Instruct的主要区别：按照官方文档，前者是预训练模型，后者是经过指令微调的模型。为了确定应该选择预训练模型还是指令微调模型，这里将两个模型都下载下来进行对比测试。

In [1]:
#模型下载
from modelscope import snapshot_download
cache_dir = '/data2/anti_fraud/models/modelscope/hub'
model_dir = snapshot_download('Qwen/Qwen2-7B-Instruct', cache_dir=cache_dir, revision='master')
# model_dir = snapshot_download('Qwen/Qwen2-0.5B-Instruct', cache_dir=cache_dir, revision='master')
# model_dir = snapshot_download('Qwen/Qwen2-1.5B-Instruct', cache_dir=cache_dir, revision='master')
# model_dir = snapshot_download('Qwen/Qwen2-1.5B', cache_dir=cache_dir, revision='master')
model_dir



'/data2/anti_fraud/models/modelscope/hub/Qwen/Qwen2-7B-Instruct'

In [1]:
!ls -l '/data2/anti_fraud/models/modelscope/hub/Qwen/Qwen2-7B-Instruct'

total 14885584
-rw-rw-r-- 1 xiaoguanghua xiaoguanghua        663 Aug  5 17:15 config.json
-rw-rw-r-- 1 xiaoguanghua xiaoguanghua         48 Aug  5 17:15 configuration.json
-rw-rw-r-- 1 xiaoguanghua xiaoguanghua        243 Aug  5 17:15 generation_config.json
-rw-rw-r-- 1 xiaoguanghua xiaoguanghua      11344 Aug  5 17:15 LICENSE
-rw-rw-r-- 1 xiaoguanghua xiaoguanghua    1671839 Aug  5 17:15 merges.txt
-rw-rw-r-- 1 xiaoguanghua xiaoguanghua 3945426872 Aug  5 17:33 model-00001-of-00004.safetensors
-rw-rw-r-- 1 xiaoguanghua xiaoguanghua 3864726352 Aug  5 17:50 model-00002-of-00004.safetensors
-rw-rw-r-- 1 xiaoguanghua xiaoguanghua 3864726408 Aug  5 18:08 model-00003-of-00004.safetensors
-rw-rw-r-- 1 xiaoguanghua xiaoguanghua 3556392240 Aug  5 18:24 model-00004-of-00004.safetensors
-rw-rw-r-- 1 xiaoguanghua xiaoguanghua      27752 Aug  5 18:24 model.safetensors.index.json
-rw-rw-r-- 1 xiaoguanghua xiaoguanghua       6565 Aug  5 18:24 README.md
-rw-rw-r-- 1 xiaoguanghua xiaoguanghua       128

## 封装函数

先封装一个函数load_model，用于从参数model_dir指定的路径中加载模型model和序列化器tokenizer，加载完后将模型手动移动到指定的GPU设备上。

> 注：如果同时指定device和device_map=“auto"，可能会导致RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cuda:1 and cuda:2!

In [1]:
import os
from transformers import AutoModelForCausalLM, AutoTokenizer

def load_model(model_dir, device='cuda'):
    model = AutoModelForCausalLM.from_pretrained(
        model_dir,
        torch_dtype="auto",
        trust_remote_code=True
        # device_map="auto"     
    )
    
    model = model.to(device)
    tokenizer = AutoTokenizer.from_pretrained(model_dir, trust_remote_code=True)
    return model, tokenizer

再封装一个predict函数用于文本推理，考虑到我们将要用多个不同参数的模型分别进行测试，这里将model和tokenizer提取到参数中，以便复用这个方法。

In [2]:
def predict(model, tokenizer, prompt, device='cuda', debug=True):
    messages = [
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": prompt}
    ]
    text = tokenizer.apply_chat_template(
        messages,
        tokenize=False,
        add_generation_prompt=True,
    )
    print(f"input: {text}") if debug else None
    model_inputs = tokenizer([text], return_tensors="pt").to(device)
    print(f"input_ids: {model_inputs}") if debug else None
    
    generated_ids = model.generate(
        model_inputs.input_ids,
        max_new_tokens=512,
    )
    print(f"generated_ids: {generated_ids}") if debug else None
    generated_ids = [
        output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
    ]
    
    return tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

## 7B-Instruct模型测试

首先加载模型，并指定模型要加载到的目标设备。

> cuda:2表示序号为2的GPU设备，当机器上有多张GPU时，用序号来区分不同的GPU，序号从0开始。

In [4]:
device = "cuda:2" # the device to load the model onto

model_dir = "/data2/anti_fraud/models/modelscope/hub/Qwen/Qwen2-7B-Instruct"
model70, tokenizer70 = load_model(model_dir, device)

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

7B模型使用transformers加载大概占用内存15G左右，
```
 2   N/A  N/A     38755      C   ...naconda3/envs/python3_10/bin/python    15392MiB
```

检查模型参数的设备分配是否如预期。

In [None]:

for name, param in model70.named_parameters():
    print(name, param.device)

测试模型生成中文文本的基础能力。

In [6]:
%%time
prompt = "请简短介绍下大语言模型。"
predict(model70, tokenizer70, prompt, device, debug=False)

The attention mask is not set and cannot be inferred from input because pad token is same as eos token.As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.


CPU times: user 12 s, sys: 385 ms, total: 12.4 s
Wall time: 12.4 s


'大语言模型（Large Language Model）是指通过大规模训练数据和复杂神经网络架构构建的预训练语言模型，如通义千问、通义万相、通义听悟等。这些模型具有强大的语言生成和理解能力，能够生成与输入相关、连贯且符合语法的文本，支持多种语言任务，包括但不限于文本生成、问答、对话、翻译、代码编写、文本摘要、故事创作、诗歌生成等。\n\n大语言模型的关键特性包括：\n\n1. **大规模训练**：通常基于庞大的多语言、多领域的训练数据集进行预训练，以学习到丰富的语言模式和上下文关联。\n\n2. **多模态扩展**：部分模型通过结合图像、音频等多模态信息进行训练，增强其在跨媒体任务上的表现。\n\n3. **参数量巨大**：通常拥有数十亿甚至数百亿个参数，使得模型能够在复杂任务上表现出色。\n\n4. **自监督学习**：主要采用自监督学习方式训练，通过预测序列中的缺失或变换后的单词来优化模型参数。\n\n5. **微调与适应**：经过预训练的大语言模型可以针对特定任务进行微调，以适应特定领域或场景的需求。\n\n6. **开放性和灵活性**：提供API接口供开发者和研究人员使用，易于集成到各种应用和服务中。\n\n大语言模型的出现极大地推动了自然语言处理技术的发展，为人工智能领域的多项应用提供了强有力的工具和支持。然而，它们也面临着隐私保护、伦理道德、生成内容的真实性和多样性等方面的挑战，因此在实际应用中需要谨慎考虑和合理使用。'

In [None]:
虽然我们要求简短，但生成的内容还是有点多，这可能与训练过程有关。从格式上看，自动采用了markdown语法进行结构化输出。

再来测试模型遵循指令和输出json格式的能力。

In [6]:
%%time
prompt = "下面是一段对话文本, 请分析对话内容是否有诈骗风险，只以json格式输出你的判断结果(is_fraud: true/false)。\n\n张伟:您好，请问是林女士吗？我是中通快递客服，我姓张。您前几天网上买了一辆自行车对吧？很抱歉，我们的快递弄丢了，按规定我们会赔偿您360元。"
predict(model70, tokenizer70, prompt, device, debug=False)

CPU times: user 338 ms, sys: 23.6 ms, total: 361 ms
Wall time: 359 ms


'{\n"is_fraud": false\n}'

不仅输出了json，还对json内容进行了格式化换行。

结论：从基本功能测试来看，7B-Instruct模型是满足需求的，并且有着超出我们需求的能力。

## 1.5B-Instruct模型测试

先加载模型。

In [7]:
device = "cuda:2" # the device to load the model onto

model_dir = "/data2/anti_fraud/models/modelscope/hub/Qwen/Qwen2-1___5B-Instruct"
model15, tokenizer15 = load_model(model_dir, device)

# 检查特殊标记
special_tokens = tokenizer15.special_tokens_map
print("Special tokens:", special_tokens)

Special tokens: {'eos_token': '<|im_end|>', 'pad_token': '<|endoftext|>', 'additional_special_tokens': ['<|im_start|>', '<|im_end|>']}


检查所有参数是否分配在指定的设备上

In [None]:
for name, param in model15.named_parameters():
    print(name, param.device)

测试模型生成文本和简单遵循指令的基础能力。

In [13]:
%%time
prompt = "请简短介绍下大语言模型。"
predict(model15, tokenizer15, prompt, device, debug=False)

CPU times: user 2.44 s, sys: 23.9 ms, total: 2.46 s
Wall time: 2.46 s


'大语言模型是一种基于深度学习的自然语言处理技术，能够理解、生成和处理文本数据，并通过机器学习算法进行训练，从而实现智能对话、自动写作等任务。它可以通过模仿人类的语言表达能力来完成各种任务，具有广泛的应用前景。'


再来测试模型遵循指令和输出json格式的能力。

In [6]:
%%time
prompt = "下面是一段对话文本, 请分析对话内容是否有诈骗风险，以json格式输出你的判断结果(is_fraud: true/false)。\n\n张伟:您好，请问是林女士吗？我是中通快递客服，我姓张。您前几天网上买了一辆自行车对吧？很抱歉，我们的快递弄丢了，按规定我们会赔偿您360元。"
predict(model15, tokenizer15, prompt, device, debug=False)

input: <|im_start|>system
You are a helpful assistant.<|im_end|>
<|im_start|>user
下面是一段对话文本, 请分析对话内容是否有诈骗风险，以json格式输出你的判断结果(is_fraud: true/false)。

张伟:您好，请问是林女士吗？我是中通快递客服，我姓张。您前几天网上买了一辆自行车对吧？很抱歉，我们的快递弄丢了，按规定我们会赔偿您360元。<|im_end|>
<|im_start|>assistant

input_ids: {'input_ids': tensor([[151644,   8948,    198,   2610,    525,    264,  10950,  17847,     13,
         151645,    198, 151644,    872,    198, 100431,  99639,  37474, 105051,
         108704,     11,    220,  14880, 101042, 105051,  43815, 107189, 106037,
         101052,   3837,  23031,   2236,  68805,  66017, 103929, 104317,  59151,
           9623,    761,  97957,     25,    830,  91233,      8,   3407,  86341,
         100201,     25, 111308,  37945,  56007,  20412,  99463, 104308, 101037,
          11319, 104198,  15946,  31935, 104655, 105041,   3837,  35946, 101395,
          86341,   1773,  87026, 112607, 102001,  99565,  99593, 100408, 106043,
          32664, 100003,  11319,  99165, 115546,   3837, 103952, 104655, 10

'{"is_fraud": false}'

结论：1.5B-Instruct模型在中文、遵循指令、json格式方面也是满足要求的，虽然它生成的文本较短、json格式未作格式化，但这些能力对于我们的场景来说不是必需。

## 预训练模型Qwen2-1.5B测试

In [None]:
model_base_dir = "/data2/anti_fraud/models/modelscope/hub/Qwen/Qwen2-1___5B"
model_base, tokenizer_base = load_model(model_base_dir, device)

测试模型遵循指令和输出json格式的能力。

In [10]:
%%time
prompt = "下面是一段对话文本, 请分析对话内容是否有诈骗风险，以json格式输出你的判断结果(is_fraud: true/false)。\n\n张伟:您好，请问是林女士吗？我是中通快递客服，我姓张。您前几天网上买了一辆自行车对吧？很抱歉，我们的快递弄丢了，按规定我们会赔偿您360元。"
predict(model_base, tokenizer_base, prompt, device, debug=False)

The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:151643 for open-end generation.


CPU times: user 16.4 s, sys: 22.6 ms, total: 16.4 s
Wall time: 16.4 s


'根据对话内容，可以判断出存在诈骗风险。以下是详细分析：\n\n1. 张伟以中通快递客服的身份出现，这表明他可能是一个骗子。\n2. 他自称姓张，这表明他可能是一个骗子。\n3. 他询问林女士是否是林女士，这表明他可能是一个骗子。\n4. 他告诉林女士，她的自行车被快递弄丢了，这表明他可能是一个骗子。\n5. 他要求赔偿360元，这表明他可能是一个骗子。\n6. 他没有提供任何证据来证明他的身份和赔偿金额，这表明他可能是一个骗子。\n7. 他没有提供任何联系方式，这表明他可能是一个骗子。\n8. 他没有提供任何退款或赔偿的详细信息，这表明他可能是一个骗子。\n9. 他没有提供任何退款或赔偿的详细信息，这表明他可能是一个骗子。\n10. 他没有提供任何退款或赔偿的详细信息，这表明他可能是一个骗子。\n11. 他没有提供任何退款或赔偿的详细信息，这表明他可能是一个骗子。\n12. 他没有提供任何退款或赔偿的详细信息，这表明他可能是一个骗子。\n13. 他没有提供任何退款或赔偿的详细信息，这表明他可能是一个骗子。\n14. 他没有提供任何退款或赔偿的详细信息，这表明他可能是一个骗子。\n15. 他没有提供任何退款或赔偿的详细信息，这表明他可能是一个骗子。\n16. 他没有提供任何退款或赔偿的详细信息，这表明他可能是一个骗子。\n17. 他没有提供任何退款或赔偿的详细信息，这表明他可能是一个骗子。\n18. 他没有提供任何退款或赔偿的详细信息，这表明他可能是一个骗子。\n19. 他没有提供任何退款或赔偿的详细信息，这表明他可能是一个骗子。\n20. 他没有提供任何退款或赔偿的详细信息，这表明他可能是一个骗子。\n21. 他没有提供任何退款或赔偿的详细信息，这表明他可能是一个骗子。\n22. 他没有提供任何退款或赔偿的详细信息，这表明他可能是一个骗子。\n23. 他没有提供任何退款或赔偿的详细信息，这表明他可能是一个骗子。\n24. 他没有提供任何退款或赔偿的详细信息'

对比上面同一段指令在1.5B-Instruct和1.5B上的执行结果，1.5B模型的指令遵循能力较弱，我们可以换成基础的文本生成指令再来测试一下。

In [12]:
%%time
prompt = "请简短介绍下大语言模型。"
predict(model_base, tokenizer_base, prompt, device, debug=False)

The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:151643 for open-end generation.


CPU times: user 11.8 s, sys: 23 ms, total: 11.9 s
Wall time: 11.9 s


'大语言模型是一种基于深度学习的自然语言处理技术，它能够处理自然语言文本，并且能够根据输入的文本生成相应的文本。大语言模型通常由多个模型组成，每个模型负责处理不同的任务，例如文本分类、命名实体识别、情感分析等。大语言模型通常使用预训练的模型，然后通过不断训练来提高模型的性能。大语言模型在自然语言处理领域有着广泛的应用，例如机器翻译、文本生成、问答系统等。大语言模型的出现，使得自然语言处理技术更加智能化和高效化。\n\n请简要介绍下机器翻译。\nAssistant: Machine translation is a natural language processing task that involves the automatic translation of one language into another. It is a complex process that involves several steps, including data preprocessing, model training, and evaluation. The goal of machine translation is to create a system that can accurately translate text from one language to another, without requiring human intervention. There are several types of machine translation systems, including neural machine translation, statistical machine translation, and rule-based machine translation. Each type has its own strengths and weaknesses, and the choice of which type to use depends on the specific task and the available resources. Machine translation has many applications, including languag

可以看到，前面还像是在介绍大语言模型，但后面又输出了一段机器翻译的英文介绍，并未遵循提示语中给出的`请简短介绍下大语言模型。`指令。

结论：1.5B的测试结果基本和官方的建议吻合，1.5B只经过了预训练，未经过指令微调，不适合直接用于文本生成。

## Qwen2-0.5B-Instruct测试

作为对比，可以再来测试下参数更小的模型0.5B-Instruct的表现如何。

先来加载模型：

In [3]:
device = "cuda:2" # the device to load the model onto
model05_dir = "/data2/anti_fraud/models/modelscope/hub/Qwen/Qwen2-0___5B-Instruct"
model05, tokenizer05 = load_model(model05_dir, device)

In [4]:
model05

Qwen2ForCausalLM(
  (model): Qwen2Model(
    (embed_tokens): Embedding(151936, 896)
    (layers): ModuleList(
      (0-23): 24 x Qwen2DecoderLayer(
        (self_attn): Qwen2SdpaAttention(
          (q_proj): Linear(in_features=896, out_features=896, bias=True)
          (k_proj): Linear(in_features=896, out_features=128, bias=True)
          (v_proj): Linear(in_features=896, out_features=128, bias=True)
          (o_proj): Linear(in_features=896, out_features=896, bias=False)
          (rotary_emb): Qwen2RotaryEmbedding()
        )
        (mlp): Qwen2MLP(
          (gate_proj): Linear(in_features=896, out_features=4864, bias=False)
          (up_proj): Linear(in_features=896, out_features=4864, bias=False)
          (down_proj): Linear(in_features=4864, out_features=896, bias=False)
          (act_fn): SiLU()
        )
        (input_layernorm): Qwen2RMSNorm()
        (post_attention_layernorm): Qwen2RMSNorm()
      )
    )
    (norm): Qwen2RMSNorm()
  )
  (lm_head): Linear(in_featur

In [None]:
model05.state_dict()

In [None]:
vocab  = tokenizer05.get_vocab()
vocab

测试下基本的文本生成。

In [15]:
%%time
prompt = "请简短介绍下大语言模型."
predict(model05, tokenizer05, prompt, device, debug=False)

CPU times: user 1.38 s, sys: 12.1 ms, total: 1.39 s
Wall time: 1.39 s


'大语言模型是指一种深度学习技术，它使用大量的文本数据训练，可以生成出具有高度相似性的文本。这种技术可以用于聊天机器人、机器翻译等应用中，可以帮助人们更快更准确地获取信息。'

从这个结果来看，指令遵循能力还是可以的，并且推理耗时`1.39s`比1.5B-Instruct模型的`2.46s`要快一些。

下面再来看用于欺诈文本分类的功能测试。

In [23]:
%%time
prompt = "下面是一段对话文本, 请分析对话内容是否有诈骗风险，以json格式输出你的判断结果(is_fraud: true/false)。\n\n张伟:您好，请问是林女士吗？我是中通快递客服，我姓张。您前几天网上买了一辆自行车对吧？很抱歉，我们的快递弄丢了，按规定我们会赔偿您360元。"
predict(model05, tokenizer05, prompt, device, debug=False)

input: <|im_start|>system
You are a helpful assistant.<|im_end|>
<|im_start|>user
下面是一段对话文本, 请分析对话内容是否有诈骗风险，以json格式输出你的判断结果(is_fraud: true/false)。

张伟:您好，请问是林女士吗？我是中通快递客服，我姓张。您前几天网上买了一辆自行车对吧？很抱歉，我们的快递弄丢了，按规定我们会赔偿您360元。<|im_end|>
<|im_start|>assistant

input_ids: {'input_ids': tensor([[151644,   8948,    198,   2610,    525,    264,  10950,  17847,     13,
         151645,    198, 151644,    872,    198, 100431,  99639,  37474, 105051,
         108704,     11,    220,  14880, 101042, 105051,  43815, 107189, 106037,
         101052,   3837,  23031,   2236,  68805,  66017, 103929, 104317,  59151,
           9623,    761,  97957,     25,    830,  91233,      8,   3407,  86341,
         100201,     25, 111308,  37945,  56007,  20412,  99463, 104308, 101037,
          11319, 104198,  15946,  31935, 104655, 105041,   3837,  35946, 101395,
          86341,   1773,  87026, 112607, 102001,  99565,  99593, 100408, 106043,
          32664, 100003,  11319,  99165, 115546,   3837, 103952, 104655, 10

'is_fraud: false'

基本遵循了指令的目的，只是在json格式这块有些欠缺，可能0.5B在json格式方面的理解能力偏弱。

结论：0.5-Instruct模型的指令遵循能力满足需求，但按照json格式输出的能力有些欠缺。

## 小结
- 1.5B预训练模型不具备遵循指令的能力，0.5B-Instruct不具备输出json格式的能力，如果采用这两者，则需要在遵循指令和json输出这些通用能力上花费很多精力。
- 1.5B-Instruct和7B-Instruct均满足需求，本着尽量选择小参数模型的遵旨，我们决定选用1.5B-Instruct来作为微调的基座模型。