In [1]:
import os
import re
import json
from tqdm import tqdm, trange
from openai import OpenAI

In [2]:
client = OpenAI(
    base_url="https://open.bigmodel.cn/api/paas/v4/",
    api_key=os.environ["API_KEY"],
)

def stream_chat(prompt: str, system: str = "You are a helpful assistant.", show_log: bool = False):
    """
    流式对话，让你看到过程，然后将结果返回
    """
    messages = [{"role": "system", "content": system}]
    messages.append({"role": "user", "content": prompt})
    response = client.chat.completions.create(
        model="GLM-4-Plus",
        messages=messages,
        top_p=0.5,
        temperature=1,
        n=1,
        max_tokens=4096,
        stream=True,
    )
    response_text = ""
    for event in response:
        # print(event)
        event_text = event.choices[0].delta.content  # extract the text
        if event_text is None:
            event_text = ""
        response_text += event_text
        if show_log:
            print(event_text, end='', flush=True)
    if show_log:
        print("")
    return response_text

In [3]:
def remove_number_dot(text):
    # 正则表达式匹配以数字和点号开头的模式
    pattern = r'^\d+\.\s*'
    # 使用re.sub替换匹配到的内容为空字符串
    result = re.sub(pattern, '', text)
    return result

In [4]:
prompt1_1 = """
模拟用户对话。
生成一些打开或者关闭电脑飞行模式的指令，大概50条左右。例如：1. 帮我开启电脑飞行模式 2. 帮我关掉电脑飞行模式
生成开启和关闭两种情况的样本，需要满足1：1，即样本需要尽量均衡。
并且对话语气需要模拟用户说话。
只返回生成后的结果，不要多余回答。生成内容尽量不要重复。
"""
prompt1_2 = """
生成一些打开或者关闭电脑飞行模式的指令，大概50条左右。例如：1. 打开飞行模式 2. 关闭飞行模式
生成开启和关闭两种情况的样本，需要满足1：1，即样本需要尽量均衡。
只返回生成后的结果，不要多余回答。生成内容尽量不要重复。
"""

In [5]:
result_text1 = ""
for i in trange(5):
    temp_text = stream_chat(prompt1_1, system="你是一个电脑助手", show_log=False)
    result_text1 += "\n" + temp_text
for i in trange(5):
    temp_text = stream_chat(prompt1_2, system="你是一个电脑助手", show_log=True)
    result_text1 += "\n" + temp_text

100%|██████████████████████████████████████████████████████████████████████| 5/5 [01:04<00:00, 12.93s/it]
  0%|                                                                              | 0/5 [00:00<?, ?it/s]

1. 启用飞行模式
2. 关闭飞行模式
3. 打开飞行模式
4. 禁用飞行模式
5. 开启飞行模式
6. 关闭飞行模式
7. 激活飞行模式
8. 取消飞行模式
9. 打开飞行模式
10. 关闭飞行模式
11. 启动飞行模式
12. 停用飞行模式
13. 开启飞行模式
14. 关闭飞行模式
15. 激活飞行模式
16. 禁用飞行模式
17. 打开飞行模式
18. 关闭飞行模式
19. 启用飞行模式
20. 取消飞行模式
21. 开启飞行模式
22. 关闭飞行模式
23. 激活飞行模式
24. 停用飞行模式
25. 打开飞行模式
26. 关闭飞行模式
27. 启动飞行模式
28. 禁用飞行模式
29. 开启飞行模式
30. 关闭飞行模式
31. 激活飞行模式
32. 取消飞行模式
33. 打开飞行模式
34. 关闭飞行模式
35. 启用飞行模式
36. 停用飞行模式
37. 开启飞行模式
38. 关闭飞行模式
39. 激活飞行模式
40. 禁用飞行模式
41. 打开飞行模式
42. 关闭飞行模式
43. 启动飞行模式
44. 取消飞行模式
45. 开启飞行模式
46. 关闭飞行模式
47. 激活飞行模式
48. 停用飞行模式
49. 打开飞行模式
50. 关闭飞行模式

 20%|██████████████                                                        | 1/5 [00:07<00:31,  7.88s/it]


1. 启用飞行模式
2. 禁用飞行模式
3. 打开飞行模式
4. 关闭飞行模式
5. 开启飞行模式
6. 关闭飞行模式
7. 激活飞行模式
8. 取消飞行模式
9. 启动飞行模式
10. 停用飞行模式
11. 打开飞行模式功能
12. 关闭飞行模式功能
13. 开启飞行模式选项
14. 关闭飞行模式选项
15. 启用飞行模式状态
16. 禁用飞行模式状态
17. 打开飞行模式开关
18. 关闭飞行模式开关
19. 开启飞行模式设置
20. 关闭飞行模式设置
21. 启用飞行模式选项
22. 禁用飞行模式选项
23. 打开飞行模式配置
24. 关闭飞行模式配置
25. 开启飞行模式功能
26. 关闭飞行模式功能
27. 启用飞行模式服务
28. 禁用飞行模式服务
29. 打开飞行模式选项
30. 关闭飞行模式选项
31. 开启飞行模式状态
32. 关闭飞行模式状态
33. 启用飞行模式开关
34. 禁用飞行模式开关
35. 打开飞行模式设置
36. 关闭飞行模式设置
37. 开启飞行模式配置
38. 关闭飞行模式配置
39. 启用飞行模式功能
40. 禁用飞行模式功能
41. 打开飞行模式服务
42. 关闭飞行模式服务
43. 开启飞行模式选项
44. 关闭飞行模式选项
45. 启用飞行模式状态
46. 禁用飞行模式状态
47. 打开飞行模式开关
48. 关闭飞行模式开关
49. 开启飞行模式设置
50. 关闭飞行模式设置

 40%|████████████████████████████                                          | 2/5 [00:16<00:25,  8.34s/it]


1. 启用飞行模式
2. 禁用飞行模式
3. 打开飞行模式
4. 关闭飞行模式
5. 开启飞行模式
6. 关闭飞行模式
7. 激活飞行模式
8. 取消飞行模式
9. 启动飞行模式
10. 停用飞行模式
11. 打开飞行模式功能
12. 关闭飞行模式功能
13. 开启飞行模式选项
14. 关闭飞行模式选项
15. 启用飞行模式状态
16. 禁用飞行模式状态
17. 打开飞行模式开关
18. 关闭飞行模式开关
19. 开启飞行模式设置
20. 关闭飞行模式设置
21. 启用飞行模式选项
22. 禁用飞行模式选项
23. 打开飞行模式配置
24. 关闭飞行模式配置
25. 开启飞行模式功能
26. 关闭飞行模式功能
27. 启用飞行模式操作
28. 禁用飞行模式操作
29. 打开飞行模式选项
30. 关闭飞行模式选项
31. 开启飞行模式状态
32. 关闭飞行模式状态
33. 启用飞行模式开关
34. 禁用飞行模式开关
35. 打开飞行模式设置
36. 关闭飞行模式设置
37. 开启飞行模式配置
38. 关闭飞行模式配置
39. 启用飞行模式功能
40. 禁用飞行模式功能
41. 打开飞行模式操作
42. 关闭飞行模式操作
43. 开启飞行模式选项
44. 关闭飞行模式选项
45. 启用飞行模式状态
46. 禁用飞行模式状态
47. 打开飞行模式开关
48. 关闭飞行模式开关
49. 开启飞行模式设置
50. 关闭飞行模式设置

 60%|██████████████████████████████████████████                            | 3/5 [00:25<00:16,  8.49s/it]


1. 启用飞行模式
2. 关闭飞行模式
3. 打开飞行模式
4. 禁用飞行模式
5. 开启飞行模式
6. 关闭飞行模式
7. 激活飞行模式
8. 取消飞行模式
9. 打开飞行模式
10. 关闭飞行模式
11. 启动飞行模式
12. 停用飞行模式
13. 开启飞行模式
14. 关闭飞行模式
15. 激活飞行模式
16. 禁用飞行模式
17. 打开飞行模式
18. 关闭飞行模式
19. 启用飞行模式
20. 取消飞行模式
21. 开启飞行模式
22. 关闭飞行模式
23. 激活飞行模式
24. 停用飞行模式
25. 打开飞行模式
26. 关闭飞行模式
27. 启用飞行模式
28. 禁用飞行模式
29. 开启飞行模式
30. 关闭飞行模式
31. 激活飞行模式
32. 取消飞行模式
33. 打开飞行模式
34. 关闭飞行模式
35. 启动飞行模式
36. 停用飞行模式
37. 开启飞行模式
38. 关闭飞行模式
39. 激活飞行模式
40. 禁用飞行模式
41. 打开飞行模式
42. 关闭飞行模式
43. 启用飞行模式
44. 取消飞行模式
45. 开启飞行模式
46. 关闭飞行模式
47. 激活飞行模式
48. 停用飞行模式
49. 打开飞行模式
50. 关闭飞行模式

 80%|████████████████████████████████████████████████████████              | 4/5 [00:32<00:08,  8.21s/it]


1. 启用飞行模式
2. 禁用飞行模式
3. 打开飞行模式
4. 关闭飞行模式
5. 开启飞行模式
6. 关闭飞行模式
7. 激活飞行模式
8. 取消飞行模式
9. 启动飞行模式
10. 停用飞行模式
11. 打开飞行模式功能
12. 关闭飞行模式功能
13. 开启飞行模式选项
14. 关闭飞行模式选项
15. 启用飞行模式状态
16. 禁用飞行模式状态
17. 打开飞行模式开关
18. 关闭飞行模式开关
19. 开启飞行模式设置
20. 关闭飞行模式设置
21. 启用飞行模式选项
22. 禁用飞行模式选项
23. 打开飞行模式配置
24. 关闭飞行模式配置
25. 开启飞行模式功能
26. 关闭飞行模式功能
27. 启用飞行模式服务
28. 禁用飞行模式服务
29. 打开飞行模式选项
30. 关闭飞行模式选项
31. 开启飞行模式状态
32. 关闭飞行模式状态
33. 启用飞行模式开关
34. 禁用飞行模式开关
35. 打开飞行模式设置
36. 关闭飞行模式设置
37. 开启飞行模式配置
38. 关闭飞行模式配置
39. 启用飞行模式功能
40. 禁用飞行模式功能
41. 打开飞行模式服务
42. 关闭飞行模式服务
43. 开启飞行模式选项
44. 关闭飞行模式选项
45. 启用飞行模式状态
46. 禁用飞行模式状态
47. 打开飞行模式开关
48. 关闭飞行模式开关
49. 开启飞行模式设置
50. 关闭飞行模式设置

100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:42<00:00,  8.45s/it]







In [6]:
text_list1 = [remove_number_dot(text) for text in result_text1.split()]
text_list1 = [text.strip() for text in text_list1]
text_list1 = [text for text in text_list1 if len(text) > 0]
text_list1 = list(set(text_list1))
print(f"初步生成的指令有：{len(text_list1)}条")

初步生成的指令有：182条


In [7]:
text_list1

['启用飞行模式功能',
 '能帮我关掉电脑的飞行模式吗',
 '帮我关掉飞行模式',
 '帮我激活电脑的飞行模式',
 '取消飞行模式',
 '我想打开电脑的飞行模式',
 '请打开电脑的飞行模式',
 '关闭飞行模式操作',
 '请帮我关掉电脑飞行模式',
 '帮我打开电脑的飞行状态',
 '启用飞行模式开关',
 '禁用飞行模式状态',
 '帮我关闭一下电脑飞行模式',
 '帮我关掉电脑飞行模式',
 '我需要关掉电脑飞行模式',
 '停用飞行模式',
 '帮我关一下电脑飞行模式',
 '请关闭电脑飞行模式',
 '请帮我打开电脑的飞行模式',
 '请帮我关闭飞行模式',
 '打开飞行模式开关',
 '禁用飞行模式操作',
 '能否帮我开启电脑飞行模式',
 '开启电脑的飞行模式',
 '我需要打开电脑飞行模式',
 '我要开启一下电脑飞行模式',
 '请把电脑飞行模式开启',
 '我需要关掉电脑的飞行模式',
 '我要关闭电脑的飞行模式',
 '请帮我开启电脑的飞行功能',
 '能帮我开启电脑飞行模式吗',
 '能否帮我关闭电脑的飞行模式',
 '开启一下电脑飞行模式',
 '禁用飞行模式',
 '请帮我关闭电脑的飞行状态',
 '能否帮我关掉电脑的飞行模式',
 '帮我开启电脑飞行模式',
 '打开飞行模式服务',
 '帮我启动电脑飞行模式',
 '能否帮我关一下电脑飞行模式',
 '启用飞行模式状态',
 '启动飞行模式',
 '帮我把电脑飞行模式打开',
 '帮我关掉电脑的飞行模式',
 '打开飞行模式操作',
 '帮我把电脑设置为飞行模式',
 '帮我启动电脑的飞行模式',
 '帮我打开电脑的飞行模式',
 '请帮我关闭电脑的飞行功能',
 '请关掉电脑的飞行模式',
 '关闭飞行模式功能',
 '关闭飞行模式服务',
 '开启飞行模式设置',
 '我需要开启电脑飞行模式',
 '帮我开启飞行模式',
 '请将电脑飞行模式关闭',
 '打开飞行模式',
 '请关闭电脑的飞行模式',
 '帮我开启电脑的飞行模式',
 '帮我打开一下电脑的飞行模式',
 '请帮忙关闭电脑的飞行模式',
 '帮忙关闭电脑飞行模式',
 '请帮我关闭一下电脑飞行模式',
 '我想关闭电脑飞行模式',
 '请开启一下电脑飞行模式',
 '我需要关闭电脑的飞行模式',
 '帮我

In [8]:
text_list = text_list1

### 需要一个标注工人
- 帮我完成对应的实体标注，实体类别，开始位置，结束位置，原文字段

In [9]:
prompt3_1 = """
请帮我对下面提供的数据做实体标注，要求标注它的实体类型。
实体类别有两种，分别是`On`和`Off`
下面是一些例子：
这里我提供三个样本：
```text
打开飞行模式
关闭飞行模式
帮我关掉电脑飞行模式
```
标注结果参考
```json
[
    {
        "text": "打开飞行模式",
        "entity": {"type": "On", "raw": "打开"}
    },
    {
        "text": "关闭飞行模式",
        "entity": {"type": "Off", "raw": "关闭"}
    },
    {
        "text": "帮我关掉电脑飞行模式",
        "entity": {"type": "Off", "raw": "关掉"}
    }
]
```
"""

In [10]:
def find_entity(text, raw):
    s = text.rfind(raw)
    e = s + len(raw)
    return (s, e)

In [11]:
find_entity("将音量调至10%", "调至10%")

(3, 8)

In [12]:
def label_text(text: str):
    prompt3_2 = f"""
    下面是我提供给你的句子，请直接返回标注结果，不要多余返回。
    注意：生成的json必须合乎json语法规范，不要有多余空格
    ```text
    {text}
    ```
    """
    prompt3 = prompt3_1 + prompt3_2
    result_text = stream_chat(prompt3, system="你是一个标注员")
    response = result_text
    if result_text.startswith("```json"):
        result_text = result_text.lstrip("```json")
    if result_text.endswith("```"):
        result_text = result_text.rstrip("```")
    try:
        result_data = json.loads(result_text)
        data_list = []
        for data in result_data:
            start, end = find_entity(data["text"], data["entity"]["raw"])
            data["entity"]["start"] = start
            data["entity"]["end"] = end
            data_list.append(data)
    except:
        print("标注异常")
        print("text: ", text)
        print("response: ", response)
        data_list = []
    return data_list

In [13]:
data_list = []
for text in tqdm(text_list):
    temp_list = label_text(text)
    data_list.extend(temp_list)

100%|██████████████████████████████████████████████████████████████████| 182/182 [03:47<00:00,  1.25s/it]


In [14]:
len(data_list)

182

In [15]:
### 保存结果
import os
dataset_dir = "dataset"
if not os.path.exists(dataset_dir):
    os.mkdir(dataset_dir)

In [16]:
result_json_path = os.path.join(dataset_dir, "airplane_mode.json")
with open(result_json_path, "wt", encoding="utf-8") as f1:
    json.dump(data_list, f1, indent=4, ensure_ascii=False)