In [1]:
import os
import re
import json
from tqdm import tqdm, trange
from openai import OpenAI

In [2]:
client = OpenAI(
    base_url="https://open.bigmodel.cn/api/paas/v4/",
    api_key=os.environ["API_KEY"],
)

def stream_chat(prompt: str, system: str = "You are a helpful assistant.", show_log: bool = False):
    """
    流式对话，让你看到过程，然后将结果返回
    """
    messages = [{"role": "system", "content": system}]
    messages.append({"role": "user", "content": prompt})
    response = client.chat.completions.create(
        model="GLM-4-Plus",
        messages=messages,
        top_p=0.5,
        temperature=1,
        n=1,
        max_tokens=4096,
        stream=True,
    )
    response_text = ""
    for event in response:
        # print(event)
        event_text = event.choices[0].delta.content  # extract the text
        if event_text is None:
            event_text = ""
        response_text += event_text
        if show_log:
            print(event_text, end='', flush=True)
    if show_log:
        print("")
    return response_text

In [3]:
def remove_number_dot(text):
    # 正则表达式匹配以数字和点号开头的模式
    pattern = r'^\d+\.\s*'
    # 使用re.sub替换匹配到的内容为空字符串
    result = re.sub(pattern, '', text)
    return result

In [4]:
prompt1_1 = """
模拟用户对话。
生成一些调整电脑音量的指令，大概50条左右。指令支持调整声音到具体的音量，以及调整声音“大一些”，“小一些”或者其它量词。
例如：1. 将音量调至20% 2. 关闭声音。3. 关闭扬声器。4. 将声音关小一些。5.将声音调大一些
生成调大，调小，调至，关闭四种情况的样本，需要满足1：1：1：1，即样本需要尽量均衡。
并且对话语气需要模拟用户说话。
只返回生成后的结果，不要多余回答。生成内容尽量不要重复。
"""
prompt1_2 = """
生成一些调整电脑音量的指令，大概50条左右。指令支持调整声音到具体的音量，以及调整声音“大一些”，“小一些”或者其它量词。
生成调大，调小，调至，关闭四种情况的样本，需要满足1：1：1：1，即样本需要尽量均衡。
只返回生成后的结果，不要多余回答。生成内容尽量不要重复。
"""

In [5]:
result_text1 = ""
for i in trange(5):
    temp_text = stream_chat(prompt1_1, system="你是一个电脑助手", show_log=False)
    result_text1 += "\n" + temp_text
for i in trange(5):
    temp_text = stream_chat(prompt1_2, system="你是一个电脑助手", show_log=True)
    result_text1 += "\n" + temp_text

100%|██████████████████████████████████████████████████████████████████████| 5/5 [01:14<00:00, 14.83s/it]
  0%|                                                                              | 0/5 [00:00<?, ?it/s]

1. 将音量调至50%
2. 音量调大一些
3. 音量调小一些
4. 关闭声音
5. 将音量调至30%
6. 音量调大一点
7. 音量调小一点
8. 关闭音量
9. 将音量调至70%
10. 音量调高一些
11. 音量调低一些
12. 关闭扬声器
13. 将音量调至20%
14. 音量调高一点
15. 音量调低一点
16. 关闭音频输出
17. 将音量调至80%
18. 音量调大一些
19. 音量调小一些
20. 关闭声音输出
21. 将音量调至40%
22. 音量调大一点
23. 音量调小一点
24. 关闭声音播放
25. 将音量调至60%
26. 音量调高一些
27. 音量调低一些
28. 关闭音源
29. 将音量调至90%
30. 音量调高一点
31. 音量调低一点
32. 关闭声音设备
33. 将音量调至10%
34. 音量调大一些
35. 音量调小一些
36. 关闭音频设备
37. 将音量调至100%
38. 音量调大一点
39. 音量调小一点
40. 关闭声音输出设备
41. 将音量调至25%
42. 音量调高一些
43. 音量调低一些
44. 关闭扬声器输出
45. 将音量调至75%
46. 音量调高一点
47. 音量调低一点
48. 关闭音频播放
49. 将音量调至35%
50. 音量调大一些
51. 音量调小一些
52. 关闭声音播放设备
53. 将音量调至55%
54. 音量调大一点
55. 音量调小一点
56. 关闭音量输出
57. 将音量调至85%
58. 音量调高一些
59. 音量调低一些
60. 关闭音频输出设备
61. 将音量调至15%
62. 音量调高一点
63. 音量调低一点
64. 关闭声音设备输出
65. 将音量调至95%
66. 音量调大一些
67. 音量调小一些
68. 关闭扬声器音量
69. 将音量调至45%
70. 音量调大一点
71. 音量调小一点
72. 关闭音频播放输出
73. 将音量调至65%
74. 音量调高一些
75. 音量调低一些
76. 关闭声音输出源
77. 将音量调至5%
78. 音量调高一点
79. 音量调低一点
80. 关闭音量播放设备
81. 将音量调至20%
82. 音量调大一些
83. 音量调小一些
84. 关闭音频输出源
85. 将音量调至80%
86. 音量调大一点
87. 音量调小一点

 20%|██████████████                                                        | 1/5 [00:18<01:15, 18.83s/it]


1. 将音量调至50%
2. 音量调大一些
3. 音量调小一些
4. 关闭声音
5. 将音量调至70%
6. 音量调大一点
7. 音量调小一点
8. 关闭音量
9. 将音量调至30%
10. 音量调高一些
11. 音量调低一些
12. 关闭扬声器
13. 将音量调至90%
14. 音量调高一点
15. 音量调低一点
16. 关闭音频输出
17. 将音量调至20%
18. 音量调大一些些
19. 音量调小一些些
20. 关闭声音输出
21. 将音量调至60%
22. 音量调大一些
23. 音量调小一些
24. 关闭声音播放
25. 将音量调至80%
26. 音量调高一些
27. 音量调低一些
28. 关闭音源
29. 将音量调至40%
30. 音量调大一点
31. 音量调小一点
32. 关闭声音设备
33. 将音量调至100%
34. 音量调高一点
35. 音量调低一点
36. 关闭音频
37. 将音量调至10%
38. 音量调大一些些
39. 音量调小一些些
40. 关闭声音通道
41. 将音量调至55%
42. 音量调大一些
43. 音量调小一些
44. 关闭声音输出设备
45. 将音量调至65%
46. 音量调高一些
47. 音量调低一些
48. 关闭音频输出设备
49. 将音量调至75%
50. 音量调大一点
51. 音量调小一点
52. 关闭声音播放设备
53. 将音量调至85%
54. 音量调高一点
55. 音量调低一点
56. 关闭音源输出
57. 将音量调至95%
58. 音量调大一些些
59. 音量调小一些些
60. 关闭音频播放
61. 将音量调至15%
62. 音量调大一些
63. 音量调小一些
64. 关闭声音输入
65. 将音量调至25%
66. 音量调高一些
67. 音量调低一些
68. 关闭扬声器输出
69. 将音量调至35%
70. 音量调大一点
71. 音量调小一点
72. 关闭音频输入
73. 将音量调至45%
74. 音量调高一点
75. 音量调低一点
76. 关闭声音输入设备
77. 将音量调至5%
78. 音量调大一些些
79. 音量调小一些些
80. 关闭音频输入设备
81. 将音量调至15%
82. 音量调大一些
83. 音量调小一些
84. 关闭声音通道输出
85. 将音量调至25%
86. 音量调高一些
87. 音量

 40%|████████████████████████████                                          | 2/5 [00:37<00:55, 18.66s/it]


1. 将音量调至50%
2. 音量调大一些
3. 音量调小一些
4. 关闭声音
5. 将音量调至30%
6. 音量调大一点
7. 音量调小一点
8. 关闭音量
9. 将音量调至70%
10. 音量调高一些
11. 音量调低一些
12. 关闭扬声器
13. 将音量调至20%
14. 音量调高一点
15. 音量调低一点
16. 关闭音频输出
17. 将音量调至80%
18. 音量调大少许
19. 音量调小少许
20. 关闭声音输出
21. 将音量调至40%
22. 音量调大一些些
23. 音量调小一些些
24. 关闭声音播放
25. 将音量调至60%
26. 音量调高一些些
27. 音量调低一些些
28. 关闭音源
29. 将音量调至90%
30. 音量调大一些许
31. 音量调小一些许
32. 关闭声音设备
33. 将音量调至10%
34. 音量调高一些许
35. 音量调低一些许
36. 关闭音频设备
37. 将音量调至100%
38. 音量调大一些些许
39. 音量调小一些些许
40. 关闭声音输入
41. 将音量调至25%
42. 音量调高一些些许
43. 音量调低一些些许
44. 关闭音频输入
45. 将音量调至75%
46. 音量调大一些些少许
47. 音量调小一些些少许
48. 关闭声音通道
49. 将音量调至15%
50. 音量调高一些些少许
51. 音量调低一些些少许
52. 关闭音频通道
53. 将音量调至85%
54. 音量调大一些些许少许
55. 音量调小一些些许少许
56. 关闭声音输出设备
57. 将音量调至35%
58. 音量调高一些些许少许
59. 音量调低一些些许少许
60. 关闭音频输出设备
61. 将音量调至55%
62. 音量调大一些些少许许
63. 音量调小一些些少许许
64. 关闭声音播放设备
65. 将音量调至65%
66. 音量调高一些些少许许
67. 音量调低一些些少许许
68. 关闭音频播放设备
69. 将音量调至95%
70. 音量调大一些些许少许许
71. 音量调小一些些许少许许
72. 关闭声音输入设备
73. 将音量调至45%
74. 音量调高一些些许少许许
75. 音量调低一些些许少许许
76. 关闭音频输入设备
77. 将音量调至5%
78. 音量调大一些些少许少许许
79. 音量调小一些些少许少许许
80

 60%|██████████████████████████████████████████                            | 3/5 [00:59<00:40, 20.45s/it]


1. 将音量调至50%
2. 音量调大一些
3. 音量调小一些
4. 关闭声音
5. 将音量调至30%
6. 音量调大一点
7. 音量调小一点
8. 关闭音量
9. 将音量调至70%
10. 音量调高一些
11. 音量调低一些
12. 关闭扬声器
13. 将音量调至20%
14. 音量调高一点
15. 音量调低一点
16. 关闭音频输出
17. 将音量调至80%
18. 音量调大一些些
19. 音量调小一些些
20. 关闭声音输出
21. 将音量调至40%
22. 音量调大一些些
23. 音量调小一些些
24. 关闭声音播放
25. 将音量调至60%
26. 音量调高一些些
27. 音量调低一些些
28. 关闭音源
29. 将音量调至90%
30. 音量调大一点
31. 音量调小一点
32. 关闭声音设备
33. 将音量调至10%
34. 音量调高一点
35. 音量调低一点
36. 关闭音频设备
37. 将音量调至100%
38. 音量调大一些
39. 音量调小一些
40. 关闭声音输出设备
41. 将音量调至25%
42. 音量调高一些
43. 音量调低一些
44. 关闭扬声器输出
45. 将音量调至75%
46. 音量调大一点
47. 音量调小一点
48. 关闭音频播放
49. 将音量调至35%
50. 音量调高一点
51. 音量调低一点
52. 关闭声音播放设备
53. 将音量调至85%
54. 音量调大一些些
55. 音量调小一些些
56. 关闭音源输出
57. 将音量调至15%
58. 音量调高一些些
59. 音量调低一些些
60. 关闭音频输出设备
61. 将音量调至95%
62. 音量调大一点
63. 音量调小一点
64. 关闭声音输入
65. 将音量调至45%
66. 音量调高一点
67. 音量调低一点
68. 关闭扬声器输入
69. 将音量调至55%
70. 音量调大一些
71. 音量调小一些
72. 关闭音频输入
73. 将音量调至65%
74. 音量调高一些
75. 音量调低一些
76. 关闭声音输入设备
77. 将音量调至5%
78. 音量调大一点
79. 音量调小一点
80. 关闭扬声器输入设备
81. 将音量调至95%
82. 音量调大一些些
83. 音量调小一些些
84. 关闭音频输入设备
85. 将音量调至85%
86. 音量调高一

 80%|████████████████████████████████████████████████████████              | 4/5 [01:24<00:22, 22.10s/it]


1. 将音量调至20%
2. 音量调大一些
3. 音量调小一些
4. 关闭声音
5. 将音量调至40%
6. 音量再调大一点
7. 音量再调小一点
8. 关闭音量
9. 将音量调至60%
10. 音量调高一些
11. 音量调低一些
12. 关闭扬声器
13. 将音量调至80%
14. 音量调大一点
15. 音量调小一点
16. 关闭音频输出
17. 将音量调至100%
18. 音量再调高一些
19. 音量再调低一些
20. 关闭声音输出
21. 将音量调至30%
22. 音量调大一些
23. 音量调小一些
24. 关闭声音播放
25. 将音量调至50%
26. 音量调高一点
27. 音量调低一点
28. 关闭音源
29. 将音量调至70%
30. 音量再调大一些
31. 音量再调小一些
32. 关闭音频
33. 将音量调至90%
34. 音量调大一些
35. 音量调小一些
36. 关闭声音输出设备
37. 将音量调至25%
38. 音量调高一些
39. 音量调低一些
40. 关闭扬声器输出
41. 将音量调至35%
42. 音量调大一点
43. 音量调小一点
44. 关闭音频播放
45. 将音量调至45%
46. 音量再调高一点
47. 音量再调低一点
48. 关闭声音设备
49. 将音量调至55%
50. 音量调大一些
51. 音量调小一些
52. 关闭音量输出
53. 将音量调至65%
54. 音量调高一些
55. 音量调低一些
56. 关闭声音播放器
57. 将音量调至75%
58. 音量调大一点
59. 音量调小一点
60. 关闭音频信号
61. 将音量调至85%
62. 音量再调大一些
63. 音量再调小一些
64. 关闭声音输入
65. 将音量调至95%
66. 音量调高一些
67. 音量调低一些
68. 关闭音量控制
69. 将音量调至15%
70. 音量调大一点
71. 音量调小一点
72. 关闭音频输出设备
73. 将音量调至45%
74. 音量再调高一些
75. 音量再调低一些
76. 关闭声音输出源
77. 将音量调至55%
78. 音量调大一些
79. 音量调小一些
80. 关闭扬声器音量
81. 将音量调至65%
82. 音量调高一点
83. 音量调低一点
84. 关闭音频播放设备
85. 将音量调至75%
86. 音量再调大一些
87.

100%|██████████████████████████████████████████████████████████████████████| 5/5 [01:46<00:00, 21.37s/it]







In [6]:
text_list1 = [remove_number_dot(text) for text in result_text1.split()]
text_list1 = [text.strip() for text in text_list1]
text_list1 = [text for text in text_list1 if len(text) > 0]
text_list1 = list(set(text_list1))
print(f"初步生成的指令有：{len(text_list1)}条")

初步生成的指令有：279条


In [7]:
text_list = text_list1

### 需要一个标注工人
- 帮我完成对应的实体标注，实体类别，开始位置，结束位置，原文字段

In [8]:
prompt3_1 = """
请帮我对下面提供的数据做实体标注，要求标注它的实体类型。
实体类别有三种，分别是`Add`, `Sub`, `To`，`Close`四种。
下面是一些例子：
这里我提供五个样本：
```text
将声音调至10%
再把声音调高一点
将声音降低10%
关闭扬声器
用户：调整声音\n助手：请问您要调大还是调小？\n用户：调大
```
标注结果参考
```json
[
    {
        "text": "将声音调至10%",
        "entity": {"type": "To", "raw": "调至10%"}
    },
    {
        "text": "再把声音调高一点",
        "entity": {"type": "Add", "raw": "调高一点"}
    },
    {
        "text": "关闭扬声器",
        "entity": {"type": "Close", "raw": "关闭"}
    },
    {
        "text": "将声音降低10%",
        "entity": {"type": "Sub", "raw": "降低10%"}
    },
    {
        "text": "用户：调整声音\n助手：请问您要调大还是调小？\n用户：调大",
        "entity": {"type": "Add", "raw": "调大"}
    }
]
```
"""

In [9]:
def find_entity(text, raw):
    s = text.rfind(raw)
    e = s + len(raw)
    return (s, e)

In [10]:
find_entity("将音量调至10%", "调至10%")

(3, 8)

In [11]:
def label_text(text: str):
    prompt3_2 = f"""
    下面是我提供给你的句子，请直接返回标注结果，不要多余返回。
    注意：生成的json必须合乎json语法规范，不要有多余空格
    ```text
    {text}
    ```
    """
    prompt3 = prompt3_1 + prompt3_2
    result_text = stream_chat(prompt3, system="你是一个标注员")
    response = result_text
    if result_text.startswith("```json"):
        result_text = result_text.lstrip("```json")
    if result_text.endswith("```"):
        result_text = result_text.rstrip("```")
    try:
        result_data = json.loads(result_text)
        data_list = []
        for data in result_data:
            start, end = find_entity(data["text"], data["entity"]["raw"])
            data["entity"]["start"] = start
            data["entity"]["end"] = end
            data_list.append(data)
    except:
        print("标注异常")
        print("text: ", text)
        print("response: ", response)
        data_list = []
    return data_list

In [12]:
data_list = []
for text in tqdm(text_list):
    temp_list = label_text(text)
    data_list.extend(temp_list)

100%|██████████████████████████████████████████████████████████████████| 279/279 [06:20<00:00,  1.36s/it]


In [13]:
len(data_list)

279

In [14]:
### 保存结果
import os
dataset_dir = "dataset"
if not os.path.exists(dataset_dir):
    os.mkdir(dataset_dir)

In [15]:
result_json_path = os.path.join(dataset_dir, "volume.json")
with open(result_json_path, "wt", encoding="utf-8") as f1:
    json.dump(data_list, f1, indent=4, ensure_ascii=False)