In [1]:
import os
import re
import json
from tqdm import tqdm, trange
from openai import OpenAI

In [2]:
client = OpenAI(
    base_url="https://open.bigmodel.cn/api/paas/v4/",
    api_key=os.environ["API_KEY"],
)

def stream_chat(prompt: str, system: str = "You are a helpful assistant.", show_log: bool = False):
    """
    流式对话，让你看到过程，然后将结果返回
    """
    messages = [{"role": "system", "content": system}]
    messages.append({"role": "user", "content": prompt})
    response = client.chat.completions.create(
        model="GLM-4-Plus",
        messages=messages,
        top_p=0.5,
        temperature=1,
        n=1,
        max_tokens=4096,
        stream=True,
    )
    response_text = ""
    for event in response:
        # print(event)
        event_text = event.choices[0].delta.content  # extract the text
        if event_text is None:
            event_text = ""
        response_text += event_text
        if show_log:
            print(event_text, end='', flush=True)
    if show_log:
        print("")
    return response_text

In [3]:
def remove_number_dot(text):
    # 正则表达式匹配以数字和点号开头的模式
    pattern = r'^\d+\.\s*'
    # 使用re.sub替换匹配到的内容为空字符串
    result = re.sub(pattern, '', text)
    return result

In [4]:
prompt1_1 = """
模拟用户对话。
生成一些打开或者关闭电脑上面的计算器应用的指令，大概50条左右。例如：1. 帮我打开计算器 2. 帮我关掉计算器
生成开启和关闭两种情况的样本，需要满足1：1，即样本需要尽量均衡。
并且对话语气需要模拟用户说话。
只返回生成后的结果，不要多余回答。生成内容尽量不要重复。
"""
prompt1_2 = """
生成一些打开或者关闭电脑上面的计算器应用的指令，大概50条左右。例如：1. 打开计算器 2. 关闭计算器
生成开启和关闭两种情况的样本，需要满足1：1，即样本需要尽量均衡。
只返回生成后的结果，不要多余回答。生成内容尽量不要重复。
"""

In [5]:
result_text1 = ""
for i in trange(5):
    temp_text = stream_chat(prompt1_1, system="你是一个电脑助手", show_log=False)
    result_text1 += "\n" + temp_text
for i in trange(5):
    temp_text = stream_chat(prompt1_2, system="你是一个电脑助手", show_log=True)
    result_text1 += "\n" + temp_text

100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:53<00:00, 10.64s/it]
  0%|                                                                              | 0/5 [00:00<?, ?it/s]

1. 打开计算器
2. 关闭计算器
3. 启动计算器应用
4. 退出计算器
5. 打开电脑计算器
6. 关闭电脑计算器
7. 运行计算器程序
8. 结束计算器程序
9. 打开系统计算器
10. 关闭系统计算器
11. 启动计算器工具
12. 关闭计算器工具
13. 打开计算器软件
14. 关闭计算器软件
15. 打开计算器应用窗口
16. 关闭计算器应用窗口
17. 打开计算器功能
18. 关闭计算器功能
19. 启动计算器服务
20. 停止计算器服务
21. 打开计算器界面
22. 关闭计算器界面
23. 打开计算器程序窗口
24. 关闭计算器程序窗口
25. 打开计算器应用图标
26. 关闭计算器应用图标
27. 启动计算器应用进程
28. 终止计算器应用进程
29. 打开计算器快捷方式
30. 关闭计算器快捷方式
31. 打开计算器工具栏
32. 关闭计算器工具栏
33. 启动计算器任务
34. 结束计算器任务
35. 打开计算器面板
36. 关闭计算器面板
37. 打开计算器模块
38. 关闭计算器模块
39. 启动计算器组件
40. 关闭计算器组件
41. 打开计算器功能窗口
42. 关闭计算器功能窗口
43. 打开计算器应用界面
44. 关闭计算器应用界面
45. 启动计算器应用功能
46. 关闭计算器应用功能
47. 打开计算器应用进程
48. 关闭计算器应用进程
49. 启动计算器应用服务
50. 停止计算器应用服务

 20%|██████████████                                                        | 1/5 [00:09<00:36,  9.24s/it]


1. 打开计算器
2. 关闭计算器
3. 启动计算器应用
4. 退出计算器应用
5. 打开电脑计算器
6. 关闭电脑计算器
7. 运行计算器程序
8. 结束计算器程序
9. 开启计算器功能
10. 关闭计算器功能
11. 打开系统计算器
12. 关闭系统计算器
13. 启动计算器工具
14. 退出计算器工具
15. 打开计算器软件
16. 关闭计算器软件
17. 启动计算器应用窗口
18. 关闭计算器应用窗口
19. 打开计算器界面
20. 关闭计算器界面
21. 启动计算器服务
22. 停止计算器服务
23. 打开计算器应用程序
24. 关闭计算器应用程序
25. 启动计算器功能模块
26. 关闭计算器功能模块
27. 打开计算器操作界面
28. 关闭计算器操作界面
29. 启动计算器工具程序
30. 退出计算器工具程序
31. 打开计算器功能窗口
32. 关闭计算器功能窗口
33. 启动计算器应用服务
34. 停止计算器应用服务
35. 打开计算器操作程序
36. 关闭计算器操作程序
37. 启动计算器软件工具
38. 退出计算器软件工具
39. 打开计算器系统应用
40. 关闭计算器系统应用
41. 启动计算器功能应用
42. 关闭计算器功能应用
43. 打开计算器操作工具
44. 关闭计算器操作工具
45. 启动计算器应用界面
46. 关闭计算器应用界面
47. 打开计算器程序窗口
48. 关闭计算器程序窗口
49. 启动计算器软件服务
50. 停止计算器软件服务

 40%|████████████████████████████                                          | 2/5 [00:18<00:27,  9.30s/it]


1. 打开计算器
2. 关闭计算器
3. 启动计算器应用
4. 退出计算器应用
5. 打开系统计算器
6. 关闭系统计算器
7. 运行计算器程序
8. 终止计算器程序
9. 打开计算器工具
10. 关闭计算器工具
11. 启动计算器软件
12. 退出计算器软件
13. 打开电脑计算器
14. 关闭电脑计算器
15. 启动计算器功能
16. 关闭计算器功能
17. 打开计算器界面
18. 关闭计算器界面
19. 启动计算器服务
20. 停止计算器服务
21. 打开计算器窗口
22. 关闭计算器窗口
23. 启动计算器应用程式
24. 退出计算器应用程式
25. 打开计算器模块
26. 关闭计算器模块
27. 启动计算器组件
28. 关闭计算器组件
29. 打开计算器程序窗口
30. 关闭计算器程序窗口
31. 启动计算器功能模块
32. 关闭计算器功能模块
33. 打开计算器应用窗口
34. 关闭计算器应用窗口
35. 启动计算器工具程序
36. 关闭计算器工具程序
37. 打开计算器软件界面
38. 关闭计算器软件界面
39. 启动计算器系统应用
40. 退出计算器系统应用
41. 打开计算器功能窗口
42. 关闭计算器功能窗口
43. 启动计算器应用服务
44. 停止计算器应用服务
45. 打开计算器程序界面
46. 关闭计算器程序界面
47. 启动计算器工具窗口
48. 关闭计算器工具窗口
49. 打开计算器软件服务
50. 关闭计算器软件服务

 60%|██████████████████████████████████████████                            | 3/5 [00:29<00:19,  9.82s/it]


1. 打开计算器
2. 关闭计算器
3. 启动计算器应用
4. 退出计算器
5. 打开电脑计算器
6. 关闭电脑计算器
7. 运行计算器程序
8. 结束计算器程序
9. 打开系统计算器
10. 关闭系统计算器
11. 启动计算器工具
12. 关闭计算器工具
13. 打开计算器应用
14. 关闭计算器应用
15. 打开桌面计算器
16. 关闭桌面计算器
17. 启动计算器软件
18. 退出计算器软件
19. 打开内置计算器
20. 关闭内置计算器
21. 打开计算器窗口
22. 关闭计算器窗口
23. 启动计算器功能
24. 关闭计算器功能
25. 打开计算器界面
26. 关闭计算器界面
27. 运行计算器应用
28. 停止计算器应用
29. 打开计算器程序
30. 关闭计算器程序
31. 启动计算器服务
32. 关闭计算器服务
33. 打开计算器工具栏
34. 关闭计算器工具栏
35. 运行计算器模块
36. 结束计算器模块
37. 打开计算器组件
38. 关闭计算器组件
39. 启动计算器功能
40. 关闭计算器功能
41. 打开计算器应用窗口
42. 关闭计算器应用窗口
43. 运行计算器应用程序
44. 退出计算器应用程序
45. 打开计算器快捷方式
46. 关闭计算器快捷方式
47. 启动计算器操作
48. 结束计算器操作
49. 打开计算器功能窗口
50. 关闭计算器功能窗口

 80%|████████████████████████████████████████████████████████              | 4/5 [00:38<00:09,  9.60s/it]


1. 打开计算器
2. 关闭计算器
3. 启动计算器应用
4. 退出计算器应用
5. 打开电脑计算器
6. 关闭电脑计算器
7. 开启计算器程序
8. 结束计算器程序
9. 打开系统计算器
10. 关闭系统计算器
11. 启动计算器工具
12. 关闭计算器工具
13. 打开计算器软件
14. 关闭计算器软件
15. 开启计算器功能
16. 关闭计算器功能
17. 打开计算器窗口
18. 关闭计算器窗口
19. 启动计算器界面
20. 关闭计算器界面
21. 打开计算器应用窗口
22. 关闭计算器应用窗口
23. 启动计算器应用程序
24. 关闭计算器应用程序
25. 打开计算器工具栏
26. 关闭计算器工具栏
27. 开启计算器服务
28. 关闭计算器服务
29. 打开计算器模块
30. 关闭计算器模块
31. 启动计算器组件
32. 关闭计算器组件
33. 打开计算器功能窗口
34. 关闭计算器功能窗口
35. 开启计算器操作界面
36. 关闭计算器操作界面
37. 打开计算器控制面板
38. 关闭计算器控制面板
39. 启动计算器管理工具
40. 关闭计算器管理工具
41. 打开计算器辅助程序
42. 关闭计算器辅助程序
43. 开启计算器支持服务
44. 关闭计算器支持服务
45. 打开计算器操作窗口
46. 关闭计算器操作窗口
47. 启动计算器执行程序
48. 关闭计算器执行程序
49. 打开计算器功能模块
50. 关闭计算器功能模块

100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:48<00:00,  9.69s/it]







In [6]:
text_list1 = [remove_number_dot(text) for text in result_text1.split()]
text_list1 = [text.strip() for text in text_list1]
text_list1 = [text for text in text_list1 if len(text) > 0]
text_list1 = list(set(text_list1))
print(f"初步生成的指令有：{len(text_list1)}条")

初步生成的指令有：267条


In [7]:
text_list1

['关闭计算器，麻烦了',
 '能否迅速关闭计算器？',
 '启动计算器工具',
 '退出计算器系统应用',
 '关闭计算器界面',
 '关闭计算器操作界面',
 '请关闭计算器',
 '退出计算器应用程序',
 '打开计算器快捷方式',
 '帮我关掉那个计算器',
 '请帮我开计算器',
 '开启一下计算器',
 '打开计算器系统应用',
 '关闭计算器功能应用',
 '启动计算器工具窗口',
 '运行计算器应用程序',
 '关闭计算器，快点',
 '打开桌面计算器',
 '请帮我打开电脑计算器',
 '关闭计算器，谢谢',
 '启动计算器软件工具',
 '启动计算器任务',
 '我要使用计算器，打开它',
 '退出计算器工具',
 '关闭计算器应用程序',
 '打开计算器操作程序',
 '打开计算器吧',
 '启动计算器执行程序',
 '我想关闭计算器',
 '把计算器关了吧',
 '打开计算器软件界面',
 '打开计算器，我急用',
 '能关闭计算器吗？',
 '打开一下计算器',
 '我想停止使用计算器，关闭',
 '关闭计算器程序',
 '启动计算器应用',
 '开启电脑上的计算器',
 '能否帮我开启计算器？',
 '关闭计算器行吗？',
 '关闭计算器应用图标',
 '我用完计算器了，请关闭',
 '关闭计算器工具栏',
 '请启动计算器',
 '关闭那个计算器',
 '关闭计算器应用界面',
 '启动计算器功能应用',
 '打开计算器工具',
 '启动计算器管理工具',
 '快速打开计算器',
 '关闭计算器',
 '结束计算器程序',
 '打开计算器给我',
 '关闭计算器支持服务',
 '启动计算器功能',
 '开启计算器操作界面',
 '我不需要计算器了，关闭它',
 '关闭计算器面板',
 '我不需要计算器了，关闭',
 '能否关闭计算器？',
 '打开计算器面板',
 '请关闭电脑上的计算器',
 '关停一下计算器',
 '关停计算器',
 '我用完计算器了，关掉吧',
 '打开计算器程序界面',
 '启动计算器软件服务',
 '能打开计算器吗？',
 '请关闭计算器应用',
 '帮忙打开计算器',
 '能否为我打开计算器？',
 '请帮我打开计算器',
 '关闭计算器功能模块',
 '能否打开计算器？',
 '请帮我开启计算器应用',
 

In [8]:
text_list = text_list1

### 需要一个标注工人
- 帮我完成对应的实体标注，实体类别，开始位置，结束位置，原文字段

In [9]:
prompt3_1 = """
请帮我对下面提供的数据做实体标注，要求标注它的实体类型。
实体类别有两种，分别是`On`和`Off`
下面是一些例子：
这里我提供三个样本：
```text
关闭计算器
打开计算机上的计算器
结束计算器运行
```
标注结果参考
```json
[
    {
        "text": "关闭计算器",
        "entity": {"type": "Off", "raw": "关闭"}
    },
    {
        "text": "打开计算机上的计算器",
        "entity": {"type": "On", "raw": "打开"}
    },
    {
        "text": "结束计算器运行",
        "entity": {"type": "Off", "raw": "结束"}
    }
]
```
"""

In [10]:
def find_entity(text, raw):
    s = text.rfind(raw)
    e = s + len(raw)
    return (s, e)

In [11]:
find_entity("将音量调至10%", "调至10%")

(3, 8)

In [12]:
def label_text(text: str):
    prompt3_2 = f"""
    下面是我提供给你的句子，请直接返回标注结果，不要多余返回。
    注意：生成的json必须合乎json语法规范，不要有多余空格
    ```text
    {text}
    ```
    """
    prompt3 = prompt3_1 + prompt3_2
    result_text = stream_chat(prompt3, system="你是一个标注员")
    response = result_text
    if result_text.startswith("```json"):
        result_text = result_text.lstrip("```json")
    if result_text.endswith("```"):
        result_text = result_text.rstrip("```")
    try:
        result_data = json.loads(result_text)
        data_list = []
        for data in result_data:
            start, end = find_entity(data["text"], data["entity"]["raw"])
            data["entity"]["start"] = start
            data["entity"]["end"] = end
            data_list.append(data)
    except:
        print("标注异常")
        print("text: ", text)
        print("response: ", response)
        data_list = []
    return data_list

In [13]:
data_list = []
for text in tqdm(text_list):
    temp_list = label_text(text)
    data_list.extend(temp_list)

100%|██████████████████████████████████████████████████████████████████| 267/267 [05:24<00:00,  1.21s/it]


In [14]:
len(data_list)

267

In [15]:
### 保存结果
import os
dataset_dir = "dataset"
if not os.path.exists(dataset_dir):
    os.mkdir(dataset_dir)

In [16]:
result_json_path = os.path.join(dataset_dir, "calculator.json")
with open(result_json_path, "wt", encoding="utf-8") as f1:
    json.dump(data_list, f1, indent=4, ensure_ascii=False)