In [1]:
import os
import re
import json
from tqdm import tqdm, trange
from openai import OpenAI

In [2]:
client = OpenAI(
    base_url="https://open.bigmodel.cn/api/paas/v4/",
    api_key=os.environ["API_KEY"],
)

def stream_chat(prompt: str, system: str = "You are a helpful assistant.", show_log: bool = False):
    """
    流式对话，让你看到过程，然后将结果返回
    """
    messages = [{"role": "system", "content": system}]
    messages.append({"role": "user", "content": prompt})
    response = client.chat.completions.create(
        model="GLM-4-Plus",
        messages=messages,
        top_p=0.5,
        temperature=1,
        n=1,
        max_tokens=4096,
        stream=True,
    )
    response_text = ""
    for event in response:
        # print(event)
        event_text = event.choices[0].delta.content  # extract the text
        if event_text is None:
            event_text = ""
        response_text += event_text
        if show_log:
            print(event_text, end='', flush=True)
    if show_log:
        print("")
    return response_text

In [3]:
def remove_number_dot(text):
    # 正则表达式匹配以数字和点号开头的模式
    pattern = r'^\d+\.\s*'
    # 使用re.sub替换匹配到的内容为空字符串
    result = re.sub(pattern, '', text)
    return result

In [4]:
prompt1_1 = """
模拟用户对话。
生成一些打开或者关闭电脑上面的任务管理器的指令，大概50条左右。例如：1. 帮我打开任务管理器 2. 帮我关掉任务管理器
开启和关闭的对话尽量1：1，对话过程需要提到任务管理器这个关键词。
并且对话语气需要模拟用户说话。
只返回生成后的结果，不要多余回答。生成内容尽量不要重复。
"""
prompt1_2 = """
生成一些打开或者关闭电脑上面的任务管理器的指令，大概50条左右。例如：1. 打开任务管理器 2. 关闭任务管理器
开启和关闭的对话尽量1：1，对话过程需要提到任务管理器这个关键词。
只返回生成后的结果，不要多余回答。生成内容尽量不要重复。
"""

In [5]:
result_text1 = ""
for i in trange(5):
    temp_text = stream_chat(prompt1_1, system="你是一个电脑助手", show_log=False)
    result_text1 += "\n" + temp_text
for i in trange(5):
    temp_text = stream_chat(prompt1_2, system="你是一个电脑助手", show_log=True)
    result_text1 += "\n" + temp_text

100%|██████████████████████████████████████████████████████████████████████| 5/5 [01:08<00:00, 13.75s/it]
  0%|                                                                              | 0/5 [00:00<?, ?it/s]

1. 打开任务管理器
2. 关闭任务管理器
3. 请启动任务管理器
4. 请关闭任务管理器
5. 打开电脑的任务管理器
6. 关闭电脑的任务管理器
7. 请打开任务管理器界面
8. 请关闭任务管理器界面
9. 启动任务管理器功能
10. 关闭任务管理器功能
11. 打开系统任务管理器
12. 关闭系统任务管理器
13. 请开启任务管理器
14. 请结束任务管理器
15. 打开任务管理器窗口
16. 关闭任务管理器窗口
17. 请显示任务管理器
18. 请隐藏任务管理器
19. 打开任务管理器工具
20. 关闭任务管理器工具
21. 请运行任务管理器
22. 请停止任务管理器
23. 打开任务管理器面板
24. 关闭任务管理器面板
25. 请激活任务管理器
26. 请退出任务管理器
27. 打开任务管理器视图
28. 关闭任务管理器视图
29. 请加载任务管理器
30. 请卸载任务管理器
31. 打开任务管理器应用
32. 关闭任务管理器应用
33. 请进入任务管理器
34. 请退出任务管理器界面
35. 打开任务管理器程序
36. 关闭任务管理器程序
37. 请开启任务管理器服务
38. 请关闭任务管理器服务
39. 打开任务管理器控制台
40. 关闭任务管理器控制台
41. 请调用任务管理器
42. 请结束任务管理器进程
43. 打开任务管理器对话框
44. 关闭任务管理器对话框
45. 请展示任务管理器
46. 请关闭任务管理器显示
47. 打开任务管理器界面窗口
48. 关闭任务管理器界面窗口
49. 请启动任务管理器进程
50. 请终止任务管理器进程

 20%|██████████████                                                        | 1/5 [00:09<00:39,  9.98s/it]


1. 打开任务管理器
2. 关闭任务管理器
3. 请启动任务管理器
4. 请关闭任务管理器
5. 打开电脑的任务管理器
6. 关闭电脑的任务管理器
7. 请打开任务管理器查看进程
8. 请关闭任务管理器结束操作
9. 启动任务管理器进行监控
10. 关闭任务管理器停止监控
11. 打开任务管理器检查性能
12. 关闭任务管理器退出检查
13. 请打开任务管理器结束程序
14. 请关闭任务管理器释放资源
15. 打开任务管理器查看内存使用
16. 关闭任务管理器结束查看
17. 请启动任务管理器分析进程
18. 请关闭任务管理器结束分析
19. 打开任务管理器查看CPU占用
20. 关闭任务管理器停止查看
21. 请打开任务管理器管理启动项
22. 请关闭任务管理器完成管理
23. 启动任务管理器查看网络活动
24. 关闭任务管理器结束查看
25. 打开任务管理器终止异常进程
26. 关闭任务管理器完成终止
27. 请打开任务管理器优化性能
28. 请关闭任务管理器结束优化
29. 打开任务管理器查看系统资源
30. 关闭任务管理器退出查看
31. 请启动任务管理器监控磁盘
32. 请关闭任务管理器停止监控
33. 打开任务管理器查看服务状态
34. 关闭任务管理器结束查看
35. 请打开任务管理器结束任务
36. 请关闭任务管理器完成操作
37. 启动任务管理器查看用户会话
38. 关闭任务管理器结束查看
39. 打开任务管理器查看进程详情
40. 关闭任务管理器退出详情
41. 请打开任务管理器进行调试
42. 请关闭任务管理器结束调试
43. 打开任务管理器查看系统日志
44. 关闭任务管理器结束查看
45. 请启动任务管理器管理进程
46. 请关闭任务管理器完成管理
47. 打开任务管理器查看系统性能
48. 关闭任务管理器停止查看
49. 请打开任务管理器进行系统优化
50. 请关闭任务管理器结束优化

 40%|████████████████████████████                                          | 2/5 [00:22<00:33, 11.26s/it]


1. 打开任务管理器
2. 关闭任务管理器
3. 请启动任务管理器
4. 请关闭任务管理器
5. 打开电脑的任务管理器
6. 关闭电脑的任务管理器
7. 请打开任务管理器界面
8. 请关闭任务管理器界面
9. 启动任务管理器功能
10. 关闭任务管理器功能
11. 打开系统任务管理器
12. 关闭系统任务管理器
13. 请开启任务管理器
14. 请结束任务管理器
15. 打开任务管理器窗口
16. 关闭任务管理器窗口
17. 请激活任务管理器
18. 请退出任务管理器
19. 打开任务管理器工具
20. 关闭任务管理器工具
21. 请显示任务管理器
22. 请隐藏任务管理器
23. 打开任务管理器面板
24. 关闭任务管理器面板
25. 请运行任务管理器
26. 请停止任务管理器
27. 打开任务管理器视图
28. 关闭任务管理器视图
29. 请加载任务管理器
30. 请卸载任务管理器
31. 打开任务管理器应用
32. 关闭任务管理器应用
33. 请开启任务管理器服务
34. 请关闭任务管理器服务
35. 打开任务管理器程序
36. 关闭任务管理器程序
37. 请启动任务管理器进程
38. 请终止任务管理器进程
39. 打开任务管理器控制台
40. 关闭任务管理器控制台
41. 请打开任务管理器界面
42. 请关闭任务管理器界面
43. 打开任务管理器对话框
44. 关闭任务管理器对话框
45. 请展开任务管理器
46. 请收起任务管理器
47. 打开任务管理器监视器
48. 关闭任务管理器监视器
49. 请进入任务管理器
50. 请退出任务管理器

 60%|██████████████████████████████████████████                            | 3/5 [00:32<00:21, 10.75s/it]


1. 打开任务管理器
2. 关闭任务管理器
3. 请启动任务管理器
4. 请关闭任务管理器
5. 打开电脑的任务管理器
6. 关闭电脑的任务管理器
7. 请打开任务管理器界面
8. 请关闭任务管理器界面
9. 启动任务管理器功能
10. 关闭任务管理器功能
11. 打开系统任务管理器
12. 关闭系统任务管理器
13. 请开启任务管理器
14. 请结束任务管理器
15. 打开任务管理器窗口
16. 关闭任务管理器窗口
17. 请显示任务管理器
18. 请隐藏任务管理器
19. 打开任务管理器工具
20. 关闭任务管理器工具
21. 请运行任务管理器
22. 请停止任务管理器
23. 打开任务管理器面板
24. 关闭任务管理器面板
25. 请激活任务管理器
26. 请退出任务管理器
27. 打开任务管理器视图
28. 关闭任务管理器视图
29. 请加载任务管理器
30. 请卸载任务管理器
31. 打开任务管理器应用
32. 关闭任务管理器应用
33. 请调用任务管理器
34. 请终止任务管理器
35. 打开任务管理器程序
36. 关闭任务管理器程序
37. 请开启任务管理器服务
38. 请关闭任务管理器服务
39. 打开任务管理器控制台
40. 关闭任务管理器控制台
41. 请弹出任务管理器
42. 请收起任务管理器
43. 打开任务管理器界面窗口
44. 关闭任务管理器界面窗口
45. 请启动任务管理器进程
46. 请结束任务管理器进程
47. 打开任务管理器功能模块
48. 关闭任务管理器功能模块
49. 请显示任务管理器界面
50. 请隐藏任务管理器界面

 80%|████████████████████████████████████████████████████████              | 4/5 [00:42<00:10, 10.47s/it]


1. 打开任务管理器
2. 关闭任务管理器
3. 请启动任务管理器
4. 请关闭任务管理器
5. 打开电脑的任务管理器
6. 关闭电脑的任务管理器
7. 请打开任务管理器界面
8. 请关闭任务管理器界面
9. 启动任务管理器功能
10. 关闭任务管理器功能
11. 打开系统任务管理器
12. 关闭系统任务管理器
13. 请开启任务管理器
14. 请结束任务管理器
15. 打开任务管理器窗口
16. 关闭任务管理器窗口
17. 请显示任务管理器
18. 请隐藏任务管理器
19. 打开任务管理器工具
20. 关闭任务管理器工具
21. 请运行任务管理器
22. 请停止任务管理器
23. 打开任务管理器面板
24. 关闭任务管理器面板
25. 请激活任务管理器
26. 请退出任务管理器
27. 打开任务管理器视图
28. 关闭任务管理器视图
29. 请加载任务管理器
30. 请卸载任务管理器
31. 打开任务管理器应用
32. 关闭任务管理器应用
33. 请访问任务管理器
34. 请离开任务管理器
35. 打开任务管理器程序
36. 关闭任务管理器程序
37. 请调用任务管理器
38. 请终止任务管理器
39. 打开任务管理器模块
40. 关闭任务管理器模块
41. 请开启任务管理器服务
42. 请关闭任务管理器服务
43. 打开任务管理器界面
44. 关闭任务管理器界面
45. 请展示任务管理器
46. 请关闭展示任务管理器
47. 打开任务管理器控制台
48. 关闭任务管理器控制台
49. 请进入任务管理器
50. 请退出任务管理器界面

100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:52<00:00, 10.41s/it]







In [6]:
text_list1 = [remove_number_dot(text) for text in result_text1.split()]
text_list1 = [text.strip() for text in text_list1]
text_list1 = [text for text in text_list1 if len(text) > 0]
text_list1 = list(set(text_list1))
print(f"初步生成的指令有：{len(text_list1)}条")

初步生成的指令有：242条


In [7]:
text_list1

['请帮我打开任务管理器，我需要看看。',
 '我需要打开任务管理器，谢谢。',
 '我需要任务管理器，请打开。',
 '我需要打开任务管理器。',
 '关闭任务管理器退出检查',
 '打开任务管理器终止异常进程',
 '请退出任务管理器',
 '关闭任务管理器功能',
 '关闭任务管理器模块',
 '请帮我结束任务管理器进程。',
 '请隐藏任务管理器界面',
 '帮我开启任务管理器，麻烦了。',
 '我需要打开任务管理器，能操作一下吗？',
 '能帮我关一下任务管理器吗，谢谢？',
 '帮我打开任务管理器，麻烦你了。',
 '请激活任务管理器',
 '帮我打开任务管理器，谢谢。',
 '请帮我停止任务管理器。',
 '帮我开启任务管理器，我需要用。',
 '请启动任务管理器进程',
 '打开任务管理器查看系统资源',
 '打开任务管理器对话框',
 '能否打开任务管理器？',
 '帮我打开任务管理器界面。',
 '请把任务管理器关掉，谢谢。',
 '请把任务管理器关掉。',
 '请帮我结束任务管理器的进程。',
 '请展示任务管理器',
 '请帮我关闭任务管理器功能。',
 '打开任务管理器工具',
 '打开任务管理器窗口',
 '能帮我关闭任务管理器吗？',
 '能否帮我启动任务管理器？',
 '能不能打开任务管理器？',
 '能帮我打开任务管理器吗？',
 '能否启动任务管理器？',
 '请关闭任务管理器释放资源',
 '请开启任务管理器',
 '打开任务管理器监视器',
 '我需要查看任务管理器，请打开。',
 '请帮我结束任务管理器窗口。',
 '能帮我打开任务管理器吗，谢谢？',
 '请关闭任务管理器服务',
 '我要查看任务管理器，请启动。',
 '请帮我结束任务管理器功能。',
 '帮我启动任务管理器。',
 '请把任务管理器关上。',
 '能否帮我关闭任务管理器？',
 '请关闭任务管理器，谢谢。',
 '请隐藏任务管理器',
 '关闭任务管理器停止监控',
 '能不能把任务管理器关掉？',
 '请帮忙开启任务管理器。',
 '请关闭任务管理器完成操作',
 '帮我打开任务管理器窗口。',
 '请开启任务管理器服务',
 '请帮我开启任务管理器。',
 '请启动任务管理器',
 '我要使用任务管理器，请打开。',
 '打开任务管理器模块',
 '

In [8]:
text_list = text_list1

### 需要一个标注工人
- 帮我完成对应的实体标注，实体类别，开始位置，结束位置，原文字段

In [9]:
prompt3_1 = """
请帮我对下面提供的数据做实体标注，要求标注它的实体类型。
实体类别有两种，分别是`On`和`Off`
下面是一些例子：
这里我提供两个样本：
```text
关闭任务管理器
打开任务管理器
```
标注结果参考
```json
[
    {
        "text": "关闭任务管理器",
        "entity": {"type": "Off", "raw": "关闭"}
    },
    {
        "text": "打开任务管理器",
        "entity": {"type": "On", "raw": "打开"}
    }
]
```
"""

In [10]:
def find_entity(text, raw):
    s = text.rfind(raw)
    e = s + len(raw)
    return (s, e)

In [11]:
find_entity("将音量调至10%", "调至10%")

(3, 8)

In [12]:
def label_text(text: str):
    prompt3_2 = f"""
    下面是我提供给你的句子，请直接返回标注结果，不要多余返回。
    注意：生成的json必须合乎json语法规范，不要有多余空格
    ```text
    {text}
    ```
    """
    prompt3 = prompt3_1 + prompt3_2
    result_text = stream_chat(prompt3, system="你是一个标注员")
    response = result_text
    if result_text.startswith("```json"):
        result_text = result_text.lstrip("```json")
    if result_text.endswith("```"):
        result_text = result_text.rstrip("```")
    try:
        result_data = json.loads(result_text)
        data_list = []
        for data in result_data:
            start, end = find_entity(data["text"], data["entity"]["raw"])
            data["entity"]["start"] = start
            data["entity"]["end"] = end
            data_list.append(data)
    except:
        print("标注异常")
        print("text: ", text)
        print("response: ", response)
        data_list = []
    return data_list

In [13]:
data_list = []
for text in tqdm(text_list):
    temp_list = label_text(text)
    data_list.extend(temp_list)

100%|██████████████████████████████████████████████████████████████████| 242/242 [05:05<00:00,  1.26s/it]


In [14]:
len(data_list)

242

In [15]:
### 保存结果
import os
dataset_dir = "dataset"
if not os.path.exists(dataset_dir):
    os.mkdir(dataset_dir)

In [16]:
result_json_path = os.path.join(dataset_dir, "task_manager.json")
with open(result_json_path, "wt", encoding="utf-8") as f1:
    json.dump(data_list, f1, indent=4, ensure_ascii=False)