In [1]:
import os
import re
import json
from tqdm import tqdm, trange
from openai import OpenAI

In [2]:
client = OpenAI(
    base_url="https://open.bigmodel.cn/api/paas/v4/",
    api_key=os.environ["API_KEY"],
)

def stream_chat(prompt: str, system: str = "You are a helpful assistant.", show_log: bool = False):
    """
    流式对话，让你看到过程，然后将结果返回
    """
    messages = [{"role": "system", "content": system}]
    messages.append({"role": "user", "content": prompt})
    response = client.chat.completions.create(
        model="GLM-4-Plus",
        messages=messages,
        top_p=0.5,
        temperature=1,
        n=1,
        max_tokens=4096,
        stream=True,
    )
    response_text = ""
    for event in response:
        # print(event)
        event_text = event.choices[0].delta.content  # extract the text
        if event_text is None:
            event_text = ""
        response_text += event_text
        if show_log:
            print(event_text, end='', flush=True)
    if show_log:
        print("")
    return response_text

In [3]:
def remove_number_dot(text):
    # 正则表达式匹配以数字和点号开头的模式
    pattern = r'^\d+\.\s*'
    # 使用re.sub替换匹配到的内容为空字符串
    result = re.sub(pattern, '', text)
    return result

In [4]:
prompt1_1 = """
模拟用户对话。
生成一些打开或者关闭省电模式的指令，大概50条左右。例如：1. 帮我打开省电模式 2. 帮我关掉省电模式
生成开启和关闭两种情况的样本，需要满足1：1，即样本需要尽量均衡。
并且对话语气需要模拟用户说话。
只返回生成后的结果，不要多余回答。生成内容尽量不要重复。
"""
prompt1_2 = """
生成一些打开或者关闭省电模式的指令，大概50条左右。例如：1. 打开省电模式 2. 关闭省电模式
生成开启和关闭两种情况的样本，需要满足1：1，即样本需要尽量均衡。
只返回生成后的结果，不要多余回答。生成内容尽量不要重复。
"""

In [5]:
result_text1 = ""
for i in trange(5):
    temp_text = stream_chat(prompt1_1, system="你是一个电脑助手", show_log=False)
    result_text1 += "\n" + temp_text
for i in trange(5):
    temp_text = stream_chat(prompt1_2, system="你是一个电脑助手", show_log=True)
    result_text1 += "\n" + temp_text

100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:57<00:00, 11.58s/it]
  0%|                                                                              | 0/5 [00:00<?, ?it/s]

1. 启动省电模式
2. 关闭省电模式
3. 开启节能模式
4. 禁用省电模式
5. 激活省电功能
6. 取消省电模式
7. 打开节能选项
8. 关闭节能功能
9. 启用省电设置
10. 停用省电模式
11. 开启省电选项
12. 关闭省电选项
13. 启动节能功能
14. 禁用节能模式
15. 激活节能设置
16. 取消节能模式
17. 打开省电功能
18. 关闭省电功能
19. 启用节能选项
20. 停用节能模式
21. 开启省电配置
22. 关闭省电配置
23. 启动节能配置
24. 禁用节能配置
25. 激活省电模式
26. 取消节能功能
27. 打开节能模式
28. 关闭节能模式
29. 启用省电状态
30. 停用省电状态
31. 开启节能状态
32. 关闭节能状态
33. 启动省电选项
34. 禁用省电选项
35. 激活节能选项
36. 取消节能选项
37. 打开省电设置
38. 关闭省电设置
39. 启用节能设置
40. 停用节能设置
41. 开启省电功能
42. 关闭省电功能
43. 启动节能功能
44. 禁用节能功能
45. 激活省电模式
46. 取消省电模式
47. 打开节能模式
48. 关闭节能模式
49. 启用省电配置
50. 停用省电配置

 20%|██████████████                                                        | 1/5 [00:09<00:36,  9.12s/it]


1. 启动省电模式
2. 关闭省电模式
3. 开启节能模式
4. 禁用省电模式
5. 激活省电功能
6. 取消省电模式
7. 打开节能选项
8. 关闭节能选项
9. 启用省电设置
10. 停用省电设置
11. 开启省电功能
12. 关闭省电功能
13. 启动节能功能
14. 禁用节能功能
15. 激活节能模式
16. 取消节能模式
17. 打开省电开关
18. 关闭省电开关
19. 启用节能模式
20. 停用节能模式
21. 开启省电配置
22. 关闭省电配置
23. 启动节能配置
24. 禁用节能配置
25. 激活省电选项
26. 取消省电选项
27. 打开节能功能
28. 关闭节能功能
29. 启用省电状态
30. 停用省电状态
31. 开启节能状态
32. 关闭节能状态
33. 启动省电模式
34. 禁用省电模式
35. 激活节能选项
36. 取消节能选项
37. 打开省电功能
38. 关闭省电功能
39. 启用节能功能
40. 停用节能功能
41. 开启省电开关
42. 关闭省电开关
43. 启动节能开关
44. 禁用节能开关
45. 激活省电配置
46. 取消省电配置
47. 打开节能配置
48. 关闭节能配置
49. 启用省电选项
50. 停用省电选项

 40%|████████████████████████████                                          | 2/5 [00:18<00:27,  9.33s/it]


1. 启动省电模式
2. 关闭省电模式
3. 开启节能模式
4. 禁用省电模式
5. 激活省电功能
6. 取消省电模式
7. 打开节能选项
8. 关闭节能选项
9. 启用省电设置
10. 禁用节能设置
11. 开启省电模式
12. 关闭省电功能
13. 启动节能功能
14. 停用省电模式
15. 激活节能模式
16. 取消节能模式
17. 打开省电选项
18. 关闭省电选项
19. 启用节能模式
20. 禁用节能功能
21. 开启省电功能
22. 关闭节能功能
23. 启动省电设置
24. 停用节能设置
25. 激活省电选项
26. 取消省电功能
27. 打开节能模式
28. 关闭节能模式
29. 启用省电选项
30. 禁用省电选项
31. 开启节能功能
32. 关闭省电设置
33. 启动节能设置
34. 停用省电功能
35. 激活节能选项
36. 取消节能功能
37. 打开省电设置
38. 关闭省电功能
39. 启用节能选项
40. 禁用省电设置
41. 开启省电选项
42. 关闭节能设置
43. 启动省电功能
44. 停用节能选项
45. 激活省电设置
46. 取消节能设置
47. 打开节能功能
48. 关闭省电选项
49. 启用省电模式
50. 禁用节能模式

 60%|██████████████████████████████████████████                            | 3/5 [00:28<00:18,  9.39s/it]


1. 启动省电模式
2. 关闭省电模式
3. 开启节能模式
4. 禁用省电模式
5. 激活省电功能
6. 停用省电功能
7. 打开节能选项
8. 关闭节能选项
9. 启用省电设置
10. 禁用省电设置
11. 开启省电模式
12. 关闭省电模式
13. 启动节能模式
14. 停止省电模式
15. 激活节能功能
16. 禁用节能功能
17. 打开省电选项
18. 关闭省电选项
19. 启用节能设置
20. 禁用节能设置
21. 开启省电状态
22. 关闭省电状态
23. 启动省电功能
24. 停用省电功能
25. 激活省电模式
26. 禁用省电模式
27. 打开节能状态
28. 关闭节能状态
29. 启用省电选项
30. 禁用省电选项
31. 开启节能功能
32. 关闭节能功能
33. 启动省电设置
34. 停用省电设置
35. 激活节能模式
36. 禁用节能模式
37. 打开省电功能
38. 关闭省电功能
39. 启用节能状态
40. 禁用节能状态
41. 开启省电模式
42. 关闭省电模式
43. 启动节能选项
44. 停止节能选项
45. 激活省电设置
46. 禁用省电设置
47. 打开节能功能
48. 关闭节能功能
49. 启用省电状态
50. 禁用省电状态

 80%|████████████████████████████████████████████████████████              | 4/5 [00:37<00:09,  9.60s/it]


1. 启动省电模式
2. 关闭省电模式
3. 开启节能模式
4. 禁用省电模式
5. 激活省电功能
6. 取消省电模式
7. 打开节能选项
8. 关闭节能功能
9. 启用省电设置
10. 停用省电设置
11. 开启省电选项
12. 关闭省电选项
13. 启动节能功能
14. 禁用节能模式
15. 激活节能设置
16. 取消节能模式
17. 打开省电功能
18. 关闭省电功能
19. 启用节能选项
20. 停用节能选项
21. 开启省电配置
22. 关闭省电配置
23. 启动节能配置
24. 禁用节能配置
25. 激活省电模式
26. 取消节能功能
27. 打开节能模式
28. 关闭节能模式
29. 启用省电状态
30. 停用省电状态
31. 开启节能状态
32. 关闭节能状态
33. 启动省电选项
34. 禁用省电选项
35. 激活节能选项
36. 取消省电功能
37. 打开省电配置
38. 关闭省电设置
39. 启用节能配置
40. 停用节能设置
41. 开启省电功能
42. 关闭省电选项
43. 启动节能模式
44. 禁用省电状态
45. 激活省电设置
46. 取消节能配置
47. 打开节能选项
48. 关闭省电配置
49. 启用省电模式
50. 停用节能状态

100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:47<00:00,  9.46s/it]







In [6]:
text_list1 = [remove_number_dot(text) for text in result_text1.split()]
text_list1 = [text.strip() for text in text_list1]
text_list1 = [text for text in text_list1 if len(text) > 0]
text_list1 = list(set(text_list1))
print(f"初步生成的指令有：{len(text_list1)}条")

初步生成的指令有：256条


In [7]:
text_list1

['启动省电选项',
 '停用省电选项',
 '我想激活省电模式',
 '请帮我开启省电功能',
 '能不能关掉省电设置',
 '停用节能模式',
 '关闭省电功能吧',
 '启用省电设置',
 '能帮我关闭省电模式吗',
 '停用节能功能',
 '开启省电选项',
 '我需要关闭省电模式',
 '启动节能设置',
 '禁用省电设置',
 '开启一下省电模式',
 '关闭节能模式可以吗',
 '能否帮我打开省电选项',
 '关闭省电配置',
 '打开省电开关',
 '我需要开启省电功能',
 '关闭节能设置',
 '关闭省电选项',
 '帮我开启节能模式',
 '激活节能功能',
 '请打开省电设置',
 '帮我开启省电设置',
 '请帮我关闭节能功能',
 '把节能模式关闭一下',
 '取消省电功能',
 '停用节能设置',
 '禁用节能模式',
 '我想关闭省电模式',
 '停用节能选项',
 '能帮我开个省电模式吗',
 '激活节能选项',
 '开启省电状态',
 '开启省电模式',
 '开启省电模式，谢谢',
 '帮我把省电模式打开',
 '打开节能功能',
 '请关掉节能模式',
 '关掉省电模式吧',
 '我要启用省电模式',
 '我想把省电模式关掉',
 '关掉省电功能好吗',
 '请把省电选项关上',
 '请帮我关省电模式',
 '请启动省电模式',
 '开启省电模式好吗',
 '禁用省电模式',
 '启用节能设置',
 '帮我关一下省电模式',
 '开启省电模式可以吗',
 '把省电选项关了',
 '帮我启动省电选项',
 '请关掉省电模式',
 '取消节能功能',
 '停用省电状态',
 '关闭省电状态',
 '启用节能功能',
 '把省电模式关闭一下',
 '帮我打开省电选项',
 '我需要开启省电模式',
 '停止节能选项',
 '我要启用节能功能',
 '开省电模式',
 '关闭一下省电模式',
 '帮我关省电模式',
 '请把省电选项关闭',
 '关闭节能状态',
 '关闭节能配置',
 '开一下节能模式',
 '激活省电功能',
 '帮我启动省电',
 '启用省电状态',
 '开一下省电选项',
 '启动省电设置',
 '请帮我开启省电模式',
 '请帮我关闭省电选项',
 '帮我启动省电功能',
 '帮我激活省电模式',
 '把省电模

In [8]:
text_list = text_list1

### 需要一个标注工人
- 帮我完成对应的实体标注，实体类别，开始位置，结束位置，原文字段

In [9]:
prompt3_1 = """
请帮我对下面提供的数据做实体标注，要求标注它的实体类型。
实体类别有两种，分别是`On`和`Off`
下面是一些例子：
这里我提供三个样本：
```text
关掉节能模式
进入省电模式
启用省电功能
```
标注结果参考
```json
[
    {
        "text": "关掉节能模式",
        "entity": {"type": "Off", "raw": "关掉"}
    },
    {
        "text": "进入省电模式",
        "entity": {"type": "On", "raw": "进入"}
    },
    {
        "text": "启用省电功能",
        "entity": {"type": "On", "raw": "启用"}
    }
]
```
"""

In [10]:
def find_entity(text, raw):
    s = text.rfind(raw)
    e = s + len(raw)
    return (s, e)

In [11]:
find_entity("将音量调至10%", "调至10%")

(3, 8)

In [12]:
def label_text(text: str):
    prompt3_2 = f"""
    下面是我提供给你的句子，请直接返回标注结果，不要多余返回。
    注意：生成的json必须合乎json语法规范，不要有多余空格
    ```text
    {text}
    ```
    """
    prompt3 = prompt3_1 + prompt3_2
    result_text = stream_chat(prompt3, system="你是一个标注员")
    response = result_text
    if result_text.startswith("```json"):
        result_text = result_text.lstrip("```json")
    if result_text.endswith("```"):
        result_text = result_text.rstrip("```")
    try:
        result_data = json.loads(result_text)
        data_list = []
        for data in result_data:
            start, end = find_entity(data["text"], data["entity"]["raw"])
            data["entity"]["start"] = start
            data["entity"]["end"] = end
            data_list.append(data)
    except:
        print("标注异常")
        print("text: ", text)
        print("response: ", response)
        data_list = []
    return data_list

In [13]:
data_list = []
for text in tqdm(text_list):
    temp_list = label_text(text)
    data_list.extend(temp_list)

100%|██████████████████████████████████████████████████████████████████| 256/256 [05:11<00:00,  1.22s/it]


In [14]:
len(data_list)

256

In [15]:
### 保存结果
import os
dataset_dir = "dataset"
if not os.path.exists(dataset_dir):
    os.mkdir(dataset_dir)

In [16]:
result_json_path = os.path.join(dataset_dir, "power_saving_mode.json")
with open(result_json_path, "wt", encoding="utf-8") as f1:
    json.dump(data_list, f1, indent=4, ensure_ascii=False)