In [1]:
import os
import re
import json
from tqdm import tqdm, trange
from openai import OpenAI

In [2]:
client = OpenAI(
    base_url="https://open.bigmodel.cn/api/paas/v4/",
    api_key=os.environ["API_KEY"],
)

def stream_chat(prompt: str, system: str = "You are a helpful assistant.", show_log: bool = False):
    """
    流式对话，让你看到过程，然后将结果返回
    """
    messages = [{"role": "system", "content": system}]
    messages.append({"role": "user", "content": prompt})
    response = client.chat.completions.create(
        model="GLM-4-Plus",
        messages=messages,
        top_p=0.5,
        temperature=1,
        n=1,
        max_tokens=4096,
        stream=True,
    )
    response_text = ""
    for event in response:
        # print(event)
        event_text = event.choices[0].delta.content  # extract the text
        if event_text is None:
            event_text = ""
        response_text += event_text
        if show_log:
            print(event_text, end='', flush=True)
    if show_log:
        print("")
    return response_text

In [3]:
def remove_number_dot(text):
    # 正则表达式匹配以数字和点号开头的模式
    pattern = r'^\d+\.\s*'
    # 使用re.sub替换匹配到的内容为空字符串
    result = re.sub(pattern, '', text)
    return result

In [4]:
prompt1_1 = """
模拟用户对话。
生成一些调整电脑屏幕亮度的指令，大概100条左右。指令支持调整亮度到具体的亮度，以及调整声音“大一些”，“小一些”或者其它量词。
生成调大，调小，调至三种情况的样本，需要满足1：1：1，即样本需要尽量均衡。
并且对话语气需要模拟用户说话。
只返回生成后的结果，不要多余回答。生成内容尽量不要重复。
"""
prompt1_2 = """
生成一些调整电脑屏幕亮度的指令，大概50条左右。指令支持调整亮度到具体的亮度，以及调整声音“大一些”，“小一些”或者其它量词。
生成调大，调小，调至三种情况的样本，需要满足1：1：1，即样本需要尽量均衡。
只返回生成后的结果，不要多余回答。生成内容尽量不要重复。
"""

In [5]:
result_text1 = ""
for i in trange(5):
    temp_text = stream_chat(prompt1_1, system="你是一个电脑助手", show_log=False)
    result_text1 += "\n" + temp_text
for i in trange(5):
    temp_text = stream_chat(prompt1_2, system="你是一个电脑助手", show_log=True)
    result_text1 += "\n" + temp_text

100%|██████████████████████████████████████████████████████████████████████| 5/5 [02:00<00:00, 24.11s/it]
  0%|                                                                              | 0/5 [00:00<?, ?it/s]

1. 将屏幕亮度调至50%
2. 将屏幕亮度调大一些
3. 将屏幕亮度调小一些
4. 将屏幕亮度调至30%
5. 将屏幕亮度调大一点
6. 将屏幕亮度调小一点
7. 将屏幕亮度调至70%
8. 将屏幕亮度调高一些
9. 将屏幕亮度调低一些
10. 将屏幕亮度调至20%
11. 将屏幕亮度调高一点
12. 将屏幕亮度调低一点
13. 将屏幕亮度调至90%
14. 将屏幕亮度调大一些
15. 将屏幕亮度调小一些
16. 将屏幕亮度调至40%
17. 将屏幕亮度调大一点
18. 将屏幕亮度调小一点
19. 将屏幕亮度调至60%
20. 将屏幕亮度调高一些
21. 将屏幕亮度调低一些
22. 将屏幕亮度调至80%
23. 将屏幕亮度调高一点
24. 将屏幕亮度调低一点
25. 将屏幕亮度调至100%
26. 将屏幕亮度调大一些
27. 将屏幕亮度调小一些
28. 将屏幕亮度调至10%
29. 将屏幕亮度调大一点
30. 将屏幕亮度调小一点
31. 将屏幕亮度调至55%
32. 将屏幕亮度调高一些
33. 将屏幕亮度调低一些
34. 将屏幕亮度调至35%
35. 将屏幕亮度调高一点
36. 将屏幕亮度调低一点
37. 将屏幕亮度调至75%
38. 将屏幕亮度调大一些
39. 将屏幕亮度调小一些
40. 将屏幕亮度调至25%
41. 将屏幕亮度调大一点
42. 将屏幕亮度调小一点
43. 将屏幕亮度调至65%
44. 将屏幕亮度调高一些
45. 将屏幕亮度调低一些
46. 将屏幕亮度调至85%
47. 将屏幕亮度调高一点
48. 将屏幕亮度调低一点
49. 将屏幕亮度调至45%
50. 将屏幕亮度调大一些
51. 将屏幕亮度调小一些
52. 将屏幕亮度调至95%
53. 将屏幕亮度调大一点
54. 将屏幕亮度调小一点
55. 将屏幕亮度调至15%
56. 将屏幕亮度调高一些
57. 将屏幕亮度调低一些
58. 将屏幕亮度调至5%
59. 将屏幕亮度调高一点
60. 将屏幕亮度调低一点
61. 将屏幕亮度调至50%
62. 将屏幕亮度调大一些
63. 将屏幕亮度调小一些
64. 将屏幕亮度调至30%
65. 将屏幕亮度调大一点
66. 将屏幕亮度调小一点
67. 将屏幕亮度调至70%
68. 将屏幕亮度调高一些
69. 将屏幕亮度调低一些
70. 将屏幕亮度调至20%
71. 将

 20%|██████████████                                                        | 1/5 [00:22<01:29, 22.49s/it]


1. 将屏幕亮度调至50%
2. 将屏幕亮度调大一些
3. 将屏幕亮度调小一些
4. 将屏幕亮度调至30%
5. 将屏幕亮度调至70%
6. 将屏幕亮度调高一些
7. 将屏幕亮度调低一些
8. 将屏幕亮度调至40%
9. 将屏幕亮度调至60%
10. 将屏幕亮度调亮一些
11. 将屏幕亮度调暗一些
12. 将屏幕亮度调至20%
13. 将屏幕亮度调至80%
14. 将屏幕亮度调大一点
15. 将屏幕亮度调小一点
16. 将屏幕亮度调至25%
17. 将屏幕亮度调至75%
18. 将屏幕亮度调高一点
19. 将屏幕亮度调低一点
20. 将屏幕亮度调至35%
21. 将屏幕亮度调至65%
22. 将屏幕亮度调亮一点
23. 将屏幕亮度调暗一点
24. 将屏幕亮度调至15%
25. 将屏幕亮度调至85%
26. 将屏幕亮度调大一些些
27. 将屏幕亮度调小一些些
28. 将屏幕亮度调至45%
29. 将屏幕亮度调至55%
30. 将屏幕亮度调高一些些
31. 将屏幕亮度调低一些些
32. 将屏幕亮度调至10%
33. 将屏幕亮度调至90%
34. 将屏幕亮度调亮一些些
35. 将屏幕亮度调暗一些些
36. 将屏幕亮度调至5%
37. 将屏幕亮度调至95%
38. 将屏幕亮度调大一些些
39. 将屏幕亮度调小一些些
40. 将屏幕亮度调至50%
41. 将屏幕亮度调至100%
42. 将屏幕亮度调高一些些
43. 将屏幕亮度调低一些些
44. 将屏幕亮度调至0%
45. 将屏幕亮度调至20%
46. 将屏幕亮度调亮一些些
47. 将屏幕亮度调暗一些些
48. 将屏幕亮度调至30%
49. 将屏幕亮度调至70%
50. 将屏幕亮度调大一些些

 40%|████████████████████████████                                          | 2/5 [00:35<00:50, 16.95s/it]


1. 将屏幕亮度调至50%
2. 将屏幕亮度调大一些
3. 将屏幕亮度调小一些
4. 将屏幕亮度调至70%
5. 将屏幕亮度调大一点
6. 将屏幕亮度调小一点
7. 将屏幕亮度调至90%
8. 将屏幕亮度调大少许
9. 将屏幕亮度调小少许
10. 将屏幕亮度调至30%
11. 将屏幕亮度调大一些些
12. 将屏幕亮度调小一些些
13. 将屏幕亮度调至80%
14. 将屏幕亮度调大一些许
15. 将屏幕亮度调小一些许
16. 将屏幕亮度调至60%
17. 将屏幕亮度调大一点半
18. 将屏幕亮度调小一点半
19. 将屏幕亮度调至40%
20. 将屏幕亮度调大一些多
21. 将屏幕亮度调小一些多
22. 将屏幕亮度调至100%
23. 将屏幕亮度调大一些少
24. 将屏幕亮度调小一些少
25. 将屏幕亮度调至20%
26. 将屏幕亮度调大一点多
27. 将屏幕亮度调小一点多
28. 将屏幕亮度调至75%
29. 将屏幕亮度调大少许许
30. 将屏幕亮度调小少许许
31. 将屏幕亮度调至85%
32. 将屏幕亮度调大一些些许
33. 将屏幕亮度调小一些些许
34. 将屏幕亮度调至55%
35. 将屏幕亮度调大一点少许
36. 将屏幕亮度调小一点少许
37. 将屏幕亮度调至65%
38. 将屏幕亮度调大一些多点
39. 将屏幕亮度调小一些多点
40. 将屏幕亮度调至45%
41. 将屏幕亮度调大一些少点
42. 将屏幕亮度调小一些少点
43. 将屏幕亮度调至95%
44. 将屏幕亮度调大一点多些
45. 将屏幕亮度调小一点多些
46. 将屏幕亮度调至35%
47. 将屏幕亮度调大少许多点
48. 将屏幕亮度调小少许多点
49. 将屏幕亮度调至25%
50. 将屏幕亮度调大一些多些
51. 将屏幕亮度调小一些多些
52. 将屏幕亮度调至15%
53. 将屏幕亮度调大一点少许些
54. 将屏幕亮度调小一点少许些
55. 将屏幕亮度调至10%
56. 将屏幕亮度调大一些少些
57. 将屏幕亮度调小一些少些
58. 将屏幕亮度调至5%
59. 将屏幕亮度调大一点多些许
60. 将屏幕亮度调小一点多些许
61. 将屏幕亮度调至1%
62. 将屏幕亮度调大少许多些
63. 将屏幕亮度调小少许多些
64. 将屏幕亮度调至99%
65. 将屏幕亮度调大一些些多点
66. 将屏幕亮度调小一

 60%|██████████████████████████████████████████                            | 3/5 [01:02<00:43, 21.53s/it]


1. 将屏幕亮度调至50%
2. 将屏幕亮度调大一些
3. 将屏幕亮度调小一些
4. 将屏幕亮度调至30%
5. 将屏幕亮度调大一点
6. 将屏幕亮度调小一点
7. 将屏幕亮度调至70%
8. 将屏幕亮度调高一些
9. 将屏幕亮度调低一些
10. 将屏幕亮度调至40%
11. 将屏幕亮度调高一点
12. 将屏幕亮度调低一点
13. 将屏幕亮度调至60%
14. 将屏幕亮度调大些许
15. 将屏幕亮度调小些许
16. 将屏幕亮度调至80%
17. 将屏幕亮度调高些许
18. 将屏幕亮度调低些许
19. 将屏幕亮度调至20%
20. 将屏幕亮度调大一些些
21. 将屏幕亮度调小一些些
22. 将屏幕亮度调至90%
23. 将屏幕亮度调高一些些
24. 将屏幕亮度调低一些些
25. 将屏幕亮度调至10%
26. 将屏幕亮度调大一点半
27. 将屏幕亮度调小一点半
28. 将屏幕亮度调至100%
29. 将屏幕亮度调高一点半
30. 将屏幕亮度调低一点半
31. 将屏幕亮度调至25%
32. 将屏幕亮度调大一点多
33. 将屏幕亮度调小一点多
34. 将屏幕亮度调至75%
35. 将屏幕亮度调高一点多
36. 将屏幕亮度调低一点多
37. 将屏幕亮度调至35%
38. 将屏幕亮度调大一些多
39. 将屏幕亮度调小一些多
40. 将屏幕亮度调至65%
41. 将屏幕亮度调高一些多
42. 将屏幕亮度调低一些多
43. 将屏幕亮度调至45%
44. 将屏幕亮度调大一些许
45. 将屏幕亮度调小一些许
46. 将屏幕亮度调至55%
47. 将屏幕亮度调高一些许
48. 将屏幕亮度调低一些许
49. 将屏幕亮度调至85%
50. 将屏幕亮度调大一些些许
51. 将屏幕亮度调小一些些许
52. 将屏幕亮度调至15%
53. 将屏幕亮度调高一些些许
54. 将屏幕亮度调低一些些许
55. 将屏幕亮度调至95%

 80%|████████████████████████████████████████████████████████              | 4/5 [01:16<00:18, 18.40s/it]


1. 将屏幕亮度调至50%
2. 将屏幕亮度调至70%
3. 将屏幕亮度调至30%
4. 将屏幕亮度调至90%
5. 将屏幕亮度调至20%
6. 将屏幕亮度调至60%
7. 将屏幕亮度调至80%
8. 将屏幕亮度调至40%
9. 将屏幕亮度调至100%
10. 将屏幕亮度调至10%
11. 将屏幕亮度调大一些
12. 将屏幕亮度调小一些
13. 将屏幕亮度调大一点
14. 将屏幕亮度调小一点
15. 将屏幕亮度调大少许
16. 将屏幕亮度调小少许
17. 将屏幕亮度调大一些些
18. 将屏幕亮度调小一些些
19. 将屏幕亮度调大一点半
20. 将屏幕亮度调小一点半
21. 将屏幕亮度调大两成
22. 将屏幕亮度调小两成
23. 将屏幕亮度调大三成
24. 将屏幕亮度调小三成
25. 将屏幕亮度调大四成
26. 将屏幕亮度调小四成
27. 将屏幕亮度调大五成
28. 将屏幕亮度调小五成
29. 将屏幕亮度调至25%
30. 将屏幕亮度调至35%
31. 将屏幕亮度调至45%
32. 将屏幕亮度调至55%
33. 将屏幕亮度调至65%
34. 将屏幕亮度调至75%
35. 将屏幕亮度调至85%
36. 将屏幕亮度调至95%
37. 将屏幕亮度调大一成
38. 将屏幕亮度调小一成
39. 将屏幕亮度调大半成
40. 将屏幕亮度调小半成
41. 将屏幕亮度调至15%
42. 将屏幕亮度调至85%
43. 将屏幕亮度调至5%
44. 将屏幕亮度调至95%
45. 将屏幕亮度调大两成半
46. 将屏幕亮度调小两成半
47. 将屏幕亮度调大三成半
48. 将屏幕亮度调小三成半
49. 将屏幕亮度调大四成半
50. 将屏幕亮度调小四成半

100%|██████████████████████████████████████████████████████████████████████| 5/5 [01:28<00:00, 17.74s/it]







In [6]:
text_list1 = [remove_number_dot(text) for text in result_text1.split()]
text_list1 = [text.strip().strip('"') for text in text_list1]
text_list1 = [text for text in text_list1 if len(text) > 0]
text_list1 = list(set(text_list1))
print(f"初步生成的指令有：{len(text_list1)}条")

初步生成的指令有：352条


In [7]:
text_list = text_list1

### 需要一个标注工人
- 帮我完成对应的实体标注，实体类别，开始位置，结束位置，原文字段

In [8]:
prompt3_1 = """
请帮我对下面提供的数据做实体标注，要求标注它的实体类型。
实体类别有三种，分别是`Add`, `Sub`, `To`三种。
下面是一些例子：
这里我提供三个样本：
```text
将亮度调至10%
再把亮度调高一点
将亮度降低10%
用户：调整亮度\n助手：请问您要调大还是调小？\n用户：调大
```
标注结果参考
```json
[
    {
        "text": "将亮度调至10%",
        "entity": {"type": "To", "raw": "调至10%"}
    },
    {
        "text": "再把亮度调高一点",
        "entity": {"type": "Add", "raw": "调高一点"}
    },
    {
        "text": "将亮度降低10%",
        "entity": {"type": "Sub", "raw": "降低10%"}
    },
    {
        "text": "用户：调整亮度\n助手：请问您要调大还是调小？\n用户：调大",
        "entity": {"type": "Add", "raw": "调大"}
    }
]
```
"""

In [9]:
def find_entity(text, raw):
    s = text.rfind(raw)
    e = s + len(raw)
    return (s, e)

In [10]:
find_entity("将音量调至10%", "调至10%")

(3, 8)

In [11]:
def label_text(text: str):
    prompt3_2 = f"""
    下面是我提供给你的句子，请直接返回标注结果，不要多余返回。
    注意：生成的json必须合乎json语法规范，不要有多余空格
    ```text
    {text}
    ```
    """
    prompt3 = prompt3_1 + prompt3_2
    result_text = stream_chat(prompt3, system="你是一个标注员")
    response = result_text
    if result_text.startswith("```json"):
        result_text = result_text.lstrip("```json")
    if result_text.endswith("```"):
        result_text = result_text.rstrip("```")
    try:
        result_data = json.loads(result_text)
        data_list = []
        for data in result_data:
            start, end = find_entity(data["text"], data["entity"]["raw"])
            data["entity"]["start"] = start
            data["entity"]["end"] = end
            data_list.append(data)
    except:
        print("标注异常")
        print("text: ", text)
        print("response: ", response)
        data_list = []
    return data_list

In [12]:
data_list = []
for text in tqdm(text_list):
    temp_list = label_text(text)
    data_list.extend(temp_list)

100%|██████████████████████████████████████████████████████████████████| 352/352 [08:01<00:00,  1.37s/it]


In [13]:
len(data_list)

367

In [14]:
### 保存结果
import os
dataset_dir = "dataset"
if not os.path.exists(dataset_dir):
    os.mkdir(dataset_dir)

In [15]:
result_json_path = os.path.join(dataset_dir, "brightness.json")
with open(result_json_path, "wt", encoding="utf-8") as f1:
    json.dump(data_list, f1, indent=4, ensure_ascii=False)