In [1]:
import os
import re
import json
from tqdm import tqdm, trange
from openai import OpenAI

In [2]:
client = OpenAI(
    base_url="https://open.bigmodel.cn/api/paas/v4/",
    api_key=os.environ["API_KEY"],
)

def stream_chat(prompt: str, system: str = "You are a helpful assistant.", show_log: bool = False):
    """
    流式对话，让你看到过程，然后将结果返回
    """
    messages = [{"role": "system", "content": system}]
    messages.append({"role": "user", "content": prompt})
    response = client.chat.completions.create(
        model="GLM-4-Plus",
        messages=messages,
        top_p=0.5,
        temperature=1,
        n=1,
        max_tokens=4096,
        stream=True,
    )
    response_text = ""
    for event in response:
        # print(event)
        event_text = event.choices[0].delta.content  # extract the text
        if event_text is None:
            event_text = ""
        response_text += event_text
        if show_log:
            print(event_text, end='', flush=True)
    if show_log:
        print("")
    return response_text

In [3]:
def remove_number_dot(text):
    # 正则表达式匹配以数字和点号开头的模式
    pattern = r'^\d+\.\s*'
    # 使用re.sub替换匹配到的内容为空字符串
    result = re.sub(pattern, '', text)
    return result

In [4]:
prompt1_1 = """
模拟用户对话。
生成一些开启或者关闭`AI视频通话`的指令，大概50条左右。
例如：1. 让我来玩AI视频通话吧。2. 帮我关闭AI视频通话哈。 
开启和关闭的对话尽量1：1，对话过程需要提到AI视频通话或者AI视频对话。
然后对话语气需要模拟用户说话。
只返回生成后的结果，不要多余回答。生成内容尽量不要重复。
"""
prompt1_2 = """
生成一些开启或者关闭`AI视频通话`的指令，大概50条左右。
例如：1. 开启AI视频通话。2. 关闭AI视频通话。
开启和关闭的对话尽量1：1，对话过程需要提到AI视频通话或者AI视频对话。
只返回生成后的结果，不要多余回答。生成内容尽量不要重复。
"""

In [5]:
result_text1 = ""
for i in trange(5):
    temp_text = stream_chat(prompt1_1, system="你是一个电脑助手", show_log=False)
    result_text1 += "\n" + temp_text
for i in trange(5):
    temp_text = stream_chat(prompt1_2, system="你是一个电脑助手", show_log=True)
    result_text1 += "\n" + temp_text

100%|██████████████████████████████████████████████████████████████████████| 5/5 [01:05<00:00, 13.08s/it]
  0%|                                                                              | 0/5 [00:00<?, ?it/s]

1. 开启AI视频通话。
2. 关闭AI视频通话。
3. 请启动AI视频对话。
4. 停止AI视频对话。
5. 开启AI视频通话功能。
6. 关闭AI视频通话功能。
7. 开始AI视频通话。
8. 结束AI视频通话。
9. 启用AI视频对话。
10. 禁用AI视频对话。
11. 打开AI视频通话。
12. 关上AI视频通话。
13. 开启AI视频对话模式。
14. 关闭AI视频对话模式。
15. 开启AI视频通话服务。
16. 关闭AI视频通话服务。
17. 开始AI视频对话。
18. 结束AI视频对话。
19. 启动AI视频通话系统。
20. 关闭AI视频通话系统。
21. 开启AI视频通话界面。
22. 关闭AI视频通话界面。
23. 开启AI视频对话功能。
24. 关闭AI视频对话功能。
25. 开始AI视频通话会话。
26. 结束AI视频通话会话。
27. 启用AI视频通话模式。
28. 禁用AI视频通话模式。
29. 打开AI视频对话。
30. 关上AI视频对话。
31. 开启AI视频通话应用。
32. 关闭AI视频通话应用。
33. 开始AI视频对话服务。
34. 结束AI视频对话服务。
35. 启动AI视频通话程序。
36. 关闭AI视频通话程序。
37. 开启AI视频对话系统。
38. 关闭AI视频对话系统。
39. 开始AI视频通话操作。
40. 结束AI视频通话操作。
41. 启用AI视频对话模式。
42. 禁用AI视频对话模式。
43. 打开AI视频通话功能。
44. 关闭AI视频通话功能。
45. 开启AI视频对话服务。
46. 关闭AI视频对话服务。
47. 开始AI视频通话连接。
48. 结束AI视频通话连接。
49. 启动AI视频对话应用。
50. 关闭AI视频对话应用。

 20%|██████████████                                                        | 1/5 [00:09<00:39,  9.84s/it]


1. 开启AI视频通话。
2. 关闭AI视频通话。
3. 请启动AI视频对话。
4. 停止AI视频通话。
5. 开启AI视频对话功能。
6. 关闭AI视频对话服务。
7. 开始AI视频通话。
8. 结束AI视频通话。
9. 启用AI视频通话模式。
10. 禁用AI视频通话功能。
11. 打开AI视频对话。
12. 关闭AI视频对话。
13. 开启AI视频通话服务。
14. 停止AI视频对话。
15. 启动AI视频通话系统。
16. 关闭AI视频通话系统。
17. 开始AI视频对话。
18. 结束AI视频对话。
19. 开启AI视频通话模式。
20. 关闭AI视频通话模式。
21. 启用AI视频对话功能。
22. 禁用AI视频对话功能。
23. 打开AI视频通话。
24. 关闭AI视频通话。
25. 开启AI视频对话服务。
26. 停止AI视频对话服务。
27. 启动AI视频通话功能。
28. 关闭AI视频通话功能。
29. 开始AI视频对话模式。
30. 结束AI视频对话模式。
31. 开启AI视频通话系统。
32. 关闭AI视频通话系统。
33. 启用AI视频通话服务。
34. 禁用AI视频通话服务。
35. 打开AI视频对话功能。
36. 关闭AI视频对话功能。
37. 启动AI视频对话模式。
38. 停止AI视频对话模式。
39. 开启AI视频通话服务。
40. 关闭AI视频通话服务。
41. 开始AI视频通话功能。
42. 结束AI视频通话功能。
43. 启用AI视频对话系统。
44. 禁用AI视频对话系统。
45. 打开AI视频通话模式。
46. 关闭AI视频通话模式。
47. 启动AI视频对话服务。
48. 停止AI视频对话服务。
49. 开启AI视频通话系统。
50. 关闭AI视频通话系统。

 40%|████████████████████████████                                          | 2/5 [00:20<00:30, 10.30s/it]


1. 开启AI视频通话。
2. 关闭AI视频通话。
3. 请启动AI视频对话。
4. 停止AI视频通话。
5. 开启AI视频对话功能。
6. 关闭AI视频对话服务。
7. 启动AI视频通话模式。
8. 终止AI视频通话。
9. 开启AI视频通话服务。
10. 关闭AI视频对话模式。
11. 请开启AI视频通话。
12. 请关闭AI视频对话。
13. 启动AI视频对话。
14. 停止AI视频对话。
15. 开启AI视频通话功能。
16. 关闭AI视频通话模式。
17. 启动AI视频对话服务。
18. 终止AI视频对话。
19. 开启AI视频对话模式。
20. 关闭AI视频通话服务。
21. 请启动AI视频通话功能。
22. 请停止AI视频对话服务。
23. 开启AI视频通话模式。
24. 关闭AI视频对话功能。
25. 启动AI视频对话模式。
26. 终止AI视频通话服务。
27. 开启AI视频对话服务。
28. 关闭AI视频通话功能。
29. 请开启AI视频对话模式。
30. 请关闭AI视频通话服务。
31. 启动AI视频通话服务。
32. 停止AI视频对话功能。
33. 开启AI视频对话功能。
34. 关闭AI视频通话模式。
35. 启动AI视频通话功能。
36. 终止AI视频对话模式。
37. 开启AI视频对话服务。
38. 关闭AI视频通话功能。
39. 请启动AI视频通话模式。
40. 请停止AI视频对话服务。
41. 开启AI视频对话功能。
42. 关闭AI视频通话模式。
43. 启动AI视频通话服务。
44. 终止AI视频对话功能。
45. 开启AI视频对话模式。
46. 关闭AI视频通话服务。
47. 请开启AI视频通话功能。
48. 请关闭AI视频对话模式。
49. 启动AI视频对话服务。
50. 停止AI视频通话功能。

 60%|██████████████████████████████████████████                            | 3/5 [00:31<00:21, 10.69s/it]


1. 开启AI视频通话。
2. 关闭AI视频通话。
3. 请启动AI视频对话。
4. 停止AI视频通话。
5. 开启AI视频对话功能。
6. 关闭AI视频对话功能。
7. 开始AI视频通话。
8. 结束AI视频通话。
9. 启动AI视频通话模式。
10. 关闭AI视频通话模式。
11. 打开AI视频对话。
12. 关闭AI视频对话。
13. 开启AI视频通话服务。
14. 关闭AI视频通话服务。
15. 请开启AI视频通话。
16. 请关闭AI视频通话。
17. 开启AI视频对话服务。
18. 关闭AI视频对话服务。
19. 启动AI视频通话功能。
20. 停止AI视频对话功能。
21. 开启AI视频通话模式。
22. 关闭AI视频通话模式。
23. 开始AI视频对话。
24. 结束AI视频对话。
25. 打开AI视频通话功能。
26. 关闭AI视频通话功能。
27. 启动AI视频对话模式。
28. 停止AI视频对话模式。
29. 开启AI视频通话服务。
30. 关闭AI视频通话服务。
31. 请启动AI视频对话。
32. 请停止AI视频通话。
33. 开启AI视频对话功能。
34. 关闭AI视频对话功能。
35. 开始AI视频通话。
36. 结束AI视频通话。
37. 启动AI视频通话模式。
38. 关闭AI视频通话模式。
39. 打开AI视频对话。
40. 关闭AI视频对话。
41. 开启AI视频通话服务。
42. 关闭AI视频通话服务。
43. 请开启AI视频对话。
44. 请关闭AI视频对话。
45. 启动AI视频通话功能。
46. 停止AI视频对话功能。
47. 开启AI视频对话模式。
48. 关闭AI视频对话模式。
49. 开始AI视频通话。
50. 结束AI视频通话。

 80%|████████████████████████████████████████████████████████              | 4/5 [00:42<00:10, 10.71s/it]


1. 开启AI视频通话。
2. 关闭AI视频通话。
3. 请启动AI视频对话。
4. 停止AI视频通话。
5. 开启AI视频对话功能。
6. 关闭AI视频对话功能。
7. 开始AI视频通话。
8. 结束AI视频通话。
9. 启动AI视频通话模式。
10. 关闭AI视频通话模式。
11. 打开AI视频对话。
12. 关闭AI视频对话。
13. 开启AI视频通话服务。
14. 关闭AI视频通话服务。
15. 请开启AI视频通话。
16. 请关闭AI视频通话。
17. 开启AI视频对话系统。
18. 关闭AI视频对话系统。
19. 开始AI视频对话。
20. 结束AI视频对话。
21. 启动AI视频通话功能。
22. 关闭AI视频通话功能。
23. 打开AI视频通话。
24. 关闭AI视频通话。
25. 开启AI视频对话模式。
26. 关闭AI视频对话模式。
27. 请启动AI视频对话功能。
28. 请停止AI视频通话功能。
29. 开启AI视频通话服务。
30. 关闭AI视频通话服务。
31. 开始AI视频通话模式。
32. 结束AI视频通话模式。
33. 启动AI视频对话服务。
34. 关闭AI视频对话服务。
35. 打开AI视频对话功能。
36. 关闭AI视频对话功能。
37. 请开启AI视频通话模式。
38. 请关闭AI视频通话模式。
39. 开启AI视频对话系统。
40. 关闭AI视频对话系统。
41. 开始AI视频通话服务。
42. 结束AI视频通话服务。
43. 启动AI视频对话模式。
44. 关闭AI视频对话模式。
45. 打开AI视频通话功能。
46. 关闭AI视频通话功能。
47. 请开启AI视频对话服务。
48. 请关闭AI视频对话服务。
49. 开启AI视频通话系统。
50. 关闭AI视频通话系统。

100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:52<00:00, 10.50s/it]







In [6]:
text_list = [remove_number_dot(text) for text in result_text1.split()]
text_list = [text.strip() for text in text_list]
text_list = [text for text in text_list if len(text) > 0]
text_list = list(set(text_list))
print(f"初步生成的指令有：{len(text_list)}条")

初步生成的指令有：228条


### 需要一个标注工人
- 帮我完成对应的实体标注，实体类别，开始位置，结束位置，原文字段

In [7]:
prompt3_1 = """
请帮我对下面提供的数据做实体标注，要求标注它的实体类型。
实体类别有两种，分别是`On`和`Off`
下面是一些例子：
这里我提供两个样本：
```text
开启AI视频通话。
结束视频通话。
```
标注结果参考
```json
[
    {
        "text": "开启AI视频通话。",
        "entity": {"type": "On", "raw": "开启"}
    },
    {
        "text": "结束视频通话。",
        "entity": {"type": "Off", "raw": "结束"}
    }
]
```
"""

In [8]:
def find_entity(text, raw):
    s = text.rfind(raw)
    e = s + len(raw)
    return (s, e)

In [9]:
find_entity("将音量调至10%", "调至10%")

(3, 8)

In [10]:
def label_text(text: str):
    prompt3_2 = f"""
    下面是我提供给你的句子，请直接返回标注结果，不要多余返回。
    注意：生成的json必须合乎json语法规范，不要有多余空格
    ```text
    {text}
    ```
    """
    prompt3 = prompt3_1 + prompt3_2
    result_text = stream_chat(prompt3, system="你是一个标注员")
    response = result_text
    if result_text.startswith("```json"):
        result_text = result_text.lstrip("```json")
    if result_text.endswith("```"):
        result_text = result_text.rstrip("```")
    try:
        result_data = json.loads(result_text)
        data_list = []
        for data in result_data:
            start, end = find_entity(data["text"], data["entity"]["raw"])
            data["entity"]["start"] = start
            data["entity"]["end"] = end
            data_list.append(data)
    except:
        print("标注异常")
        print("text: ", text)
        print("response: ", response)
        data_list = []
    return data_list

In [11]:
data_list = []
for text in tqdm(text_list):
    temp_list = label_text(text)
    data_list.extend(temp_list)

100%|██████████████████████████████████████████████████████████████████| 228/228 [04:47<00:00,  1.26s/it]


In [12]:
len(data_list)

228

In [13]:
### 保存结果
import os
dataset_dir = "dataset"
if not os.path.exists(dataset_dir):
    os.mkdir(dataset_dir)

In [14]:
result_json_path = os.path.join(dataset_dir, "video_chat.json")
with open(result_json_path, "wt", encoding="utf-8") as f1:
    json.dump(data_list, f1, indent=4, ensure_ascii=False)