In [159]:
import re
import json

def extract_json_using_patterns(text):
    """使用一组正则表达式模式来提取 JSON"""
    # 保留原始文本的换行符
    text = text.strip()
    print("text:", text)
    
    patterns = [
        r'\{[\s\S]*\}',  # 新的正则表达式模式，匹配第一个 '{' 和最后一个 '}' 之间的内容
        # 保留其他原有模式
        r'(\{[\s\S]*?\})\s*\}$',
        r'\{\s*"result"\s*:\s*\[[\s\S]*?\]\s*\}',
        r'"""json\s*(\{[\s\S]*?\})\s*"""',
        r'```json\s*(\{[\s\S]*?\})\s*```',
    ]

    # 依次尝试使用每个正则表达式模式进行匹配
    for pattern in patterns:
        match = re.search(pattern, text, re.DOTALL)
        if match:
            # 检查正则表达式是否使用了捕获组
            if match.lastindex:
                json_str = match.group(1)  # 获取捕获组中的内容
            else:
                json_str = match.group(0)  # 获取整个匹配的内容
            print(f"匹配到的 JSON: {json_str}")
            try:
                # 尝试将提取到的字符串解析为 JSON
                result_data = json.loads(json_str)
                return result_data
            except json.JSONDecodeError as e:
                # 如果 JSON 解析失败，继续尝试下一个模式
                print(f"JSON 解析失败: {e}")
                continue

    # 如果没有找到匹配的 JSON 数据
    print("未找到符合模式的 JSON 数据")
    return {}

# 测试代码
text = '''
一些前置文本
{
    "result": [
        {"type": "发起", "content": "具你，为什么要我买？这是第一套。"},
        {"type": "其它", "content": ""}
    ],
    "compliance": "低"
}
一些后置文本
'''

result = extract_json_using_patterns(text)
print("提取结果:", result)


text: 一些前置文本
{
    "result": [
        {"type": "发起", "content": "具你，为什么要我买？这是第一套。"},
        {"type": "其它", "content": ""}
    ],
    "compliance": "低"
}
一些后置文本
匹配到的 JSON: {
    "result": [
        {"type": "发起", "content": "具你，为什么要我买？这是第一套。"},
        {"type": "其它", "content": ""}
    ],
    "compliance": "低"
}
提取结果: {'result': [{'type': '发起', 'content': '具你，为什么要我买？这是第一套。'}, {'type': '其它', 'content': ''}], 'compliance': '低'}


In [157]:
extract_json_using_patterns(text)

text: ```json
{
"result":
[{"type":"发起","content": "具你，为什么要我买？这是第一套。"},
{"type":"其它","content": ""}],
"compliance": "低"
}
匹配到的 JSON: {
"result":
[{"type":"发起","content": "具你，为什么要我买？这是第一套。"}
JSON 解析失败: Expecting ',' delimiter: line 3 column 45 (char 56)
未找到符合模式的 JSON 数据


{}

In [158]:
{
"result":
[{"type":"发起","content": "具你，为什么要我买？这是第一套。"},
{"type":"其它","content": ""}],
"compliance": "低"
}

{'result': [{'type': '发起', 'content': '具你，为什么要我买？这是第一套。'},
  {'type': '其它', 'content': ''}],
 'compliance': '低'}

In [176]:
import pandas as pd 
def parse_test_result(test_result):
    """解析模型返回的结果，提取 JSON"""
    if test_result:
        try:
            result_data = json.loads(test_result)
            
            return result_data
        except json.JSONDecodeError:
            return extract_json_using_patterns(test_result)
    else:
        return {}
def remove_punctuation(text):
    # 中英文标点符号的正则表达式
    punctuation_pattern = r'[，。！？、；：“”‘’（）《》【】…—]+' + r'[.,\/#!$%\^&\*;:{}=\-_`~()]'
    # 使用正则表达式替换标点符号为空字符串
    no_punctuation_text = re.sub(punctuation_pattern, '', text)
    return no_punctuation_text

output_result = [[{"start_time": 27300, "end_time": 32940, "text": "具你，为什么要我买？这是第一套。", "label": 0}, {"start_time": 35310, "end_time": 39510, "text": "喂，你，吃你吃你狗，你，", "label": 1}, {"model_input": "\n                “老师话语”：具你，为什么要我买？这是第一套。 \n                “学生话语”：喂，你，吃你吃你狗，你，\n                "}, {"soikit_test_result": "{\n  \"result\": [\n    {\"type\": \"发起\", \"content\": \"具你，为什么要我买？这是第一套。\"}\n  ],\n  \"compliance\": \"低\"\n}"}], [{"start_time": 40560, "end_time": 42710, "text": "好，把语文书翻到第50页，", "label": 0}, {"start_time": 40560, "end_time": 42710, "text": "", "label": 1}, {"model_input": "“老师话语”：好，把语文书翻到第50页， "}, {"soikit_test_result": "{\n  \"result\": [\n    {\"type\": \"其它\", \"content\": \"好，把语文书翻到第50页，\"}\n  ],\n  \"compliance\": \"无\"\n}"}], [{"start_time": 45590, "end_time": 47190, "text": "然后铅笔收起来把，", "label": 0}, {"start_time": 47910, "end_time": 49590, "text": "课堂练习放到左上角，", "label": 1}, {"model_input": "\n                “老师话语”：然后铅笔收起来把， \n                “学生话语”：课堂练习放到左上角，\n                "}, {"soikit_test_result": "{\n  \"result\": [\n    {\"type\": \"其它\", \"content\": \"然后铅笔收起来吧\"}\n  ],\n  \"compliance\": \"无\"\n}"}], [{"start_time": 50070, "end_time": 52760, "text": "先把语文书翻到翻到第50页，翻到这里，", "label": 0}, {"start_time": 52780, "end_time": 52790, "text": "没有，50。我现在这个阳猫世，", "label": 1}, {"model_input": "\n                “老师话语”：先把语文书翻到翻到第50页，翻到这里， \n                “学生话语”：没有，50。我现在这个阳猫世，\n                "}, {"soikit_test_result": "{\n  \"result\": [\n    {\"type\": \"其它\", \"content\": \"先把语文书翻到翻到第50页，翻到这里，\"}\n  ],\n  \"compliance\": \"无\"\n}"}], [{"start_time": 53000, "end_time": 69880, "text": "我看谁今天坐姿有问题啊啊，", "label": 0}, {"start_time": 53000, "end_time": 69880, "text": "", "label": 1}, {"model_input": "“老师话语”：我看谁今天坐姿有问题啊啊， "}, {"soikit_test_result": "{\n\"result\": [\n  {\"type\":\"发起\",\"content\":\"我看谁今天坐姿有问题啊啊，\"}\n],\n\"compliance\": \"无\"\n}"}]]
model_name = "soikit_test"
# def process_output_result(output_result, model_name):
"""处理模型的输出结果，生成最终的 DataFrame"""
result_list = []

for sublist in output_result:
    print("sub_list",sublist)
    test_result = None
    if len(sublist) >= 4:
        third_item = sublist[3]
        test_result = next(iter(third_item.values()))
    else:
        test_result = None
    
    contents = parse_test_result(test_result)
    print("contents",contents)
    new_sublist = []
    if not contents:
        for item in sublist:
            print("item",item)
            if 'start_time' in item:
                new_item = item.copy()
                new_item[f'{model_name}_predict'] = '{}'
                new_sublist.append(new_item)
        result_list.append(new_sublist)
        continue
    for item in sublist:
        if 'start_time' in item:
            new_item = item.copy()

            match_found = False
            for content in contents["result"]:
                if content['content'] != "":
                    if remove_punctuation(content['content']) in remove_punctuation(item['text']):
                        new_item[f'{model_name}_predict'] = test_result
                        match_found = True
                        break
            if not match_found:
                new_item[f'{model_name}_predict'] = ''

            new_sublist.append(new_item)
    result_list.append(new_sublist)
    # return df_result

sub_list [{'start_time': 27300, 'end_time': 32940, 'text': '具你，为什么要我买？这是第一套。', 'label': 0}, {'start_time': 35310, 'end_time': 39510, 'text': '喂，你，吃你吃你狗，你，', 'label': 1}, {'model_input': '\n                “老师话语”：具你，为什么要我买？这是第一套。 \n                “学生话语”：喂，你，吃你吃你狗，你，\n                '}, {'soikit_test_result': '{\n  "result": [\n    {"type": "发起", "content": "具你，为什么要我买？这是第一套。"}\n  ],\n  "compliance": "低"\n}'}]
contents {'result': [{'type': '发起', 'content': '具你，为什么要我买？这是第一套。'}], 'compliance': '低'}
sub_list [{'start_time': 40560, 'end_time': 42710, 'text': '好，把语文书翻到第50页，', 'label': 0}, {'start_time': 40560, 'end_time': 42710, 'text': '', 'label': 1}, {'model_input': '“老师话语”：好，把语文书翻到第50页， '}, {'soikit_test_result': '{\n  "result": [\n    {"type": "其它", "content": "好，把语文书翻到第50页，"}\n  ],\n  "compliance": "无"\n}'}]
contents {'result': [{'type': '其它', 'content': '好，把语文书翻到第50页，'}], 'compliance': '无'}
sub_list [{'start_time': 45590, 'end_time': 47190, 'text': '然后铅笔收起来把，', 'label': 0}, {'start_ti

In [174]:
sub_list  = [{'start_time': 27300, 'end_time': 32940, 'text': '具你，为什么要我买？这是第一套。', 'label': 0}, {'start_time': 35310, 'end_time': 39510, 'text': '喂，你，吃你吃你狗，你，', 'label': 1}, {'model_input': '\n                “老师话语”：具你，为什么要我买？这是第一套。 \n                “学生话语”：喂，你，吃你吃你狗，你，\n                '}, {'soikit_test_result': '{\n  "result": [\n    {"type": "发起", "content": "具你，为什么要我买？这是第一套。"}\n  ],\n  "compliance": "低"\n}'}]
sub_list[0]

{'start_time': 27300,
 'end_time': 32940,
 'text': '具你，为什么要我买？这是第一套。',
 'label': 0}

In [None]:
if "start_time" in sub_list[0]:
    print(1)

In [None]:
    


    for item in sublist:
        if 'start_time' in item:
            new_item = item.copy()

            match_found = False
            for content in contents["result"]:
                if content['content'] != "":
                    if content['content'] in item['text']:
                        new_item[f'{model_name}_predict'] = test_result
                        match_found = True
                        break
            if not match_found:
                new_item[f'{model_name}_predict'] = ''

            new_sublist.append(new_item)
    result_list.append(new_sublist)

flat_list = [item for sublist in result_list for item in sublist]
df_result = pd.DataFrame(flat_list)

In [189]:
"\n".join(['发起：老师发起提问1老师讲解内容1老师发起提问2\n回应：学生回答1', '讲解：老师讲解内容2\n讲解：老师讲解内容3\n发起：老师发起提问3老师发起提问4\n回应：学生回答2\n讲解：老师讲解内容4\n讲解：老师讲解内容5'])


'发起：老师发起提问1老师讲解内容1老师发起提问2\n回应：学生回答1\n讲解：老师讲解内容2\n讲解：老师讲解内容3\n发起：老师发起提问3老师发起提问4\n回应：学生回答2\n讲解：老师讲解内容4\n讲解：老师讲解内容5'

In [190]:
# 根据讲解分割点来构造主题提取prompt的输入文本

In [215]:
input1 = '发起：老师发起提问1老师讲解内容1老师发起提问2\n回应：学生回答1\n讲解：老师讲解内容2\n讲解：老师讲解内容3\n发起：老师发起提问3老师发起提问4\n回应：学生回答2\n讲解：老师讲解内容4\n讲解：老师讲解内容5\n发起：老师发起提问1老师讲解内容1老师发起提问2\n回应：学生回答1\n讲解：老师讲解内容2\n讲解：老师讲解内容3\n发起：老师发起提问3老师发起提问4\n回应：学生回答2\n讲解：老师讲解内容4\n讲解：老师讲解内容5'

In [216]:
input1_list = input1.split("\n")
input1_list

['发起：老师发起提问1老师讲解内容1老师发起提问2',
 '回应：学生回答1',
 '讲解：老师讲解内容2',
 '讲解：老师讲解内容3',
 '发起：老师发起提问3老师发起提问4',
 '回应：学生回答2',
 '讲解：老师讲解内容4',
 '讲解：老师讲解内容5',
 '发起：老师发起提问1老师讲解内容1老师发起提问2',
 '回应：学生回答1',
 '讲解：老师讲解内容2',
 '讲解：老师讲解内容3',
 '发起：老师发起提问3老师发起提问4',
 '回应：学生回答2',
 '讲解：老师讲解内容4',
 '讲解：老师讲解内容5']

In [217]:
splitpoint = {
  "breakpoint": [
    "讲解:老师讲解内容2",
    "讲解:老师讲解内容3",
    '讲解：老师讲解内容3',
  ]
}

In [218]:
splitpoint.get("breakpoint")

['讲解:老师讲解内容2', '讲解:老师讲解内容3', '讲解：老师讲解内容3']

In [219]:
#找到['讲解:老师讲解内容2', '讲解:老师讲解内容3']中值在输入中的索引，并对这个输入进行切割 

In [220]:
import string

def remove_punctuation(text):
    # 定义中英文标点符号
    punctuation = string.punctuation + '，。；：“”‘’？！《》、'
    # 使用正则表达式去除标点
    text = re.sub(f"[{re.escape(punctuation)}]", '', text)
    return text


In [221]:
list1 = []

for i, item in enumerate(input1_list):
    for item2 in splitpoint.get("breakpoint"):
        
        if remove_punctuation(item) == remove_punctuation(item2):
            list1.append(i)

In [231]:
list1

[2, 3, 3, 10, 11, 11]

In [232]:
# 列表去重
def method_dict(lst):
    unique_lst = list(dict.fromkeys(lst))
    return unique_lst
method_dict(list1)

[2, 3, 10, 11]

[10, 11, 2, 3]

In [208]:
[0,2,3,10,11]

In [223]:
[0,2,10]

[0, 2, 10]

In [226]:
first_piece = input1_list[0:2]
first_piece

['发起：老师发起提问1老师讲解内容1老师发起提问2', '回应：学生回答1']

In [228]:
second_piece = input1_list[2:10]
second_piece

['讲解：老师讲解内容2',
 '讲解：老师讲解内容3',
 '发起：老师发起提问3老师发起提问4',
 '回应：学生回答2',
 '讲解：老师讲解内容4',
 '讲解：老师讲解内容5',
 '发起：老师发起提问1老师讲解内容1老师发起提问2',
 '回应：学生回答1']

In [229]:
third_piece = input1_list[10:]
third_piece

['讲解：老师讲解内容2',
 '讲解：老师讲解内容3',
 '发起：老师发起提问3老师发起提问4',
 '回应：学生回答2',
 '讲解：老师讲解内容4',
 '讲解：老师讲解内容5']

In [209]:
remove_punctuation("讲解:老师讲解内容3")

'讲解老师讲解内容3'

In [None]:
# 如果没有分割点，则要将原始文本按照“发起”作为切割 点，将原始文本分割多个师生对话序列。

In [250]:
import re

# 定义函数来去除中英文标点符号
def remove_punctuation(text):
    return re.sub(r'[^\w\s]', '', text)

# 1. 将prompt2的输入文本按照\n进行分割
prompt2_input = """发起：老师发起提问1老师讲解内容1老师发起提问2\n回应：学生回答1\n讲解：老师讲解内容2\n讲解：老师讲解内容3\n发起：老师发起提问3老师发起提问4\n回应：学生回答2\n讲解：老师讲解内容4\n讲解：老师讲解内容5"""
input1_list = prompt2_input.split('\n')

input1_list

['发起：老师发起提问1老师讲解内容1老师发起提问2',
 '回应：学生回答1',
 '讲解：老师讲解内容2',
 '讲解：老师讲解内容3',
 '发起：老师发起提问3老师发起提问4',
 '回应：学生回答2',
 '讲解：老师讲解内容4',
 '讲解：老师讲解内容5']

In [268]:
# 2. 定义breakpoint列表，寻找索引
breakpoint = ["讲解：老师讲解内容2", "讲解：老师讲解内容3"]
list1 = []

for i, item in enumerate(input1_list):
    for item2 in breakpoint:
        # 去除中英文标点符号后再匹配
        if remove_punctuation(item.strip()) == remove_punctuation(item2.strip()):
            list1.append(i)
list1

[2, 3]

In [270]:
def filter_consecutive(lst):
    if not lst:
        return []

    # 初始化结果列表
    result = [lst[0]]
    
    # 遍历列表，检查是否连续
    for i in range(1, len(lst)):
        if lst[i] != lst[i - 1] + 1:
            result.append(lst[i])

    return result

# 测试代码
print(filter_consecutive([2]))          # 输出: [2, 10]
print(filter_consecutive([2,10,11]))            # 输出: [2, 10]
print(filter_consecutive([2,3,10]))             # 输出: [2, 10]
print(filter_consecutive([2,3,10,11,15]))       # 输出: [2, 10, 15]
print(filter_consecutive([2,3,5,10,11,12,13,14,15,17])) # 输出: [2, 10, 15]



[2]
[2, 10]
[2, 10]
[2, 10, 15]
[2, 5, 10, 17]


In [271]:
# 3. 对索引列表list1去重
def method_dict(lst):
    return list(dict.fromkeys(lst))

list1 = method_dict(list1)

# 4. 处理相邻索引，保留较小的索引生成新的
def filter_consecutive(lst):
    if not lst:
        return []

    # 初始化结果列表
    result = [lst[0]]
    
    # 遍历列表，检查是否连续
    for i in range(1, len(lst)):
        if lst[i] != lst[i - 1] + 1:
            result.append(lst[i])

    return result
# 索引列表list2
list2 = filter_consecutive(list1)
list2

[2]

In [277]:


list2 = [2]

# 5. 根据list2中的索引切分input1_list
pieces = []
if list2:
    # 第一段从开始到第一个list2的索引
    pieces.append(input1_list[0:list2[0]])
    # 中间段落
    for i in range(len(list2) - 1):
        pieces.append(input1_list[list2[i]:list2[i+1]])
    # 最后一段
    pieces.append(input1_list[list2[-1]:])
else:
    # 如果list2为空，则不进行切分，直接使用整个input1_list
    pieces.append(input1_list)
pieces

[['发起：老师发起提问1老师讲解内容1老师发起提问2', '回应：学生回答1'],
 ['讲解：老师讲解内容2',
  '讲解：老师讲解内容3',
  '发起：老师发起提问3老师发起提问4',
  '回应：学生回答2',
  '讲解：老师讲解内容4',
  '讲解：老师讲解内容5']]

In [278]:

# 6. 合并子列表中的相邻讲解内容
def merge_explanations(piece):
    new_piece = []
    merged = ""
    for item in piece:
        if item.startswith("讲解："):
            merged += item.replace("讲解：", "") + ","
        else:
            if merged:
                new_piece.append("讲解：" + merged[:-1])  # 去掉最后一个逗号
                merged = ""
            new_piece.append(item)
    if merged:
        new_piece.append("讲解：" + merged[:-1])
    return new_piece

# 对每个piece进行相邻讲解内容的合并
merged_pieces = [merge_explanations(piece) for piece in pieces]
merged_pieces

[['发起：老师发起提问1老师讲解内容1老师发起提问2', '回应：学生回答1'],
 ['讲解：老师讲解内容2,老师讲解内容3', '发起：老师发起提问3老师发起提问4', '回应：学生回答2', '讲解：老师讲解内容4,老师讲解内容5']]

In [285]:

# 7. 分割合并后的子列表
list_all = []

def split_by_initiate(list_all):
    segments = []
    current_segment = []

    for item in list_all:
        if item.startswith('发起：'):
            if current_segment:  # 如果当前段落不为空，则保存之前的段落
                segments.append(current_segment)
                current_segment = []  # 重置当前段落
        current_segment.append(item)  # 将当前项添加到当前段落

    # 处理最后一个段落
    if current_segment:
        segments.append(current_segment)
    #  segments 中第一个子列表的开头是否是“讲解：”，如果是，则将第二个子列表的内容添加到第一个子列表后面。
    if segments[0][0].startswith('讲解：'):
    # 将第二个子列表的内容扩展到第一个子列表后面
        segments[0].extend(segments[1])
        segments.pop(1)
    return segments

# 检查breakpoint是否为空
if not breakpoint:
    # 如果为空，直接分割input1_list
    list_all.extend(split_by_initiate(input1_list))
else:
    for merged_piece in merged_pieces:
        list_all.extend(split_by_initiate(merged_piece))
list_all


[['发起：老师发起提问1老师讲解内容1老师发起提问2', '回应：学生回答1'],
 ['讲解：老师讲解内容2,老师讲解内容3', '发起：老师发起提问3老师发起提问4', '回应：学生回答2', '讲解：老师讲解内容4,老师讲解内容5']]

In [288]:
# 8. 拼成prompt3的输入文本
prompt3_input = ""
for idx, segment in enumerate(list_all, start=1):
    prompt3_input += f"师生对话{idx}\n" + "\n".join(segment) + "\n\n"

# 输出结果
print(prompt3_input.strip())

<class 'str'>


In [284]:
def split_by_initiate(list_all):
    segments = []
    current_segment = []

    for item in list_all:
        if item.startswith('发起：'):
            if current_segment:  # 如果当前段落不为空，则保存之前的段落
                segments.append(current_segment)
                current_segment = []  # 重置当前段落
        current_segment.append(item)  # 将当前项添加到当前段落

    # 处理最后一个段落
    if current_segment:
        segments.append(current_segment)
    #  segments 中第一个子列表的开头是否是“讲解：”，如果是，则将第二个子列表的内容添加到第一个子列表后面。
    if segments[0][0].startswith('讲解：'):
    # 将第二个子列表的内容扩展到第一个子列表后面
        segments[0].extend(segments[1])
        segments.pop(1)
    return segments

# 测试输入
list_all = [
    
    '发起：老师发起提问3老师发起提问4',
    '回应：学生回答2',
    '发起：老师发起提问1老师讲解内容1老师发起提问2',
    '回应：学生回答1'
]

# 调用函数并打印结果
output = split_by_initiate(list_all)
output 
# for i, segment in enumerate(output, 1):
#     print(f"段落 {i}:")
#     print("\n".join(segment))
#     print()  # 添加空行分隔段落



[['发起：老师发起提问3老师发起提问4', '回应：学生回答2'], ['发起：老师发起提问1老师讲解内容1老师发起提问2', '回应：学生回答1']]

In [282]:
list2 = output 

# 检查第一个子列表的文本开头
if list2[0][0].startswith('讲解：'):
    # 将第二个子列表的内容扩展到第一个子列表后面
    list2[0].extend(list2[1])
    list2.pop(1)

# 打印结果
print(list2)


[['讲解：在dfdf 发起：老师发起提问3老师发起提问4', '回应：学生回答2', '发起：老师发起提问1老师讲解内容1老师发起提问2', '回应：学生回答1']]


In [None]:
{'model_parameters': {'model_family': 'gpt4o', 'api_key': 'b2e709bdd54f4416a734b4a6f8f1c7a0', 'model_name': 'soikit_test', 'api_version': '2024-02-01', 'prompt': '下面的“待分析文本”是一段发生在课堂上的师生对话片段。在这段对话中，“发起”是老师引导学生用话语回应的语句；“回应”是学生对老师“发起”的回应语句；“讲解”是老师对学生回应的总结，或为下一次“发起”提供背景和引导的语句。该对话片段中回应[空白]是没有采集到学生声音或者没有学生回答。\n请你按照以下方法对“待分析文本”进行分析：\n\n根据上下文语义的相关性，请你判断“待分析文本”中相邻“发起”之间”讲解“的归属， 如果“讲解”是对上一个学生“回应”的总结，不进行任何输出。 如果“讲解”是为下一个“发起”提供背景和引导，特别是“讲解”中提到的内容与下一个“发起”相关，可以帮助更好的理解下一个“发起”，则输出这句讲解，格式为JSON格式：{"breakpoint":["讲解:文本内容1"]}。如果“待分析文本”中有多个“讲解”为下一个“发起”提供背景和引导，请输出一个包含所有‘讲解’的列表，格式为 {"breakpoint": ["讲解:文本内容1", "讲解:文本内容2", ...]}。\n待分析文本：', 'text': '讲解：瞧那么一句话，就能把故事的意思讲出来了，\n发起：好，那我们来看看哦，他为什么什么树都没种成呢？\n回应：[空白]\n发起：我们来读课文的第一段，来，谁来读？\n回应：[空白]\n发起：嗯，好，你来读\n回应：猴子，种了一棵梨树苗天，天浇水施肥等着将来吃梨子，嗯，\n发起：你不要坐下，是不天天说明什么呀？\n回应：就是每天\n讲解：每天对呀，就说明这个猴子怎么样\n讲解：他每天都去浇，天天都去浇水，施肥\n发起：说明他怎么样\n回应：勤劳淡实，\n讲解：英语非常勤劳，\n讲解：猴子是不是很好，\n发起：你们看，\n回应：[空白]\n讲解：这个猴子种树啊，它有一个动作的过程，\n发起：你找到了动作的吗？它有哪些动作？\n回应：浇水\n发起：天气就直接浇水了吗？\n回应：[空白]\n讲解：所以先说重好的，\n发起：然后呢，\n回应：胶水\n讲解：嗯浇，嗯，施肥，'}, 'data_processor': {'Task': 'dialogue_processing', 'T': 500}, 'data': [{'start_time': 234250, 'end_time': 244470, 'text': '瞧那么一句话，就能把故事的意思讲出来了，小朋友们真能干，好，那我们来看看哦，他为什么什么树都没种成呢？', 'label': 0, 'gpt4o_result': {'result': [{'type': '讲解', 'content': '瞧那么一句话，就能把故事的意思讲出来了，'}, {'type': '评价', 'content': '小朋友们真能干，'}, {'type': '发起', 'content': '好，那我们来看看哦，他为什么什么树都没种成呢？'}], 'compliance': '无'}}, {'start_time': 234250, 'end_time': 244470, 'text': '', 'label': 1, 'gpt4o_result': None}, {'start_time': 250810, 'end_time': 253750, 'text': '我们来读课文的第一段，来，谁来读？', 'label': 0, 'gpt4o_result': {'result': [{'type': '发起', 'content': '我们来读课文的第一段，来，谁来读？'}], 'compliance': '无'}}, {'start_time': 250810, 'end_time': 253750, 'text': '', 'label': 1, 'gpt4o_result': None}, {'start_time': 258080, 'end_time': 260900, 'text': '等一下啊，张老师困扰了。嗯，好，你来读', 'label': 0, 'gpt4o_result': {'result': [{'type': '其它', 'content': '等一下啊，张老师困扰了。'}, {'type': '发起', 'content': '嗯，好，你来读'}], 'compliance': '高'}}, {'start_time': 261380, 'end_time': 270450, 'text': '猴子，种了一棵梨树苗天，天浇水施肥等着将来吃梨子，嗯，', 'label': 1, 'gpt4o_result': None}, {'start_time': 270470, 'end_time': 273170, 'text': '你不要坐下，是不天天说明什么呀？', 'label': 0, 'gpt4o_result': {'result': [{'type': '发起', 'content': '你不要坐下，是不天天说明什么呀？'}], 'compliance': '高'}}, {'start_time': 273660, 'end_time': 275280, 'text': '就是每天', 'label': 1, 'gpt4o_result': None}, {'start_time': 275480, 'end_time': 278210, 'text': '哎每天对呀，就说明这个猴子怎么样', 'label': 0, 'gpt4o_result': {'result': [{'type': '其它', 'content': '哎'}, {'type': '讲解', 'content': '每天对呀，就说明这个猴子怎么样'}], 'compliance': '无'}}, {'start_time': 278850, 'end_time': 279650, 'text': '很细心，', 'label': 1, 'gpt4o_result': None}, {'start_time': 280310, 'end_time': 286520, 'text': '很细心，还有呢，他每天都去浇，天天都去浇水，施肥说明他怎么样', 'label': 0, 'gpt4o_result': {'result': [{'type': '评价', 'content': '很细心，'}, {'type': '讲解', 'content': '他每天都去浇，天天都去浇水，施肥'}, {'type': '发起', 'content': '说明他怎么样'}], 'compliance': '中'}}, {'start_time': 286960, 'end_time': 288220, 'text': '勤劳淡实，', 'label': 1, 'gpt4o_result': None}, {'start_time': 288810, 'end_time': 291850, 'text': '英语非常勤劳，猴子是不是很好，你们看，', 'label': 0, 'gpt4o_result': {'result': [{'type': '讲解', 'content': '英语非常勤劳，'}, {'type': '讲解', 'content': '猴子是不是很好，'}, {'type': '发起', 'content': '你们看，'}], 'compliance': '无'}}, {'start_time': 288810, 'end_time': 291850, 'text': '', 'label': 1, 'gpt4o_result': None}, {'start_time': 292830, 'end_time': 300270, 'text': '这个猴子种树啊，它有一个动作的过程，你找到了动作的吗？它有哪些动作？好，那就好了，', 'label': 0, 'gpt4o_result': {'result': [{'type': '讲解', 'content': '这个猴子种树啊，它有一个动作的过程，'}, {'type': '发起', 'content': '你找到了动作的吗？它有哪些动作？'}, {'type': '评价', 'content': '好，那就好了，'}], 'compliance': '中'}}, {'start_time': 303240, 'end_time': 303880, 'text': '浇水', 'label': 1, 'gpt4o_result': None}, {'start_time': 304160, 'end_time': 305640, 'text': '天气就直接浇水了吗？', 'label': 0, 'gpt4o_result': {'result': [{'type': '发起', 'content': '天气就直接浇水了吗？'}], 'compliance': '无'}}, {'start_time': 304160, 'end_time': 305640, 'text': '', 'label': 1, 'gpt4o_result': None}, {'start_time': 307170, 'end_time': 309070, 'text': '所以先说重好的，然后呢，', 'label': 0, 'gpt4o_result': {'result': [{'type': '讲解', 'content': '所以先说重好的，'}, {'type': '发起', 'content': '然后呢，'}], 'compliance': '低'}}, {'start_time': 309490, 'end_time': 310190, 'text': '胶水', 'label': 1, 'gpt4o_result': None}, {'start_time': 310540, 'end_time': 313990, 'text': '嗯浇，嗯，施肥，', 'label': 0, 'gpt4o_result': {'result': [{'type': '讲解', 'content': '嗯浇，嗯，施肥，'}], 'compliance': '无'}}, {'start_time': 310540, 'end_time': 313990, 'text': '', 'label': 1, 'gpt4o_result': None}]}


In [305]:
task3_params = {'model_parameters': {'model_family': 'gpt4o', 'api_key': 'b2e709bdd54f4416a734b4a6f8f1c7a0', 'model_name': 'soikit_test', 'api_version': '2024-02-01', 'prompt': '下面的“待分析文本”是由若干个发生在课堂上的师生对话片段序列组成，其中有四类片段序列：”发起-回应-讲解“、“讲解-发起-回应”、“发起-回应”、“讲解-发起-回应-讲解”，其中回应[空白]是没有采集到学生声音或者没有学生回答。请你按照下面的分析方法对“待分析文本”进行分析：\n\n首先，将“待分析文本”按照是否是对同一问题的讨论，或老师发起的目标是否旨在引导学\t生理解同一个知识点，分割成多个子文本段，并只输出师生对话的序列号。\n然后，提取每一个子文本段的主题，用一句话简单总结老师如何引导学生思考、理解新知识。\n最后，结合子文本段提取的主题，用一句话概括“待分析文本”的核心主题，其中包括教学知识点以及教学目的。\n请将输出的内容以JSON格式呈现，格式如下：\n{"split":\n{"sub1": {"d_number": [对话序号列表1],"sub_theme": "子文本段主题1"},\n"sub2": {"d_number": [对话序号列表2],"sub_theme": "子文本段主题2"}},\n"theme": {"theme":"整个文本的主题“}\n}\n待分析文本：\n', 'text': '师生对话1\n发起：好，那我们来看看哦，他为什么什么树都没种成呢？\n回应：[空白]\n\n师生对话2\n发起：我们来读课文的第一段，来，谁来读？\n回应：[空白]\n\n师生对话3\n发起：嗯，好，你来读\n回应：猴子，种了一棵梨树苗天，天浇水施肥等着将来吃梨子，嗯，\n\n师生对话4\n发起：你不要坐下，是不天天说明什么呀？\n回应：就是每天\n\n师生对话5\n发起：就说明这个猴子怎么样\n回应：很细心，\n\n师生对话6\n讲解：还有呢，他每天都去浇，天天都去浇水，施肥说明他怎么样,英语非常勤劳，,这个猴子种树啊，它有一个动作的过程，\n发起：你找到了动作的吗？它有哪些动作？\n回应：浇水\n\n师生对话7\n发起：天气就直接浇水了吗？\n回应：[空白]\n讲解：所以先说重好的，\n\n师生对话8\n发起：然后呢，\n回应：胶水\n讲解：嗯浇，嗯，施肥，'}, 'data_processor': {'Task': 'dialogue_processing', 'T': 800}, 'data': [{'start_time': 234250, 'end_time': 244470, 'text': '瞧那么一句话，就能把故事的意思讲出来了，小朋友们真能干，好，那我们来看看哦，他为什么什么树都没种成呢？', 'label': 0, 'gpt4o_result': {'result': [{'type': '评价', 'content': '瞧那么一句话，就能把故事的意思讲出来了，小朋友们真能干，'}, {'type': '发起', 'content': '好，那我们来看看哦，他为什么什么树都没种成呢？'}], 'compliance': '无'}}, {'start_time': 234250, 'end_time': 244470, 'text': '', 'label': 1, 'gpt4o_result': None}, {'start_time': 250810, 'end_time': 253750, 'text': '我们来读课文的第一段，来，谁来读？', 'label': 0, 'gpt4o_result': {'result': [{'type': '发起', 'content': '我们来读课文的第一段，来，谁来读？'}], 'compliance': '无'}}, {'start_time': 250810, 'end_time': 253750, 'text': '', 'label': 1, 'gpt4o_result': None}, {'start_time': 258080, 'end_time': 260900, 'text': '等一下啊，张老师困扰了。嗯，好，你来读', 'label': 0, 'gpt4o_result': {'result': [{'type': '其它', 'content': '等一下啊，张老师困扰了。'}, {'type': '发起', 'content': '嗯，好，你来读'}], 'compliance': '高'}}, {'start_time': 261380, 'end_time': 270450, 'text': '猴子，种了一棵梨树苗天，天浇水施肥等着将来吃梨子，嗯，', 'label': 1, 'gpt4o_result': None}, {'start_time': 270470, 'end_time': 273170, 'text': '你不要坐下，是不天天说明什么呀？', 'label': 0, 'gpt4o_result': {'result': [{'type': '发起', 'content': '你不要坐下，是不天天说明什么呀？'}], 'compliance': '中'}}, {'start_time': 273660, 'end_time': 275280, 'text': '就是每天', 'label': 1, 'gpt4o_result': None}, {'start_time': 275480, 'end_time': 278210, 'text': '哎每天对呀，就说明这个猴子怎么样', 'label': 0, 'gpt4o_result': {'result': [{'type': '其它', 'content': '哎每天对呀，'}, {'type': '发起', 'content': '就说明这个猴子怎么样'}], 'compliance': '中'}}, {'start_time': 278850, 'end_time': 279650, 'text': '很细心，', 'label': 1, 'gpt4o_result': None}, {'start_time': 280310, 'end_time': 286520, 'text': '很细心，还有呢，他每天都去浇，天天都去浇水，施肥说明他怎么样', 'label': 0, 'gpt4o_result': {'result': [{'type': '评价', 'content': '很细心，'}, {'type': '讲解', 'content': '还有呢，他每天都去浇，天天都去浇水，施肥说明他怎么样'}], 'compliance': '无'}}, {'start_time': 286960, 'end_time': 288220, 'text': '勤劳淡实，', 'label': 1, 'gpt4o_result': None}, {'start_time': 288810, 'end_time': 291850, 'text': '英语非常勤劳，猴子是不是很好，你们看，', 'label': 0, 'gpt4o_result': {'result': [{'type': '讲解', 'content': '英语非常勤劳，'}, {'type': '评价', 'content': '猴子是不是很好，'}, {'type': '其它', 'content': '你们看，'}], 'compliance': '无'}}, {'start_time': 288810, 'end_time': 291850, 'text': '', 'label': 1, 'gpt4o_result': None}, {'start_time': 292830, 'end_time': 300270, 'text': '这个猴子种树啊，它有一个动作的过程，你找到了动作的吗？它有哪些动作？好，那就好了，', 'label': 0, 'gpt4o_result': {'result': [{'type': '讲解', 'content': '这个猴子种树啊，它有一个动作的过程，'}, {'type': '发起', 'content': '你找到了动作的吗？'}, {'type': '发起', 'content': '它有哪些动作？'}, {'type': '评价', 'content': '好，那就好了，'}], 'compliance': '中'}}, {'start_time': 303240, 'end_time': 303880, 'text': '浇水', 'label': 1, 'gpt4o_result': None}, {'start_time': 304160, 'end_time': 305640, 'text': '天气就直接浇水了吗？', 'label': 0, 'gpt4o_result': {'result': [{'type': '发起', 'content': '天气就直接浇水了吗？'}], 'compliance': '无'}}, {'start_time': 304160, 'end_time': 305640, 'text': '', 'label': 1, 'gpt4o_result': None}, {'start_time': 307170, 'end_time': 309070, 'text': '所以先说重好的，然后呢，', 'label': 0, 'gpt4o_result': {'result': [{'type': '讲解', 'content': '所以先说重好的，'}, {'type': '发起', 'content': '然后呢，'}], 'compliance': '无'}}, {'start_time': 309490, 'end_time': 310190, 'text': '胶水', 'label': 1, 'gpt4o_result': None}, {'start_time': 310540, 'end_time': 313990, 'text': '嗯浇，嗯，施肥，', 'label': 0, 'gpt4o_result': {'result': [{'type': '讲解', 'content': '嗯浇，嗯，施肥，'}], 'compliance': '无'}}, {'start_time': 310540, 'end_time': 313990, 'text': '', 'label': 1, 'gpt4o_result': None}]}


In [306]:
text = task3_params.get("model_parameters").get("text")

In [307]:
text

'师生对话1\n发起：好，那我们来看看哦，他为什么什么树都没种成呢？\n回应：[空白]\n\n师生对话2\n发起：我们来读课文的第一段，来，谁来读？\n回应：[空白]\n\n师生对话3\n发起：嗯，好，你来读\n回应：猴子，种了一棵梨树苗天，天浇水施肥等着将来吃梨子，嗯，\n\n师生对话4\n发起：你不要坐下，是不天天说明什么呀？\n回应：就是每天\n\n师生对话5\n发起：就说明这个猴子怎么样\n回应：很细心，\n\n师生对话6\n讲解：还有呢，他每天都去浇，天天都去浇水，施肥说明他怎么样,英语非常勤劳，,这个猴子种树啊，它有一个动作的过程，\n发起：你找到了动作的吗？它有哪些动作？\n回应：浇水\n\n师生对话7\n发起：天气就直接浇水了吗？\n回应：[空白]\n讲解：所以先说重好的，\n\n师生对话8\n发起：然后呢，\n回应：胶水\n讲解：嗯浇，嗯，施肥，'

In [309]:
text.split('师生对话')[1:]

['1\n发起：好，那我们来看看哦，他为什么什么树都没种成呢？\n回应：[空白]\n\n',
 '2\n发起：我们来读课文的第一段，来，谁来读？\n回应：[空白]\n\n',
 '3\n发起：嗯，好，你来读\n回应：猴子，种了一棵梨树苗天，天浇水施肥等着将来吃梨子，嗯，\n\n',
 '4\n发起：你不要坐下，是不天天说明什么呀？\n回应：就是每天\n\n',
 '5\n发起：就说明这个猴子怎么样\n回应：很细心，\n\n',
 '6\n讲解：还有呢，他每天都去浇，天天都去浇水，施肥说明他怎么样,英语非常勤劳，,这个猴子种树啊，它有一个动作的过程，\n发起：你找到了动作的吗？它有哪些动作？\n回应：浇水\n\n',
 '7\n发起：天气就直接浇水了吗？\n回应：[空白]\n讲解：所以先说重好的，\n\n',
 '8\n发起：然后呢，\n回应：胶水\n讲解：嗯浇，嗯，施肥，']

In [None]:
{
  "split": {
    "sub1": {
      "d_number": [1],
      "sub_theme": "引导学生思考猴子为什么什么树都没种成。"
    },
    "sub2": {
      "d_number": [2, 3, 4, 5],
      "sub_theme": "通过朗读课文和提问，引导学生理解猴子的细心和勤劳。"
    },
    "sub3": {
      "d_number": [6, 7, 8],
      "sub_theme": "通过讲解和提问，帮助学生理解猴子种树的动作过程。"
    }
  },
  "theme": {
    "theme": "通过对课文的朗读和提问，老师引导学生理解猴子的细心和勤劳，并帮助学生掌握猴子种树的具体动作过程，旨在培养学生的阅读理解能力和细节观察能力。"
  }
}

In [311]:
def merge_texts_into_dict(list1, dict1):
    """
    根据 任务3：主题提取输出中的 d_number，与任务3的输入中对应的文本合并，并添加到 任务3 输出 中 的每个子主题的 sub_text 键中。

    参数：
        prompt3_input(list): 包含编号和文本内容的列表。
        prompt3_output(dict): 包含主题和子主题信息的字典。

    返回：
        dict: 更新后的 prompt3_output，添加了每个子主题的 sub_text。
    """
    # 创建一个字典，将 d_number 映射到对应的文本内容
    d_number_to_text = {}
    
    for item in list1:
        # 分割编号和文本内容
        parts = item.strip().split('\n', 1)
        if len(parts) == 2:
            try:
                number = int(parts[0])
                text = parts[1].strip()
                d_number_to_text[number] = text
            except ValueError:
                continue  # 如果编号不是整数，跳过该项
    
    # 根据 dict1 中的 d_number，将对应的文本合并并添加到 sub_text 键中
    for sub in dict1['split'].values():
        d_numbers = sub.get('d_number', [])
        merged_texts = []
        for num in d_numbers:
            text = d_number_to_text.get(num)
            if text:
                merged_texts.append(text)
        sub['sub_text'] = '\n\n'.join(merged_texts)
    
    return dict1

# 使用示例
list1 = ['1\n发起：好，那我们来看看哦，他为什么什么树都没种成呢？\n回应：[空白]\n\n', '2\n发起：我们来读课文的第一段，来，谁来读？\n回应：[空白]\n\n', '3\n发起：嗯，好，你来读\n回应：猴子，种了一棵梨树苗天，天浇水施肥等着将来吃梨子，嗯，\n\n', '4\n发起：是不天天说明什么呀？\n回应：就是每天\n\n', '5\n发起：这个猴子种树啊，它有一个动作的过程，你找到了动作的吗？它有哪些动作？\n回应：浇水']
 
{'split': {'sub1': {'no': 1, 'stc': '引导学生思考猴子为什么没有成功种植任何树木。'}, 'sub2': {'no': 2, 'stc': '引导学生阅读课文第一段。'}, 'sub3': {'no': 3, 'stc': '引导学生具体阅读课文第一段。'}, 'sub4': {'no': 4, 'stc': '引导学生理解“天天”这个词的意思。'}, 'sub5': {'no': 5, 'stc': '引导学生找出并理解猴子在种树过程中的具体动作。'}}, 'jxffyd': '通过提问和阅读课文的方式，逐步引导学生理解猴子种树的故事内容及其细节。', 'jxffqd': '教学方法较为直接，主要是通过提问和阅读来引导学生理解内容，缺乏互动性和深入探讨，可能会限制学生的主动思考。', 'jxmb': '帮助学生理解和掌握课文内容，特别是关于猴子种树的过程和细节。', 'dcd': '基本达成', 'dcfm': '学生能够参与阅读，并在一定程度上理解了猴子种树的故事及其细节。', 'wdcfm': '部分学生对于细节的理解不够透彻，需要进一步的解释和引导。'}

dict1 = {
    "split": {
        "sub1": {
            "d_number": [1],
            "sub_theme": "引导学生思考猴子为什么什么树都没种成。"
        },
        "sub2": {
            "d_number": [2, 3, 4, 5],
            "sub_theme": "通过朗读课文和提问，引导学生理解猴子的细心和勤劳。"
        },
        "sub3": {
            "d_number": [6, 7, 8],
            "sub_theme": "通过讲解和提问，帮助学生理解猴子种树的动作过程。"
        }
    },
    "theme": {
        "theme": "通过对课文的朗读和提问，老师引导学生理解猴子的细心和勤劳，并帮助学生掌握猴子种树的具体动作过程，旨在培养学生的阅读理解能力和细节观察能力。"
    }
}

# 调用函数并输出结果
updated_dict1 = merge_texts_into_dict(list1, dict1)
print(updated_dict1)



{'split': {'sub1': {'d_number': [1], 'sub_theme': '引导学生思考猴子为什么什么树都没种成。', 'sub_text': '发起：好，那我们来看看哦，他为什么什么树都没种成呢？\n回应：[空白]'}, 'sub2': {'d_number': [2, 3, 4, 5], 'sub_theme': '通过朗读课文和提问，引导学生理解猴子的细心和勤劳。', 'sub_text': '发起：我们来读课文的第一段，来，谁来读？\n回应：[空白]\n\n发起：嗯，好，你来读\n回应：猴子，种了一棵梨树苗天，天浇水施肥等着将来吃梨子，嗯，\n\n发起：你不要坐下，是不天天说明什么呀？\n回应：就是每天\n\n发起：就说明这个猴子怎么样\n回应：很细心，'}, 'sub3': {'d_number': [6, 7, 8], 'sub_theme': '通过讲解和提问，帮助学生理解猴子种树的动作过程。', 'sub_text': '讲解：还有呢，他每天都去浇，天天都去浇水，施肥说明他怎么样,英语非常勤劳，,这个猴子种树啊，它有一个动作的过程，\n发起：你找到了动作的吗？它有哪些动作？\n回应：浇水\n\n发起：天气就直接浇水了吗？\n回应：[空白]\n讲解：所以先说重好的，\n\n发起：然后呢，\n回应：胶水\n讲解：嗯浇，嗯，施肥，'}}, 'theme': {'theme': '通过对课文的朗读和提问，老师引导学生理解猴子的细心和勤劳，并帮助学生掌握猴子种树的具体动作过程，旨在培养学生的阅读理解能力和细节观察能力。'}}


In [300]:
updated_dict1

{'split': {'sub1': {'d_number': [1],
   'sub_theme': '引导学生思考猴子为什么什么树都没种成。',
   'sub_text': '发起：好，那我们来看看哦，他为什么什么树都没种成呢？\n回应：[空白]'},
  'sub2': {'d_number': [2, 3, 4, 5],
   'sub_theme': '通过朗读课文和提问，引导学生理解猴子的细心和勤劳。',
   'sub_text': '发起：我们来读课文的第一段，来，谁来读？\n回应：[空白]\n\n发起：嗯，好，你来读\n回应：猴子，种了一棵梨树苗天，天浇水施肥等着将来吃梨子，嗯，\n\n发起：你不要坐下，是不天天说明什么呀？\n回应：就是每天\n\n发起：就说明这个猴子怎么样\n回应：很细心，'},
  'sub3': {'d_number': [6, 7, 8],
   'sub_theme': '通过讲解和提问，帮助学生理解猴子种树的动作过程。',
   'sub_text': '讲解：还有呢，他每天都去浇，天天都去浇水，施肥说明他怎么样,英语非常勤劳，,这个猴子种树啊，它有一个动作的过程，\n发起：你找到了动作的吗？它有哪些动作？\n回应：浇水\n\n发起：天气就直接浇水了吗？\n回应：[空白]\n讲解：所以先说重好的，\n\n发起：然后呢，\n回应：胶水\n讲解：嗯浇，嗯，施肥，'}},
 'theme': {'theme': '通过对课文的朗读和提问，老师引导学生理解猴子的细心和勤劳，并帮助学生掌握猴子种树的具体动作过程，旨在培养学生的阅读理解能力和细节观察能力。'}}

In [315]:
topic_output = {'split': {'sub1': {'d_number': [1], 'sub_theme': '老师问学生猴子为什么没有种成树，但没有学生回答。', 'sub_text': '发起：好，那我们来看看哦，他为什么什么树都没种成呢？\n回应：[空白]'}, 'sub2': {'d_number': [2, 3, 4], 'sub_theme': '老师要求学生读课文，学生读了部分内容，老师引导学生理解“天天”的意思。', 'sub_text': '发起：我们来读课文的第一段，来，谁来读？\n回应：[空白]\n\n发起：嗯，好，你来读\n回应：猴子，种了一棵梨树苗天，天浇水施肥等着将来吃梨子，嗯，\n\n发起：是不天天说明什么呀？\n回应：就是每天\n讲解：英语非常勤劳，'}, 'sub3': {'d_number': [5], 'sub_theme': '老师讲解猴子的行为，并引导学生观察猴子的行为，但没有得到回应。', 'sub_text': '讲解：猴子是不是很好，\n发起：你们看，\n回应：[空白]'}, 'sub4': {'d_number': [6], 'sub_theme': '老师引导学生找出猴子种树的动作，学生回答了一个动作。', 'sub_text': '发起：这个猴子种树啊，它有一个动作的过程，你找到了动作的吗？它有哪些动作？\n回应：浇水'}}, 'theme': {'theme': '老师通过提问和解释，引导学生理解猴子种树的过程和其行为的意义。'}}
topic_output

{'split': {'sub1': {'d_number': [1],
   'sub_theme': '老师问学生猴子为什么没有种成树，但没有学生回答。',
   'sub_text': '发起：好，那我们来看看哦，他为什么什么树都没种成呢？\n回应：[空白]'},
  'sub2': {'d_number': [2, 3, 4],
   'sub_theme': '老师要求学生读课文，学生读了部分内容，老师引导学生理解“天天”的意思。',
   'sub_text': '发起：我们来读课文的第一段，来，谁来读？\n回应：[空白]\n\n发起：嗯，好，你来读\n回应：猴子，种了一棵梨树苗天，天浇水施肥等着将来吃梨子，嗯，\n\n发起：是不天天说明什么呀？\n回应：就是每天\n讲解：英语非常勤劳，'},
  'sub3': {'d_number': [5],
   'sub_theme': '老师讲解猴子的行为，并引导学生观察猴子的行为，但没有得到回应。',
   'sub_text': '讲解：猴子是不是很好，\n发起：你们看，\n回应：[空白]'},
  'sub4': {'d_number': [6],
   'sub_theme': '老师引导学生找出猴子种树的动作，学生回答了一个动作。',
   'sub_text': '发起：这个猴子种树啊，它有一个动作的过程，你找到了动作的吗？它有哪些动作？\n回应：浇水'}},
 'theme': {'theme': '老师通过提问和解释，引导学生理解猴子种树的过程和其行为的意义。'}}

In [321]:
test1 = topic_output.get("split").get("sub2").get("sub_text")
test1

'发起：我们来读课文的第一段，来，谁来读？\n回应：[空白]\n\n发起：嗯，好，你来读\n回应：猴子，种了一棵梨树苗天，天浇水施肥等着将来吃梨子，嗯，\n\n发起：是不天天说明什么呀？\n回应：就是每天\n讲解：英语非常勤劳，'

In [326]:
original_strings = [item for item in test1.split("\n") if "回应" not in item and item !=""]
original_strings

['发起：我们来读课文的第一段，来，谁来读？', '发起：嗯，好，你来读', '发起：是不天天说明什么呀？', '讲解：英语非常勤劳，']

In [327]:
# 移除"发起："和"讲解："
modified_strings = [s.replace("发起：", "").replace("讲解：", "") for s in original_strings]
modified_strings

['我们来读课文的第一段，来，谁来读？', '嗯，好，你来读', '是不天天说明什么呀？', '英语非常勤劳，']

In [314]:
original_data = pd.read_excel("data/original_data/test2.xlsx")
original_data 

Unnamed: 0,start_time,end_time,text,label
0,234250,238210,瞧那么一句话，就能把故事的意思讲出来了，,0
1,238210,240480,小朋友们真能干，好，,0
2,240550,244470,那我们来看看哦，他为什么什么树都没种成呢？,0
3,250810,253750,我们来读课文的第一段，来，谁来读？,0
4,258080,260120,等一下啊，张老师困扰了。嗯，,0
5,260290,260900,好，你来读,0
6,261380,265140,猴子，种了一棵梨树苗天，,1
7,265710,270090,天浇水施肥等着将来吃梨子，,1
8,270090,270450,嗯，,1
9,270470,273170,你不要坐下，是不天天说明什么呀？,0


In [None]:
def remove_punctuation(text):
   
    return re.sub(r'[^\w\s]', '', text)

for i in range(len(original_data)):
    start_time = None
    end_time = None
    if len(modified_strings) == 1:
        pass
    else:
        # 去除掉标点符号，再来做匹配
        first_string = remove_punctuation(modified_strings[0])
        last_string = remove_punctuation(modified_strings[-1])
        if first_string in remove_punctuation(original_data.loc[i,'text']):
            start_time = original_data.loc[i,'start_time']
        


In [3]:
[str(year) for year in range(2023, 2024)]

['2023']

In [9]:
import os
from openai import OpenAI
from pathlib import Path

client = OpenAI(
    # 若没有配置环境变量，请用百炼API Key将下行替换为：api_key="sk-xxx",
    api_key="token-abc123", 
    base_url="https://u515714-8e18-7eb399f8.bjb1.seetacloud.com:8443/v1",
)
file_object = client.files.create(file=Path("prompt/基于课标文件进行课堂教学评价/课程标准/【3.0】义务教育生物课程标准（2022年版）.txt"), purpose="file-extract")

completion = client.chat.completions.create(
    model="/root/autodl-fs/Qwen/Qwen2___5-32B-Instruct", # 模型列表：https://help.aliyun.com/zh/model-studio/getting-started/models
   messages=[
        {'role': 'system', 'content': f'fileid://{file_object.id}'},
        {'role': 'user', 'content': '这篇文章讲了什么？'}
    ]
    )
    
print(completion.model_dump_json())

NotFoundError: Error code: 404 - {'detail': 'Not Found'}

In [10]:
import os
from openai import OpenAI

client = OpenAI(
    # 若没有配置环境变量，请用百炼API Key将下行替换为：api_key="sk-xxx",
    api_key="token-abc123", 
    base_url="https://u515714-8e18-7eb399f8.bjb1.seetacloud.com:8443/v1",
)
completion = client.chat.completions.create(
    model="/root/autodl-fs/Qwen/Qwen2___5-32B-Instruct", # 模型列表：https://help.aliyun.com/zh/model-studio/getting-started/models
    messages=[
        {'role': 'system', 'content': 'You are a helpful assistant.'},
        {'role': 'user', 'content': '你是谁？'}],
    )
    
print(completion.model_dump_json())

{"id":"chat-94239e0a99f041898d392561ecec138e","choices":[{"finish_reason":"stop","index":0,"logprobs":null,"message":{"content":"我是阿里云开发的一款超大规模语言模型，我叫通义千问。","role":"assistant","function_call":null,"tool_calls":[]},"stop_reason":null}],"created":1729837047,"model":"/root/autodl-fs/Qwen/Qwen2___5-32B-Instruct","object":"chat.completion","system_fingerprint":null,"usage":{"completion_tokens":18,"prompt_tokens":22,"total_tokens":40},"prompt_logprobs":null}


In [11]:
import os
from openai import OpenAI

client = OpenAI(
    # 若没有配置环境变量，请用百炼API Key将下行替换为：api_key="sk-xxx",
    api_key="token-abc123", 
    base_url="https://u515714-8e18-7eb399f8.bjb1.seetacloud.com:8443/v1",
)
completion = client.chat.completions.create(
    model="/root/autodl-fs/Qwen/Qwen2___5-32B-Instruct",
    messages=[{'role': 'system', 'content': 'You are a helpful assistant.'},
                {'role': 'user', 'content': '你是谁？'}],
    stream=True,
    stream_options={"include_usage": True}
    )
for chunk in completion:
    print(chunk.model_dump_json())

{"id":"chat-0e40345e893f450c997ec31ed95abdd7","choices":[{"delta":{"content":"","function_call":null,"role":"assistant","tool_calls":null},"finish_reason":null,"index":0,"logprobs":null}],"created":1729837095,"model":"/root/autodl-fs/Qwen/Qwen2___5-32B-Instruct","object":"chat.completion.chunk","system_fingerprint":null,"usage":{"completion_tokens":0,"prompt_tokens":22,"total_tokens":22}}
{"id":"chat-0e40345e893f450c997ec31ed95abdd7","choices":[{"delta":{"content":"我是","function_call":null,"role":null,"tool_calls":null},"finish_reason":null,"index":0,"logprobs":null}],"created":1729837095,"model":"/root/autodl-fs/Qwen/Qwen2___5-32B-Instruct","object":"chat.completion.chunk","system_fingerprint":null,"usage":{"completion_tokens":1,"prompt_tokens":22,"total_tokens":23}}
{"id":"chat-0e40345e893f450c997ec31ed95abdd7","choices":[{"delta":{"content":"来自","function_call":null,"role":null,"tool_calls":null},"finish_reason":null,"index":0,"logprobs":null}],"created":1729837095,"model":"/root/au

In [10]:
import json
with open("data/test.json","r",encoding="utf-8") as f:
    data = json.load(f)

In [26]:
for i in range(len(data)):
    if len(data[i].get("completion"))>20000:
        print(i)

2316
4205
6286
14838
17069
61030
87621
92105
115034
127537
146986
150732
160281
165543
165778
172343
179636
184672
194722
215668
220224
227609


In [27]:
print(data[2316].get("completion"))

春秋人物列表
春秋时期人物主要以《春秋左传》为主，兼收《史记》、先秦诸子籍书中出现的人物，按国别分类，上限从犬戎之祸起，下限至三家灭知襄子为止。部分国别如晋、齐等国则下至灭国为止。西周以前，参见中国上古人物列表。战国七雄则参见战国人物列表。
东周
君主
* 周平王宜臼，周幽王子
* 周携王余臣，周幽王子
* 周桓王林，周平王孙，太子泄父之子
* 周庄王佗，周桓王子
* 周僖王胡齐，周庄王子
* 周惠王阆，周僖王子
* 周襄王郑，周惠王子
* 周顷王壬臣，周襄王子
* 周匡王班，周顷王子
* 周定王瑜，周顷王子
* 周简王夷，周定王子
* 周灵王泄心，周简王子
* 周景王贵，周灵王子
* 周悼王猛，周景王子
* 周敬王匄，周景王子
* 周元王仁，周敬王子
* 周贞定王介，周元王子
王子
* 太子泄父，周平王子
* 王子狐，周平王子
* 王子克，字子仪，周桓王子
* 王叔文公王子虎，周僖王子
* 王子颓，周庄王子
* 甘昭公王子带，周惠王子
* 刘康公，周顷王子
* 王札子，又称王子捷，周顷王子
* 儋季，周简王子
* 王子佞夫，周灵王子
* 太子寿，周景王子
* 周悼王王子猛，周景王子
* 王子朝，周景王长庶子
* 王孙满，周襄王孙
* 王孙苏
* 王子党
* 王子瑕
* 王子廖
* 王孙没
* 王子还，周灵王、景王之族
* 王子姑，周灵王、景王之族
* 王子发，周灵王、景王之族
* 王子弱，周灵王、景王之族
* 王子鬷，周灵王、景王之族
* 王子延，周灵王、景王之族
* 王子定，周灵王、景王之族
* 王子稠，周灵王、景王之族
* 王子处
* 王子赵车
王族
王叔氏
* 王叔文公
* 王叔桓公，王叔文公子
* 王叔陈生，王叔桓公子
甘氏
* 甘昭公
* 甘成公，甘昭公子
* 甘景公，甘成公子
* 甘简公，甘景公子
* 甘悼公甘过，甘景公子
* 甘平公甘䲡，甘成公孙
* 甘桓公，甘平公子
* 甘歜
* 甘大夫襄
刘氏
* 刘康公
* 刘定公刘夏（刘毅），刘康公子
* 刘献公刘挚，刘夏子
* 刘文公刘卷，一名刘狄，字伯蚠，刘挚子
* 刘桓公，刘卷子
* 刘州鸠
* 刘佗
儋氏
* 儋季
* 儋括，儋季子
* 儋翩，儋括子
周氏
* 周桓公周公黑肩，周公旦次子之后
* 周公忌父，周桓公子
* 宰孔，周桓公子
* 周公阅，宰孔子
* 周公楚
召氏
* 召伯廖
* 召武公，召伯

In [None]:
prompt = "请输出春秋时期，秦国的君主列表"