In [159]:
import re
import json

def extract_json_using_patterns(text):
    """使用一组正则表达式模式来提取 JSON"""
    # 保留原始文本的换行符
    text = text.strip()
    print("text:", text)
    
    patterns = [
        r'\{[\s\S]*\}',  # 新的正则表达式模式，匹配第一个 '{' 和最后一个 '}' 之间的内容
        # 保留其他原有模式
        r'(\{[\s\S]*?\})\s*\}$',
        r'\{\s*"result"\s*:\s*\[[\s\S]*?\]\s*\}',
        r'"""json\s*(\{[\s\S]*?\})\s*"""',
        r'```json\s*(\{[\s\S]*?\})\s*```',
    ]

    # 依次尝试使用每个正则表达式模式进行匹配
    for pattern in patterns:
        match = re.search(pattern, text, re.DOTALL)
        if match:
            # 检查正则表达式是否使用了捕获组
            if match.lastindex:
                json_str = match.group(1)  # 获取捕获组中的内容
            else:
                json_str = match.group(0)  # 获取整个匹配的内容
            print(f"匹配到的 JSON: {json_str}")
            try:
                # 尝试将提取到的字符串解析为 JSON
                result_data = json.loads(json_str)
                return result_data
            except json.JSONDecodeError as e:
                # 如果 JSON 解析失败，继续尝试下一个模式
                print(f"JSON 解析失败: {e}")
                continue

    # 如果没有找到匹配的 JSON 数据
    print("未找到符合模式的 JSON 数据")
    return {}

# 测试代码
text = '''
一些前置文本
{
    "result": [
        {"type": "发起", "content": "具你，为什么要我买？这是第一套。"},
        {"type": "其它", "content": ""}
    ],
    "compliance": "低"
}
一些后置文本
'''

result = extract_json_using_patterns(text)
print("提取结果:", result)


text: 一些前置文本
{
    "result": [
        {"type": "发起", "content": "具你，为什么要我买？这是第一套。"},
        {"type": "其它", "content": ""}
    ],
    "compliance": "低"
}
一些后置文本
匹配到的 JSON: {
    "result": [
        {"type": "发起", "content": "具你，为什么要我买？这是第一套。"},
        {"type": "其它", "content": ""}
    ],
    "compliance": "低"
}
提取结果: {'result': [{'type': '发起', 'content': '具你，为什么要我买？这是第一套。'}, {'type': '其它', 'content': ''}], 'compliance': '低'}


In [157]:
extract_json_using_patterns(text)

text: ```json
{
"result":
[{"type":"发起","content": "具你，为什么要我买？这是第一套。"},
{"type":"其它","content": ""}],
"compliance": "低"
}
匹配到的 JSON: {
"result":
[{"type":"发起","content": "具你，为什么要我买？这是第一套。"}
JSON 解析失败: Expecting ',' delimiter: line 3 column 45 (char 56)
未找到符合模式的 JSON 数据


{}

In [158]:
{
"result":
[{"type":"发起","content": "具你，为什么要我买？这是第一套。"},
{"type":"其它","content": ""}],
"compliance": "低"
}

{'result': [{'type': '发起', 'content': '具你，为什么要我买？这是第一套。'},
  {'type': '其它', 'content': ''}],
 'compliance': '低'}