In [3]:
import json
import re

### 清洗

In [72]:
# 输入和输出路径
input_path = "D:\Work\讯飞\上海政策法规\上海政策法规\zxzdgz.json"
output_path = "D:\Work\讯飞\上海政策法规\上海政策法规\zxzdgz_cleaned.json"

# 文本预处理函数
def clean_text(raw_text):
    cleaned = raw_text
    # 修复“第\n六\n条” → “第六条”
    # cleaned = re.sub(r'第\s*\n*\s*([一二三四五六七八九十百千万\d]+)\s*\n*\s*条', r'第\1条', raw_text)
    # 将段内换行统一为空格
    # cleaned = re.sub(r'([^\n])\n([^\n])', r'\1 \2', cleaned)
    # 去掉连续空行
    # cleaned = re.sub(r'\n{2,}', '\n', cleaned)
    # 去掉页眉页脚类模板信息（可按具体情况调整）
    # cleaned = re.sub(r'(信息来源：.*?$)', '', cleaned, flags=re.MULTILINE)
    cleaned = cleaned.replace('\n', '').replace('\r', '').replace('\t', '').replace('\xa0', '')
    return cleaned.strip()

# 读取原始 JSON
with open(input_path, "r", encoding="utf-8") as f:
    documents = json.load(f)

# 对每条记录处理 content 字段
for entry in documents:
    if "content" in entry:
        entry["content"] = clean_text(entry["content"])

# 保存处理后的 JSON
with open(output_path, "w", encoding="utf-8") as f:
    json.dump(documents, f, ensure_ascii=False, indent=2)



### 切分

In [1]:
import re
from pymongo import MongoClient

client = MongoClient("mongodb://localhost:27017/")
db = client["xunfei"]
gj = db["国家政策法规"]
sh = db["上海政策汇编"]
zx = db["中心制度规则"]
source_col = gj      # e.g. 原始数据，如“policies”
target_col = db["国家按章分"]          # 切分后的目标集合

In [5]:
def smart_split(text):
    """
    支持以下条目格式的切分：
    - 第X条
    - 一、二、三、
    - （一）（二）
    - 1）、2）
    """
    # 正则模式匹配多种编号形式（保留分隔符）
    pattern = r'(?=(第[一二三四五六七八九十百千万\d]+条|' \
              r'第[一二三四五六七八九十百千万\d]+节|' \
              r'[一二三四五六七八九十百千万]+、|' \
              r'\d+[）.]))'
              # r'（[一二三四五六七八九十]+）|' \
    # pattern = r'(第[一二三四五六七八九十百千万\d]=+章' \
    #           r'[一二三四五六七八九十百千万]+、)'
    
    parts = re.split(pattern, text)
    chunks = []
    title_st = '前言'
    body_st = parts[0].strip()
    chunks.append((title_st, body_st))
    # print(chunks)
    for i in range(1, len(parts)-1, 2):
        title = parts[i].strip()
        body = parts[i+1].strip()
        if len(body) > 20:
            chunks.append((title, body))
    return chunks

In [7]:
j = 1
for doc in source_col.find():
    doc_id = doc.get("relative_path", "").split("/")[-1]
    content = doc.get("content", "")
    title = doc.get("title", "")
    url = doc.get("full_url", "")

    para_list = smart_split(content)
    inserts = []
    for idx, (article_title, body) in enumerate(para_list):
        para_id = f"{doc_id}_T{idx+1:02d}"
        inserts.append({
            "para_id": para_id,
            "doc_id": doc_id,
            "article": article_title,
            "text": f"{article_title} {body}",
            "source_title": title,
            "source_url": url,
            "vectorized": False
        })

    if inserts:
        target_col.insert_many(inserts)
        print(f"✅ 插入 {len(inserts)} 条 from {doc_id}")
        print(j)
        j += 1
    else:
        print(doc_id)


✅ 插入 18 条 from 8063264
1
✅ 插入 88 条 from 8063251
2
✅ 插入 38 条 from 8063270
3
✅ 插入 72 条 from 8063254
4
✅ 插入 45 条 from 8063271
5
✅ 插入 66 条 from 8063277
6
✅ 插入 45 条 from 8063262
7
✅ 插入 50 条 from 8063261
8
✅ 插入 31 条 from 8063273
9
✅ 插入 49 条 from 8063274
10
✅ 插入 48 条 from 8063249
11
✅ 插入 6 条 from 8063501
12
✅ 插入 24 条 from 8063500
13
✅ 插入 27 条 from 8063275
14
✅ 插入 6 条 from 8063276
15
✅ 插入 11 条 from 8063503
16
✅ 插入 10 条 from 8063504
17
✅ 插入 39 条 from 8063288
18
✅ 插入 3 条 from 8063523
19
✅ 插入 61 条 from 8063285
20
✅ 插入 81 条 from 8063289
21
✅ 插入 22 条 from 8063278
22
✅ 插入 41 条 from 8063287
23
✅ 插入 28 条 from 8063290
24
✅ 插入 18 条 from 8063294
25
✅ 插入 78 条 from 8063293
26
✅ 插入 36 条 from 8063344
27
✅ 插入 49 条 from 8063454
28
✅ 插入 21 条 from 8063452
29
✅ 插入 94 条 from 8063292
30
✅ 插入 69 条 from 8063457
31
✅ 插入 98 条 from 8063455
32
✅ 插入 48 条 from 8063459
33
✅ 插入 28 条 from 8063461
34
✅ 插入 38 条 from 8063460
35
✅ 插入 22 条 from 8063480
36
✅ 插入 88 条 from 8063481
37
✅ 插入 57 条 from 8063482
38
✅ 插入 20 条 from 8063486
3

In [151]:
for i in range(len(inserts)):
    print(len(inserts[i].get("text")))

338


In [159]:
from pymongo import MongoClient

col_mongo_name = "国家政策法规_split"
mongo = MongoClient("mongodb://localhost:27017/")
db = mongo["xunfei"]
col_mongo = db[col_mongo_name]

In [160]:
docs = col_mongo.find()

In [161]:
docs

<pymongo.synchronous.cursor.Cursor at 0x1b772768890>

In [162]:
texts = []
for doc in docs:
    texts .append(doc["text"])

In [163]:
print(len(max(texts, key=len)))

10470


In [164]:
print(max(texts, key=len))

1. 2万亿元。--乡村新型服务业类型丰富。农林牧渔专业及辅助性活动产值达到1万亿元，农产品网络销售额达到1万亿元。--农村创新创业更加活跃。返乡入乡创新创业人员超过1500万人。第三章　提升农产品加工业农产品加工业是国民经济的重要产业。农产品加工业从种养业延伸出来，是提升农产品附加值的关键，也是构建农业产业链的核心。进一步优化结构布局，培育壮大经营主体，提升质量效益和竞争力。第一节　完善产业结构统筹发展农产品初加工、精深加工和综合利用加工，推进农产品多元化开发、多层次利用、多环节增值。拓展农产品初加工。鼓励和支持农民合作社、家庭农场和中小微企业等发展农产品产地初加工，减少产后损失，延长供应时间，提高质量效益。果蔬、奶类、畜禽及水产品等鲜活农产品，重点发展预冷、保鲜、冷冻、清洗、分级、分割、包装等仓储设施和商品化处理，实现减损增效。粮食等耐储农产品，重点发展烘干、储藏、脱壳、去杂、磨制等初加工，实现保值增值。食用类初级农产品，重点发展发酵、压榨、灌制、炸制、干制、腌制、熟制等初加工，满足市场多样化需求。棉麻丝、木竹藤棕草等非食用类农产品，重点发展整理、切割、粉碎、打磨、烘干、拉丝、编织等初加工，开发多种用途。提升农产品精深加工。引导大型农业企业加快生物、工程、环保、信息等技术集成应用，促进农产品多次加工，实现多次增值。发展精细加工，推进新型非热加工、新型杀菌、高效分离、清洁生产、智能控制、形态识别、自动分选等技术升级，利用专用原料，配套专用设备，研制专用配方，开发类别多样、营养健康、方便快捷的系列化产品。推进深度开发，创新超临界萃取、超微粉碎、生物发酵、蛋白质改性等技术，提取营养因子、功能成分和活性物质，开发系列化的加工制品。推进综合利用加工。鼓励大型农业企业和农产品加工园区推进加工副产物循环利用、全值利用、梯次利用，实现变废为宝、化害为利。采取先进的提取、分离与制备技术，推进稻壳米糠、麦麸、油料饼粕、果蔬皮渣、畜禽皮毛骨血、水产品皮骨内脏等副产物综合利用，开发新能源、新材料等新产品，提升增值空间。第二节　优化空间布局按照“粮头食尾”“农头工尾”要求，统筹产地、销区和园区布局，形成生产与加工、产品与市场、企业与农户协调发展的格局。推进农产品加工向产地下沉。向优势区域聚集，引导大型农业企业重心下沉，在粮食生产功能区、重要农产品保护区、特色农产品优势区和水产品主产区，建

In [9]:
gjazf = db["国家按章分"]
sh = db["上海政策汇编_split"]

In [10]:
gjazf_docs = gjazf.find()
sh_docs = sh.find()
gjazf_texts, sh_texts = [] , []
for doc in gjazf_docs:
    gjazf_texts.append(doc["text"])
for doc in sh_docs:
    sh_texts.append(doc["text"])

In [11]:
print(len(max(sh_texts, key=len)))
print(len(max(gjazf_texts, key=len)))

1327
17766


In [12]:
max(gjazf_texts, key=len)

'前言 国务院关于印发社会信用体系建设规划纲要（2014-2020年）的通知发布时间：2024-10-23 16:57信息来源：浏览次数：（国发〔2014〕21号）各省、自治区、直辖市人民政府，国务院各部委、各直属机构：现将《社会信用体系建设规划纲要（2014-2020年）》印发给你们，请认真贯彻执行。国务院2014年6月14日社会信用体系建设规划纲要（2014-2020年）社会信用体系是社会主义市场经济体制和社会治理体制的重要组成部分。它以法律、法规、标准和契约为依据，以健全覆盖社会成员的信用记录和信用基础设施网络为基础，以信用信息合规应用和信用服务体系为支撑，以树立诚信文化理念、弘扬诚信传统美德为内在要求，以守信激励和失信约束为奖惩机制，目的是提高全社会的诚信意识和信用水平。加快社会信用体系建设是全面落实科学发展观、构建社会主义和谐社会的重要基础，是完善社会主义市场经济体制、加强和创新社会治理的重要手段，对增强社会成员诚信意识，营造优良信用环境，提升国家整体竞争力，促进社会发展与文明进步具有重要意义。根据党的十八大提出的“加强政务诚信、商务诚信、社会诚信和司法公信建设”，党的十八届三中全会提出的“建立健全社会征信体系，褒扬诚信，惩戒失信”，《中共中央 国务院关于加强和创新社会管理的意见》提出的“建立健全社会诚信制度”，以及《中华人民共和国国民经济和社会发展第十二个五年规划纲要》（以下简称“十二五”规划纲要）提出的“加快社会信用体系建设”的总体要求，制定本规划纲要。规划期为2014-2020年。一、社会信用体系建设总体思路（一）发展现状。党中央、国务院高度重视社会信用体系建设。有关地区、部门和单位探索推进，社会信用体系建设取得积极进展。国务院建立社会信用体系建设部际联席会议制度统筹推进信用体系建设，公布实施《征信业管理条例》，一批信用体系建设的规章和标准相继出台。全国集中统一的金融信用信息基础数据库建成，小微企业和农村信用体系建设积极推进；各部门推动信用信息公开，开展行业信用评价，实施信用分类监管；各行业积极开展诚信宣传教育和诚信自律活动；各地区探索建立综合性信用信息共享平台，促进本地区各部门、各单位的信用信息整合应用；社会对信用服务产品的需求日益上升，信用服务市场规模不断扩大。我国社会信用体系建设虽然取得一定进展，但与经济发展水平和社会发展阶段不匹配、不协调、不