<a href="https://colab.research.google.com/github/zhangzhangco/standardfile_check/blob/main/checkdocx.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 加载文件基本变量设置

In [43]:
import docx
import logging
from zipfile import ZipFile
import xml.etree.ElementTree as ET
from enum import Enum
import jieba
from typing import Dict

logging.basicConfig(level=logging.DEBUG, format='%(asctime)s - %(levelname)s - %(message)s')

In [44]:
docx_file_path = "./mywordfile.docx"
doc = docx.Document(docx_file_path)

zip_file = ZipFile(docx_file_path)
xml_data = zip_file.read('word/document.xml')
zip_file.close()

ns = {'w': 'http://schemas.openxmlformats.org/wordprocessingml/2006/main'}
# 解析XML文档
strxml = xml_data.decode('utf-8')
root = ET.fromstring(strxml)

In [65]:
from docx import Document
import pandas as pd
document = Document('./mywordfile.docx')

tables = []
for table in document.tables:
    df = [['' for i in range(len(table.columns))] for j in range(len(table.rows))]
    for i, row in enumerate(table.rows):
        for j, cell in enumerate(row.cells):
            if cell.text:
                df[i][j] = cell.text
    tables.append(pd.DataFrame(df))
print(tables)



[       0          1
0  ICS    37.060.99
1  CCS          N40,     0
0  DY]


# 验证文件主程序

In [68]:
stdName = ''
adoption = ''
chapters = []

# 定义枚举类型表示各种句子类型
class SentenceType(Enum):
    REQUIREMENT = 1     # 要求句
    INDICATIVE = 2      # 祈使句
    RECOMMENDATION = 3  # 推荐句
    PERMISSION = 4      # 允许句
    STATEMENT = 5       # 叙述句或其他
# 将输入的句子转换为对应的句子类型
def get_sentence_type(sentence):
    requirement_words = ["应", "应该", "只准许", "不应", "不应该", "不准许"]
    indicative_words = ["请", "听着", "快", "来", "去", "看", "喝", "吃", "做"]
    recommendation_words = ["宜", "推荐", "建议", "不宜", "不推荐", "不建议"]
    permission_words = ["可", "可以", "允许", "不必", "可以不", "无须"]
    #statement_words = ["能", "能够", "不能", "不能够", "可能", "有可能", "不可能", "没有可能", "是", "为", "由", "给出"]
    
    # 使用中文分词方法将句子划分为词列表
    words = jieba.cut(sentence, cut_all=False)

    # 逐一检查单词列表中出现过的句子类型对应的词语
    if set(requirement_words).intersection(set(words)):
        return SentenceType.REQUIREMENT
    elif any(word in indicative_words for word in words):
        return SentenceType.INDICATIVE
    elif set(recommendation_words).intersection(set(words)):
        return SentenceType.RECOMMENDATION
    elif set(permission_words).intersection(set(words)):
        return SentenceType.PERMISSION
    else:
        return SentenceType.STATEMENT
# 检查文件主函数
def check_docx(doc):
    # 映射章节段落
    def map_paragraphs() -> Dict[str, int]:
        paragraphs = {p.text:pne for pne, p in enumerate(doc.paragraphs)}
        keys = ['前言', '引言', '范围', '规范性引用文件', '术语和定义', 
                '符号和缩略语', '标准名称', '附录', '参考文献']
        return {k:paragraphs[k] for k in keys if k in paragraphs}
    # 检查封面、设置文件基本信息
    def check_covers():
        # 检查第一个表格ICS和CCS是否齐全
        tables = doc.tables
        if tables:
            table1 = tables[0]
            ics_cell, ccs_cell = table1.rows[0].cells[0], table1.rows[1].cells[0]
            if ics_cell.text.strip() != 'ICS' or not ccs_cell.text.strip():
                logging.error("ICS或CCS未设置")
                return False
        
        # 检查标准名称是否符合要求
        std_name = doc.paragraphs[5].text.strip()
        if "标准" in std_name:
            logging.error("标准名称中不应包含“标准”")
            return False
        else:
            # 获取采纳情况和标准状态
            adoption = doc.paragraphs[9].text.strip()
            root = doc.element.body
            ns = {'w': 'http://schemas.openxmlformats.org/wordprocessingml/2006/main'}
            selected = root.find(".//w:ddList/w:result", ns).attrib.get('{http://schemas.openxmlformats.org/wordprocessingml/2006/main}val')
            status = root.find(f".//w:ddList/w:listEntry[{selected}]", ns).attrib.get('{http://schemas.openxmlformats.org/wordprocessingml/2006/main}val')
        return True
    # 检查前言
    def check_intr():
        """
        检查前言
            前言不应包含要求、指示、推荐或允许型条款，也不应使用图、表或数学公式等表述形式。前言不应给出章编号且不分条。
            a）文件起草所依据的标准。具体表述为"本文件按照GB/T1.1—2020《标准化工作导则 第1部分：标准化文件的结构和起草规则》的规定起草。"
            b） 文件与其他文件的关系。需要说明以下两方面的内容∶
                ● 与其他标准的关系;
                ● 分为部分的文件的每个部分说明其所属的部分并列出所有已经发布的部分的名称。
            c） 文件与代替文件的关系。需要说明以下两方面的内容∶
                ●给出被代替、废止的所有文件的编号和名称;
                ● 列出与前一版本相比的主要技术变化。
            d） 文件与国际文件关系的说明。GB/T20000.2 中规定了与国际文件存在着一致性对应关系的我国文件，在前言中陈述的相关信息。
            e） 有关专利的说明。D.2中规定了尚未识别出文件的内容涉及专利时，在前言中需要给出的相关内容。
            f） 文件的提出信息（可省略）和归口信息。对于由全国专业标准化技术委员会提出或归口的文件，应在相应技术委员会名称之后给出其国内代号，使用下列适当的表述形式∶
                ●"本文件由全国××××标准化技术委员会（SAC/TC XXX）提出。"
                ●"本文件由××××提出。"
                ●"本文件由全国××××标准化技术委员会（SAC/TC XXX）归口。"
                ●"本文件由××××归口。"
            g） 文件的起草单位和主要起草人，使用下列表述形式∶
                ●"本文件起草单位…·…。"
                ●"本文件主要起草人∶……。"
            h）文件及其所代替或废止的文件的历次版本发布情况。
        """
        if '前言' in chapters:
            i = chapters['前言']
            target_text = '本文件按照GB/T 1.1—2020《标准化工作导则  第1部分：标准化文件的结构和起草规则》的规定起草。'
            p = doc.paragraphs[i+1].text
            if p != target_text:
                logging.error(f"前言第1行当前内容为：“{p}”\n但正确内容应为：“{target_text}”")
                return False

            has_guikou, has_unit, has_author, sentence_isok = False, False, False, False
            for para in doc.paragraphs[i+1:]:
                text = para.text
                if '归口' in text:
                    has_guikou = True
                if '起草单位' in text:
                    has_unit = True
                if '起草人' in text:
                    has_author = True
                if get_sentence_type(para.text) is not SentenceType.STATEMENT:
                    logging.error(f'前言中不应包含要求、指示、推荐或允许型条款：”{para.text}“')
                    sentence_isok = False
                if has_guikou and has_unit and has_author and sentence_isok:
                    return True
            else:
                logging.error("本文件缺少前言。") 
                return False
    # 检查术语
    def check_term():
        """
        检查术语
            应文件中至少使用两次。
            优选结构为："定义=用于区分所定义的概念同其他并列概念间的区别特征＋上位概念"。
            定义应使用陈述型条款，既不应包含要求型条款，也不应写成要求的形式。
        """
        return True    
    # 检查缩略语
    def check_abbr():
        """
        检查缩略语
            不应包含要求和推荐型条款。
        """
        return True  
    # 检查主体要素
    def check_main():
        """
        检查具体条款
            “要求”都应为要求型条款表述；“证实方法”为指示、陈述型条款表述。
            不能有“足够”、“适当”、“相对”等无法证实的表述形式。

        """
        return True  
    
    # 获取必要或重要章节所在索引
    chapters=map_paragraphs()
     
    # 编写一个函数框架，函数中分别完成3个子函数，子函数返回值都为true时，函数的返回才为true
    if check_covers() and check_intr() and check_term() and check_abbr() and check_main():
        return True
    else:
        return False
# 程序入口函数
if check_docx(doc):
    print("文档格式符合要求")
else:
    print("文档格式不符合要求")



2023-04-20 16:21:50,825 - ERROR - 前言中不应包含要求、指示、推荐或允许型条款：”本文件代替GY/T 247—2011《影院管理系统基本功能和接口规范》，与GY/T 247—2011相比，除结构调整和编辑性改动外，主要技术变化应如下∶“
2023-04-20 16:21:50,926 - ERROR - 前言中不应包含要求、指示、推荐或允许型条款：”应支持自动扫描已配置的FTP地址和外接存储的挂载路径，主动发现并导入DCP。“
2023-04-20 16:21:50,929 - ERROR - 前言中不应包含要求、指示、推荐或允许型条款：”应支持自动从DCP专用接收设备导入DCP，通信协议应符合附录A中的规定。“
2023-04-20 16:21:50,932 - ERROR - 前言中不应包含要求、指示、推荐或允许型条款：”应支持自动通过网络从广告管理平台获取广告任务单，并自动下载、导入广告DCP，获取广告任务单可参考的通信协议见附录B。“
2023-04-20 16:21:50,934 - ERROR - 前言中不应包含要求、指示、推荐或允许型条款：”导入DCP后，应自动验证数据完整性。“
2023-04-20 16:21:50,936 - ERROR - 前言中不应包含要求、指示、推荐或允许型条款：”应支持按放映任务的需要，自动分发DCP到相应的SMS。“
2023-04-20 16:21:50,942 - ERROR - 前言中不应包含要求、指示、推荐或允许型条款：”应支持自动通过网络从影片发行平台导入KDM，可参考的通信协议见附录C。“
2023-04-20 16:21:50,944 - ERROR - 前言中不应包含要求、指示、推荐或允许型条款：”应支持自动分发KDM到相应的SMS，自动删除过期的KDM。“
2023-04-20 16:21:50,955 - ERROR - 前言中不应包含要求、指示、推荐或允许型条款：”应支持自动从电影院票务管理系统获取放映计划和影片信息，频次根据实际应用确定，使用的通信协议、放映计划数据格式、影片信息数据格式应符合附录D、附录E和附录F中的规定。“
2023-04-20 16:21:50,960 - ERROR - 前言中不应包含要求、指示、推荐或允许型条款：”应支持自动按放映计划、影片

文档格式不符合要求


# 配置环境

In [None]:
%pip install python-docx ipykernel parsel pandas openpyxl jieba

# 加载网盘

In [None]:
from google.colab import drive
drive.mount('/gdrive')
%cd /gdrive/MyDrive/'Colab Notebooks'
%ls

# 备份

In [None]:
""" 判断docx文件是否满足基本条件的函数
1.第一页是封面，在封面里有文件名称，包含'标准'或'技术文件'文字，包含表示文件代号的'GB'、'DY'、'GDY'文字，包含'ICS'，包含'CCS'，包含'发布日期'、'实施日期'
2.第二页或第三页为'目次'
"""
def check_first_table(doc):
    tables = doc.tables
    if len(tables) > 0:
        ics_cells = tables[0].rows[0].cells
        ccs_cells = tables[0].rows[1].cells
        if str.strip(ics_cells[0].text) != 'ICS' or str.strip(ics_cells[1].text) == '':
            logging.error("没有设置ICS")
            return False
        if str.strip(ccs_cells[0].text) != 'CCS' or str.strip(ccs_cells[1].text) == '':
            logging.error("没有设置CCS")
            return False
    return True

def check_docx(doc): 
    # 检查第一个表格ICS和CCS是否齐全
    check_first_table(doc)

    logging.info(doc.paragraphs[0].text)
    logging.info(doc.paragraphs[1].text)
    logging.info(doc.paragraphs[2].text)
    # 长横线
    stdName = doc.paragraphs[5].text
    logging.info("标准名称：" + stdName)
    check_stdname(stdName)
    # 空行
    logging.info(doc.paragraphs[7].text)
    # 空行
    logging.info(doc.paragraphs[9].text)
    adoption = doc.paragraphs[9].text
    # 空行
    selected = root.find(".//w:ddList/w:result", ns).attrib.get('{http://schemas.openxmlformats.org/wordprocessingml/2006/main}val')
    status = root.find(".//w:ddList/w:listEntry["+selected+"]", ns).attrib.get('{http://schemas.openxmlformats.org/wordprocessingml/2006/main}val')
    logging.info(status)
    logging.info(doc.paragraphs[11].text)
    # 空行
    logging.info(doc.paragraphs[12].text)
    logging.info(doc.paragraphs[13].text)
    logging.info(doc.paragraphs[14].text)
    # logging.info(doc.paragraphs[15].text)
    # logging.info(doc.paragraphs[17].text)
    # 结束 """
    i = 15
    while True:
        p = doc.paragraphs[i].text   
        i += 1     
        if str.strip(p) == "前言":
            logging.info(p)
            break       
    # 检查前言部分 
    check_intr(doc, i)
    return True
"""
  前言不应包含要求、指示、推荐或允许型条款，也不应使用图、表或数学公式等表述形式。前言不应给出章编号且不分条。
  a）文件起草所依据的标准。具体表述为"本文件按照GB/T1.1—2020《标准化工作导则 第1部分：标准化文件的结构和起草规则》的规定起草。"
  b） 文件与其他文件的关系。需要说明以下两方面的内容∶
      ● 与其他标准的关系;
      ● 分为部分的文件的每个部分说明其所属的部分并列出所有已经发布的部分的名称。
  c） 文件与代替文件的关系。需要说明以下两方面的内容∶
      ●给出被代替、废止的所有文件的编号和名称;
      ● 列出与前一版本相比的主要技术变化。
  d） 文件与国际文件关系的说明。GB/T20000.2 中规定了与国际文件存在着一致性对应关系的我国文件，在前言中陈述的相关信息。
  e） 有关专利的说明。D.2中规定了尚未识别出文件的内容涉及专利时，在前言中需要给出的相关内容。
  f） 文件的提出信息（可省略）和归口信息。对于由全国专业标准化技术委员会提出或归口的文件，应在相应技术委员会名称之后给出其国内代号，使用下列适当的表述形式∶
      ●"本文件由全国××××标准化技术委员会（SAC/TC XXX）提出。"
      ●"本文件由××××提出。"
      ●"本文件由全国××××标准化技术委员会（SAC/TC XXX）归口。"
      ●"本文件由××××归口。"
  g） 文件的起草单位和主要起草人，使用下列表述形式∶
      ●"本文件起草单位…·…。"
      ●"本文件主要起草人∶……。"
  h）文件及其所代替或废止的文件的历次版本发布情况。
"""
def base_check(p, keyverb):
    # 不能包含“本标准”
    return True

def check_intr(doc, i):
    rt1 = '本文件按照GB/T 1.1—2020《标准化工作导则  第1部分：标准化文件的结构和起草规则》的规定起草。'
    rt2 = '归口'
    rt3 = '起草单位'
    rt4 = '起草人'
    
    if doc.paragraphs[i].text != rt1:
        logging.error(f"前言第一行当前为: {doc.paragraphs[i].text}\n正确表述应为: {rt1}")
    
    while True:
        i += 1
        
        if doc.paragraphs[i].text.strip() == stdName:
            break
    return True
    
def check_stdname(stdName):
    if ("标准" in stdName):
        logging.error("标准名称中不应出现“标准”")
        return False

doc = docx.Document(docx_file_path)
is_valid = check_docx(doc)
if is_valid:
    print("文档格式符合要求")
else:
    print("文档格式不符合要求")



文档格式符合要求


# 测试XLNet等模型

In [None]:
#!pip install transformers

from transformers import XLNetTokenizer, XLNetForSequenceClassification
import torch

# 加载预训练的tokenizer和model
tokenizer = XLNetTokenizer.from_pretrained("hfl/chinese-xlnet-base")
model = XLNetForSequenceClassification.from_pretrained("hfl/chinese-xlnet-base")

# 输入待检测文本
input_text = "你好，今天天气怎么样？"

# 添加标记，使XLNet可以检测文本错误
input_text = "[CLS]" + input_text + "[SEP]"

# 将文本编码成XLNet接受的输入格式
input_ids = torch.tensor(tokenizer.encode(input_text)).unsqueeze(0)

# 通过XLNet进行分类，判断文本是否错误
outputs = model(input_ids)

_, predicted = torch.max(outputs.logits.data, 1)

# 如果文本有错误，输出纠正建议
if predicted == 1:
    suggested_text = "本句少主语，建议改为..."
    print(suggested_text)

# 如果文本正确，输出"通过"
else:
    print("通过")


In [None]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

# 加载LXNet模型和分词器
tokenizer = AutoTokenizer.from_pretrained("wyzsstd/lxnet_chinese_error_detect")
model = AutoModelForSequenceClassification.from_pretrained("wyzsstd/lxnet_chinese_error_detect")

# 定义文本实例
text = "这篇文章写的非常好。"

# 分词器编码
inputs = tokenizer(text, return_tensors="pt")

# LXNet模型预测
outputs = model(**inputs)
predictions = torch.argmax(outputs.logits, dim=1)

# 判断预测结果
if predictions == 0:
    # 打印出语病所在的句子
    print("此文本存在语言错误，该句子有语病：", tokenizer.decode(inputs["input_ids"][0]))
else:
    print("此文本不存在语言错误。")



# 用openAI检查语法错误

In [None]:
import openai
openai.api_key = "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"#"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"

model_engine = "text-davinci-002"
prompt = "请检测以下文本是否存在语法错误：\n\"这篇文我我章写的非常好。\""
completions = openai.Completion.create(
    engine=model_engine,
    prompt=prompt,
    max_tokens=1024,
    n=1,
    stop=None,
    temperature=0.7,
)
message = completions.choices[0].text.strip()
if "没有语法错误" in message:
    print("此文本不存在语言错误。")
else:
    print("此文本存在语言错误，该句子有语病：", message)


2023-04-19 16:41:47,901 - DEBUG - message='Request to OpenAI API' method=post path=https://api.openai.com/v1/engines/text-davinci-002/completions
2023-04-19 16:41:47,902 - DEBUG - api_version=None data='{"prompt": "\\u8bf7\\u68c0\\u6d4b\\u4ee5\\u4e0b\\u6587\\u672c\\u662f\\u5426\\u5b58\\u5728\\u8bed\\u6cd5\\u9519\\u8bef\\uff1a\\n\\"\\u8fd9\\u7bc7\\u6587\\u6211\\u6211\\u7ae0\\u5199\\u7684\\u975e\\u5e38\\u597d\\u3002\\"", "max_tokens": 1024, "n": 1, "stop": null, "temperature": 0.7}' message='Post details'
2023-04-19 16:41:50,404 - DEBUG - https://api.openai.com:443 "POST /v1/engines/text-davinci-002/completions HTTP/1.1" 200 None
2023-04-19 16:41:50,407 - DEBUG - message='OpenAI API response' path=https://api.openai.com/v1/engines/text-davinci-002/completions processing_ms=2194 request_id=69cf414c7b4fb57475c8261640cd7956 response_code=200
2023-04-19 16:41:50,408 - INFO - "这篇文我我章写的非常好。"

这篇文我我章写的非常好。

文中存在语法错误。


此文本存在语言错误，该句子有语病： "这篇文我我章写的非常好。"

这篇文我我章写的非常好。

文中存在语法错误。


# **将生成的json保存为docx**
---

```
[
    {
        "章条号": "全文",
        "意见或建议": "建议注意所有需要转页接排表格的规范编写。"
    },
    {
        "章条号": "全文",
        "意见或建议": "有“*”和“×”等算数运算符混用的现象，建议统一算术运算符的用法。"
    }
]

```



In [None]:
import json
from docx import Document
from docx.shared import RGBColor
from docx.shared import Inches
from docx.enum.text import WD_PARAGRAPH_ALIGNMENT

# 读取json数据
with open('data.json', encoding='utf-8') as f:
    data = json.load(f)

# 创建一个新的Word文档
document = Document()

black_color = RGBColor(0, 0, 0) # RGB值为0, 0, 0表示黑色

# 添加一个段落，插入标题并居中对齐
title = document.add_paragraph('广电行标征求意见专家反馈表')
title_format = title.paragraph_format
title_format.alignment = WD_PARAGRAPH_ALIGNMENT.CENTER
title.style = 'Heading 1'
title.style.font.name = '黑体'
title.style.font.color.rgb = black_color

document.add_paragraph(f'标准名称：').style.font.name = '宋体'
document.add_paragraph(f'专家姓名：张鑫                        单位：中国电影科学技术研究所').style.font.name = '宋体'
document.add_paragraph(f'手机/座机：13683059656                E-mail：zhangxin@crifst.ac.cn').style.font.name = '宋体'

# 添加一个表格，行数为数据的长度+1（因为还要添加表头行）
table = document.add_table(rows=len(data)+1, cols=len(data[0].keys()))

# 添加表头行
heading_cells = table.rows[0].cells
for i, key in enumerate(data[0].keys()):
    heading_cells[i].text = key

# 遍历数据并添加到表格中
for i, row_data in enumerate(data):
    cells = table.rows[i+1].cells
    for j, value in enumerate(row_data.values()):
        cells[j].text = str(value)

document.add_paragraph('')
tail = document.add_paragraph('年    月    日')
tail_format = tail.paragraph_format
tail_format.alignment = WD_PARAGRAPH_ALIGNMENT.RIGHT
tail.style.font.name = '宋体'
tail.style.font.color.rgb = black_color
# 保存Word文档
document.save('data.docx')