In [1]:
from collections import deque
from docx import Document
from docx.oxml.text.paragraph import CT_P
from docx.oxml.table import CT_Tbl
from docx.oxml import OxmlElement
from urllib.parse import urlparse


In [2]:
# 顺序读取 word 文档内容，保存为节点列表
def read_ordered_elements(file_path):
    doc = Document(file_path)
    elements = []
    
    # 按原生顺序遍历文档元素
    for child in doc.element.body.iterchildren():
        if isinstance(child, CT_P):
            # 段落处理
            para = child.xpath('.//w:t')
            text = ''.join([t.text for t in para if t.text])
            elements.append(("Paragraph", text))
        elif isinstance(child, CT_Tbl):
            # 表格处理
            table = []
            for row in child.xpath('.//w:tr'):
                row_data = []
                for cell in row.xpath('.//w:tc'):
                    cell_text = ''.join([t.text for t in cell.xpath('.//w:t')])
                    row_data.append(cell_text)
                table.append(row_data)
            elements.append(("Table", table))
    
    return elements

# 删除段落方法
def delete_paragraph(paragraph):
    p_element = paragraph._element  # 获取XML元素
    p_parent = p_element.getparent()  # 获取父节点
    p_parent.remove(p_element)  # 从父节点中移除
    p_element._p = p_element._element = None  # 释放内存
    
results = read_ordered_elements("C:/Users/wayne/Desktop/ns-api-docs.docx")

In [3]:
# 读取接口文档，根据接口URL 保存为 接口URL --> 文档内容 的字典
api_docs = {}
curr_api = None
fq = deque(maxlen=5)
for idx, (elem_type, content) in enumerate(results):
    txt = ''
    if elem_type == 'Paragraph':
        txt = {'type':'para', 'content': content.strip()}
        if txt['content'].startswith('接口URL'):
            curr_api = txt['content']
            api_docs[curr_api] = []
            api_docs[curr_api].extend(fq)
        fq.append(txt)
    elif elem_type == 'Table':
        txt = []
        for row in content:
            txt.append(row)
        txt = {'type':'table', 'content': txt}
    if curr_api:
        api_docs[curr_api].append(txt)

# 增加 path --> 文档, path+query --> 文档映射
docs_by_path = {}
docs_by_path_query = {}
for k, v in api_docs.items():
    parsed = urlparse('//' + k.split("：")[1])
    path_and_query = parsed.path + ("?" + parsed.query if parsed.query else "")
    docs_by_path[parsed.path] = v
    docs_by_path_query[path_and_query] = v



In [7]:
# 计算 url 参数，body 参数，output 输出所在的索引
def mio(gen_api):
    # if len(gen_api) == 26:
    #     m, i, o = 8, 12, 15
    # elif len(gen_api) == 29:
    #     m, i, o = 8, 15, 18
    # else:
    #     m, i, o = 8, 15, 18
    m, u, i, o = 8, None, None, None
    for idx, line in enumerate(gen_api):
        if u is None and line['type'] == 'para' and line['content'].startswith('URI参数说明'):
            u = idx + 1
        if i is None and line['type'] == 'para' and line['content'].startswith('请求体参数说明'):
            i = idx + 1
        if i and o is None and line['type'] == 'para' and line['content'].startswith('返回参数说明'):
            o = idx + 1
    return (m, u, i, o)


dd = Document("C:/Users/wayne/Desktop/详细设计.docx")

editing = False

deleting = False
confirm_delete = False

curr_api = None
gen_api = None

api_method_para = None

for i, para in enumerate(dd.paragraphs):    
    if para.text.strip() == '投入品管理系统':
        editing = True
    if editing is False:
        continue
    if hasattr(para, 'style') and hasattr(para.style, 'name'):
        if para.style.name == 'Heading 4':
            deleting = False
            continue
        if para.style.name == 'Heading 6':
            deleting = True
            confirm_delete = False
            continue
    if deleting:
        if para.text.strip().startswith('请求方式') or para.text.strip().startswith('接口状态'):
            api_method_para = para
        if para.text.strip().startswith('请求地址') or para.text.strip().startswith('接口URL'):
            curr_api = para.text.strip()
            parsed = urlparse('//' + curr_api.split('：')[1])
            pq = parsed.path + ("?" + parsed.query if parsed.query else "")
            gen_api = docs_by_path_query.get(pq)
            if gen_api is None:
                gen_api = docs_by_path.get(parsed.path)
            continue
        if para.text.strip().startswith('请求参数') or para.text.strip().startswith('云端MockUrl'):
            if gen_api is None:
                print(curr_api)
            else:
                # print(curr_api, len(gen_api))
                m, u, i, o = mio(gen_api)
                # 该请求方式
                api_method_para.text = gen_api[m]['content']
                p_in, p_out = gen_api[i]['content'], gen_api[o]['content']
                q_in = []
                if u:
                    q_in = gen_api[u]['content']
                # 拼接出入参数描述
                doc_text = '输入项：\n给出对每一个输入项的特性，包括名称、标识、数据的类型和格式、数据值的有效范围、输入的方式。数量和频度、输入媒体、输入数据的来源和安全保密条件等等。\n'
                
                for idx in range(1, len(q_in)):
                    i = q_in[idx]
                    if len(i) == 5:
                        doc_text += f'{i[0]}: {i[2]}, {i[1]} {i[4] if i[4] != "暂无描述" else ""}\n'
                    elif len(i) == 1:
                        doc_text += '无 url 请求参数\n'
                    else:
                        print(i)
                for idx in range(1, len(p_in)):
                    i = p_in[idx]
                    if len(i) == 5:
                        doc_text += f'{i[0]}: {i[2]}, {i[1]} {i[4] if i[4] != "暂无描述" else ""}\n'
                    elif len(i) == 1:
                        doc_text += '无 body 请求参数\n'
                    else:
                        print(i)
                doc_text += '输出项：\n给出对每一个输出项的特性，包括名称、标识、数据的类型和格式，数据值的有效范围，输出的形式、数量和频度，输出媒体、对输出图形及符号的说明、安全保密条件等等。\n'
                for idx in range(1, len(p_out)):
                    i = p_out[idx]
                    if len(i) == 4:
                        doc_text += f'{i[0]}: {i[2]}, {i[1]} {i[3] if i[3] != "暂无描述" else ""}\n'
                    elif len(i) == 1:
                        doc_text += '无请求参数\n'
                    else:
                        print(i)
                # print(doc_text)
                # print()
                para.text = doc_text
            confirm_delete = True
            continue
        if confirm_delete:
            # delete_paragraph(para)
            pass
                   

dd.save("详细设计-v3.docx")

请求地址：localhost:8080/supplier/operate
请求地址：localhost:8080/supplier/operate
请求地址：localhost:8080/input/stock/detail/get
请求地址：localhost:8080/plant/task/stats/get


In [108]:
x = docs_by_path.get('/input/prohibit/list')
print(len(x))
# 26
# print(x[8])
# print(x[12])
# print(x[15])

# 29 
# print(x[8])
# print(x[15])
# print(x[18])

#31
# print(x[8])
# print(x[15])
# print(x[18])
print(mio(x))
print()
x

29
(8, 12, 15, 18)



[{'type': 'para', 'content': '返回参数说明：(201)失败'},
 {'type': 'para', 'content': ''},
 {'type': 'para', 'content': '列表 [input:prohibit:list]'},
 {'type': 'para', 'content': ''},
 {'type': 'para', 'content': '接口状态：已完成'},
 {'type': 'para',
  'content': '接口URL：localhost:8080/input/prohibit/list?searchValue=&pageNum=1&pageSize=1'},
 {'type': 'para', 'content': '云端MockUrl：/input/prohibit/list'},
 {'type': 'para', 'content': 'Content-Type：application/json'},
 {'type': 'para', 'content': '请求方式：get'},
 {'type': 'para', 'content': '接口备注：暂无描述'},
 {'type': 'para', 'content': ''},
 {'type': 'para', 'content': 'URI参数说明：'},
 {'type': 'table',
  'content': [['参数名', '示例值', '参数类型', '是否必填', '参数描述'],
   ['searchValue', '', 'String', '否', '暂无描述'],
   ['pageNum', '1', 'Text', '是', '暂无描述'],
   ['pageSize', '1', 'Text', '是', '暂无描述']]},
 {'type': 'para', 'content': ''},
 {'type': 'para', 'content': '请求体参数说明：'},
 {'type': 'table',
  'content': [['参数名', '示例值', '参数类型', '是否必填', '参数描述'], ['无请求参数 KEY/VALUE 类型']]},
 {'t

In [115]:
def gen_doc_txt(gen_api):
    m, u, i, o = mio(gen_api)
    # 该请求方式
    api_method_para.text = gen_api[m]['content']
    p_in, p_out = gen_api[i]['content'], gen_api[o]['content']
    q_in = []
    if u:
        q_in = gen_api[u]['content']
    # 拼接出入参数描述
    doc_text = '输入项：\n给出对每一个输入项的特性，包括名称、标识、数据的类型和格式、数据值的有效范围、输入的方式。数量和频度、输入媒体、输入数据的来源和安全保密条件等等。\n'
    
    for idx in range(1, len(q_in)):
        i = q_in[idx]
        if len(i) == 5:
            doc_text += f'{i[0]}: {i[2]}, {i[1]} {i[4] if i[4] != "暂无描述" else ""}\n'
        elif len(i) == 1:
            doc_text += '无 url 请求参数\n'
        else:
            print(i)
    for idx in range(1, len(p_in)):
        i = p_in[idx]
        if len(i) == 5:
            doc_text += f'{i[0]}: {i[2]}, {i[1]} {i[4] if i[4] != "暂无描述" else ""}\n'
        elif len(i) == 1:
            doc_text += '无 body 请求参数\n'
        else:
            print(i)
    doc_text += '输出项：\n给出对每一个输出项的特性，包括名称、标识、数据的类型和格式，数据值的有效范围，输出的形式、数量和频度，输出媒体、对输出图形及符号的说明、安全保密条件等等。\n'
    for idx in range(1, len(p_out)):
        i = p_out[idx]
        if len(i) == 4:
            doc_text += f'{i[0]}: {i[2]}, {i[1]} {i[3] if i[3] != "暂无描述" else ""}\n'
        elif len(i) == 1:
            doc_text += '无请求参数\n'
        else:
            print(i)
    return doc_text

for k, v in docs_by_path_query.items():
    txt = gen_doc_txt(v)
    print(k)
    print(txt)
    print()

/login
输入项：
给出对每一个输入项的特性，包括名称、标识、数据的类型和格式、数据值的有效范围、输入的方式。数量和频度、输入媒体、输入数据的来源和安全保密条件等等。
无 body 请求参数
输出项：
给出对每一个输出项的特性，包括名称、标识、数据的类型和格式，数据值的有效范围，输出的形式、数量和频度，输出媒体、对输出图形及符号的说明、安全保密条件等等。
code: Number, 200 
token: String, eyJhbGciOiJIUzUxMiJ9.eyJqdGkiOiJmNDhhMmU0Zi04Yjk3LTQ0OGMtYTk3OC0wNzA0NDhlZjRhM2QifQ.B5VodjSIgYOLlTLesoBUcloIt_wcfo6S9ES-zOrBe9WKZZom6-WSJSCj7kivHy87mFBNdUN6aJM7Ae5xl_Q0fA 认证令牌


/wechat/common/weChatLogin
输入项：
给出对每一个输入项的特性，包括名称、标识、数据的类型和格式、数据值的有效范围、输入的方式。数量和频度、输入媒体、输入数据的来源和安全保密条件等等。
无 body 请求参数
输出项：
给出对每一个输出项的特性，包括名称、标识、数据的类型和格式，数据值的有效范围，输出的形式、数量和频度，输出媒体、对输出图形及符号的说明、安全保密条件等等。
code: Number, 200 
token: String, eyJhbGciOiJIUzUxMiJ9.eyJqdGkiOiJmNDhhMmU0Zi04Yjk3LTQ0OGMtYTk3OC0wNzA0NDhlZjRhM2QifQ.B5VodjSIgYOLlTLesoBUcloIt_wcfo6S9ES-zOrBe9WKZZom6-WSJSCj7kivHy87mFBNdUN6aJM7Ae5xl_Q0fA 认证令牌


/monitor/job/run
输入项：
给出对每一个输入项的特性，包括名称、标识、数据的类型和格式、数据值的有效范围、输入的方式。数量和频度、输入媒体、输入数据的来源和安全保密条件等等。
无 body 请求参数
输出项：
给出对每一个输出项的特性，包括名称、标识、数据的类型和格式，数据值的有效范围，输出的形式、数量和频度，输出媒体、对输出图形及符号的说明、安全保密条件等等。
无请求