In [2]:
from docx import Document

doc = Document("example/test.doc")
print(f"段落数量: {len(doc.paragraphs)}")  # 检查是否有段落

段落数量: 2


In [1]:
import os
print(os.path.exists("example/test.doc"))  # 应返回 True

True


In [3]:
from docx import Document
import zipfile

try:
    doc = Document("example/test.doc")  # 即使扩展名是.doc也尝试
    print("\n".join(p.text for p in doc.paragraphs))
except zipfile.BadZipFile:
    print("文件不是有效的.docx格式")





In [4]:
!od -c example/test.doc | head -20  # 查看文件二进制内容

0000000   P   K 003 004  \n  \0  \0  \0  \0  \0 207   N 342   @  \0  \0
0000020  \0  \0  \0  \0  \0  \0  \0  \0  \0  \0  \t  \0  \0  \0   d   o
0000040   c   P   r   o   p   s   /   P   K 003 004 024  \0  \0  \0  \b
0000060  \0 207   N 342   @ 316 325 222 021   p 001  \0  \0 216 002  \0
0000100  \0 020  \0  \0  \0   d   o   c   P   r   o   p   s   /   a   p
0000120   p   .   x   m   l 235   R 313   N 303   0 020 274   # 361 017
0000140   Q 356 251 035 267   ) 017   m 215   J 200 023 217   J  \r 364
0000160 210   ,   g 323   X   $ 266   e 033   D 377 036 207   B 033 256
0000200 334   v   f 354 321 354 003 256   > 373   . 371   @ 347 225 321
0000220 213   4 237 320   4   A   -   M 255 364   v 221   >   W   w 331
0000240   y 232 370       t   -   : 243   q 221 356 320 247   W 374 364
0000260 004   V 316   X   t   A 241   O 242 205 366 213 264  \r 301   ^
0000300 022 342   e 213 275 360 223   ( 353 250   4 306 365   "   D 350
0000320 266 304   4 215 222   x   c 344   { 217   : 020   F 351 

In [5]:
# 检查表格内容
from docx import Document

doc = Document("example/test.doc")
for table in doc.tables:
    for row in table.rows:
        for cell in row.cells:
            print("表格内容:", cell.text)

表格内容: 姓名： 
表格内容: 
表格内容: 脑电图号：
表格内容: 634
表格内容: 性别： 
表格内容: 女
表格内容: 检查日期：
表格内容: 2025年3月26日
表格内容: 年龄：
表格内容: 23
表格内容: 床    号：
表格内容: 23
表格内容: 科别：
表格内容: 
表格内容: 门诊/住院号：
表格内容: 10632
表格内容: 
表格内容: 病人情况/记录条件: 
类        型：常规                配合情况：        意识状态：清醒
电极安放标准：国际10-20系统      左 右 利：        用    药：/
检查结果：
背景活动：清醒安静闭目时双侧枕区以Hz、uv 波及节律为主；左右基本对称，调节、调幅。
波：，低波幅14-25Hzβ波。
波：，低中波幅4-7Hzθ波。
对称性：双侧。
异常波形：。
诱发实验：
睁闭眼：α波抑制完全。
过度换气：。
结论：     
     

报告医师：
报告日期：2025年3月26日   


In [19]:
# 检查页眉页脚
for section in doc.sections:
    print("页眉:")
    for para in section.header.paragraphs:
        print(para.text)
    
    print("页脚:")
    for para in section.footer.paragraphs:
        print(para.text)

页眉:

页脚:
（仅供临床参考，不作为诊断依据）


In [18]:
from docx import Document
from docx.oxml import OxmlElement

def extract_textboxes(doc):
    """提取文档中所有文本框内容（兼容新版python-docx）"""
    textbox_content = []
    
    # 遍历所有段落，检查是否包含文本框
    for paragraph in doc.paragraphs:
        for run in paragraph.runs:
            if run._element.xpath('.//w:txbxContent'):
                # 提取文本框内的所有段落
                textbox = run._element.xpath('.//w:txbxContent')[0]
                for p in textbox.xpath('.//w:p'):
                    text = ' '.join(t.text for t in p.xpath('.//w:t'))
                    if text:
                        textbox_content.append(text)
    
    return textbox_content

# 使用示例
doc = Document("example/test.doc")
textboxes = extract_textboxes(doc)
print("文本框内容:", textboxes)

文本框内容: []


In [23]:
# python-docx
from docx import Document
from docx.table import Table

def extract_all_content(file_path):
    doc = Document(file_path)
    content = []
    
    # 提取段落
    for para in doc.paragraphs:
        if para.text.strip():
            content.append(para.text)
    
    # 提取表格内容
    for table in doc.tables:
        for row in table.rows:
            for cell in row.cells:
                if cell.text.strip():
                    content.append(cell.text)
    
    return "\n".join(content) if content else "文件无文本内容"

#text = extract_all_content("example/test.doc")
text = extract_all_content(".output/_20231205_165237/_20231205_165237.doc")
print("提取结果：")
print(text)

提取结果：
姓名：     
姓名：     
脑电图号：
41913
性别： 
女
女
检查日期：
2025年3月26日
年龄：
26
26
床    号：
/
科别：
门诊号/住院号：
159135
病人情况/记录条件: 
类        型：常规                配合情况：        意识状态：清醒
电极安放标准：国际10-20系统      左 右 利：        用    药：/
检查结果：	
背景活动：清醒安静闭目时双侧枕区以 Hz、 uv的波及节律为主，左右基本对称，调节、调幅。
快波：，低波幅14-25Hzβ波。
慢波：，低中波幅4-7Hzθ波。
对称性：双侧。
异常波形：未见。
诱发实验：
睁闭眼：α波抑制完全。
过度换气：未见异常改变。
结论：                            
报告医师：
报告日期：2025年3月26日  


In [20]:
# 直接解析.docx的 XML（终极方法）
import zipfile
from xml.etree.ElementTree import fromstring

#with zipfile.ZipFile("example/test.doc") as z:
with zipfile.ZipFile(".output/_20231205_165237/_20231205_165237.doc") as z:
    with z.open('word/document.xml') as f:
        xml_content = f.read()
        root = fromstring(xml_content)
        
        # 提取所有文本（包括隐藏内容）
        all_text = ' '.join([elem.text for elem in root.iter() if elem.text])
        print("原始XML中的文本:", all_text)

原始XML中的文本: 姓名：        脑电图号： 41913 性别：   女 检查 日期：   DATE  \@ "yyyy'年'M'月'd'日'"  \* MERGEFORMAT   2025年3月26日 年龄 ： 26 床    号： / 科别 ： 门诊 门诊号/住院号： 159135 病人情况/记录条件:  类        型：常规                配合情况：  合作        意识状态：清醒 电极安放标准：国际10-20系统      左 右 利：  右利        用    药：/ 检查结果 ： 背景活动：清醒安静闭目时双侧枕区以 9-10  Hz、 30-50  uv的 α 波及节律为主，左右基本对称，调节、调幅 尚可 。 快波： 少量 ，低波幅14-25Hzβ波。 慢波： 少量 ，低中波幅4-7Hzθ波。 对称性：双侧 基本对称 。 异常波形：未见。 诱发实验 ： 睁闭眼：α波抑制完全。 过度换气：未见异常改变。 结论 ： 大致正常脑电地形图                              报告医师： 报告日期：   DATE  \@ "yyyy'年'M'月'd'日'"  \* MERGEFORMAT   2025年3月26日   


In [2]:
import re
from docx import Document
from lxml import etree

def clean_xml_text(text):
    """去除XML中的格式标记"""
    # 删除日期字段标记
    text = re.sub(r'DATE \\@ "[^"]+" \\\* MERGEFORMAT', '', text)
    # 合并多余空格
    text = re.sub(r'\s+', ' ', text)
    return text.strip()

def extract_clean_xml(doc):
    """提取并清洗XML内容"""
    xml_str = doc._element.xml
    root = etree.fromstring(xml_str)
    ns = {'w': 'http://schemas.openxmlformats.org/wordprocessingml/2006/main'}
    texts = root.xpath('//w:t/text()', namespaces=ns)
    return clean_xml_text(' '.join(texts))

doc = Document("example/test.doc")
print(extract_clean_xml(doc))

姓名： 脑电图号： 634 性别： 女 检查 日期： 2025年3月26日 年龄 ： 23 床 号： 23 科别 ： 精神一科 门诊/住院号： 10632 病人情况/记录条件: 类 型：常规 配合情况： 合作 意识状态：清醒 电极安放标准：国际10-20系统 左 右 利： 右利 用 药：/ 检查结果 ： 背景活动：清醒安静闭目时双侧枕区以 9-10 Hz、 50-80 uv α 波及节律为主；左右基本对称，调节、调幅 尚可 。 快 波： 少量 ，低波幅14-25Hzβ波。 慢 波： 少量 ，低中波幅4-7Hzθ波。 对称性：双侧 基本对称 。 异常波形： 未见 。 诱发实验 ： 睁闭眼：α波抑制完全。 过度换气： 未见明显异常改变 。 结论 ： 大致正常脑电地形图 报告医师： 报告日期： 2025年3月26日


In [16]:
from docx2python import docx2python

# 提取内容（新版直接通过属性访问）
#doc = docx2python("example/test.doc")
doc = docx2python(".output/_20231205_165237/_20231205_165237.doc")

# 获取正文内容（新版结构）
print("---正文---")
print(doc.body)  # 直接访问body属性
# 获取其他部分
print("\n---页眉---")
print(doc.header)
print("\n---页脚---")
print(doc.footer)

---正文---
[[[['姓名：     '], ['姓名：     '], [''], ['脑电图号：'], ['41913']], [['性别： '], ['女'], ['女'], ['检查日期：'], ['2025年3月26日']], [['年龄：'], ['26'], ['26'], ['床    号：'], ['/']], [['科别：'], ['门诊'], ['门诊'], ['门诊号/住院号：'], ['159135']]], [[['']]], [[['----media/image1.png----']], [['病人情况/记录条件: ', '类        型：常规                配合情况： 合作       意识状态：清醒', '电极安放标准：国际10-20系统      左 右 利： 右利       用    药：/', '\t检查结果：\t', '背景活动：清醒安静闭目时双侧枕区以9-10 Hz、30-50 uv的α波及节律为主，左右基本对称，调节、调幅尚可。', '快波：少量，低波幅14-25Hzβ波。', '慢波：少量，低中波幅4-7Hzθ波。', '对称性：双侧基本对称。', '异常波形：未见。', '诱发实验：', '睁闭眼：α波抑制完全。', '过度换气：未见异常改变。', '结论：大致正常脑电地形图                            ', '报告医师：', '报告日期：2025年3月26日  ']]], [[['']]]]

---页眉---
[[[]], [[['潍坊市精神卫生中心', '脑电地形图报告单']]], [[['']]]]

---页脚---
[[[['（仅供临床参考，不作为诊断依据）']]]]


In [2]:
# 使用 doc.text 属性
from docx2python import docx2python
#text = docx2python("example/test.doc").text
text = docx2python(".output/_20231205_165237/_20231205_165237.doc").text
print(text)

潍坊市精神卫生中心

脑电地形图报告单



姓名：     

姓名：     



脑电图号：

41913

性别： 

女

女

检查日期：

2025年3月26日

年龄：

26

26

床    号：

/

科别：

门诊

门诊

门诊号/住院号：

159135



----media/image1.png----

病人情况/记录条件: 

类        型：常规                配合情况： 合作       意识状态：清醒

电极安放标准：国际10-20系统      左 右 利： 右利       用    药：/

	检查结果：	

背景活动：清醒安静闭目时双侧枕区以9-10 Hz、30-50 uv的α波及节律为主，左右基本对称，调节、调幅尚可。

快波：少量，低波幅14-25Hzβ波。

慢波：少量，低中波幅4-7Hzθ波。

对称性：双侧基本对称。

异常波形：未见。

诱发实验：

睁闭眼：α波抑制完全。

过度换气：未见异常改变。

结论：大致正常脑电地形图                            

报告医师：

报告日期：2025年3月26日  



（仅供临床参考，不作为诊断依据）


In [14]:
# 使用字典格式输出
from docx2python import docx2python
import json

#doc = docx2python("example/test.doc")
doc = docx2python(".output/_20231205_165237/_20231205_165237.doc")

# 手动构建字典
data = {
    "body": doc.body,
    "header": doc.header,
    "footer": doc.footer,
    "text": doc.text  # 所有文本合并后的字符串
}

print(json.dumps(data, indent=2, ensure_ascii=False))


{
  "body": [
    [
      [
        [
          "姓名：     "
        ],
        [
          "姓名：     "
        ],
        [
          ""
        ],
        [
          "脑电图号："
        ],
        [
          "41913"
        ]
      ],
      [
        [
          "性别： "
        ],
        [
          "女"
        ],
        [
          "女"
        ],
        [
          "检查日期："
        ],
        [
          "2025年3月26日"
        ]
      ],
      [
        [
          "年龄："
        ],
        [
          "26"
        ],
        [
          "26"
        ],
        [
          "床    号："
        ],
        [
          "/"
        ]
      ],
      [
        [
          "科别："
        ],
        [
          "门诊"
        ],
        [
          "门诊"
        ],
        [
          "门诊号/住院号："
        ],
        [
          "159135"
        ]
      ]
    ],
    [
      [
        [
          ""
        ]
      ]
    ],
    [
      [
        [
          "----media/image1.png----"
        ]
      ],
     

In [3]:
# aspose-words
# pip install aspose-words  # 安装相应包
import aspose.words as aw
doc = aw.Document(".output/_20231205_165237/_20231205_165237.doc")
print(doc.get_text())

: 

In [None]:
# 创建符号链接（假设你的路径是 /usr/lib/x86_64-linux-gnu/libssl.so.3）
sudo ln -s /usr/lib/x86_64-linux-gnu/libssl.so.3 /usr/lib/libssl.so
sudo ln -s /usr/lib/x86_64-linux-gnu/libcrypto.so.3 /usr/lib/libcrypto.so

# 更新动态链接库缓存
sudo ldconfig

In [None]:
/home/jackyge/code/git-learn/my-repo/backup/langchain_deepseek_json.py