## Word对象结构图

<table width="100%" border="0">
<tr>
  <td valign="top"  width="40%">
    <img src="images/Word对象结构图.png" align="left"/>
  </td>
  <td style="vertical-align:top; text-align:left;">

### Word文档结构非常复杂，主要的对象见左图
#### 1、Document 对象表示整个文档
#### 2、Paragrapha 对象表示段落（在文档中，每一次回车会产生新段落）
#### 3、Run 对象表示相同样式的文本延续
#### Document 对象包含一个 Paragrapha 对象的列表，Paragraph 对象包含一个 Run 对象的列表。

  </td>
</tr>
</table>

In [None]:
# Anaconda 默认不包含 docx工具包，需要执行以下脚本进行安装
!pip install -i https://mirrors.aliyun.com/pypi/simple/ python-docx

In [None]:
# 导入word工具包
import docx
from PIL import Image # 图片处理工具包
from io import BytesIO # 字节流工具包
import matplotlib.pyplot as plt # 图片显示

# 1、读取Word文件

In [None]:
docx_file = r".\files\Word_读取说明.docx"
document = docx.Document(docx_file)
print("有 %s 个段落" % len(document.paragraphs))
print("有 %s 个表格" % len(document.tables))


# 2、查看段落 Paragrapha 的内容

In [None]:
for paragraph in document.paragraphs:
    print(paragraph.text)

# 3、查看行内元素 Run 的内容

In [None]:
for paragraph in document.paragraphs:
    for r in paragraph.runs:
        print(r.text)

# 4、查看表格的内容

In [None]:
for table in document.tables:
    print("---------------------------------")
    for row in table.rows:
        print(row.cells)

In [None]:
for table in document.tables:
    print("---------------------------------")
    for row in table.rows:
        row_text = ""
        for cell in row.cells:
            row_text += cell.text + "\t|\t"
        print(row_text[0:-3])
        print("---------------------------------")

# 5、查看图片

In [None]:
# 读取 Word 文档中的图片
print("*************** 图片 **************")
dict_rel = document.part._rels
for rel in dict_rel:
    rel = dict_rel[rel]
    # word文档非常复杂，暂不展开课程内容，
    # 我们把 word的扩展名改一下，您就会发现
    if "image" in rel.reltype:
        plt.figure('image')
        plt.xticks([])
        plt.yticks([])
        im = Image.open(BytesIO(rel.target_part.blob))
        plt.imshow(im)
        plt.show()        


# 6、功能合并到函数

In [None]:
#读取docx中的文本代码示例
def read_docx(docx_file):
    # 打开 Word 文档
    document = docx.Document(docx_file)
    # 读取 Word 文档中的段落
    print("*************** 段落 **************")
    for paragraph in document.paragraphs:
        for r in paragraph.runs:
            r_info = ""
            if r.font.name is not None:
                r_info += r.font.name + ","
            if r.font.size is not None:
                r_info += "字号:" + str(round(int(r.font.size))/12700) + ","
            if r.bold:
                r_info += "粗体字,"
            if r.italic:
                r_info += "斜体字,"
            if r.font.color.rgb is not None:
                r_info += "颜色:" + str(r.font.color.rgb) + ","
            if len(r_info) > 0:
                r_info = r.text + f"【{r_info[0:-1]}】"
            else:
                r_info = r.text
            print(r_info)
            # print("text:%s font.name:%s font.size:%s bold:%s italic:%s font.color:%s" % (r.text,r.font.name,r.font.size ,r.bold,r.italic,r.font.color.rgb))
            
    # 读取 Word 文档中表格中的内容
    print("*************** 表格 **************")
    for table in document.tables:
        print("---------------------------------")
        for row in table.rows:
            row_text = ""
            for cell in row.cells:
                row_text += cell.text + "\t|\t"
            print(row_text[0:-3])
            print("---------------------------------")

    # 读取 Word 文档中的图片
    print("*************** 图片 **************")
    dict_rel = document.part._rels
    for rel in dict_rel:
        rel = dict_rel[rel]
        # word文档非常复杂，暂不展开课程内容，
        # 我们把 word的扩展名改一下，您就会发现
        if "image" in rel.reltype:
            plt.figure('image')
            plt.xticks([])
            plt.yticks([])
            im = Image.open(BytesIO(rel.target_part.blob))
            plt.imshow(im)
            plt.show()        

read_docx(r".\files\Word_读取说明.docx")