## Word对象结构图

<table width="100%" border="0">
<tr>
  <td valign="top" width="50%"  style="background-color:#ddffdd">
    <img src="images/Word对象结构图.png" align="center"/>
  </td>
  <td style="vertical-align:top; text-align:left;background-color:#ddffdd">
      
 ## 左图列出了常用的对象（实际上结构非常复杂）
### 1. Document 对象表示整个文档
### 2. Paragraph 对象表示段落（每一次回车会产生新段落）
### 3. Run 对象表示相同样式的文本延续，称为文字块
### 4. Table 对象表示文档中的表格
<hr/>
    
* <font color="blue" size="3px"> 
     Document 对象包含多个 Paragraph 对象（列表），Paragraph 对象包含多个 Run 对象（列表）</font>


* <font color="blue" size="3px">  Table 对象包含多个单元格 Cell 对象，Cell 对象又可以包含 Paragraph 对象的列表</font>
 


  </td>
 </tr>
 <tr>
  <td valign="top" width="50%" style="background-color:#ffdddd">
    <img src="images/word文档结构介绍.png" align="center"/> 
   </td>
   <td style="vertical-align:top; text-align:left;background-color:#ffdddd">
      
 ## 重点讲解
### 1、Document 文档
### 2、Paragraph 段落（每一次回车会产生新段落）
### 3、Run 文字块（相同样式的文本延续）

  </td>
 </tr>
</table>

In [None]:
# Anaconda 默认不包含 docx工具包，需要执行以下脚本进行安装
!pip install -i https://mirrors.aliyun.com/pypi/simple/ python-docx

In [None]:
# 导入word工具包
import docx

# 1、读取Word文件

In [None]:
# 文件路径
docx_file = r".\files\Word_读取说明.docx"

# 打开指定文件路径的 Word 文档
document = docx.Document(docx_file)
# 打印简单的信息看看
print("有 %s 个段落" % len(document.paragraphs))
print("有 %s 个表格" % len(document.tables))

# 2、查看段落 Paragraph 的内容

In [None]:
# 文档中的 paragraphs 段落对象列表
for paragraph in document.paragraphs:
    print(paragraph.text)
# 段落的文本如下：

# 3.1、查看行内元素 Run 的内容

In [None]:
# 文档中的 paragraphs 段落对象列表
for paragraph in document.paragraphs:
    # 段落对象中的 runs 文本块对象列表
    for r in paragraph.runs:
        print(r.text)
# 文字块：相同样式的文本延续
# 文字块文本如下（未包含样式信息）：

# 3.2、语法知识

### 1）+= 用法（字符串、整数）

In [None]:
num = 1 # 整数
for i in range(3):
    num += 1  # 语法相当于 num = num + 1 ，就是每循环一次 num 就加 1
    print(num)

In [None]:
s ="开始|" # 字符串
for i in range(3):
    value = "当前数:%s|" % i
    s += value  # 语法相当于 s = s + value ，就是每循环一次 s 后面就追加 value 字符串
    print(s)

### 2）截取字符串

In [None]:
# 语法：字符串 [ 开始索引 : 结束索引 ]
print("1.       s =",s) # 全部字符串
print("2.   s[0:] =",s[0:]) # 从 0（第一位） 开始取直到字符串结束，也是全部字符串
print("3.   s[3:] =",s[3:]) # 从 3 （第四位）开始取直到字符串结束
print("4.    s[3] =",s[3])  # 取第 3 （第四位）个字符
print("5.   s[-2] =",s[-2]) # 取倒数第 2 （倒数就还是第2）个字符
print("6. s[0:-2] =",s[0:-2]) # 从 0（第一位） 开始取直到字符串倒数第2结束

### 3）字符串格式化

In [None]:
# 定义变量
num = 123
text = "计算结果"
# 字符串前面加“f”（format首字母）后，该字符串可以使用{变量}的值
print("  加 f ->", f"{text}={num}") # 加 f 
print("不加 f ->","{text}={num}") # 不加 f

# 3.3、查看行内元素 Run 的内容和样式

In [None]:
# 文档中的 paragraphs 段落对象列表
for paragraph in document.paragraphs:
    # 段落对象中的 runs 文本块对象列表
    for r in paragraph.runs:
        # ** 注意：没有样式说明是默认的样式 **
        r_info = "" # 存放一个文本块内容和样式信息，print 结果
        if r.font.name is not None: # 如果字体名称不为空（None），显示字体名
            r_info += r.font.name + ","
        if r.font.size is not None: # 如果字号不为空，显示字号
            r_info += "字号:" + str(round(int(r.font.size)/12700)) + ","
        if r.bold: # 如果是粗体字
            r_info += "粗体字,"
        if r.italic: # 如果是斜体字
            r_info += "斜体字,"
        if r.font.color.rgb is not None: # 如果文字有颜色，显示字体颜色
            r_info += "颜色:" + str(r.font.color.rgb) + ","
        # 如果长度大于0，说明 r_info 有样式信息
        if len(r_info) > 0:
            # r_info 中最后一个字符肯定有一个“逗号”
            r_info = r_info[0:-1] # 去掉末尾的“逗号”
            r_info = r.text + f"【{r_info}】"
        else: # 没有样式信息就直接显示文字
            r_info = r.text
        print(r_info)

# 文字块：相同样式的文本延续
# ** 注意：没有样式说明是默认的样式 **
# 包含样式的文字块文本如下：

# 4、查看表格的内容

In [None]:
# 文档中的 tables 表格对象列表
for table in document.tables:
    # rows 为行对象列表
    for row in table.rows:
        # cells 为单元格对象列表
        print(row.cells)

In [None]:
# 文档中的 tables 表格对象列表
for table in document.tables:
    # 打印便于简单的展示表格
    print("---------------------------------")
    for row in table.rows:
        row_text = ""
        for cell in row.cells:
            # \t 代表的意思是水平制表符，能否保证列尽可能的对齐
            row_text += cell.text + "\t|\t"             
        print(row_text[0:-3]) # [0:-3] 去掉最后的 \t|\t
        # 打印便于简单的展示表格
        print("---------------------------------")

# 5、查看图片

In [None]:
def show_img(blob):
    """
    显示图片的函数（以后的课程再讲解）
    """
    from PIL import Image # 图片处理工具包
    from io import BytesIO # 字节流工具包
    import matplotlib.pyplot as plt # 图片显示
    plt.figure('image',figsize=(16,12))
    plt.xticks([])
    plt.yticks([])
    im = Image.open(BytesIO(blob))
    plt.imshow(im)
    plt.show()

# 读取 Word 文档中的图片（工具包中没有直接提供图片对象列表）
print("*************** 图片 **************")
dict_rel = document.part._rels
for rel in dict_rel:
    rel = dict_rel[rel]

    if "image" in rel.reltype:
        show_img(rel.target_part.blob)
    else:
        # word文档非常复杂，暂不扩展课程内容
        # 我们把 word的扩展名改一下，您会发现确实复杂
        pass # 这个语法就是 pass 通过，什么事情都不做，以后会经常见到

# 6、功能合并到函数

In [None]:
import docx # 导入word工具包


#读取docx中的文本代码示例
def read_docx(docx_file):
    # 打开 Word 文档
    document = docx.Document(docx_file)
    # 读取 Word 文档中的段落
    # 文档中的 paragraphs 段落对象列表
    for paragraph in document.paragraphs:
        # 段落对象中的 runs 文本块对象列表
        for r in paragraph.runs:
            r_info = "" # 存放一个文本块内容和样式信息，print 结果
            if r.font.name is not None: # 如果字体名称不为空，显示字体名
                r_info += r.font.name + ","
            if r.font.size is not None: # 如果字号不为空，显示字号
                r_info += "字号:" + str(round(int(r.font.size)/12700)) + ","
            if r.bold: # 如果是粗体字
                r_info += "粗体字,"
            if r.italic: # 如果是斜体字
                r_info += "斜体字,"
            if r.font.color.rgb is not None: # 如果文字有颜色，显示字体颜色
                r_info += "颜色:" + str(r.font.color.rgb) + ","
            # 如果长度大于0，说明 r_info 有样式信息
            if len(r_info) > 0:
                # r_info 中最后一个字符肯定有一个“逗号”
                r_info = r_info[0:-1] # 去掉末尾的“逗号”
                r_info = r.text + f"【{r_info}】"
            else: # 没有样式信息就直接显示文字
                r_info = r.text
            print(r_info)
            
    # 文档中的 tables 表格对象列表
    for table in document.tables:
        # 打印便于简单的展示表格
        print("---------------------------------")
        for row in table.rows:
            row_text = ""
            for cell in row.cells:
                row_text += cell.text + "\t|\t" # \t 代表的意思是水平制表符，能否保证列尽可能的对齐
            print(row_text[0:-3]) # [0:-3] 去掉最后的 \t|\t
            # 打印便于简单的展示表格
            print("---------------------------------")

    def show_img(blob):
        """
        显示图片的函数（以后的课程再讲解）
        """
        from PIL import Image # 图片处理工具包
        from io import BytesIO # 字节流工具包
        import matplotlib.pyplot as plt # 图片显示
        plt.figure('image',figsize=(16,12))
        plt.xticks([])
        plt.yticks([])
        im = Image.open(BytesIO(blob))
        plt.imshow(im)
        plt.show()

    # 读取 Word 文档中的图片（工具包中没有直接提供图片对象列表）
    dict_rel = document.part._rels
    for rel in dict_rel:
        rel = dict_rel[rel]

        if "image" in rel.reltype:
            show_img(rel.target_part.blob)
        else:
            # word文档非常复杂，暂不扩展课程内容
            # 我们把 word的扩展名改一下，您会发现确实复杂
            pass # 这个语法就是 pass 通过，什么事情都不做，以后会经常见到  

read_docx(r".\files\Word_读取说明.docx")

# Python总结

**<font color=blue size=4> 1、掌握Word文档中常用对象 </font>**

* <font color=blue size=4>Document 文档对象</font>

* <font color=blue size=4>Paragraph 段落对象</font>

* <font color=blue size=4>Run 文字块对象</font>


**<font color=blue size=4> 2、语法知识 </font>**

* <font color=blue size=4> += 用法（字符串、整数）</font>

* <font color=blue size=4>截取字符串</font>

* <font color=blue size=4>字符串格式化</font>






# 思考题

* 运行下面的代码，并打开文件 **files\Word结构.docx**，对比一下输出结果，理解一下 **Paragraph段落** 和 **Run文字块**

In [None]:
read_docx(r".\files\Word结构.docx")

* 本次课程只涉及到Document 文档、Paragraph段落、Run文字块，Table表格对象，还有图片，Word文档结构还是非常复杂。

* 大家可以把 docx 文件的扩展名改为 zip，并解压，看一下解压后的文件里面包含什么，这里有更多的**秘密**。

# 参考文档

中文：[https://www.osgeo.cn/python-docx/](https://www.osgeo.cn/python-docx/)

英文：[https://python-docx.readthedocs.io/](https://python-docx.readthedocs.io/)

* 未来如果要深入研究，可以参考这些文档