## Python自动生成和读取Word文件

需要一个类库：python-docx
* 官网：https://python-docx.readthedocs.io/
* 安装：pip3 install python-docx

### 1. 自动生成一个Word文件

In [1]:
from docx import Document

In [2]:
# 一个word文档对象
document = Document()

#### 添加大标题、普通段落

In [3]:
# 添加文档标题，数字可以是0~9
document.add_heading("Python语言简介", 0)

<docx.text.paragraph.Paragraph at 0x1ac175d5a48>

In [4]:
# 添加文本段落
document.add_paragraph("""
    Python是一种跨平台的计算机程序设计语言。 
    是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。
""")

<docx.text.paragraph.Paragraph at 0x1ac16844748>

#### 添加一级标题、无序列表

In [5]:
document.add_heading("Python的应用领域", level=1)

<docx.text.paragraph.Paragraph at 0x1ac175fb988>

In [6]:
# List Bullet是圆点列表，List Number是数字列表
areas = ["Web开发", "网络爬虫", "数据分析", "大数据处理", "机器学习/深度学习"]
for area in areas:
    document.add_paragraph(area, style='List Bullet')

#### 添加一级标题、表格数据

In [7]:
document.add_heading("Python的数据类型", level=1)

<docx.text.paragraph.Paragraph at 0x1ac176026c8>

In [8]:
# 准备表格数据
table_rows = [
    ("类型", "中文名", "解释"),
    ("str", "字符串", "不可变字符串"),
    ("list", "列表", "可包含多种类型，可变"),
    ("tuple", "元组", "可包含多种类型，不可变"),
    ("dict", "字典", "可变，由键值对组成"),
    ("set", "结合", "无序集合、元素唯一")
]

In [9]:
# 添加table，返回table对象
table = document.add_table(rows=len(table_rows), cols=3)

# 给table对象设置数据
for row_number, (english_name, chinese_name, description) in enumerate(table_rows):
    row_cells = table.rows[row_number].cells
    row_cells[0].text = english_name
    row_cells[1].text = chinese_name
    row_cells[2].text = description

#### 保存文档

In [10]:
document.save('Python语言简介.docx')

### 2. 读取Word文档

In [11]:
# 构造文档对象，传入文件地址
document_new = Document('Python语言简介.docx')

#### 读取所有普通段落

In [12]:
# 读取每一段的内容
for paragraph in document.paragraphs:
    print("#", paragraph.text)

# Python语言简介
# 
    Python是一种跨平台的计算机程序设计语言。 
    是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。

# Python的应用领域
# Web开发
# 网络爬虫
# 数据分析
# 大数据处理
# 机器学习/深度学习
# Python的数据类型


#### 读取表格数据

In [13]:
# 所有表格
tables = document.tables
for table in tables:
    for row in table.rows:
        print([cell.text for cell in row.cells])

['类型', '中文名', '解释']
['str', '字符串', '不可变字符串']
['list', '列表', '可包含多种类型，可变']
['tuple', '元组', '可包含多种类型，不可变']
['dict', '字典', '可变，由键值对组成']
['set', '结合', '无序集合、元素唯一']
