# 教程

## 简介

Ebooklib 库用来管理 EPUB2/EPUB3 文件

## 读取 EPUB

In [None]:
import ebooklib
from ebooklib import epub

book = epub.read_epub('book.epub')

`ebooklib.epub.read_epub()` 功能用来读取 EPUB 文件。可以使用 完整路径 作为参数。它返回一个 `ebooklib.epub.EpubBook` 类

### 元数据

`ebooklib.epub.EpubBook.get_metadata()` 方法用来获取元数据。它接受 2 个参数。如以下例子，

* 第一个参数是命名空间的名字('DC'是 Dublin Core，'OPF'是 custom metadata)。
* 第二个参数是键的名字。它总是返回一个列表。如果关于这个键没有任何的定义，返回空列表。

Dublic Core (EPUB3) 元数据最小需求:

* DC:identifier 标识符
* DC:title      标题
* DC:language   语言

访问DC元数据时使用 DC 命名空间

In [None]:
book.get_metadata('DC', 'title')

In [None]:
book.get_metadata('DC', 'creator')

In [None]:
book.get_metadata('DC', 'identifier')

DC 的主要可选元数据包括:

* DC:creator
* DC:contributor
* DC:publisher
* DC:right
* DC:coverage
* DC:date
* DC:description

这是 DC 元数据 在 content.opf 文件内部的定义方式

In [None]:
<dc:language>en</dc:language>
<dc:identifier id="isbn_9781416566120">9781416566120</dc:identifier>

可以创建自定义元数据。如: 在 content.opf 文件中定义自定义元数据的方式。可以多次定义相同的键。

In [None]:
<meta content="my-cover-image" name="cover" />
<meta content="cover-image" name="cover" />

访问自定义元数据时，使用命名空间 OPF。

In [11]:
book.get_metadata('OPF', 'cover')

[(None, {'name': 'cover', 'content': 'my_cover_image'})]

### 关于 DC 都柏林核心 元数据

**DC 的 15 个基本元素**

|元素名称(英文)|中文名称|说明|
|:-:|:-:|:-:|
|title|标题|资源的名称|
|creator|创建者|内容的创作者|
|subject|主题|资源的主题或关键词|
|description|描述|资源内容的说明|
|publisher|发布者|负责发布资源的实体|
|contributor|贡献者|对资源做出贡献的实体|
|date|日期|与资源生命周期相关的时间点|
|type|类型|资源的性质或类型|
|format|格式|资源的文件格式等|
|identifier|标识符|资源的唯一标识(如ISBN, DOI等)|
|source|来源|派生资源的来源信息|
|language|语言|资源的语言|
|relation|关联|与其他资源的关联|
|coverage|覆盖范围|资源内容的时空特征|
|right|权限|关于资源权限的信息|

### 更多信息:

* [EPUB Publications 3.0: 都柏林核心元数据集可选元素](http://www.idpf.org/epub/30/spec/epub30-publications.html#sec-opf-dcmes-optional)
* [EPUB Publications 3.0](http://www.idpf.org/epub/30/spec/epub30-publications.html)
* [DublinCore](http://dublincore.org/documents/dces/)

### 物品 (Item)

所有资源 (样式表、图像、视频、声音、脚本 和 html 文件) 都是物品

In [12]:
images = book.get_items_of_type(ebooklib.ITEM_IMAGE)

`get_items_of_type()` 方法根据类型获取物品

以下是目前可以使用的物品类型:

* ITEM_UNKNOWN 未知
* ITEM_IMAGE 图像
* ITEM_STYLE 样式
* ITEM_SCRIPT 脚本
* ITEM_NAVIGATION 导航
* ITEM_VECTOR 向量
* ITEM_FONT 字体
* ITEM_VIDEO 视频
* ITEM_AUDIO 音频
* ITEM_DOCUMENT 文档
* ITEM_COVER 封面
* ITEM_SMIL 文本和音频同步


In [13]:
cover_image = book.get_item_with_id('cover-image')

`get_item_with_id()` 方法根据 ID (如果知道) 获取物品

In [14]:
index = book.get_item_with_href('index.xhtml')

`get_item_with_href()` 方法根据文件名获取物品

In [15]:
items = book.get_items_of_media_type('image/png')

`get_items_of_media_type()` 方法根据媒体类型获取物品

In [16]:
all_items = book.get_items()

`get_items()` 方法返回所有物品。处理未知 EPUB 文件时常会使用。

**切记~** `get_item_with_id`、`get_item_with_href` 返回 item 对象，`get_items_of_type`、`get_items_of_media_type` 和 `get_items` 返回迭代器(不是列表)

要从现有物品(无论图像、样式表还是 html 文件)获取内容，可以使用`ebooklib.epub.EpubItem.get_content()`。 对于 HTML 物品，可使用 `ebooklib.epub.EpubHtml.get_body_content()`。后者只返回 <body> 部分的内容

In [17]:
for item in book.get_items():
  if item.get_type() == ebooklib.ITEM_DOCUMENT:
    print('===========================')
    print('NAME : ', item.get_name())
    print('---------------------------')
    print(item.get_content())
    print('===========================')
    

NAME :  cover.xhtml
---------------------------
b'<?xml version=\'1.0\' encoding=\'utf-8\'?>\n<!DOCTYPE html>\n<html xmlns="http://www.w3.org/1999/xhtml" xmlns:epub="http://www.idpf.org/2007/ops" epub:prefix="z3998: http://www.daisy.org/z3998/2012/vocab/structure/#" lang="en" xml:lang="en">\n  <head/>\n  <body><div id="coverpage">\n<div class="chatu_img">\n        <img src="images/cover.jpg" style="height:100%" alt="\xe5\xa5\xbd\xe5\x85\xb3\xe7\xb3\xbb\xe6\x88\x90\xe5\xb0\xb1\xe5\xa5\xbd\xe5\xad\xa9\xe5\xad\x90\xef\xbc\x9a0\xe8\x87\xb36\xe5\xb2\x81\xe4\xba\xb2\xe5\xad\x90\xe4\xba\x92\xe5\x8a\xa8\xe4\xb8\xad\xe7\x9a\x84\xe5\x85\xb3\xe9\x94\xae\xe5\xaf\x86\xe7\xa0\x81"/>\n      </div>\n    </div>\n</body>\n</html>\n'
NAME :  titlepage1.xhtml
---------------------------
b'<?xml version=\'1.0\' encoding=\'utf-8\'?>\n<!DOCTYPE html>\n<html xmlns="http://www.w3.org/1999/xhtml" xmlns:epub="http://www.idpf.org/2007/ops" epub:prefix="z3998: http://www.daisy.org/z3998/2012/vocab/structure/#" lan

## 创建 EPUB

In [18]:
from ebooklib import epub
book = epub.EpubBook()

EPUB 有一些最低限度的元数据要求，您需要满足这些要求。您需要定义唯一标识符、书名和书内使用的语言。对于语言代码，建议的最佳做法是使用受控词汇表，例如 [RFC 4646](http://www.ietf.org/rfc/rfc4646.txt)。

In [19]:
book.set_identifier('sample123456')
book.set_title('Sample book')
book.set_language('en')

book.add_author('Andrew Xia')

添加 DC 和 自定义 元数据

In [25]:
book.add_metadata('DC', 'description', 'This is a sample book with a few chapters.')
book.add_metadata(None, 'meta', '', {'name': 'key', 'content': 'value'})

在 content.opf 文件中的格式

In [None]:
<dc:description>This is a sample book with a few chapters.</dc:description>
<meta content="value" name="key"></meta>

章节由 `ebooklib.epub.EpubHtml` 表示。必须定义 `file_name` 和 `title`。例子中的 `title` 将在生成目录时使用。

定义内容时，您可以将其定义为有效的 HTML 文件，或仅将部分 HTML 元素定义为内容。它将忽略 \<head\> 元素中的所有内容。

In [39]:
# 《简介》章节
c1 = epub.EpubHtml(title='简介', file_name='intro.xhtml', lang='en')
c1.set_content('<html><body><h1>简介</h1><p>Introduction paragraph.</p></body></html>')

# 《关于》章节
c2 = epub.EpubHtml(title='关于本书', file_name='about.xhtml', lang='en')
c2.set_content('<h1>关于本书</h1><p>This is a book.</p>')

进行一些基本的调试。在本例中，我们插入了章节标题和语言定义。如果我们将样式表文件附加到本章，它还会添加样式表文件的链接。

任何类型的物品（样式表、图像、HTML 文件）都必须添加到书中。

In [40]:
book.add_item(c1)
book.add_item(c2)

<ebooklib.epub.EpubHtml at 0x182917fb110>

加入书中的物品可以查看内容

In [41]:
print(c1.get_content())

b'<?xml version=\'1.0\' encoding=\'utf-8\'?>\n<!DOCTYPE html>\n<html xmlns="http://www.w3.org/1999/xhtml" xmlns:epub="http://www.idpf.org/2007/ops" epub:prefix="z3998: http://www.daisy.org/z3998/2012/vocab/structure/#" lang="en" xml:lang="en">\n  <head>\n    <title>\xe7\xae\x80\xe4\xbb\x8b</title>\n  </head>\n  <body>\n    <h1>\xe7\xae\x80\xe4\xbb\x8b</h1>\n    <p>Introduction paragraph.</p>\n  </body>\n</html>\n'


您可以将任何类型的文件添加到书中。例如，在本例中，我们添加样式表文件。我们为其定义文件名、唯一 ID、媒体类型和内容。就像章节文件一样，您需要将其添加到书中。样式表文件也可以添加到章节中。在这种情况下，链接将自动添加到章节 HTML 中。

In [42]:
style = 'body { font-family: Times, Times New Roman, serif; }'

nav_css = epub.EpubItem(uid="style_nav",
                        file_name="style/nav.css",
                        media_type="text/css",
                        content=style)
book.add_item(nav_css)

<ebooklib.epub.EpubItem at 0x1829007c590>

目录必须手动定义。目录是元素的元组/列表。您可以手动定义链接，ebooklib.epub.Link也可以只在其中插入项目对象。手动插入时，您可以在目录中定义与章节不同的标题。如果您只插入项目对象，它将使用您在创建该项目时为其定义的任何标题。

章节只是具有两个值的元组。第一个是章节的标题，第二个是具有子章节的元组/列表。

In [43]:
book.toc = (epub.Link('intro.xhtml', 'Introduction', 'intro'),
              (
                epub.Section('Languages'),
                (c1, c2)
              )
            )

脊柱也是如此。您可以为项目使用唯一 ID，或者只是将其实例添加到脊柱。

In [44]:
book.spine = ['nav', c1, c2]

最后写下你的书。你需要指定书的完整路径，不能将其写到文件对象或其他东西中。

In [45]:
epub.write_epub('test.epub', book)

  return self._open_to_write(zinfo, force_zip64=force_zip64)
  return self._open_to_write(zinfo, force_zip64=force_zip64)


它还接受一些选项。

|选项|默认值|
|:-:|:-:|
|epub2_guide|True|
|epub3_landmark|True|
|epub3_pages|True|
|landmark_title|"Guide"|
|pages_title|"Pages"|
|spine_direction|True|
|package_direction|False|
|play_order|{'enabled':False, 'start_from':1}|

In [None]:
# 覆盖默认选项的示例:
epub.write_epub('test.epub', book, {"epub3_pages": False})

## 示例

更多示例请参阅: [https://github.com/aerkalov/ebooklib/tree/master/samples](https://github.com/aerkalov/ebooklib/tree/master/samples)

# 插件

插件可用于自动化某些工作流程。例如，`ebooklib.plugins.tidyhtml` 插件会自动为您清理 HTML 输出。例如，FootnotePlugin 将自定义脚注重写为 EPUB3 类型的脚注。如果没有这些插件，您将需要在设置或获取章节内容之前进行所需的转换。

您需要扩展一个 `ebooklib.plugins.base.BasePlugin` 类。这些是您可以覆盖的方法。

|方法|参数|描述|
|:-|:-|:-|
|before_write|book|书籍保存前的处理|
|after_write|book|书籍保存后处理|
|before_read|book|读书前的处理|
|after_read|book|读完书后的处理|
|item_after_read|book, item|读取后处理一般事项|
|item_before_write|book, item|写入前处理一般项|
|html_after_read|book, chapter|读取之前处理 HTML|
|html_before_write|book, chapter|保存之前处理 HTML|