# Создание и изменение PDF-файлов с помощью Python

Эта публикация основана на замечательной публикации Дэвида Амоса [Create and Modify PDF Files in Python](https://realpython.com/creating-modifying-pdf/). При её переводе я столкнулся с тем, что библиотека PyPDF2 имеет ограничения на работу с кириллическими текстами и некорректно оформленными pdf-файлами. Поэтому текст публикации не является прямым переводом текстом Амоса.

Материал подготовлен для проекта [Библиотека программиста](https://proglib.io/).

PDF (сокр. от Portable Document Format) является одним из наиболее распространенных форматов обмена документами в Интернете. Формат PDF позволяет в одном файле объединять текст, изображения, таблицы, формы и даже мультимедиа, например, видео или анимацию.

Такое обилие поддерживаемых типов контента может затруднить работу с PDF-файлами – ведь все эти данные нужно как-то декодировать при открытии файла! К счастью, в экосистеме Python есть несколько отличных пакетов для чтения, создания и даже изменения PDF-файлов.

Из этого пособия вы узнаете как:
- Читать текст из PDF-файла
- Разбить PDF-файл на множество отдельных файлов
- Объединить PDF-файлы
- Защитить PDF-файлы c помощью паролей
- Создать свой собственный PDF с нуля

# Извлечение текста из PDF

В этом разделе мы узнаем, как читать PDF-файл и извлекать текст с помощью пакета PyPDF2. Прежде чем мы сможем это сделать, нужно установить библиотеку с помощью `pip`:

In [1]:
pip install PyPDF2

Note: you may need to restart the kernel to use updated packages.


Как упомянуто выше, библиотека PyPDF2 имеет ограничения на работу с кириллическими текстами и некорректно оформленными pdf-файлами. Поэтому для непоредставенного извлечения текста мы будем пользоваться библиотекой [pdfminer.six](https://pdfminersix.readthedocs.io/en/latest/index.html).

In [17]:
pip install pdfminer.six

Note: you may need to restart the kernel to use updated packages.


## Открываем PDF-файл

Давайте начнем, открыв PDF и прочитав в нем информацию. Мы будем использовать файл `Onegin.pdf`, расположенный в папке `practice_files` в репозитории блокнота Jupyter.

Для начала импортируем класс `PdfFileReader`

In [3]:
from PyPDF2 import PdfFileReader

Создадим новый экземпляр класса `PdfFileReader`, указав путь к файлу PDF:

In [14]:
pdf_path = 'practice_files/Onegin.pdf'
pdf = PdfFileReader(pdf_path)

Мы можем использовать экземпляр PdfFileReader для сбора информации о PDF. Например, метод `.getNumPages()` возвращает количество страниц, содержащихся в PDF-файле:

In [7]:
pdf.getNumPages()

417

Используя атрибут `.documentInfo` можно извлечь мета-информацию:

In [8]:
pdf.documentInfo

{'/Creator': 'Apache FOP Version svn-trunk',
 '/Producer': 'Apache FOP Version svn-trunk',
 '/Title': 'Евгений Онегин',
 '/Subject': 'literature_19',
 '/Author': 'Александр Сергеевич Пушкин',
 '/CreationDate': "D:20170108140835+03'00'"}

К каждому из элементов `.documentInfo` можно обратиться с помощью соответствующего атрибута:

In [9]:
pdf.documentInfo.title

'Евгений Онегин'

# Извлечение текста отдельной страницы PDF

In [25]:
from pdfminer.high_level import extract_text

In [62]:
text = extract_text(pdf_path, page_numbers = [19])

In [63]:
print(text.strip())

Глава первая

И  жить  торопится,  и  чувствовать

спешит.
Князь Вяземский2

 

 
I
 

«Мой дядя самых честных правил,
Когда не в шутку занемог,
Он уважать себя заставил
И лучше выдумать не мог.
Его пример другим наука;
Но, боже мой, какая скука
С больным сидеть и день и ночь,
Не отходя ни шагу прочь!
Какое низкое коварство
Полуживого забавлять,
Ему подушки поправлять,
Печально подносить лекарство,
Вздыхать и думать про себя:
Когда же черт возьмет тебя!»

2 Эпиграф взят из стихотворения П. А. Вяземского «Первый снег».
