# Создание и изменение PDF-файлов с помощью Python

Эта публикация основана на замечательной публикации Дэвида Амоса [Create and Modify PDF Files in Python](https://realpython.com/creating-modifying-pdf/). Начав её перевод, я столкнулся с тем, что библиотека PyPDF2 имеет ограничения на работу с кириллическими текстами и некорректно оформленными pdf-файлами. 

PDF (сокр. от Portable Document Format) является одним из наиболее распространенных форматов обмена документами в Интернете. Формат PDF позволяет в одном файле объединять текст, изображения, таблицы, формы и даже мультимедиа, например, видео или анимацию.

Такое обилие поддерживаемых типов контента может затруднить работу с PDF-файлами – ведь все эти данные нужно как-то декодировать при открытии файла! К счастью, в экосистеме Python есть несколько отличных пакетов для чтения, создания и даже изменения PDF-файлов.

Из этого пособия вы узнаете как:
- Читать текст из PDF-файла
- Разбить PDF-файл на множество отдельных файлов
- Объединить PDF-файлы
- Защитить PDF-файлы c помощью паролей
- Создать свой собственный PDF с нуля

# Извлечение текста из PDF

В этом разделе мы узнаем, как читать PDF-файл и извлекать текст с помощью пакета PyPDF2. Прежде чем мы сможем это сделать, нужно установить библиотеку с помощью `pip`:

In [None]:
pip install PyPDF2

Как упомянуто выше, библиотека PyPDF2 имеет ограничения на работу с кириллическими текстами и некорректно оформленными pdf-файлами. Поэтому для непоредставенного извлечения текста мы будем пользоваться библиотекой [pdfminer.six](https://pdfminersix.readthedocs.io/en/latest/index.html).

In [None]:
pip install pdfminer.six

## Открываем PDF-файл

Давайте начнем, открыв PDF и прочитав в нем информацию. Мы будем использовать файл `Onegin.pdf`, расположенный в папке `practice_files` в репозитории блокнота Jupyter.

Для начала импортируем класс `PdfFileReader`

In [None]:
from PyPDF2 import PdfFileReader

Создадим новый экземпляр класса `PdfFileReader`, указав путь к файлу PDF:

In [None]:
pdf_path = 'practice_files/Onegin.pdf'
pdf = PdfFileReader(pdf_path)

Мы можем использовать экземпляр PdfFileReader для сбора информации о PDF. Например, метод `.getNumPages()` возвращает количество страниц, содержащихся в PDF-файле:

In [None]:
pdf.getNumPages()

Используя атрибут `.documentInfo` можно извлечь мета-информацию:

In [None]:
pdf.documentInfo

К каждому из элементов `.documentInfo` можно обратиться с помощью соответствующего атрибута:

In [None]:
pdf.documentInfo.title

# Извлечение текста из PDF

Для извлечения текста используем `pdfminer`. Работа с текстами выглядит очень просто: достаточно использовать функцию `extract_text`. При передаче списка страниц можно извлечь отдельные страницы. Без аргумента `page_numbers` текст извлекается целиком.

In [None]:
from pdfminer.high_level import extract_text

In [None]:
text = extract_text(pdf_path, page_numbers = [19])

In [None]:
print(text.strip())

Напишем простую функцию, которая будет извлекать текст из переданного PDF-файла в txt-файл:

In [None]:
def pdf_to_txt(pdf_path):
    txt_path = f'{pdf_path[:-4]}.txt'
    text = extract_text(pdf_path)
    with open(txt_path, 'w') as output_file:
        # 
        output_file.write(text.replace('\x0c', ''))
        
pdf_to_txt(pdf_path)