## Манифест

Как правило, документы имеют логическую структуру: название, разбиение на главы, подглавы и т. д., нумерованные и маркированные списки.
Мы занимаемся извлечением структурных элементов из сканированных документов.
Выделение такой логической структуры документа может пригодиться для автоматизированного анализа документов. Мы хотим решать эту задачу как задачу классификации, нам нужно для каждой строки текста определить, к какому типу она относится.

Выделяются следующие типы:

#### 1)Заголовок

Название главы, секции, подглавы, параграфа - если название занимает несколько строк, остальные тоже относятся к названию. Заголовок визуально выделяется от основного текста отступом и/или шрифтом и/или жирностью.

#### 2)Список

Начало нумерованного или маркированного списка - если элемент списка занимает несколько строк - остальные строки не считаем списком. К списку относятся все пронумерованные любым способом строки (если они не выделены жирностью, отступом, шрифтом и относятся к заголовкам).

#### 3)Текст

Все остальное считается текстом. В том числе, текстом считается пустая строка. Если элементы списков занимают более одной строки, то все строки, кроме первой, считаются текстом.

На вход вам будут подаваться строки документов. Вам необходимо для каждой строки документа определить её тип.
Необходимо Заголовок пометить цифрой 1, Список - 2, Текст - 3

В папке с примерами лежат изображения с правильной разметкой. Красными рамками обведены заголовки, зелёными рамками обведены элементы списков, а синими обведены текстовые блоки. 

Пример разметки.

<img width = '600px' src="examples/0040_example.jpeg">

### Уровни вложенности

#### 1)Заголовки

Как правило, в начале документа идет глобальный заголовок - будем считать его заголовком 0 уровня.

Затем могут идти подзаголовки, начинающиеся со слов Глава, Раздел, Секция, Параграф, Статья + может присутствовать нумерация. Это заголовки n-го уровня, в зависимости от нумерации. (Раздел 1 - 1 уровень, Раздел/Подраздел 1.1 - 2 уровень и т. д.). Ограничимся тремя уровнями вложенности:

0)Заголовок (может быть в несколько строк) (нулевой уровень)

1)Глава/параграф/секция/подзаголовок/раздел + нумерация

2)Подглава/подсекция/подпараграф/подраздел + нумерация

3)Подподглава и т. д. + нумерация

Также могут быть подзаголовки без нумерации и без начальных слов - строки текста, выделенные отступом и/или шрифтом и/или жирностью. Нумерация уровней определяется визуально аналогично описанной выше.

#### 2)Списки

Будем анализировать технические отчеты и статьи законов - считаем нумерованными списками следующее:

1)Вложенные списки с нумерацией 1, 1.1, 1.1.1 (и т.д.)  - это списки 1, 2, 3 (и т.д.) уровня. Выделим такие списки как отдельный класс с неограниченным уровнем вложенности. Уровень таких списков определяется отдельно.

2)Списки + уровень вложенности (ограничимся третьим уровнем вложенности)

-Строки, начинающиеся с цифр (нумерованные списки) 1. 1) 1

-Списки, в которых нумерация ведется с помощью букв а), А), а, А, (a), (A)

-Списки маркированные точка, галка, кружок, тире, ромб, квадрат, крестик и т.д.

Если один список вложен в другой или список относится к блоку текста с заголовком n-го уровня, то уровень вложенности такого списка равен n+1, то есть уровень увеличивается на единицу по сравнению с предыдущим элементом.

Заголовки и элементы списков могут занимать несколько строк, при этом каждая строка заголовка считается заголовком, а в элементах списков списком считается только первая строка, остальные строки - текст (но уровень вложенности такой же, как и у списка, к которому относится строка)

#### 3)Просто строки 

Уровень вложенности определяется блоком текста, к которому относится данная строка. Например, если строка - продолжение элемента списка, то ее уровень вложенности соответствует уровню вложенности элемента списка. Если строка располагается после подзаголовка n-го уровня, то ее уровень также равен n.

### Вопросы на будущее

Что делать с английскими буквами? (или римскими цифрами, например)

Как извлекать информацию о шрифтах, отступах и т.д.?

Насколько сложная структура может быть (насколько сложные и разнообразные документы)? 

Как оценивать вместе с номером уровня заголовка?


## Извлечение текста из pdf
https://www.severcart.ru/blog/all/tesseract_ocr_python/

In [None]:
from pdf2text import pdf2text

## Классификация заголовков

In [None]:
import re
RE_LIST = re.compile(r'\d+(\.\d+)*\D') # для отдельного типа списка

In [None]:
def list_proc(line):
    """
    если список, возвращает тип и глубину вложенности
    """
    match = RE_LIST.search(line)
    if match:
        if match.start() == 0:
            return 'list', match.string[match.span()[0]:match.span()[1]].count('.') + 1
    return

pipeline - классификатор, на входе - список строк текста, на выходе - тип строк

Извлекаем признаки:
смотрим на первое слово в каждой непустой строчке документа -> считаем слова

In [1]:
from sklearn.pipeline import Pipeline, make_pipeline
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import LogisticRegression
from string2features import string2features

ppl = make_pipeline(string2features(), CountVectorizer(token_pattern=r'(?u)\b\w+\b'), LogisticRegression())

Обучаем модель:
логистическая регрессия, для каждой строки - тип строки + уровень???

как работать с уровнем? строка-название + строка-уровень

In [2]:
import json
with open("file_train.json", "r") as read_file:
    doc_with_labels = json.load(read_file)

In [3]:
y = [x["type"] for x in doc_with_labels]
X = [x["content"] for x in doc_with_labels]

Обучаем и сохраняем обученную модель

In [4]:
import pickle as pkl
clf = ppl.fit(X, y)
pkl.dump(clf, open("model.pkl", "wb"))

