# Text pre-processing

## Первая версия

In [15]:
# installations: docx2txt, pdf.miner.six
# author: Terekhina Maria

import docx2txt
import io
import re
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage


def remove_ending(text):
    '''
    Remove bibliography.
    '''
    text = re.sub('(Литература|Список( использованной)? литературы|Библиография)(\.)?.*', '', text, flags=re.S)
    return text

def remove_begining(text):
    '''
    Remove all before introduction
    '''
    text = re.sub('.*?Введение(\.)?', 'Введение', text, flags=re.S)
    return text

def clean_text(text):
    '''
    Remove page numbers and system symbols
    '''
    text = re.sub('\n+', '\n', text)
    text = re.sub('\f', '\n', text)
    text = re.sub('\n+( )*[0-9]+( )*\n+', '', text)
    text = remove_begining(text)
    text = remove_ending(text)
    return text

def convert_pdf_to_txt(path):
    '''
    Convert pdf to plain text
    '''
    rsrcmgr = PDFResourceManager()
    retstr = io.StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos = set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages,
                                  password=password,
                                  caching=caching,
                                  check_extractable=True):
        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return clean_text(text)

def document_to_text(path):
    '''
    Choose a convertor for the file: pdf or docx
    '''
    if path[-5:] == ".docx":
        text = docx2txt.process(path)
        return clean_text(text)
    elif path[-4:] == ".pdf":
        return convert_pdf_to_txt(path)

if __name__ == '__main__':
    print(document_to_text(input('Введите полный путь к файлу: ')))

Введите полный путь к файлу: 
None


## Вторая версия

In [49]:
# installations: docx2txt, pdf.miner.six
# author: Evgenii Glazunov

import docx2txt
import io
import re
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage


def remove_ending(text):
    '''
    Remove bibliography.
    '''
    reg = re.compile('(Литература|Список( использованной)? литературы|Библиография).*', re.DOTALL)
    text = reg.sub('', text, re.DOTALL)
    return text


def remove_begining(text):
    '''
    Remove all before introduction
    '''
    text = re.sub('.*?Введение(\.)?', '', text, flags=re.S)
    return text

def remove_content(text):
    text = remove_begining(text)
    text = remove_ending(text)
    text = re.sub(r'''(?i)\b((?:https?://|www\d{0,3}[.]|[a-z0-9.\-]+[.][a-z]{2,4}/)(?:[^\s()<>]+|\(([^\s()<>]+|(\([^\s()<>]+\)))*\))+(?:\(([^\s()<>]+|(\([^\s()<>]+\)))*\)|[^\s`!()\[\]{};:'".,<>?«»“”‘’]))''', " ", text)
    return text

def remove_symbols(text):
    text = re.sub('\n+', '\n', text)
    text = re.sub('\f', '\n', text)
    text = re.sub('\n+( )*[0-9]+( )*\n+', '', text)
    text = text.replace(u'\xa0', u' ')
    #text = re.sub('\s+', ' ', text)
    return text

def clean_text(text):
    '''
    Remove page numbers and system symbols
    '''
    text = remove_content(text)
    text = remove_symbols(text)
    return text


def convert_pdf_to_txt(path):
    '''
    Convert pdf to plain text
    '''
    rsrcmgr = PDFResourceManager()
    retstr = io.StringIO()
    codec = 'utf-8'
    laparams = LAParams(char_margin=20)
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos = set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages,
                                  password=password,
                                  caching=caching,
                                  check_extractable=True):
        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text

def save_as_docx(path):
    # Opening MS Word
    word = win32.gencache.EnsureDispatch('Word.Application')
    doc = word.Documents.Open(path)
    doc.Activate ()

    # Rename path with .docx
    new_file_abs = os.path.abspath(path)
    new_file_abs = re.sub(r'\.\w+$', '.docx', new_file_abs)

    # Save and Close
    word.ActiveDocument.SaveAs(
        new_file_abs, FileFormat=constants.wdFormatXMLDocument
    )
    doc.Close(False)
    
def document_to_text(path):
    '''
    Choose a convertor for the file: pdf or docx
    '''
    if path[-5:] == ".docx":
        text = docx2txt.process(path)
    elif path[-4:] == ".doc":
        save_as_docx(path)
        os.remove(path)
        text = docx2txt.process(path+'x')
    elif path[-4:] == ".pdf":
        text = convert_pdf_to_txt(path)
    elif path[-4:] == '.txt':
        with open(path, 'r', encoding='utf-8') as f:
            text = f.read()
    return clean_text(text)   

In [43]:
def _is_special(line):
    if re.match('^([0-9]+\.)+\s{,3}.*?', line): return True
    elif re.match('^\([0-9]\)+\s{,3}.*?', line): return True
    #elif re.match('^(Рис|Таб)\.\s{0,3}\d{1,3}\.?\s{1,2}[A-ZА-Я].*?$', paragraph): return True
    else: return False

def _not_finished(line, length):
    line = line.strip()
    l = len(line)
    if line:
        if re.match('^.*?\W\w{1,2}\.$', line): return True
        elif line[-1] in '.?!…': return False
        else: return True
    else: return True
    
def _to_be_merged(line, last_array, previous, length):
    len1 = len(line.strip())
    len0 = len(previous.strip())
    if (not _is_special(line) or re.match('^[0-9.) ]*$', line.strip())) and _not_finished(last_array, length):
        if len0 >= 0.8*len1 and len0 > 0.6*length: return True
        elif re.match('^Таб.\s{,3}[0-9].*?', last_array) and len1 < 0.75*length: return True
        else: return False
        

In [3]:
def merge_lines(text):
    text = text.split('\n')
    length = max(len(i) for i in text)
    new = []
    for key, value in enumerate(text):
        line = value.strip()
        #print (key, '|',line,'|')
        if not new: new.append(line)
        else:
            if _to_be_merged(line, new[-1], text[key-1], length): new[-1] = new[-1] + line + ' '
            else: new.append(line+' ')
    return new

In [38]:
def _to_be_deleted(paragraph):
    if re.match('^(\([0-9]*?\)|([0-9]+\.){1,}[0-9]+) .*?$', paragraph): return True
    elif re.match('^(Рис|Таб)\.\s{0,3}\d{1,3}\..*?$', paragraph): return True
    else: return False

In [None]:
print(document_to_text('D:/DATA/Test/1.pdf'))

In [6]:
x = document_to_text('D:/DATA/Test/1.pdf')

In [50]:
x = document_to_text('essay.docx')

In [None]:
x.split('\n')

In [None]:
for paragraph in merge_lines(x):
    if not _to_be_deleted(paragraph): print (paragraph)

In [45]:
for paragraph in merge_lines(x):
    if _to_be_deleted(paragraph): print (paragraph)

Таб. 1. Коллекции текстов, используемые для сравнения Коллекция  Источник  Формат  Размер коллекции Толстой  Оцифрованное тексты  4.2 млн собрание сочинений НКРЯ  Коллекция текстов из тексты  64 млн НКРЯ Araneum  Araneum Russicum обученная модель, 10 млрд Maximum доступная на ресурсе RusVectores 
2.1 Обработка текста 
2.1.1 Извлечение текста 
2.1.2  Нормализация текста 
2.1.3 Разделение на предложения 
2.1.4 Лемматизация 
2.1.5 Объединение в файл для обучения модели 
2.2 Векторные модели 
2.2.1 Технологии 
2.2.2 Алгоритмы 
2.2.3 Параметры 
3.1 Оценка качества моделей 
Таб. 2. Коэффициент Спирмена на тестовой выборке ru_simlex965 Word2Vec  FastText CBOW  Skipgram  CBOW  Skipgram Толстой  -0.02  0.14  0.10  0.16 НКРЯ 19 век  0.27  0.32  0.24  0.28 Araneum 0.32  0.33 
3.2 Искусственный сдвиг значения 
3.3 Метрики 
3.3.1 Тау Кендалла 
3.3.2 Коэффициент Жаккара 
3.3.3 NDCG 
3.4 Подбор количества соседей для оценки 
Рис. 2. Коэффициент корреляции Спирмена для коэффициента Жаккара и NDCG для 

In [None]:
merge_lines(x)