### Функциональные требования

Входными данными для системы является текстовый файл, содержащий текст на русском языке. Входной текст не имеет строго
заданного формата.

Система должна соответствовать следующим требованиям:
 1. выделение в исходном тексте предложений;
 2. токенизация исходного текста (выделение в тексте слов, чисел, и иных токенов, в том числе, например, нахождение границ предложений);
 3. поиск в тексте сокращений, аббревиатур;
 4. определение расшифровок для найденных сокращений и аббревиатур;
 5. возможность поиска текстовых конструкций с использованием шаблонов;
 6. возможность добавления новых шаблонов для поиска;
 7. простейшие средства визуализации;
 8. система должна функционировать без предварительного машинного обучения на корректно обработанной экспертами коллекции текстов.

Выходные данные должны быть представлены в формате, пригодном для передачи на следующий этап – морфологический анализ, и содержать следующую информацию:
* список выделенных в тексте предложений;
* список найденных графематических дескрипторов.

В списке предложений должны содержаться:
* позиция начала предложения в тексте;
* его длина (количество символов);
* текст предложения.

Список графематических дескрипторов должен содержать в себе
следующие данные:
* тип дескриптора;
* позиция начала дескриптора в тексте;
* его длина (количество символов);
* текст дескриптора;
* информацию о том, может ли данный дескриптор стоять в конце предложения;
* семантическую информацию о дескрипторе (для сокращений и аббревиатур).

In [6]:
import re
ListWithDescriptors = []
text = 'Постсинтаксический анализ решает две следующие задачи. Первая заключается в необходимости уточнить смысл слов, который выражается с помощью различных средств языка: предлогов, префиксов и т.д. Проблематика второй задачи заключается в том, что одну и ту же мысль можно выразить разными конструкциями языка. Например, в многоязычно диалоговой системе одна и та же мысль может быть выражена различными синтаксическими конструкциями. В связи с этим появляется необходимость в нормализации дерева, чтобы свести конструкции, которые выражают одно действие различным образом для разных ситуаций, к одному нормализованному дереву. Так же на этапе постсинтаксического анализа может проводиться поиск изменяемых словосочетаний, составные части (слова) которых могут быть разделены другими словами [2].'

### Поиск ФИО, когда ФИО в сокращении

In [85]:
FIO = {'DescriptorName': 'FIO', 'TextDescriptor': re.compile('[A-ZА-Я]{1}[a-zа-я]{1,}\s{1}[A-ZА-Я]{1}[.]{1}\s?[A-ZА-Я]{1}[.]{1}|[A-ZА-Я]{1}[.]'), 'End': 1}

counter = -1
for m in FIO['TextDescriptor'].finditer(text):
    counter +=1
    ListWithDescriptors.append([])
    ListWithDescriptors[counter].extend((m.group(), FIO['DescriptorName'], m.start(), m.end()-m.start(), FIO['End'], ''))
    string = "_" * (m.end()-m.start())
    text = text.replace(m.group(), string)
print(ListWithDescriptors)
print(text)

[]
Постсинтаксический анализ решает две следующие задачи. Первая заключается в необходимости уточнить смысл слов, который выражается с помощью различных средств языка: предлогов, префиксов и т.д. Проблематика второй задачи заключается в том, что одну и ту же мысль можно выразить разными конструкциями языка. Например, в многоязычно диалоговой системе одна и та же мысль может быть выражена различными синтаксическими конструкциями. В связи с этим появляется необходимость в нормализации дерева, чтобы свести конструкции, которые выражают одно действие различным образом для разных ситуаций, к одному нормализованному дереву. Так же на этапе постсинтаксического анализа может проводиться поиск изменяемых словосочетаний, составные части (слова) которых могут быть разделены другими словами [2].


### Поиск аббревиатур и сокращений по словарю

In [86]:
abbreviation=[['МГУ','abr',1,2,'Московский Государственный Университет'],['т.д.','sokr',1,2,'и так далее']]

AbbrPatter = {'DescriptorName': 'ABBREVIATION','TextDescriptor': re.compile('[А-Я]{2,}'), 'End': 0}
SokrPattern = {'DescriptorName': 'SOKRASCHENIE','TextDescriptor': re.compile('[А-Яа-я]+\.(?:[А-Яа-я]*\.|[А-Яа-я]*\.[А-Яа-я]*\.)'), 'End': 1}

ListWithPatterns=[AbbrPatter, SokrPattern]

for pattern in ListWithPatterns:
    for m in pattern['TextDescriptor'].finditer(text):
        for abbr in abbreviation:
            if abbr[0] == m.group():
                counter +=1
                ListWithDescriptors.append([])
                ListWithDescriptors[counter].extend((m.group(), pattern['DescriptorName'], m.start(), m.end()-m.start(), pattern['End'], abbr[4]))
                string = "_" * (m.end()-m.start())
                text = text.replace(m.group(), string)   
print(text)
print(ListWithDescriptors)

Постсинтаксический анализ решает две следующие задачи. Первая заключается в необходимости уточнить смысл слов, который выражается с помощью различных средств языка: предлогов, префиксов и ____ Проблематика второй задачи заключается в том, что одну и ту же мысль можно выразить разными конструкциями языка. Например, в многоязычно диалоговой системе одна и та же мысль может быть выражена различными синтаксическими конструкциями. В связи с этим появляется необходимость в нормализации дерева, чтобы свести конструкции, которые выражают одно действие различным образом для разных ситуаций, к одному нормализованному дереву. Так же на этапе постсинтаксического анализа может проводиться поиск изменяемых словосочетаний, составные части (слова) которых могут быть разделены другими словами [2].
[['т.д.', 'SOKRASCHENIE', 188, 4, 1, 'и так далее']]


### Поиск пробелов

In [87]:
SPACE = {'DescriptorName': 'SPACE','TextDescriptor': re.compile(' '), 'End': 0}

for m in SPACE['TextDescriptor'].finditer(text):
    counter +=1
    ListWithDescriptors.append([])
    ListWithDescriptors[counter].extend((m.group(), SPACE['DescriptorName'], m.start(), m.end()-m.start(), pattern['End'], ''))
    
print(ListWithDescriptors)
print(text)

[['т.д.', 'SOKRASCHENIE', 188, 4, 1, 'и так далее'], [' ', 'SPACE', 18, 1, 1, ''], [' ', 'SPACE', 25, 1, 1, ''], [' ', 'SPACE', 32, 1, 1, ''], [' ', 'SPACE', 36, 1, 1, ''], [' ', 'SPACE', 46, 1, 1, ''], [' ', 'SPACE', 54, 1, 1, ''], [' ', 'SPACE', 61, 1, 1, ''], [' ', 'SPACE', 73, 1, 1, ''], [' ', 'SPACE', 75, 1, 1, ''], [' ', 'SPACE', 89, 1, 1, ''], [' ', 'SPACE', 98, 1, 1, ''], [' ', 'SPACE', 104, 1, 1, ''], [' ', 'SPACE', 110, 1, 1, ''], [' ', 'SPACE', 118, 1, 1, ''], [' ', 'SPACE', 129, 1, 1, ''], [' ', 'SPACE', 131, 1, 1, ''], [' ', 'SPACE', 139, 1, 1, ''], [' ', 'SPACE', 149, 1, 1, ''], [' ', 'SPACE', 157, 1, 1, ''], [' ', 'SPACE', 164, 1, 1, ''], [' ', 'SPACE', 175, 1, 1, ''], [' ', 'SPACE', 185, 1, 1, ''], [' ', 'SPACE', 187, 1, 1, ''], [' ', 'SPACE', 192, 1, 1, ''], [' ', 'SPACE', 205, 1, 1, ''], [' ', 'SPACE', 212, 1, 1, ''], [' ', 'SPACE', 219, 1, 1, ''], [' ', 'SPACE', 231, 1, 1, ''], [' ', 'SPACE', 233, 1, 1, ''], [' ', 'SPACE', 238, 1, 1, ''], [' ', 'SPACE', 242, 1, 1, ''

### Выделение остальных шаблонов

In [88]:
MAIL = {'DescriptorName': 'MAIL','TextDescriptor': re.compile('\\b[^\s]+@(?:[a-z]{1,4}\.[a-z]{1,4}\.[a-z]{1,4}|[a-z]{1,4}\.[a-z]{1,4})\\b'), 'End': 0}
URL = {'DescriptorName': 'URL','TextDescriptor': re.compile('(?:(?:https://|http://)|www.){1}[^\s]+[^\s?!.]'), 'End': 0}
DATE = {'DescriptorName': 'DATE','TextDescriptor': re.compile('[0-9]{1,2}[/:.][0-9]{1,2}[/:.][1-9]{1}(?:[0-9]{3}|[0-9]{1})'), 'End': 1}
PHONE = {'DescriptorName': 'PHONE','TextDescriptor': re.compile('\+?[0-9]{0,2}-?\(?[0-9]{3,5}\)?-?[0-9]{2,3}-?[0-9]{2}-?[0-9]{2}'), 'End': 0}
ListWithSpecialPatterns = [MAIL, URL, DATE, PHONE]

CLOSE_QUOTE = {'DescriptorName': 'CLOSE_QUOTE','TextDescriptor': re.compile('\\b[^ $]+([\'\"\>\»])(?:$|[^\w\d\-\(\[\{]{1,3})'), 'End': 0}
CLOSE_BRACKET = {'DescriptorName': 'CLOSE_BRACKET','TextDescriptor': re.compile('\\b[^ $]+([\)\]\}])(?:$|[^\w\d\-\(\[\{]{1,3})'), 'End': 0}
END_SYMBOL = {'DescriptorName': 'END_SYMBOL','TextDescriptor': re.compile('((?:\.\.\.|[!?\.]))(?:$| )'), 'End': 1}
DELIMETER = {'DescriptorName': 'DELIMETER','TextDescriptor': re.compile('\\b[^ \:\;\,\.\,\-\!\?\(\[\{]([\:\;\,]) '), 'End': 0}
OPEN_QUOTE = {'DescriptorName': 'OPEN_QUOTE','TextDescriptor': re.compile('[ \(\[\{]([\'\"\<\«])[ ёА-Яа-я0-9+\(\[\{]'), 'End': 0}
OPEN_BRACKET = {'DescriptorName': 'OPEN_BRACKET','TextDescriptor': re.compile('(?:^|[ \(\[\{\'\"\<])([\{\[\(])[ ёА-Яа-я0-9+\(\[\{]'), 'End': 0}
ListWithNonSpaceSymbolPatterns = [CLOSE_QUOTE, CLOSE_BRACKET, END_SYMBOL, DELIMETER, OPEN_QUOTE, OPEN_BRACKET]

RUSSIAN_LEXEM = {'DescriptorName': 'RUSSIAN_LEXEM','TextDescriptor': re.compile('\\b([ёа-яА-Я]+)\\b'), 'End': 0}
NUMBER = {'DescriptorName': 'NUMBER','TextDescriptor': re.compile('\\b[0-9]+\\b'), 'End': 0}
OTHERSYMBOL = {'DescriptorName': 'OTHERSYMBOL', 'TextDescriptor': re.compile('[^ ]+'), 'End': 0}
ListWithOtherPatterns = [RUSSIAN_LEXEM, NUMBER, OTHERSYMBOL]

for pattern in ListWithSpecialPatterns:
    for m in pattern['TextDescriptor'].finditer(text):
        counter += 1
        ListWithDescriptors.append([])
        ListWithDescriptors[counter].extend((m.group(), pattern['DescriptorName'], m.start(), 1, pattern['End'], ''))
        string = " " * (m.end()-m.start())
        text=text.replace(m.group(), string, 1)

for pattern in ListWithNonSpaceSymbolPatterns:
    for m in pattern['TextDescriptor'].finditer(text):
        counter += 1
        ListWithDescriptors.append([])
        ListWithDescriptors[counter].extend((m.group(1), pattern['DescriptorName'], m.start(1), 1, pattern['End'], ''))
        text=text.replace(m.group(1), ' ', 1)

for pattern in ListWithOtherPatterns:
    for m in pattern['TextDescriptor'].finditer(text):
        counter += 1
        ListWithDescriptors.append([])
        ListWithDescriptors[counter].extend((m.group(), pattern['DescriptorName'], m.start(), m.end()-m.start(), pattern['End'], ''))
        string = " " * (m.end()-m.start())
        text=text.replace(m.group(),string,1)

print(sorted(ListWithDescriptors, key=lambda x: x[2]))
print(text)

[['Постсинтаксический', 'RUSSIAN_LEXEM', 0, 18, 0, ''], [' ', 'SPACE', 18, 1, 1, ''], ['анализ', 'RUSSIAN_LEXEM', 19, 6, 0, ''], [' ', 'SPACE', 25, 1, 1, ''], ['решает', 'RUSSIAN_LEXEM', 26, 6, 0, ''], [' ', 'SPACE', 32, 1, 1, ''], ['две', 'RUSSIAN_LEXEM', 33, 3, 0, ''], [' ', 'SPACE', 36, 1, 1, ''], ['следующие', 'RUSSIAN_LEXEM', 37, 9, 0, ''], [' ', 'SPACE', 46, 1, 1, ''], ['задачи', 'RUSSIAN_LEXEM', 47, 6, 0, ''], ['.', 'END_SYMBOL', 53, 1, 1, ''], [' ', 'SPACE', 54, 1, 1, ''], ['Первая', 'RUSSIAN_LEXEM', 55, 6, 0, ''], [' ', 'SPACE', 61, 1, 1, ''], ['заключается', 'RUSSIAN_LEXEM', 62, 11, 0, ''], [' ', 'SPACE', 73, 1, 1, ''], ['в', 'RUSSIAN_LEXEM', 74, 1, 0, ''], [' ', 'SPACE', 75, 1, 1, ''], ['необходимости', 'RUSSIAN_LEXEM', 76, 13, 0, ''], [' ', 'SPACE', 89, 1, 1, ''], ['уточнить', 'RUSSIAN_LEXEM', 90, 8, 0, ''], [' ', 'SPACE', 98, 1, 1, ''], ['смысл', 'RUSSIAN_LEXEM', 99, 5, 0, ''], [' ', 'SPACE', 104, 1, 1, ''], ['слов', 'RUSSIAN_LEXEM', 105, 4, 0, ''], [',', 'OTHERSYMBOL', 10

### Определение предложений в тексте

In [1]:
def step1(text):
    ListWithSentenceCharacteristic = []
    counter = -1
    text_original = text
    SentenceStartPos = re.search('\S', text).start()
    step2(SentenceStartPos, text, ListWithSentenceCharacteristic, counter)

In [2]:
# Шаг 2 Находим в тексте первую последовательность завершающих симвлов (SentenceEndSeq), следующую за SentenceStartPos 
def step2(SentenceStartPos, text, ListWithSentenceCharacteristic, counter): 
    SentenceEndSeq='\?{1,}|\!{1,}|\.{1,}'
    # Если такая последовательность найдена, запоминаем её позицию и переходим к следующему шагу
    if re.search(SentenceEndSeq, text):
        SentenceEndSeqStartPos = re.search(SentenceEndSeq, text).start()
        SentenceEndSeqEndPos = re.search(SentenceEndSeq, text).end()
        string = " " * SentenceEndSeqEndPos
        text=text.replace(text[:SentenceEndSeqEndPos],string,1)
        step3(SentenceStartPos, SentenceEndSeqEndPos, text, ListWithSentenceCharacteristic, counter)   
    else:
        # Если такая последовательность не найдена, и в процессе поиска достигнут конец файла, 
        # то присваиваем метку конца предложения последнему символу в тексте и переходим к шагу 5
        counter += 1
        ListWithSentenceCharacteristic.append([])
        print(text_original[SentenceStartPos:(len(text)-SentenceStartPos)])
        ListWithSentenceCharacteristic[counter].extend((SentenceStartPos, len(text)-SentenceStartPos))
        step4(ListWithSentenceCharacteristic)

In [3]:
def step3(SentenceStartPos, SentenceEndSeqEndPos, text, ListWithSentenceCharacteristic, counter):
    # После нахождения последовательности SentenceEndSeq ищем первый не пробельный символ, следующий за SentenceEndSeq
    if re.search('\S', text):
        # Если следующий за SentenceEndSeq не пробельный символ является заглавной буквой, то найден предположительный конец 
        # предложения, снова переходим к шагу 2
        if re.search('[А-Я]', re.search('\S', text).group()):
            counter += 1
            ListWithSentenceCharacteristic.append([])
            ListWithSentenceCharacteristic[counter].extend((SentenceStartPos, SentenceEndSeqEndPos-SentenceStartPos))
            step2(SentenceEndSeqEndPos, text, ListWithSentenceCharacteristic, counter)
        else:
        # иначе переходим к шагу 2 и начинаем искать следующую последовательность SentenceEndSeq
            step2(SentenceStartPos, text, ListWithSentenceCharacteristic, counter)
            
    # Если в процессе поиска достигнут конец файла, то присваиваем метку SentenceEndPos последнему символу из SentenceEndSeq 
    # и переходим к шагу 4
    else:
        counter += 1
        ListWithSentenceCharacteristic.append([])
        ListWithSentenceCharacteristic[counter].extend((SentenceStartPos, len(text)-SentenceStartPos))
        step4(ListWithSentenceCharacteristic)

In [10]:
def step4(ListWithSentenceCharacteristic):
    print(ListWithSentenceCharacteristic)

In [12]:
text = 'Постсинтаксический анализ решает две следующие задачи. Первая заключается в необходимости уточнить смысл слов, который выражается с помощью различных средств языка: предлогов, префиксов и т.д. Проблематика второй задачи заключается в том, что одну и ту же мысль можно выразить разными конструкциями языка. Например, в многоязычно диалоговой системе одна и та же мысль может быть выражена различными синтаксическими конструкциями. В связи с этим появляется необходимость в нормализации дерева, чтобы свести конструкции, которые выражают одно действие различным образом для разных ситуаций, к одному нормализованному дереву. Так же на этапе постсинтаксического анализа может проводиться поиск изменяемых словосочетаний, составные части (слова) которых могут быть разделены другими словами [2].'
step1(text)