# Предобработка языка

## Уровни языка и текста

* [NLPub](https://nlpub.ru/)
    * [Библиотеки Python для различных задач предобработки текстов](https://nlpub.ru/%D0%9E%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%B0)
* [Автоматическая обработка текстов на естественном языке и анализ данных - Большакова, Воронцов, Ефремова, Клышинский, Лукашевич, Сапин](https://www.hse.ru/data/2017/08/12/1174382135/NLP_and_DA.pdf)

**Структурная модель естественного языка учитывает особенности уровней текста:**
* Фонологический: звуки
* Графематический: символы текста
* Морфологический: слова
* Лексический: множество лексем
* Синтаксический: слова, предложения
* Семантический: семы - слова, предложения, текст (слова "хороший" и "нехороший" отличаются семой отрицания)
* Дискурсивный: схематические структуры текстов (текст в целом)

Единицы языка:
* фонемы (звуки)
* морфемы (части слов)
* лексемы (слова)

Единицы текста (речи):
* слова (словоформы)
* словосочетания
* предложения (фразы)

Явления, составляющие сложность в обработке естественного языка:
* Синонимия (избыточность)
* Полисемия и омонимия (многозначность)

**Лингвистический процессор** — программа обработки текстов на ЕЯ в рамках конкретной прикладной задачи. Его основой является модель языка и/или текста (модели зависят от ЕЯ и прикладной задачи). ЛП опирается на лингвистические ресурсы. При этом этапы обработки ∼ уровни языка

## Этапы обработки текста
1. **Графематический анализ и сегментация**: выделение и классификация основных единиц текста: слов, предложений, абзацев - **предобработка текста**
2. **Морфологический анализ**:
    * Выделение ключевых слов
    * Нормализация словоформ или их стемминг
    * Определение морфологических характеристик
3. **Постморфологический анализ**: разрешение морфологической неоднозначности (снятие омонимии)
4. **Синтаксический анализ**: построение синтаксической структуры предложения
5. **Семантический и дискурсивный анализы**
    * Представление семантики (свойства объектов, их отношения, состояния, действия)
    * Определение смысла

Подходы:
* Статистический
* Инженерный
* ML
* Комбинированный

### Графематический анализ (сегментация - разбиение текста на части)
* Сегментация нижнего уровня
    * Токенизация (токен - минимальный значимый элемент текста: слово, знаки препинания, числа, даты и т.д.)
    * Разбиение текста на предложения
* Сегментация высокого уровня
    * Снтаксическая сегментация
    * Макросинтаксический анализ

In [1]:
# Токенизатор NLTK
import nltk

from nltk import word_tokenize
from nltk import regexp_tokenize
from nltk import sent_tokenize

nltk.download('punkt')

[nltk_data] Downloading package punkt to /home/kate/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [2]:
sentences = [
    "Мой дядя самых честных правил,",
    "Когда не в шутку занемог,",
    "Он уважать себя заставил",
    "И лучше выдумать не мог."
]

text = " ".join(sentences)

In [3]:
regexp_tokenizer = (lambda s: regexp_tokenize(s, r"[\.\,\/\\\?\!\@\#\:\~\`\"\&\*\(\)\_\-\+\=\{\}\[\]\t\n\ ]", gaps=True))

In [4]:
word_tokenize(text)

['Мой',
 'дядя',
 'самых',
 'честных',
 'правил',
 ',',
 'Когда',
 'не',
 'в',
 'шутку',
 'занемог',
 ',',
 'Он',
 'уважать',
 'себя',
 'заставил',
 'И',
 'лучше',
 'выдумать',
 'не',
 'мог',
 '.']

In [5]:
regexp_tokenizer(text)

['Мой',
 'дядя',
 'самых',
 'честных',
 'правил',
 'Когда',
 'не',
 'в',
 'шутку',
 'занемог',
 'Он',
 'уважать',
 'себя',
 'заставил',
 'И',
 'лучше',
 'выдумать',
 'не',
 'мог']

### Морфологический анализ

Терминология:
* Словоформа - конкретная грамматическая форма слова.
* Лексема - множество всех словоформ слова, обозначающих одно понятие.
* Лемма - нормальная форма лексемы.
* Основа (stem) - часть слова без окончания и постфикса (может изменяться).
* Псевдооснова - неизменяемая начальная часть слова.

Морфологический анализ:
* Теггинг - проставление тегов к словоформам.
* Стемминг - отсечение окончания слова по правилам.
* Лемматизация (нормализация) - преобразование окончания слова по правилам.

**Замечание**: стемминг хорошо подходит для английского, а лемматизация - для русского.

In [6]:
from nltk.stem import SnowballStemmer
from pymystem3 import Mystem

In [7]:
# SnowballStemmer
SnowballStemmer.languages

('arabic',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'hungarian',
 'italian',
 'norwegian',
 'porter',
 'portuguese',
 'romanian',
 'russian',
 'spanish',
 'swedish')

Алгоритм не использует баз основ слов, а лишь, применяя последовательно ряд правил, отсекает окончания и суффиксы, основываясь на особенностях языка, в связи с чем работает быстро, но не всегда безошибочно.

In [8]:
stemmer = SnowballStemmer("russian") 
stemmer.stem("котики играли в клубочки")

'котики играли в клубочк'

mystem — морфологический анализатор русского языка с поддержкой снятия морфологической неоднозначности.
Программа работает на основе словаря и способна формировать морфологические гипотезы о незнакомых словах.
Словарь представлен в виде набора основ слов и набора всех возможных суффиксов. При этом отличие одного от другого либо известно заранее, либо вычисляется на основании имеющегося словаря.

In [9]:
m = Mystem()
m.lemmatize("котики играли в клубочки")

['котик', ' ', 'играть', ' ', 'в', ' ', 'клубочек', '\n']

### Синтаксический анализ

Синтаксический анализ - установление связей между словами, а также типов этих связей. Оперирует над предложениями.

Подходы:
* Деревья составляющих - для языков со строгим порядком слов.
* Деревья зависимостей - для языков со свободным порядком слов.
* Гибридные модели.

In [2]:
# Синтаксический анализатор - Pattern (библиотека для веб-майнинга)
# https://www.clips.uantwerpen.be/pattern
# https://github.com/clips/pattern
# !pip install pattern
from pattern.en import parse, parsetree, pprint

Функция parse() принимает строку текста и возвращает строку Unicode с тегами частей речи.

Функция parsetree() возвращает объект Text (список объектов предложения).

parse или parsetree(
* string, 
* tokenize = True, # Split punctuation marks from words?
* tags = True, # Parse part-of-speech tags? (NN, JJ, ...)
* chunks = True, # Parse chunks? (NP, VP, PNP, ...)
* relations = False, # Parse chunk relations? (-SBJ, -OBJ, ...)
* lemmata = False, # Parse lemmata? (ate => eat)
* encoding = 'utf-8', # Input string encoding.
* tagset = None # Penn Treebank II (default) or UNIVERSAL.

)

In [3]:
pprint(parse('I eat pizza with a fork.'))

          WORD   TAG    CHUNK   ROLE   ID     PNP    LEMMA   
                                                             
             I   PRP    NP      -      -      -      -       
           eat   VBP    VP      -      -      -      -       
         pizza   NN     NP      -      -      -      -       
          with   IN     PP      -      -      PNP    -       
             a   DT     NP      -      -      PNP    -       
          fork   NN     NP ^    -      -      PNP    -       
             .   .      -       -      -      -      -       


In [4]:
pprint(parse('I ate pizza.', relations=True, lemmata=True))

          WORD   TAG    CHUNK   ROLE   ID     PNP    LEMMA   
                                                             
             I   PRP    NP      SBJ    1      -      i       
           ate   VBD    VP      -      1      -      eat     
         pizza   NN     NP      OBJ    1      -      pizza   
             .   .      -       -      -      -      .       


In [5]:
print(parse ('I ate pizza.').split())

[[['I', 'PRP', 'B-NP', 'O'], ['ate', 'VBD', 'B-VP', 'O'], ['pizza', 'NN', 'B-NP', 'O'], ['.', '.', 'O', 'O']]]


In [6]:
s = parsetree('The cat sat on the mat.', relations=True, lemmata=True)
pprint(repr(s))

          WORD   TAG    CHUNK   ROLE   ID     PNP    LEMMA   
                                                             
[Sentence('The   DT     NP      -      -      -      -       
           cat   NN     NP ^    -      -      -      -       
           sat   VBD    VP      -      -      -      -       
            on   IN     PP      -      -      PNP    -       
           the   DT     NP      -      -      PNP    -       
           mat   NN     NP ^    -      -      PNP    -       
             .   .      -       -      -      -      -       


In [7]:
for sentence in s:
    for chunk in sentence.chunks:
        print(chunk.type, [(w.string, w.type) for w in chunk.words])

NP [('The', 'DT'), ('cat', 'NN')]
VP [('sat', 'VBD')]
PP [('on', 'IN')]
NP [('the', 'DT'), ('mat', 'NN')]


### Семантический анализ
* Локальный семантический анализ (единицы текста):
    * Устранение языковых особенностей и культурных контекстов
    * Определение семантики слов/словосочетаний
    * Установление семантических отношений между словами
    * Разрешение многозначности
* Глубинный семантический анализ (текст рассматривается целиком и предполагается, что он связан):
    * Локальная связанность
    * Глобальная связанность (тематическая или дискурсивная)

In [34]:
# pip3 install nltk
# pip3 install spacy
# python3 -m spacy download en_core_web_sm

In [35]:
import itertools
import nltk
import spacy

from spacy.matcher import Matcher
from spacy.tokens import Span
from spacy import displacy

In [36]:
nlp = spacy.load("en_core_web_sm")

In [37]:
doc = nlp("Here is how you can keep your car and other vehicles clean.")

for tok in doc:
    print(tok.text, "-->",tok.dep_, "-->",tok.pos_)

Here --> advmod --> ADV
is --> ROOT --> AUX
how --> advmod --> SCONJ
you --> nsubj --> PRON
can --> aux --> AUX
keep --> ccomp --> VERB
your --> poss --> PRON
car --> dobj --> NOUN
and --> cc --> CCONJ
other --> amod --> ADJ
vehicles --> conj --> NOUN
clean --> oprd --> ADJ
. --> punct --> PUNCT


In [38]:
matcher = Matcher(nlp.vocab)
pattern = [{'DEP':'amod', 'OP':"?"},
           {'POS':'NOUN'},
           {'LOWER': 'and', 'OP':"?"},
           {'LOWER': 'or', 'OP':"?"},
           {'LOWER': 'other'},
           {'POS': 'NOUN'}]
           
matcher.add("matching_1", [pattern])

matches = matcher(doc)
span = doc[matches[0][1]:matches[0][2]]
span.text

'car and other vehicles'

In [39]:
# инициализация spacy
doc = nlp("The quick brown fox jumps over the lazy dog.")

for tok in doc:
    print(tok.text, "-->",tok.dep_,"-->", tok.pos_)

The --> det --> DET
quick --> amod --> ADJ
brown --> amod --> ADJ
fox --> nsubj --> NOUN
jumps --> ROOT --> VERB
over --> prep --> ADP
the --> det --> DET
lazy --> amod --> ADJ
dog --> pobj --> NOUN
. --> punct --> PUNCT


In [40]:
# Вывод по поиску noun, pronoun, verb, adj:
def subtree_matcher(doc):
    X = []
    Y = []
    subjpass = 0
    for i, tok in enumerate(doc):
        if tok.dep_ == 'nsubjpass':
            subjpass = 1
            Y.append(tok.text)
            break

    if subjpass:
        for i, tok in enumerate(doc):
            if tok.dep_ == "nsubj":
                Y.append(tok.text)

            if tok.dep_ in ["pobj", "dobj"]:
                X.append(tok.text)
    else:
        for i, tok in enumerate(doc):
            if tok.dep_ == "nsubj":
                X.append(tok.text)

            if tok.dep_ in ["pobj", "dobj"]:
                Y.append(tok.text)
    
    for pair in list(itertools.product(X, Y)):
        print(pair)

In [41]:
for sent in text.split('. '):
    doc = nlp(sent + '.')
    displacy.render(doc, style="dep", jupyter=True)
    print(sent)
    subtree_matcher(doc)

The quick brown fox jumps over the lazy dog.
('fox', 'dog')
