#### 6. Поиск паттернов и обход деревьев зависимостей

стр 116


В этой главе рассматриваются еще два подхода: использование паттернов (закономерностей) последовательностей слов для классификации и генерации текста, а также выделение из высказывания необходимых элементов информации путем обхода его дерева синтаксических зависимостей. Вы познакомитесь с утилитой Matcher библиотеки spaCy, предназначенной для поиска закономерностей. А также узнаете, в каких случаях для определения нужного подхода к обработке все равно приходится учитывать контекст.

Бвают совершенно различные предложения, но с одинаковыми паттернами (частями речи и зависимости между нимим)

In [13]:
import spacy as sp
nlp = sp.load('ru_core_news_lg')

In [14]:
doc1 = nlp("Я хочу на море")
doc2 = nlp("Мы летим в горы")

In [15]:
for i in range(len(doc1)):
    print(doc1[i].text, doc2[i].text, doc1[i].dep_,doc2[i].dep_)

Я Мы nsubj nsubj
хочу летим ROOT ROOT
на в case case
море горы obl obl


Видно, что предложения совсем рахные, но паттерн у них одинкаовый: nsubj+ROOT+case+obl

подробней об dep_ можно прочитать в start.ipynb // если коротко, то это метка синтакчической зависимости. Например, ROOT -означает, что это слово-смысловой глагол

поиск паттернов лучше. Потому что могут быть различные предложения по содержанию и смыслу, но одинаковые по построению

In [16]:
# ПОПРОБУЙТЕ САМИ стр 118
doc = nlp("Я хочу на море.Мы летим в горы.")
for item in doc.sents:
    sentence = list(item)
    for word in sentence:
        print(word.text,word.dep_)
    print(5*"--")

# эффективней создавать один контейнер doc и приминять один раз nlp. Чем создавать два контейнера и проходить по ним. 
# Используй doc.sents 

Я nsubj
хочу ROOT
на case
море obl
. punct
----------
Мы nsubj
летим ROOT
в case
горы obl
. punct
----------


#### Проверка высказывания на соответствие паттерну

На практике же обычно нет смысла сравнивать предложения друг с другом для выяснения, объединяет ли их один паттерн. Вместо этого стоит проверить полученное предложение на соответствие нужному нам паттерну.

In [17]:
# попробуем увидеть, как паттерн можно отследить 
# nsubj+ROOT+case+obl
doc = nlp("Я хочу на море.")

for item in doc:
    print(5*'--')
    print('TEXT', item.text, item.dep_)
    print('HEAD', item.head, item.dep_)
    print("<children")
    for g in item.children:
        print(g, g.dep_)
    print('/children>')
    print(5*'--')

----------
TEXT Я nsubj
HEAD хочу nsubj
<children
/children>
----------
----------
TEXT хочу ROOT
HEAD хочу ROOT
<children
Я nsubj
море obl
. punct
/children>
----------
----------
TEXT на case
HEAD море case
<children
/children>
----------
----------
TEXT море obl
HEAD хочу obl
<children
на case
/children>
----------
----------
TEXT . punct
HEAD хочу punct
<children
/children>
----------


In [18]:
def dep_pattern(doc):
    # если паттерн есть в предложении, то вернем true 
    for i in range(len(doc)-1):
        if doc[i].dep_ == "nsubj":
            #print(doc[i])
            if doc[i].head.dep_ == "ROOT":
            #    print(doc[i].head)
                for child in doc[i].head.children:
                    if child.dep_ =="obl":
                        return True

In [19]:
doc1 = nlp("Я хочу на море")
doc2 = nlp("Мы летим в горы")
doc3 = nlp("Я купил машину")
doc4 = nlp("Мы летим в горы, а потом на море")

testing = [doc1, doc2, doc3, doc4]


for test in testing:
    print(test.text)
    if dep_pattern(test):
        print("found")
    else:
        print("dint found")

Я хочу на море
found
Мы летим в горы
found
Я купил машину
dint found
Мы летим в горы, а потом на море
found


#### Использование утилиты Matcher библиотеки spaCy для поиска паттернов последовательностей слов

![alt text](matcher.jpeg "matcher")

In [22]:
from spacy.matcher import Matcher

In [31]:
# DEP обращаемся по токену 
# nsubj+ROOT+case+obl

matcher = Matcher(nlp.vocab)
pattern = [{"DEP":"nsubj"},{"DEP":"ROOT"},{"DEP":"case"},{"DEP":"obl"}]
matcher.add("NsubjRootcaseobl", [pattern])

doc = nlp("Я хочу на море. а он не хочет.")

match = matcher(doc)
for match_id, start, end in match:
    span = doc[start:end]
    print("SPAN:", span.text)
    print('Позиция в доке: ',start,'-',end)



SPAN: Я хочу на море
Позиция в доке:  0 - 4


Матчер позволяет искать паттерны только, когда слова идут друг за другом. Если паттерн у нас такой: nsubj+ROOT+..<какой то текст>..+case+obl ; то матчер у нас не сможет работать. Далее посмотрим, как ещё можно искать паттерны в тексте.

#### Применение нескольких паттернов

Одно высказывание можно сопоставить с несколькими паттернами, дабы убедиться, что оно удовлетворяет всем нужным условиям. Например, с двумя паттернами: с реализующим последовательность меток зависимости (как обсуждалось в подразделе «Проверка высказывания на соответствие паттерну» на с. 119) и с проверяющим на соответствие последовательности тегов частей речи. Это может пригодиться, скажем, если будет нужно убедиться, что в роли прямого дополнения в высказывании выступает личное местоимение. В таком случае можно начать поиск соответствующего этому местоимению существительного, упомянутого где-то в другом месте текста.

Напоминим - 
dep - это то, чем является слово в предложении по отношению к другим словам.

pos - это часть речи. (PRON, VERB)

In [52]:
#увидим, что dep паттерн может совпасть, а pos паттерн совсем другой. Тогда нам нужна дополнительная функция 
#которая бы отбирала нужные части речи.

doc = nlp("Я хочу на море.Мы летим в горы.")
for item in doc.sents:
    sentence = list(item)
    for word in sentence:
        print(word.text,word.dep_, word.tag_)
    print(5*"--")



Я nsubj PRON
хочу ROOT VERB
на case ADP
море obl NOUN
. punct PUNCT
----------
Мы nsubj PRON
летим ROOT VERB
в case ADP
горы obl NOUN
. punct PUNCT
----------


In [38]:

doc = nlp("Я хочу на море. а он не хочет.")

# ИЩЕМ: nsubj+ROOT+case+obl
#       PRON +VERB+ --+---

# уже было
def dep_pattern(doc):
    # если паттерн есть в предложении, то вернем true 
    for i in range(len(doc)-1):
        if doc[i].dep_ == "nsubj":
            #print(doc[i])
            if doc[i].head.dep_ == "ROOT":
            #    print(doc[i].head)
                for child in doc[i].head.children:
                    if child.dep_ =="obl":
                        return True

#дополняем \\ Можно точечно указать части речи, которые нас интересуют  
def pos_pattern(doc):
    for token in doc:
        if token.dep_ == 'nsubj' and token.tag_ != 'PRON':
            return False
        if token.dep_ == 'ROOT' and token.tag_ != 'VERB':
            return False
    return True
    
# тестируем
if dep_pattern(doc) and pos_pattern(doc):
    print('Found')
else:
    print('Not found')

Found


#### Создание паттернов на основе пользовательских признаков

При создании паттерна последовательности слов может возникнуть необходимость расширить функциональность лингвистических признаков, предоставляемых spaCy, подогнав их под свои задачи. Например, может понадобиться, чтобы предыдущий сценарий распознавал паттерн, в котором учитывается число местоимений (единственное или множественное). Это полезно в том случае, если нужно найти существительное, к которому относится местоимение.

Допустим нужно изучить существительное. Тогда нам нужно бы найти местоимение во множественном числе и найти относящееся к нему существительное.

следующем сценарии описывается функция pron_pattern, которая находит все прямые дополнения в передаваемом ей предложении, определяет, является ли прямое дополнение личным местоимением, а затем выясняет, в каком оно числе: единственном или множественном. Далее функция применяется к примеру предложения после проверки его на соответствие двум паттернам, описанным в подразделах «Проверка высказывания на соответствие паттерну» на с. 119 и «Применение нескольких паттернов» на с. 122.

In [54]:
# исспользуем наши dep_pattern и pos_pattern

def pron_pattern(doc):
    plural = ['Мы','нам','они','им']
    for token in doc:
        if token.dep_ == 'nsubj' and token.tag_ == 'PRON':   # обнаруживаем местоимение в паттерне играющее роль nsubj
            if token.text in plural:                        # если это местоимение в множественном числе 
                return 'plural'
            else:
                return 'singular'
    return 'not found'



print(30*"--")
doc = nlp(u'Мы хотим на марс.')
print(doc.text)
if dep_pattern(doc) and pos_pattern(doc):
    print('Found:', 'the pronoun in position of direct object is',
    pron_pattern(doc))
else:
    print('Not found')

print(30*"--")
doc = nlp(u'Я хочу марс.')
print(doc.text)
if dep_pattern(doc) and pos_pattern(doc):
    print('Found:', 'the pronoun in position of direct object is',
    pron_pattern(doc))
else:
    print('Not found')

print(30*"--")

------------------------------------------------------------
Мы хотим на марс.
Found: the pronoun in position of direct object is plural
------------------------------------------------------------
Я хочу марс.
Not found
------------------------------------------------------------
