# Извлечение синтаксических групп

## SpaCy + UDPipe

Библиотека, которая предоставляет интерфейс spacy для моделей udpipe (увы, это всё ещё udpipe 1):
- есть метод `download()` для загрузки языковых пакетов
- обработка входного текста реализована как пайплайн

In [None]:
#!pip install spacy-udpipe

In [1]:
import spacy_udpipe

In [2]:
spacy_udpipe.download("ru")

Already downloaded a model for the 'ru' language


In [19]:
text = "Эти типы стали есть в цехе."

nlp = spacy_udpipe.load("ru")

doc = nlp(text)
for token in doc:
    print(token.text, token.lemma_, token.pos_, token.head, token.dep_, sep="\t")

Эти	этот	DET	типы	det
типы	тип	NOUN	стали	nsubj
стали	стать	VERB	стали	ROOT
есть	есть	VERB	стали	xcomp
в	в	ADP	цехе	case
цехе	цех	NOUN	есть	obl
.	.	PUNCT	стали	punct


# Работа с форматом conllu

In [4]:
#!pip install conllu

In [5]:
import conllu

In [6]:
!head ru_syntagrus-ud-test.conllu.txt

# sent_id = 2003Armeniya.xml_1
# text = В советский период времени число ИТ- специалистов в Армении составляло около десяти тысяч.
1	В	в	ADP	_	_	3	case	3:case	_
2	советский	советский	ADJ	_	Animacy=Inan|Case=Acc|Degree=Pos|Gender=Masc|Number=Sing	3	amod	3:amod	_
3	период	период	NOUN	_	Animacy=Inan|Case=Acc|Gender=Masc|Number=Sing	11	obl	11:obl	_
4	времени	время	NOUN	_	Animacy=Inan|Case=Gen|Gender=Neut|Number=Sing	3	nmod	3:nmod	_
5	число	число	NOUN	_	Animacy=Inan|Case=Acc|Gender=Neut|Number=Sing	11	obj	11:obj	_
6	ИТ	ИТ	PROPN	_	Animacy=Inan|Case=Nom|Gender=Neut|Number=Sing	8	compound	8:compound	SpaceAfter=No
7	-	-	PUNCT	_	_	6	punct	6:punct	_
8	специалистов	специалист	NOUN	_	Animacy=Anim|Case=Gen|Gender=Masc|Number=Plur	5	nmod	5:nmod	_


In [7]:
with open('ru_syntagrus-ud-test.conllu.txt') as f:
    sentences = conllu.parse(f.read())

In [8]:
# Предложение = список токенов
sentences[5]

TokenList<Запад, во, главе, с, США, регулярно, выделяет, значительные, суммы, для, улучшения, экономического, положения, в, стране, .>

In [9]:
# Токен - словарь
sentences[5][4]

{'id': 5,
 'form': 'США',
 'lemma': 'США',
 'upos': 'PROPN',
 'xpos': None,
 'feats': {'Animacy': 'Inan', 'Case': 'Ins', 'Number': 'Plur'},
 'head': 2,
 'deprel': 'obl',
 'deps': [('obl', 2)],
 'misc': None}

# stanza
- стэнфордская библиотека, реализующая nlp-pipeline
- в частности, есть NER

In [10]:
#!pip install stanza

In [11]:
import stanza

In [12]:
stanza.download("ru")

Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.3.0.json:   0%|   …

2022-11-16 18:53:17 INFO: Downloading default packages for language: ru (Russian)...
2022-11-16 18:53:19 INFO: File exists: /Users/rhubarb/stanza_resources/ru/default.zip.
2022-11-16 18:53:25 INFO: Finished downloading models and saved to /Users/rhubarb/stanza_resources.


In [18]:
nlp_stanza = stanza.Pipeline("ru")
nlp_stanza(text)

2022-11-16 19:03:48 INFO: Loading these models for language: ru (Russian):
| Processor | Package   |
-------------------------
| tokenize  | syntagrus |
| pos       | syntagrus |
| lemma     | syntagrus |
| depparse  | syntagrus |
| ner       | wikiner   |

2022-11-16 19:03:48 INFO: Use device: cpu
2022-11-16 19:03:48 INFO: Loading: tokenize
2022-11-16 19:03:48 INFO: Loading: pos
2022-11-16 19:03:48 INFO: Loading: lemma
2022-11-16 19:03:49 INFO: Loading: depparse
2022-11-16 19:03:49 INFO: Loading: ner
2022-11-16 19:03:51 INFO: Done loading processors!


[
  [
    {
      "id": 1,
      "text": "Эти",
      "lemma": "этот",
      "upos": "DET",
      "feats": "Case=Nom|Number=Plur",
      "head": 2,
      "deprel": "det",
      "start_char": 0,
      "end_char": 3,
      "ner": "O"
    },
    {
      "id": 2,
      "text": "типы",
      "lemma": "тип",
      "upos": "NOUN",
      "feats": "Animacy=Inan|Case=Nom|Gender=Masc|Number=Plur",
      "head": 3,
      "deprel": "nsubj",
      "start_char": 4,
      "end_char": 8,
      "ner": "O"
    },
    {
      "id": 3,
      "text": "стали",
      "lemma": "стать",
      "upos": "VERB",
      "feats": "Aspect=Perf|Mood=Ind|Number=Plur|Tense=Past|VerbForm=Fin|Voice=Act",
      "head": 0,
      "deprel": "root",
      "start_char": 9,
      "end_char": 14,
      "ner": "O"
    },
    {
      "id": 4,
      "text": "есть",
      "lemma": "быть",
      "upos": "VERB",
      "feats": "Aspect=Imp|Person=3|Tense=Pres|VerbForm=Inf|Voice=Act",
      "head": 3,
      "deprel": "xcomp",
      "start_

In [81]:
text2 =  """
Сегодня Поварская улица соединяет Новый Арбат и Садовое кольцо. 
А когда-то здесь проходила Волоцкая торговая дорога на Великий Новгород. 
В 1570 году по ней из новгородского похода возвращался Иван Грозный с опричным войском. 
После разделения страны на земщину и опричнину эта местность вошла в состав последней — здесь селились приближенные к царю люди.
"""
stanza_ner = stanza.Pipeline(lang='ru', processors='tokenize,ner')
doc = stanza_ner(text2)
for sent in doc.sentences:
    for ent in sent.ents:  # достаем NE
        print(ent)

2022-11-17 10:47:00 INFO: Loading these models for language: ru (Russian):
| Processor | Package   |
-------------------------
| tokenize  | syntagrus |
| ner       | wikiner   |

2022-11-17 10:47:00 INFO: Use device: cpu
2022-11-17 10:47:00 INFO: Loading: tokenize
2022-11-17 10:47:01 INFO: Loading: ner
2022-11-17 10:47:04 INFO: Done loading processors!


{
  "text": "Поварская улица",
  "type": "LOC",
  "start_char": 9,
  "end_char": 24
}
{
  "text": "Новый Арбат",
  "type": "LOC",
  "start_char": 35,
  "end_char": 46
}
{
  "text": "Садовое кольцо",
  "type": "LOC",
  "start_char": 49,
  "end_char": 63
}
{
  "text": "Волоцкая торговая дорога",
  "type": "LOC",
  "start_char": 93,
  "end_char": 117
}
{
  "text": "Великий Новгород",
  "type": "LOC",
  "start_char": 121,
  "end_char": 137
}
{
  "text": "Иван Грозный",
  "type": "PER",
  "start_char": 195,
  "end_char": 207
}


В stanza можно использовать сразу несколько моделей/тегсетов, см. https://stanfordnlp.github.io/stanza/ner.html

## Достаем группы

https://spacy.io/usage/rule-based-matching#dependencymatcher

In [15]:
from spacy.matcher import DependencyMatcher

In [None]:
doc = nlp("")

In [52]:
pattern = [
    {
        "RIGHT_ID": "stali",
        "RIGHT_ATTRS": {"LEMMA": "стать"}
    },
    {
        "LEFT_ID": "stali",
        "REL_OP": ">",
        "RIGHT_ID": "vrb",
        "RIGHT_ATTRS": {"POS": "VERB"}
    }
]

In [53]:
doc

Эти типы стали есть в цехе.

In [57]:
matcher = DependencyMatcher(nlp.vocab)
matcher.add("P", [pattern])
matches = matcher(doc)
match_id, token_ids = matches[0]
for i in range(len(token_ids)):
    print(pattern[i]["RIGHT_ID"] + ":", doc[token_ids[i]].text)

stali: стали
vrb: есть


# Коллокации

In [14]:
import nltk
from nltk.collocations import *
import pandas as pd

In [59]:
data = pd.read_json("../Slides/ng_1.jsonlines", lines=True)

In [62]:
data

Unnamed: 0,keywords,title,url,content,summary
0,"[школа, образовательные стандарты, литература,...","Ольга Васильева обещала ""НГ"" не перегружать шк...",https://amp.ng.ru/?p=http://www.ng.ru/educatio...,В среду состоялось отложенное заседание Совета...,"Глава Минобрнауки считает, что в нездоровом аж..."
1,"[красота, законы]",У красоты собственные закон и воля,https://amp.ng.ru/?p=http://www.ng.ru/style/20...,"Хорошо, когда красота в глазах смотрящего живе...",О живительной пользе укорота при выборе между ...
2,"[юзефович, гражданская война, пепеляев, якутия]",Апокалиптический бунт,https://amp.ng.ru/?p=http://www.ng.ru/zavisima...,Когда-то Леонид Юзефович написал книгу о монго...,Крепость из тел и призрак независимой Якутии
3,"[формула1, автоспорт, гонки, испания, квят]",F1. Предсказать результаты Гран-При Испании бы...,http://www.ng.ru/autosport/2015-05-10/100_f1sp...,Гран-При Испании открыло евротур «Формулы-1». ...,"Явный недостаток зрителей на трибунах уже, пох..."
4,"[есенин, православие, святая русь, поэзия, год...",Возвращение в небесное отечество,http://www.ng.ru/facts/2015-12-16/6_esenin.html,Десять лет назад была популярна версия убийств...,"Богоискательство Сергея Есенина, возможно, при..."
...,...,...,...,...,...
983,"[украина, деньги, контрибуция, рада, прибалтика]","Верховная рада считает денежки, которые намере...",http://www.ng.ru/columnist/2018-03-20/100_ukra...,Парламент Украины рекомендует властям страны п...,"Киев, как и страны Балтии, решил взыскать с Мо..."
984,"[книги, инквизиция, аутодафе, савонарола, дека...",Люди со спичками,http://www.ng.ru/subject/2017-02-09/1_875_glav...,"То ли потому, что в феврале предписано классик...","Пушкин, Гоголь, Брэдбери и печка как лучший ре..."
985,"[алькаида, терроризм, сша, саудовская аравия, ...","""Аль-Каида"" взорвала мусульман",http://www.ng.ru/world/2003-11-10/1_al_kaida.html,На фоне возрастающих потерь в Ираке власти Сое...,
986,"[болгария, патриарх кирилл, османское иго, пра...",РПЦ пытается отделить православие от Европы,http://www.ng.ru/facts/2018-03-07/9_438_broser...,"Были времена, когда православное духовенство в...",Патриарх Кирилл преподал урок истории президен...


In [66]:
sample = data.truncate(100)

In [67]:
from pymorphy2 import MorphAnalyzer
m = MorphAnalyzer()

In [68]:
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'\w+')

In [69]:
def normalize(text):
    # Take input text and return list of lemmas
    lemmas = []
    for t in tokenizer.tokenize(text):
        lemmas.append(m.parse(t)[0].normal_form)
    return lemmas

In [70]:
tok_texts = sample['content'].apply(tokenizer.tokenize).to_list()

In [71]:
texts = sample['content'].apply(normalize).tolist()

In [72]:
# Коллекция метрик
bigram_measures = nltk.collocations.BigramAssocMeasures()
# Экстрактор коллокаций
finder2 = BigramCollocationFinder.from_documents(texts)
nonorm_finder = BigramCollocationFinder.from_documents(tok_texts)

In [73]:
finder2.score_ngrams(bigram_measures.likelihood_ratio)

[(('один', 'из'), 5594.497757596875),
 (('тот', 'что'), 3888.3799555019514),
 (('а', 'также'), 3489.652372891921),
 (('при', 'это'), 2938.652978527169),
 (('не', 'только'), 2880.4498234289595),
 (('потому', 'что'), 2774.40016353142),
 (('в', 'в'), 2735.7709988579795),
 (('тот', 'число'), 2637.0113963982703),
 (('какой', 'то'), 2500.096253657019),
 (('точка', 'зрение'), 2401.7292289271404),
 (('2017', 'год'), 2293.8293864271923),
 (('то', 'есть'), 2276.484629176858),
 (('тот', 'же'), 2255.169436320374),
 (('в', 'и'), 2108.2916531946717),
 (('о', 'тот'), 2062.201087063308),
 (('2016', 'год'), 1950.771853469783),
 (('владимир', 'путин'), 1948.5984826869137),
 (('сей', 'пора'), 1931.682280505605),
 (('в', 'тот'), 1839.3993542933442),
 (('у', 'мы'), 1820.1146054363364),
 (('вряд', 'ли'), 1814.8005889269605),
 (('прежде', 'весь'), 1745.3609577418415),
 (('и', 'и'), 1732.037938666364),
 (('млрд', 'долл'), 1695.2704426256596),
 (('должный', 'быть'), 1679.925467639687),
 (('кроме', 'тот'), 1618

In [74]:
nonorm_finder.score_ngrams(bigram_measures.likelihood_ratio)

[(('том', 'числе'), 3925.6145028399133),
 (('При', 'этом'), 3843.5098740965996),
 (('а', 'также'), 3785.7255885020268),
 (('том', 'что'), 3523.579582997888),
 (('не', 'только'), 2950.4927934804055),
 (('о', 'том'), 2945.0448851396113),
 (('в', 'том'), 2873.6108963385504),
 (('точки', 'зрения'), 2206.474761683556),
 (('сих', 'пор'), 2166.6696058628363),
 (('Кроме', 'того'), 2139.903150559763),
 (('может', 'быть'), 2084.908109008901),
 (('у', 'нас'), 2079.6980073829786),
 (('в', 'в'), 1929.6062814104546),
 (('самом', 'деле'), 1911.9299715265106),
 (('потому', 'что'), 1823.236558712779),
 (('млрд', 'долл'), 1695.2704426256596),
 (('прежде', 'всего'), 1682.8434904947226),
 (('Таким', 'образом'), 1577.4767476447507),
 (('парниковых', 'газов'), 1554.7704244732006),
 (('По', 'словам'), 1510.551612347153),
 (('не', 'менее'), 1501.2281104717879),
 (('вряд', 'ли'), 1492.2288654064857),
 (('со', 'стороны'), 1401.0677095242256),
 (('2017', 'года'), 1395.913731245304),
 (('т', 'д'), 1360.0255196193

In [75]:
finder2.score_ngrams(bigram_measures.pmi)

[(('1717', '1777'), 19.551984192108133),
 (('1767', '1824'), 19.551984192108133),
 (('235', '04054'), 19.551984192108133),
 (('2сao', 'sio2'), 19.551984192108133),
 (('339', '479'), 19.551984192108133),
 (('392', '21644'), 19.551984192108133),
 (('4200', '4280'), 19.551984192108133),
 (('479', '427'), 19.551984192108133),
 (('4a', 'w76'), 19.551984192108133),
 (('64d', 'апач'), 19.551984192108133),
 (('659', '381'), 19.551984192108133),
 (('88788', '238'), 19.551984192108133),
 (('94282', '806'), 19.551984192108133),
 (('978576', '025'), 19.551984192108133),
 (('ad', 'limina'), 19.551984192108133),
 (('adversaries', 'through'), 19.551984192108133),
 (('aeronautics', 'defense'), 19.551984192108133),
 (('album', 'romanun'), 19.551984192108133),
 (('allgemeine', 'sonntagszeitung'), 19.551984192108133),
 (('alrgrave', 'potimao'), 19.551984192108133),
 (('alt', 'cтарый'), 19.551984192108133),
 (('anadolu', 'cо'), 19.551984192108133),
 (('antigen', 'receptor'), 19.551984192108133),
 (('archa

In [76]:
# Применить фильтр по частоте
finder2.apply_freq_filter(10)

In [79]:
finder2.score_ngrams(bigram_measures.pmi)

[(('moscow', 'raceway'), 16.092552573470833),
 (('pony', 'express'), 16.092552573470833),
 (('ренэ', 'герр'), 16.092552573470833),
 (('спб', 'алетейя'), 15.9550490497209),
 (('эз', 'зора'), 15.851544473967039),
 (('homo', 'sapiens'), 15.744629270050527),
 (('вышний', 'волочёк'), 15.744629270050527),
 (('дейра', 'эз'), 15.72601359188318),
 (('cambridge', 'analytica'), 15.645093596499613),
 (('sport', 'rosneft'), 15.551984192108131),
 (('кольцевой', 'автогонки'), 15.44506898819162),
 (('toro', 'roso'), 15.382059190665817),
 (('lada', 'sport'), 15.230056097220768),
 (('qr', 'код'), 15.159666769329373),
 (('брест', 'литовск'), 15.092552573470833),
 (('рамзан', 'кадыров'), 15.092552573470833),
 (('фернандо', 'алонсо'), 15.077498227748546),
 (('red', 'bull'), 15.028422236051119),
 (('барак', 'обама'), 14.967021691386975),
 (('кий', 'райкконный'), 14.902891353967261),
 (('индо', 'тихоокеанский'), 14.867486017836061),
 (('арчил', 'татунашвили'), 14.797096689944663),
 (('шура', 'кветта'), 14.77

In [77]:
# Про корреляцию
from nltk.metrics.spearman import *
scores_ll = finder2.score_ngrams(bigram_measures.likelihood_ratio)
scores_pmi = finder2.score_ngrams(bigram_measures.pmi)
list(ranks_from_scores(scores_pmi))

[(('moscow', 'raceway'), 0),
 (('pony', 'express'), 0),
 (('ренэ', 'герр'), 0),
 (('спб', 'алетейя'), 3),
 (('эз', 'зора'), 4),
 (('homo', 'sapiens'), 5),
 (('вышний', 'волочёк'), 5),
 (('дейра', 'эз'), 7),
 (('cambridge', 'analytica'), 8),
 (('sport', 'rosneft'), 9),
 (('кольцевой', 'автогонки'), 10),
 (('toro', 'roso'), 11),
 (('lada', 'sport'), 12),
 (('qr', 'код'), 13),
 (('брест', 'литовск'), 14),
 (('рамзан', 'кадыров'), 14),
 (('фернандо', 'алонсо'), 16),
 (('red', 'bull'), 17),
 (('барак', 'обама'), 18),
 (('кий', 'райкконный'), 19),
 (('индо', 'тихоокеанский'), 20),
 (('арчил', 'татунашвили'), 21),
 (('шура', 'кветта'), 22),
 (('big', 'data'), 23),
 (('рекс', 'тиллерсон'), 24),
 (('бонч', 'бруевич'), 25),
 (('bull', 'racing'), 26),
 (('персидский', 'залив'), 27),
 (('заработный', 'плата'), 28),
 (('ле', 'пен'), 28),
 (('кларетта', 'петачча'), 30),
 (('башар', 'асад'), 31),
 (('6991', 'оп'), 32),
 (('гарфа', 'ф'), 32),
 (('ф', '6991'), 32),
 (('уик', 'энд'), 35),
 (('стокгольмс

In [78]:
spearman_correlation(
    ranks_from_scores(scores_ll),
    ranks_from_scores(scores_pmi)
)

0.8794241765222917

# Задание

Давайте извлечем из этих текстов биграммы-синтаксические группы (на выбор)

И затем применим к ним скоринг коллокаций

In [64]:
# YOUR CODE HERE

А как это сделать по разметке stanza?