## Формирование сэмпла новостей для сравнения ##

Берем сэмпл из 30 новостей, взятых из файла экспорта телеграм канало РИА Новости (с 01.06.2022 по 09.10.2022)

In [1]:
import warnings
warnings.filterwarnings('ignore')

import re
import pandas as pd
import spacy
from spacy.matcher import Matcher 
from spacy.tokens import Span 

In [2]:
df = pd.read_json('tg_chatexport__rian_ru__20220601-20221009.json')
df = df['messages'].apply(pd.Series)

In [3]:
df = df[((df.mime_type.isnull()) & 
                   (df.reply_to_message_id.isnull()) & 
                   (df.text.map(type) == str) &
                   (df.text != ''))]
df = df[["date", "text"]]

In [4]:
sample_index = [10310, 10393,  8861, 13481, 13926,  1438,  8554,  9460,  6249,
             1893, 14808,  7680,  3214,   720, 15226,   887, 13284,  3291,
             5576, 14154, 10615,  7154, 12205, 12156,  2070,   796,  4772,
            14467,  1404,  2666]
df = df.loc[sample_index]
print('\n--------------------\n'.join(df.text.to_list()))

Китай остановил импорт мясной продукции американской Tyson Fresh Meat – одной из крупнейших продовольственных компаний в мире. Причиной названо несоответствие китайским стандартам качества.
--------------------
Почти половина коррупции в России приходится на два федеральных округа: Приволжье (24,2%) и центральную Россию (21,5%), следует из данных Генпрокуратуры за 7 месяцев.

Далее Юг (14,6%), Сибирь (10,5%), Северный Кавказ (8,8%), Урал (тоже 8,8%), Северо-Запад (6,4%) и Дальний Восток (5,3%).
--------------------
Гендиректором "Победы" назначен бывший первый замгендиректора "Авроры" Тыщук
--------------------
Урожай зерновых в России в 2022 может составить рекордные 142 млн тонн, сохраняются все поставки продовольствия в дружественные страны, даже наращиваются в ряд недружественных, рассказала вице-премьер Абрамченко
--------------------
Победители конкурса имени Андрея Стенина за 2022 объявлены в Москве, среди них конкурсанты из Гватемалы, Индии, Бангладеш, Ирана, Италии.

В номинац

## Проверка функционала spaCy

https://spacy.io/usage

Предобученных на русском языке 2 модели - 'ru_core_news_sm' (efficiency - faster and smaller pipeline, but less accurate) и 'ru_core_news_lg' (accuracy - larger and slower pipeline, but more accurate)

In [5]:
df.iloc[0].text

'Китай остановил импорт мясной продукции американской Tyson Fresh Meat – одной из крупнейших продовольственных компаний в мире. Причиной названо несоответствие китайским стандартам качества.'

In [6]:
df

Unnamed: 0,date,text
10310,2022-08-29T16:17:46,Китай остановил импорт мясной продукции америк...
10393,2022-08-30T11:56:41,Почти половина коррупции в России приходится н...
8861,2022-08-15T11:30:21,"Гендиректором ""Победы"" назначен бывший первый ..."
13481,2022-09-23T15:01:15,Урожай зерновых в России в 2022 может составит...
13926,2022-09-27T11:18:49,Победители конкурса имени Андрея Стенина за 20...
1438,2022-06-12T19:31:31,Водитель Lexus в подмосковных Люберцах въехал ...
8554,2022-08-11T15:29:44,❗️Второй частный вертолет Robinson не вышел на...
9460,2022-08-20T01:12:29,Войска Украины пытались ударить по Мелитополю ...
6249,2022-07-21T03:16:01,"Трое из десяти россиян испытывают стресс, выхо..."
1893,2022-06-16T11:51:58,ДНР не обращалась к России с просьбой о постав...


In [7]:
nlp_sm = spacy.load('ru_core_news_sm')
nlp_lg = spacy.load('ru_core_news_lg')  

In [8]:
from razdel import sentenize

In [9]:
df.iloc[1].text

'Почти половина коррупции в России приходится на два федеральных округа: Приволжье (24,2%) и центральную Россию (21,5%), следует из данных Генпрокуратуры за 7 месяцев.\n\nДалее Юг (14,6%), Сибирь (10,5%), Северный Кавказ (8,8%), Урал (тоже 8,8%), Северо-Запад (6,4%) и Дальний Восток (5,3%).'

In [10]:
list(sentenize(df.iloc[1].text))[0].text

'Почти половина коррупции в России приходится на два федеральных округа: Приволжье (24,2%) и центральную Россию (21,5%), следует из данных Генпрокуратуры за 7 месяцев.'

In [11]:
keys = ['nsubj','ROOT', 'obj']
for i in range(df.shape[0]):
    for sentence in list(sentenize(df.iloc[i].text)):
        doc_sm = nlp_sm(sentence.text)
        if doc_sm.ents is ():
            continue
        tok_dep_sm = {}
        for tok in doc_sm:
            #print(tok.text, "...", tok.dep_)
            #if tok.dep_ not in tok_dep_sm:
            tok_dep_sm[tok.dep_] = tok.text
            #else:
                #tok_dep_sm[tok.dep_].append(tok.text)
        for key in keys:
            tok_dep_sm.get(key,'')
        triple = [tok_dep_sm.get(key) for key in keys]
        print(triple)
        print('///////////////')

['Китай', 'остановил', 'импорт']
///////////////
['половина', 'приходится', None]
///////////////
[None, 'Юг', None]
///////////////
[None, 'назначен', None]
///////////////
['премьер', 'Абрамченко', 'тонн']
///////////////
['конкурсанты', 'объявлены', None]
///////////////
['Стена', 'удостоились', None]
///////////////
['пешехода', 'въехал', None]
///////////////
['Ми-8', 'вышел', None]
///////////////
['система', 'пытались', 'взрыва']
///////////////
['результаты', 'испытывают', 'стресс']
///////////////
['Пушилин', 'обращалась', None]
///////////////
['Победа', 'начнет', None]
///////////////
['%', 'избивают', '•']
///////////////
[None, 'Спецоперация', None]
///////////////
['корреспондент', 'нашли', 'ежедневник']
///////////////
[None, 'уничтожена', None]
///////////////
[None, 'могла', None]
///////////////
['президент', 'завершился', 'бесед']
///////////////
['зерно', 'Секретарь', None]
///////////////
['кандидаты', 'МИД', 'Совбез']
///////////////
['США', 'заявил', None]
//////

In [12]:
list(sentenize(df.iloc[1].text))[0].text

'Почти половина коррупции в России приходится на два федеральных округа: Приволжье (24,2%) и центральную Россию (21,5%), следует из данных Генпрокуратуры за 7 месяцев.'

In [33]:
for tok in doc_sm: 
    print(tok.text, "---",tok.dep_,"---", tok.pos_)

Почти --- advmod --- ADV
половина --- nsubj --- NOUN
коррупции --- nmod --- NOUN
в --- case --- ADP
России --- obl --- PROPN
приходится --- ROOT --- VERB
на --- case --- ADP
два --- nummod:gov --- NUM
федеральных --- amod --- ADJ
округа --- obl --- NOUN
: --- punct --- PUNCT
Приволжье --- parataxis --- PROPN
( --- punct --- PUNCT
24,2 --- nummod --- NUM
% --- parataxis --- SYM
) --- punct --- PUNCT
и --- cc --- CCONJ
центральную --- amod --- ADJ
Россию --- conj --- PROPN
( --- punct --- PUNCT
21,5 --- nummod --- NUM
% --- parataxis --- SYM
) --- punct --- PUNCT
, --- punct --- PUNCT
следует --- parataxis --- VERB
из --- case --- ADP
данных --- obl --- NOUN
Генпрокуратуры --- nmod --- PROPN
за --- case --- ADP
7 --- nummod --- NUM
месяцев --- obl --- NOUN
. --- punct --- PUNCT


In [14]:
doc_sm.ents, []

((Игорь Шестеркин, НХЛ), [])

In [15]:
def get_entities(sent):
    ## chunk 1
    ent1 = ""
    ent2 = ""

    prv_tok_dep = ""    # dependency tag of previous token in the sentence
    prv_tok_text = ""   # previous token in the sentence

    prefix = ""
    modifier = ""

    #############################################################

    for tok in nlp_sm(sent):
    ## chunk 2
    # if token is a punctuation mark then move on to the next token
        if tok.dep_ != "punct":
      # check: token is a compound word or not
            if tok.dep_ == "compound":
                prefix = tok.text
        # if the previous word was also a 'compound' then add the current word to it
                if prv_tok_dep == "compound":
                    prefix = prv_tok_text + " "+ tok.text

      # check: token is a modifier or not
            if tok.dep_.endswith("mod") == True:
                modifier = tok.text
        # if the previous word was also a 'compound' then add the current word to it
                if prv_tok_dep == "compound":
                    modifier = prv_tok_text + " "+ tok.text

      ## chunk 3
            if tok.dep_.find("subj") == True:
                ent1 = modifier +" "+ prefix + " "+ tok.text
                prefix = ""
                modifier = ""
                prv_tok_dep = ""
                prv_tok_text = ""      

      ## chunk 4
            if tok.dep_.find("obj") == True:
                ent2 = modifier +" "+ prefix +" "+ tok.text

      ## chunk 5  
      # update variables
            prv_tok_dep = tok.dep_
            prv_tok_text = tok.text
    #############################################################

    return [ent1.strip(), ent2.strip()]

In [27]:
sent = list(sentenize(df.iloc[1].text))[0].text
sent

'Почти половина коррупции в России приходится на два федеральных округа: Приволжье (24,2%) и центральную Россию (21,5%), следует из данных Генпрокуратуры за 7 месяцев.'

In [28]:
get_entities(sent)

['Почти  половина', '']

In [18]:
def get_relation(sent):

    doc = nlp_sm(sent)

    # Matcher class object 
    matcher = Matcher(nlp_sm.vocab)

    #define the pattern 
    pattern = [{'DEP':'ROOT'}, 
            {'DEP':'prep','OP':"?"},
            {'DEP':'agent','OP':"?"},  
            {'POS':'ADJ','OP':"?"}] 

    matcher.add("matching_1", [pattern]) 

    matches = matcher(doc)
    k = len(matches) - 1

    span = doc[matches[k][1]:matches[k][2]] 

    return(span.text)

In [29]:
get_relation(sent)

'приходится'

In [31]:
doc_sm = nlp_sm(sent)
doc_sm.ents

(России, Приволжье, Россию, Генпрокуратуры)