    Experiments with spaCy entity recognition model

## Imports

In [1]:
!pip install spacy



In [2]:
import pandas as pd
import numpy as np

import spacy
from spacy import displacy

In [3]:
!python -m spacy download ru_core_news_md

Collecting ru-core-news-md==3.3.0
  Downloading https://github.com/explosion/spacy-models/releases/download/ru_core_news_md-3.3.0/ru_core_news_md-3.3.0-py3-none-any.whl (41.9 MB)
[+] Download and installation successful
You can now load the package via spacy.load('ru_core_news_md')


In [4]:
rus_sp_model = spacy.load('ru_core_news_md')

## Loading data

In [5]:
%%time
data = pd.read_json('data/mos_ru.json')

Wall time: 566 ms


In [6]:
data.shape

(5711, 3)

In [7]:
data.head()

Unnamed: 0,id,title,full_text
0,108157073,На Ливенской улице построят дом по программе р...,В районе Южное Бутово по программе реновации п...
1,108162073,Более четырех тысяч человек будут обеспечивать...,"Более 4,4 тысячи сотрудников московских служб ..."
2,108148073,Данные о 43 тысячах квартир в новостройках по ...,Данные о 43 тысячах квартир в новостройках вне...
3,108173073,"Лилии, атланты и львы: где искать московский м...",Модерн занимает особое место в архитектуре Мос...
4,108124073,Масштабные панно и светящиеся шары: ко Дню Рос...,В парке «Зарядье» ко Дню России открылся арт-п...


In [8]:
data.full_text.unique().shape

(5711,)

## Entity extraction

In [9]:
np.random.seed(3010)

In [10]:
%%time
rand_text_id = np.random.randint(0, data.shape[0])
processed_text = [(X.text, X.label_) for X in rus_sp_model(data.full_text[rand_text_id]).ents]

Wall time: 162 ms


In [11]:
print("Text example: ")
print(data.full_text[rand_text_id])
print()
print("Found keywords: ")
print(processed_text)

Text example: 
17 ноября пройдет новый розыгрыш в рамках акции «Вакцина — твой ключ к здоровью!». Двое победителей станут обладателями однокомнатных квартир в столице.
В розыгрыше примут участие москвичи старше 18 лет, которые получили первый компонент вакцины от коронавируса или прошли ревакцинацию с 8 по 14 ноября. Победителей выберут в прямом эфире телеканала «Москва 24», их имена и последние цифры телефона также опубликуют на портале mos.ru.
Проверить, вошли ли вы в число победителей, можно с помощью специального сервиса, указав номер полиса ОМС.
10 однокомнатных квартир разыгрывают по инициативе Московской торгово-промышленной палаты в качестве одной из мер, стимулирующих вакцинацию.
Сделать прививку от COVID-19 можно бесплатно по предварительной записи в одном из центров вакцинации на базе поликлиник, а также без записи в точках работы выездных бригад в общественных местах. В вакцинации участвуют и частные клиники, которые заключили соглашения с Департаментом здравоохранения горо

## Most frequent words

    Finding most frequent words, may be it will be usefull for storing texts

In [12]:
from string import punctuation
from collections import Counter

In [13]:
def get_tokens(text):
    result = []
    pos_tag = ['PROPN', 'ADJ', 'NOUN'] # 1
    doc = rus_sp_model(text.lower()) # 2
    
    for token in doc:
        # 3
        if(token.text in rus_sp_model.Defaults.stop_words or token.text in punctuation):
            continue
        # 4
        if(token.pos_ in pos_tag):
            result.append(token.text)
                
    return result # 5

In [14]:
tokens = get_tokens(data.full_text[rand_text_id])

In [15]:
most_freq_words = Counter(tokens).most_common(25)

In [16]:
most_freq_words

[('победителей', 3),
 ('вакцинации', 3),
 ('ноября', 2),
 ('однокомнатных', 2),
 ('квартир', 2),
 ('москвичи', 2),
 ('записи', 2),
 ('17', 1),
 ('новый', 1),
 ('розыгрыш', 1),
 ('рамках', 1),
 ('акции', 1),
 ('вакцина', 1),
 ('ключ', 1),
 ('здоровью', 1),
 ('обладателями', 1),
 ('столице', 1),
 ('розыгрыше', 1),
 ('участие', 1),
 ('старше', 1),
 ('лет', 1),
 ('первый', 1),
 ('компонент', 1),
 ('вакцины', 1),
 ('коронавируса', 1)]