In [1]:
import pandas as pd
import tqdm
from typing import Optional

import re
import nltk

from collections import defaultdict
import json

In [2]:
# articles
!gdown 1BAIEjxgx-Q0hGV9ByLajBd-5Id2NZQE5

Downloading...
From: https://drive.google.com/uc?id=1BAIEjxgx-Q0hGV9ByLajBd-5Id2NZQE5
To: /content/articles.csv
100% 25.2M/25.2M [00:00<00:00, 33.9MB/s]


In [3]:
nltk.download('stopwords')
stopword_set = set(nltk.corpus.stopwords.words('russian'))

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


In [4]:
articles = pd.read_csv('articles.csv')
articles.head()

Unnamed: 0,date,title,body,count,url
0,2024-02-23,Зеленский без плана Б и с угрозой паралича эко...,Президент Украины Владимир Зеленский не смог о...,673,/mezhdunarodnaya-panorama/20061391
1,2024-02-23,Как советские летчики впервые долетели напряму...,"24 февраля 1899 года, 125 лет назад, родился в...",179,/infographics/9497
2,2024-02-23,"Провал ""украинизации"" G20 и капризы Запада. За...","Запад стремится наказать всех тех, кто не след...",472,/politika/20062849
3,2024-02-23,Военная операция на Украине. Хроника событий 2...,Госдепартамент США внес в свои санкционные спи...,59,/armiya-i-opk/20054555
4,2024-02-23,Военная операция на Украине. Хроника событий 2...,Минобороны РФ объявило об освобождении населен...,51,/armiya-i-opk/20043925


**отделим тела новостей, оставим только буквы, токенизируем, приведём к нижнему регистру**

In [5]:
corpus = articles.body.values
print(f'len(corpus) = {len(corpus)}, type(corpus) = {type(corpus)}\n')
print(corpus[0], end='\n\n')

TOKEN_PATTERN = re.compile('[а-яА-ЯёЁ]+')


def tokenize(text):
    return re.findall(TOKEN_PATTERN, text.lower())


docs = [tokenize(text) for text in corpus]
print(docs[0])

len(corpus) = 2396, type(corpus) = <class 'numpy.ndarray'>

Президент Украины Владимир Зеленский не смог объяснить, в чем заключается его план Б на тот случай, если Вашингтон не предоставит Киеву новый пакет помощи. У украинских властей нет выбора, проводить или не проводить мобилизацию, так как часть подразделений Вооруженных сил Украины (ВСУ) укомплектованы лишь наполовину. Однако, по словам экспертов, мобилизация уже создала огромный дефицит рабочей силы, а дополнительный призыв сотен тысяч человек приведет к частичному параличу экономики. ТАСС собрал актуальную информацию о событиях на Украине и вокруг нее. Вооруженные силы РФ за прошедшие сутки заняли более выгодные рубежи и позиции и отразили девять атак и контратак ВСУ на авдеевском направлении, три атаки на купянском направлении и три атаки на запорожском направлении, сообщили в Минобороны РФ. Потери противника за сутки на всех направлениях, включая донецкое, южнодонецкое и херсонское, составили до 840 бойцов. Российские средст

**почистим от стоп-слов**

In [6]:
cleared_docs = [[token for token in text if token not in stopword_set] for text in tqdm.tqdm(docs)]

100%|██████████| 2396/2396 [00:00<00:00, 8117.60it/s]


**TRIE**

In [7]:
class TrieNode:
    def __init__(self, label: str, key: Optional[str] = None):
        self.children = [None] * 35     # не 33, потому что 'я' --> 'ѐ' --> 'ё'
        self.is_terminal = False
        self.reverse_index = {}


class Trie:
    def __init__(self):
        self.root = TrieNode(label='')

    def insert(self, key, doc_index, word_index):
        if not key:
            return None

        search_result = self.search(key)

        # если слово есть
        if search_result[0]:
            current_node = search_result[1]

            # если слово есть, но нет его документа --> добавляем к слову новый документ и индекс
            if doc_index not in current_node.reverse_index:
                current_node.reverse_index[doc_index] = [word_index]

            # если слово есть и есть его документ --> добавляем к документу новый индекс
            else:
                current_node.reverse_index[doc_index].append(word_index)
            return None


        # если слова нет --> добавляем слово с его индексом документа и индексом в документе
        current_node = self.root
        for char in key:
            index = ord(char) - ord('а')
            if not current_node.children[index]:
                current_node.children[index] = TrieNode(label=char)
            current_node = current_node.children[index]
        current_node.is_terminal = True
        current_node.key = key
        current_node.reverse_index[doc_index] = [word_index]


    def search(self, key):
        if not key:
            return None

        current_node = self.root

        for char in key:
            index = ord(char) - ord('а')
            if not current_node.children[index]:
                return False, ''
            current_node = current_node.children[index]

        return current_node.is_terminal, current_node

**префиксное дерево на текстах, очищенных от стоп-слов**

In [8]:
tass_trie = Trie()

for i in tqdm.tqdm(range(len(cleared_docs))):
    for j in range(len(cleared_docs[i])):
        tass_trie.insert(cleared_docs[i][j], i, j)

100%|██████████| 2396/2396 [00:13<00:00, 181.41it/s]


**лемматайзер**

In [9]:
!pip install pymorphy2==0.8
import pymorphy2

Collecting pymorphy2==0.8
  Downloading pymorphy2-0.8-py2.py3-none-any.whl (46 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m46.1/46.1 kB[0m [31m1.5 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting dawg-python>=0.7 (from pymorphy2==0.8)
  Downloading DAWG_Python-0.7.2-py2.py3-none-any.whl (11 kB)
Collecting pymorphy2-dicts<3.0,>=2.4 (from pymorphy2==0.8)
  Downloading pymorphy2_dicts-2.4.393442.3710985-py2.py3-none-any.whl (7.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.1/7.1 MB[0m [31m47.2 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting docopt>=0.6 (from pymorphy2==0.8)
  Downloading docopt-0.6.2.tar.gz (25 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: docopt
  Building wheel for docopt (setup.py) ... [?25l[?25hdone
  Created wheel for docopt: filename=docopt-0.6.2-py2.py3-none-any.whl size=13706 sha256=b26507214379dcac090d3484ac294cdec20a053cdbebceacc184a09b3275e1ff
  Stored in dire

In [10]:
lemmatizer = pymorphy2.MorphAnalyzer()

In [None]:
# пример работы лемматайзера

words = [
    'аббревиатур',
    'аббревиатура',
    'аббревиатуре',
    'аббревиатурой',
    'аббревиатуру',
    'аббревиатуры',
    'человек',
    'люди',
    'людьми'
]

[lemmatizer.parse(word)[0].normal_form for word in words]

['аббревиатура',
 'аббревиатура',
 'аббревиатура',
 'аббревиатура',
 'аббревиатура',
 'аббревиатура',
 'человек',
 'человек',
 'человек']

In [None]:
# морфологический словарь
morph_dict = defaultdict(set)

for doc in tqdm.tqdm(cleared_docs):
    for token in doc:
        key = lemmatizer.parse(token)[0].normal_form
        morph_dict[key].add(token)


print(len(morph_dict))

100%|██████████| 2396/2396 [04:43<00:00,  8.45it/s]

47689





In [None]:
print(morph_dict['лукашенко'])
print(morph_dict['учёный'])

{'лукашенко'}
{'ученая', 'ученых', 'ученые', 'ученым', 'ученой', 'ученом', 'ученый', 'ученого', 'ученому', 'учеными'}


In [None]:
# сохраним
for key in morph_dict:
    morph_dict[key] = [*morph_dict[key]]

with open('morph_dict.json', 'w') as file:
    json.dump(morph_dict, file)

['лукашенко']
['ученая', 'ученых', 'ученые', 'ученым', 'ученой', 'ученом', 'ученый', 'ученого', 'ученому', 'учеными']


In [11]:
!gdown 1x5XFECfvU4JUAVgY0NeX5iL1PksRd4-6

Downloading...
From: https://drive.google.com/uc?id=1x5XFECfvU4JUAVgY0NeX5iL1PksRd4-6
To: /content/morph_dict.json
  0% 0.00/10.3M [00:00<?, ?B/s] 46% 4.72M/10.3M [00:00<00:00, 46.8MB/s]100% 10.3M/10.3M [00:00<00:00, 70.0MB/s]


In [12]:
with open('morph_dict.json') as file:
    morph_dict = json.load(file)

print(morph_dict['лукашенко'])
print(morph_dict['учёный'])

['лукашенко']
['ученым', 'ученая', 'ученые', 'учеными', 'ученой', 'ученому', 'ученый', 'ученом', 'ученого', 'ученых']


In [13]:
def _search(trie: Trie, morph_dict, *words) -> dict:
    """
    находит лемму слова для поиска; morph_dict = {'лемма': [словоформы]}
    ищет словоформы в префиксном дереве
    возвращает: {token: TrieNode}
    """
    dict_result = {}
    for word in words:
        word = word.lower()
        lemma = lemmatizer.parse(word)[0].normal_form
        tokens = morph_dict[lemma]
        for token in tokens:
            result = trie.search(token)
            if result[0]:
                dict_result[token] = result[1]
            else:
                print('there is no such word in the database')
    return dict_result


def search(trie: Trie, morph_dict, *words, k=5) -> None:
    """
    вызывает функцию _search()
    отрезает k релевантных документов, печатает сниппеты из текстов
    """

    dict_result = _search(trie, morph_dict, *words)

    print("################################################")
    print("\n=========================================\n")
    for word in dict_result:
        indices = dict_result[word].reverse_index

        if len(indices) < k:
            k = len(indices)
        sorted_indices = sorted(indices.items(), key=lambda item: -len(item[1]))[:k]

        print(f'the word "{word}" appears in:')
        for key in sorted_indices:
            print(f'TITLE: {articles.title[key[0]]}')
            indices_in_doc = key[1]
            for index in indices_in_doc:
                if 0 <= index + 2 < len(cleared_docs[key[0]]) and 0 <= index - 2 < len(cleared_docs[key[0]]):
                    print(f'SNIPPET: "...{cleared_docs[key[0]][index-2]} {cleared_docs[key[0]][index-1]} {cleared_docs[key[0]][index]} {cleared_docs[key[0]][index+1]} {cleared_docs[key[0]][index+2]}..."')
                elif 0 <= index - 2 < len(cleared_docs[key[0]]):
                    print(f'SNIPPET: "...{cleared_docs[key[0]][index-2]} {cleared_docs[key[0]][index-1]} {cleared_docs[key[0]][index]}..."')
                else:
                    print(f'SNIPPET: "...{cleared_docs[key[0]][index]} {cleared_docs[key[0]][index+1]} {cleared_docs[key[0]][index+2]}..."')
            print("\n=========================================\n")
        print("################################################\n")

In [14]:
search(tass_trie, morph_dict, 'люди', k=3)

################################################


the word "человеке" appears in:
TITLE: В поисках человечности. Почему история с Твиксом стала известной и чему она нас научила
SNIPPET: "...жив человек человеке доброе светлое..."


TITLE: Влюбленный инженер, трактирщик и барон: семь ярких ролей Юрия Соломина
SNIPPET: "...лучший фильм человеке природе кстати..."


TITLE: Новатор и друг Яшина. Умер Франц Беккенбауэр
SNIPPET: "...нем замечательном человеке сказал кавазашвили..."


################################################

the word "люди" appears in:
TITLE: Дмитрий Медведев: ненавижу врагов России
SNIPPET: "...какие круги люди видели значит..."
SNIPPET: "...форме такие люди количество расти..."
SNIPPET: "...войска сами люди населяющие земли..."
SNIPPET: "...совершенно другие люди которые осознают..."
SNIPPET: "...украина такие люди появятся ними..."
SNIPPET: "...города какие люди живут каком..."
SNIPPET: "...остальные это люди которых своей..."
SNIPPET: "...разговаривать такие люд