In [29]:
import ssl
import json
from collections import defaultdict
import pickle

import nltk
from nltk import bigrams
from nltk.corpus import stopwords
from pymystem3 import Mystem

try:
    _create_unverified_https_context = ssl._create_unverified_context
except AttributeError:
    pass
else:
    ssl._create_default_https_context = _create_unverified_https_context

nltk.download("punkt")
nltk.download("stopwords")
nltk.download("wordnet")

with open("../naked_science_corpus.json", "r") as f:
    data = json.load(f)

[nltk_data] Downloading package punkt to
[nltk_data]     /Users/falaputin2/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/falaputin2/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     /Users/falaputin2/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [30]:
Stemmer = Mystem()


def lemmatize_sentence(text):
    lemmas = Stemmer.lemmatize(text)
    return "".join(lemmas).strip()


def tokenize_text(text, lemmatize=False):
    if lemmatize:
        text = lemmatize_sentence(text)

    tokens = nltk.word_tokenize(text.lower())
    clean_tokens = [
        word
        for word in tokens
        if word.isalnum() and word not in stopwords.words("russian")
    ]

    return clean_tokens


def extract_bigrams(text):
    return list(bigrams(text))

In [31]:
bigram_counts = defaultdict(int)

for article in data:
    if article["text"] is None:
        continue

    text = article["text"]
    tokens = tokenize_text(text)
    text_bigrams = extract_bigrams(tokens)

    for bigram in text_bigrams:
        bigram_counts[bigram] += 1


sorted_bigrams = sorted(bigram_counts.items(), key=lambda x: x[1], reverse=True)
for bigram, count in sorted_bigrams[:15]:
    print("Bigram:", bigram, "Count:", count)

Bigram: ('лет', 'назад') Count: 900
Bigram: ('таким', 'образом') Count: 734
Bigram: ('сих', 'пор') Count: 566
Bigram: ('результаты', 'исследования') Count: 512
Bigram: ('исследование', 'опубликовано') Count: 512
Bigram: ('опубликовано', 'журнале') Count: 471
Bigram: ('опубликована', 'журнале') Count: 426
Bigram: ('миллионов', 'лет') Count: 411
Bigram: ('пермского', 'политеха') Count: 389
Bigram: ('нашей', 'эры') Count: 389
Bigram: ('научный', 'сотрудник') Count: 377
Bigram: ('тысяч', 'лет') Count: 363
Bigram: ('авторы', 'работы') Count: 356
Bigram: ('опубликованной', 'журнале') Count: 352
Bigram: ('опубликованы', 'журнале') Count: 352


In [32]:
with open("bigram_counts.pkl", "wb") as f:
    pickle.dump(bigram_counts, f)

with open("sorted_bigram_counts.pkl", "wb") as f:
    pickle.dump(sorted_bigrams, f)

Лемматизация

In [33]:
bigram_counts = defaultdict(int)

for article in data:
    if article["text"] is None:
        continue

    text = article["text"]
    tokens = tokenize_text(text, lemmatize=True)
    text_bigrams = extract_bigrams(tokens)

    for bigram in text_bigrams:
        bigram_counts[bigram] += 1


sorted_bigrams = sorted(bigram_counts.items(), key=lambda x: x[1], reverse=True)
for bigram, count in sorted_bigrams[:15]:
    print("Bigram:", bigram, "Count:", count)

Bigram: ('опубликовывать', 'журнал') Count: 1956
Bigram: ('исследование', 'опубликовывать') Count: 980
Bigram: ('год', 'назад') Count: 931
Bigram: ('результат', 'исследование') Count: 741
Bigram: ('миллион', 'год') Count: 579
Bigram: ('сей', 'пора') Count: 567
Bigram: ('который', 'мочь') Count: 549
Bigram: ('автор', 'работа') Count: 537
Bigram: ('автор', 'исследование') Count: 534
Bigram: ('окружающий', 'среда') Count: 527
Bigram: ('друг', 'друг') Count: 526
Bigram: ('тысяча', 'год') Count: 480
Bigram: ('статья', 'опубликовывать') Count: 447
Bigram: ('работа', 'опубликовывать') Count: 438
Bigram: ('новый', 'работа') Count: 419


In [34]:
sorted_bigrams

[(('опубликовывать', 'журнал'), 1956),
 (('исследование', 'опубликовывать'), 980),
 (('год', 'назад'), 931),
 (('результат', 'исследование'), 741),
 (('миллион', 'год'), 579),
 (('сей', 'пора'), 567),
 (('который', 'мочь'), 549),
 (('автор', 'работа'), 537),
 (('автор', 'исследование'), 534),
 (('окружающий', 'среда'), 527),
 (('друг', 'друг'), 526),
 (('тысяча', 'год'), 480),
 (('статья', 'опубликовывать'), 447),
 (('работа', 'опубликовывать'), 438),
 (('новый', 'работа'), 419),
 (('научный', 'сотрудник'), 408),
 (('пермский', 'политех'), 392),
 (('наш', 'эра'), 390),
 (('это', 'позволять'), 387),
 (('это', 'мочь'), 371),
 (('черный', 'дыра'), 369),
 (('искусственный', 'интеллект'), 365),
 (('точка', 'зрение'), 358),
 (('журнал', 'nature'), 357),
 (('исследование', 'показывать'), 351),
 (('автор', 'новый'), 345),
 (('большой', 'количество'), 338),
 (('2022', 'год'), 338),
 (('journal', 'of'), 337),
 (('самый', 'дело'), 334),
 (('новый', 'исследование'), 303),
 (('магнитный', 'поле'), 