In [1]:
pip install pymorphy3

Collecting pymorphy3
  Downloading pymorphy3-2.0.3-py3-none-any.whl.metadata (1.9 kB)
Collecting dawg2-python>=0.8.0 (from pymorphy3)
  Downloading dawg2_python-0.9.0-py3-none-any.whl.metadata (7.5 kB)
Collecting pymorphy3-dicts-ru (from pymorphy3)
  Downloading pymorphy3_dicts_ru-2.4.417150.4580142-py2.py3-none-any.whl.metadata (2.0 kB)
Downloading pymorphy3-2.0.3-py3-none-any.whl (53 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m53.8/53.8 kB[0m [31m2.6 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading dawg2_python-0.9.0-py3-none-any.whl (9.3 kB)
Downloading pymorphy3_dicts_ru-2.4.417150.4580142-py2.py3-none-any.whl (8.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.4/8.4 MB[0m [31m20.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pymorphy3-dicts-ru, dawg2-python, pymorphy3
Successfully installed dawg2-python-0.9.0 pymorphy3-2.0.3 pymorphy3-dicts-ru-2.4.417150.4580142


In [2]:
import nltk
from nltk.corpus import stopwords
from collections import Counter
import math
import pymorphy3

# Скачиваем необходимые ресурсы NLTK

nltk.download('punkt')
nltk.download('stopwords')
nltk.download('punkt_tab')

morph = pymorphy3.MorphAnalyzer()

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


In [3]:
stop_words = set(stopwords.words('russian'))



In [4]:
texts = [
    "Летучие мыши увидели кошек с самыми яркими полосками, висящих вниз головой у них за ноги",
    "Кошка сидит с летучими мышами на полосатом коврике под множеством гусей"
]

In [5]:
def preprocess(text):
    stop_words = set(stopwords.words('russian'))
    tokens = nltk.word_tokenize(text.lower())
    return [morph.parse(t)[0].normal_form for t in tokens if t.isalpha() and t not in stop_words]

def bag_of_words_from_processed(processed_texts):
    all_words = []
    for text_tokens in processed_texts:
        all_words.extend(text_tokens)  # Добавляем токены каждого текста в общий список
    return dict(Counter(all_words))


def tf(text):
  words = preprocess(text)
  counts = Counter(words)
  total = len(words)
  return {word: count / total for word, count in counts.items()}

def idf(texts):
    num_docs = len(texts)
    all_words = set()
    for text in texts:
      all_words.update(preprocess(text))

    idfs = {}
    for word in all_words:
        count = sum(1 for text in texts if word in preprocess(text))
        idfs[word] = math.log(num_docs / (count + 1))
    return idfs

def tf_idf(texts):
  idfs = idf(texts)
  tf_idfs = {}
  for i, text in enumerate(texts):
    tf_values = tf(text)
    tf_idfs[str(i)] = {word: tf_values[word] * idfs[word] for word in tf_values}
  return tf_idfs

In [6]:
processed_texts = [preprocess(text) for text in texts]
print(processed_texts)

[['летучий', 'мышь', 'увидеть', 'кошка', 'самый', 'яркий', 'полоска', 'висеть', 'вниз', 'голова', 'нога'], ['кошка', 'сидеть', 'летучий', 'мышь', 'полосатый', 'коврик', 'множество', 'гусь']]


In [7]:
bow = bag_of_words_from_processed(processed_texts)
print("Bag of Words:", bow)

Bag of Words: {'летучий': 2, 'мышь': 2, 'увидеть': 1, 'кошка': 2, 'самый': 1, 'яркий': 1, 'полоска': 1, 'висеть': 1, 'вниз': 1, 'голова': 1, 'нога': 1, 'сидеть': 1, 'полосатый': 1, 'коврик': 1, 'множество': 1, 'гусь': 1}


In [8]:
result_td_idf = tf_idf(bow)
print(result_td_idf)

{'0': {'летучий': 2.0794415416798357}, '1': {'мышь': 2.0794415416798357}, '2': {'увидеть': 2.0794415416798357}, '3': {'кошка': 2.0794415416798357}, '4': {'самый': 2.0794415416798357}, '5': {'яркий': 2.0794415416798357}, '6': {'полоска': 2.0794415416798357}, '7': {'висеть': 2.0794415416798357}, '8': {'вниз': 2.0794415416798357}, '9': {'голова': 2.0794415416798357}, '10': {'нога': 2.0794415416798357}, '11': {'сидеть': 2.0794415416798357}, '12': {'полосатый': 2.0794415416798357}, '13': {'коврик': 2.0794415416798357}, '14': {'множество': 2.0794415416798357}, '15': {'гусь': 2.0794415416798357}}
