<a href="https://colab.research.google.com/github/BVika/Methods_of_semantic_information_processing/blob/main/%D0%9B%D0%B0%D0%B1_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Задания

1. Применить к текстам лемматизацию, удаление стоп слов и токенизацию по словам
2. Реализовать Bag of Words
3. Реализовать TF-IDF

## Загрузка библиотек

In [7]:
pip install nltk



In [8]:
pip install pymorphy3

Collecting pymorphy3
  Downloading pymorphy3-2.0.3-py3-none-any.whl.metadata (1.9 kB)
Collecting dawg2-python>=0.8.0 (from pymorphy3)
  Downloading dawg2_python-0.9.0-py3-none-any.whl.metadata (7.5 kB)
Collecting pymorphy3-dicts-ru (from pymorphy3)
  Downloading pymorphy3_dicts_ru-2.4.417150.4580142-py2.py3-none-any.whl.metadata (2.0 kB)
Downloading pymorphy3-2.0.3-py3-none-any.whl (53 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m53.8/53.8 kB[0m [31m1.6 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading dawg2_python-0.9.0-py3-none-any.whl (9.3 kB)
Downloading pymorphy3_dicts_ru-2.4.417150.4580142-py2.py3-none-any.whl (8.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.4/8.4 MB[0m [31m27.9 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pymorphy3-dicts-ru, dawg2-python, pymorphy3
Successfully installed dawg2-python-0.9.0 pymorphy3-2.0.3 pymorphy3-dicts-ru-2.4.417150.4580142


### **Задание 1**
*Применить к текстам лемматизацию, удаление стоп слов и токенизацию по словам*

# `на русском`


Импорт библиотек

In [9]:
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from pymystem3 import Mystem
from typing import List
import pymorphy3

In [10]:
# Пример текста
texts = [
    "Я люблю программирование и изучение новых технологий.",
    "Машинное обучение - это увлекательная область."
]

In [11]:
# Загрузка необходимых ресурсов
nltk.download('punkt_tab')
nltk.download('stopwords')

# Инициализация морфологического анализатора
m = Mystem()  # Программа MyStem производит морфологический анализ текста на русском языке

# Функция для лемматизации
def lemmatize(text: List[str]) -> List[str]:
    lemmas = []
    for word in text:
        lemmas.extend(m.lemmatize(word))  # Лемматизируем каждое слово
        cleaned_lemmas = [lemma.strip() for lemma in lemmas if lemma.strip() and lemma not in [' ']]
    return cleaned_lemmas


[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
Installing mystem to /root/.local/bin/mystem from http://download.cdn.yandex.net/mystem/mystem-3.1-linux-64bit.tar.gz


In [12]:
# Удаление стоп-слов и лемматизация для каждого текста
for text in texts:
    # Токенизация
    tokens = word_tokenize(text)
    # Удаление стоп-слов
    stop_words = set(stopwords.words('russian'))
    filtered_tokens = [word for word in tokens if word.lower() not in stop_words]
    # Лемматизация
    lemmas = lemmatize(filtered_tokens)

    # Результат
    print(lemmas)

['любить', 'программирование', 'изучение', 'новый', 'технология', '.']
['машинный', 'обучение', '-', 'это', 'увлекательный', 'область', '.']


# `на английском`



Импорт библиотек

In [13]:
from nltk.stem import WordNetLemmatizer

In [14]:
# Пример текста
texts = [
    "I love programming and learning new technologies.",
    "Machine learning is an exciting field."
]

In [15]:
# Загрузка необходимых ресурсов
nltk.download('punkt_tab')
nltk.download('wordnet')

# Инициализация лемматизатора
lemmatizer = WordNetLemmatizer()

# Функция для лемматизации
def lemmatize(text: List[str]) -> List[str]:
    lemmas = [lemmatizer.lemmatize(word) for word in text]  # Лемматизируем каждое слово
    return lemmas




[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...


In [16]:
# Удаление стоп-слов и лемматизация для каждого текста
for text in texts:
    # Токенизация
    tokens = word_tokenize(text)
    # Удаление стоп-слов
    stop_words = set(stopwords.words('english'))
    filtered_tokens = [word for word in tokens if word.lower() not in stop_words]
    # Лемматизация
    lemmas = lemmatize(filtered_tokens)

    # Результат
    print(lemmas)

['love', 'programming', 'learning', 'new', 'technology', '.']
['Machine', 'learning', 'exciting', 'field', '.']


### **Задание 2**
Реализовать Bag of Words

In [95]:
from nltk.tokenize import word_tokenize
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import stopwords
from collections import Counter
import numpy as np

In [108]:
texts = [
    "Природа полна удивительных чудес, и в каждом чуде природы скрыта своя красота.",
    "Леса и горы дарят нам ощущение спокойствия и гармонии, которые можно найти только в природе.",
    "Птицы поют свои мелодии, и их мелодии наполняют воздух радостью и счастьем.",
    "Река текет, отражая солнечные лучи и зелень вокруг, создавая волшебный мир природы.",
    "Каждый сезон приносит свои краски и запахи, и каждый сезон природы уникален.",
    "Цветы распускаются весной, радуя глаз яркими оттенками, и весна пробуждает природу.",
    "Закат над озером создает волшебную атмосферу и умиротворение, которое ощущается в природе.",
    "Прогулка по лесу позволяет ощутить силу и красоту природы, которая окружает нас повсюду."
]

In [109]:
def lemmatize(text: List[str]) -> List[str]:
    lemmas = []
    for word in text:
        lemmas.extend(m.lemmatize(word))  # Лемматизируем каждое слово
        cleaned_lemmas = [lemma.strip() for lemma in lemmas if lemma.strip() and lemma not in [' ']]
    return cleaned_lemmas

In [111]:
def preprocessing(texts: List[str]) -> List[List[str]]:

    """Предобработка текста, удаляющая стоп-слова и знаки препинания, возвращающая список списков токенов."""
    punctuation_marks = ['!', ',', '(', ')', ':', '-', '?', '.', '..', '...', '«', '»', ';', '–', '--']
    stop_words = set(stopwords.words("russian"))
    tokenized_texts = []

    for text in texts:

        text = text.lower() # уриводим текст к нижнему регистру
        # удаляем знаки препинания
        for punctuation in punctuation_marks:
            text = text.replace(punctuation, '')
        tokens = text.split()# токенизируем текст

        filtered_tokens = [word for word in tokens if word not in stop_words] # удаляем стоп-слова

        lemmatized_tokens = lemmatize(filtered_tokens) #лемматизация

        tokenized_texts.append(lemmatized_tokens)
    return tokenized_texts


# токинизация и лемматизация
tokenized_texts = preprocessing(texts)
for row in tokenized_texts:
    print(row)

['природа', 'полный', 'удивительный', 'чудо', 'каждый', 'чудо', 'природа', 'скрытый', 'свой', 'красота']
['лес', 'гора', 'дарить', 'мы', 'ощущение', 'спокойствие', 'гармония', 'который', 'находить', 'природа']
['птица', 'петь', 'свой', 'мелодия', 'мелодия', 'наполнять', 'воздух', 'радость', 'счастие']
['река', 'текет', 'отражать', 'солнечный', 'луч', 'зелень', 'вокруг', 'создавать', 'волшебный', 'мир', 'природа']
['каждый', 'сезон', 'приносить', 'свой', 'краска', 'запах', 'каждый', 'сезон', 'природа', 'уникальный']
['цветок', 'распускаться', 'весна', 'радовать', 'глаз', 'яркий', 'оттенок', 'весна', 'пробуждать', 'природа']
['закат', 'озеро', 'создавать', 'волшебный', 'атмосфера', 'умиротворение', 'который', 'ощущаться', 'природа']
['прогулка', 'лес', 'позволять', 'ощущать', 'сила', 'красота', 'природа', 'который', 'окружать', 'повсюду']


In [112]:
def make_dict(texts: list[list[str]]) -> dict[str, int]:

    """Создание словаря уникальных слов из текстов."""
    unique_words = set()
    for text in texts:
        unique_words.update(text)  #добавление уникальных слов в множество

    return {word: index for index, word in enumerate(unique_words)}  #присвоение индексов

# создание словаря уникальных слов
word_dict = make_dict(tokenized_texts)
print(word_dict)

{'скрытый': 0, 'распускаться': 1, 'ощущение': 2, 'создавать': 3, 'глаз': 4, 'птица': 5, 'сила': 6, 'полный': 7, 'гармония': 8, 'гора': 9, 'вокруг': 10, 'весна': 11, 'озеро': 12, 'прогулка': 13, 'ощущать': 14, 'ощущаться': 15, 'свой': 16, 'природа': 17, 'уникальный': 18, 'каждый': 19, 'чудо': 20, 'мы': 21, 'запах': 22, 'петь': 23, 'река': 24, 'мир': 25, 'оттенок': 26, 'радость': 27, 'мелодия': 28, 'лес': 29, 'приносить': 30, 'атмосфера': 31, 'краска': 32, 'дарить': 33, 'радовать': 34, 'спокойствие': 35, 'пробуждать': 36, 'умиротворение': 37, 'текет': 38, 'сезон': 39, 'удивительный': 40, 'закат': 41, 'волшебный': 42, 'яркий': 43, 'который': 44, 'зелень': 45, 'повсюду': 46, 'отражать': 47, 'наполнять': 48, 'окружать': 49, 'цветок': 50, 'луч': 51, 'находить': 52, 'позволять': 53, 'счастие': 54, 'воздух': 55, 'красота': 56, 'солнечный': 57}


In [113]:
def count_num_words(texts: list[list[str]], word_dict: dict[str, int]) -> list[list[int]]:

    """Подсчет количества вхождений слов для каждого текста."""
    word_counts = []
    for text in texts:
        count_vector = [0] * len(word_dict)  # инициализация вектора счетчиков
        for word in text:
            if word in word_dict:
                count_vector[word_dict[word]] += 1
        word_counts.append(count_vector)

    return word_counts

# подсчет количества слов
word_counts = count_num_words(tokenized_texts, word_dict)
for row in word_counts:
    print(row)

[1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 2, 0, 1, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0]
[0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0]
[0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 2, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 2, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0

In [114]:
print("Словарь уникальных слов:", word_dict)
print("Матрица Bag of Words:")
for row in word_counts:
    print(row)

Словарь уникальных слов: {'скрытый': 0, 'распускаться': 1, 'ощущение': 2, 'создавать': 3, 'глаз': 4, 'птица': 5, 'сила': 6, 'полный': 7, 'гармония': 8, 'гора': 9, 'вокруг': 10, 'весна': 11, 'озеро': 12, 'прогулка': 13, 'ощущать': 14, 'ощущаться': 15, 'свой': 16, 'природа': 17, 'уникальный': 18, 'каждый': 19, 'чудо': 20, 'мы': 21, 'запах': 22, 'петь': 23, 'река': 24, 'мир': 25, 'оттенок': 26, 'радость': 27, 'мелодия': 28, 'лес': 29, 'приносить': 30, 'атмосфера': 31, 'краска': 32, 'дарить': 33, 'радовать': 34, 'спокойствие': 35, 'пробуждать': 36, 'умиротворение': 37, 'текет': 38, 'сезон': 39, 'удивительный': 40, 'закат': 41, 'волшебный': 42, 'яркий': 43, 'который': 44, 'зелень': 45, 'повсюду': 46, 'отражать': 47, 'наполнять': 48, 'окружать': 49, 'цветок': 50, 'луч': 51, 'находить': 52, 'позволять': 53, 'счастие': 54, 'воздух': 55, 'красота': 56, 'солнечный': 57}
Матрица Bag of Words:
[1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 2, 0, 1, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,

### **Задание 3**
Реализовать TF-IDF

Частотность термина (TF). Измеряет, насколько часто слово встречается в документе. Рассчитывается как отношение количества вхождений слова к количеству слов в документе.

Обратная частотность документа (IDF). Измеряет, насколько редким является слово в наборе документов. Рассчитывается как логарифм отношения количества документов в коллекции к количеству документов в коллекции, в которых встречается заданное слово.

Общий показатель TF-IDF является произведением TF и IDF. Формула: TF-IDF = TF * IDF.

In [102]:
import math
from typing import List, Dict
from nltk.corpus import stopwords

In [115]:
def preprocessing(texts: List[str]) -> List[List[str]]:

    """Предобработка текста, удаляющая стоп-слова и знаки препинания, возвращающая список списков токенов."""
    punctuation_marks = ['!', ',', '(', ')', ':', '-', '?', '.', '..', '...', '«', '»', ';', '–', '--']
    stop_words = set(stopwords.words("russian"))
    tokenized_texts = []

    for text in texts:
        text = text.lower() # приводим текст к нижнему регистру
        # удаляем знаки препинания
        for punctuation in punctuation_marks:
            text = text.replace(punctuation, '')

        tokens = text.split()# токенизируем текст

        filtered_tokens = [word for word in tokens if word not in stop_words] # удаляем стоп-слова

        lemmatized_tokens = lemmatize(filtered_tokens) #лемматизация

        tokenized_texts.append(lemmatized_tokens)
    return tokenized_texts


tokenized_texts = preprocessing(texts)
for row in tokenized_texts:
    print(row)

['природа', 'полный', 'удивительный', 'чудо', 'каждый', 'чудо', 'природа', 'скрытый', 'свой', 'красота']
['лес', 'гора', 'дарить', 'мы', 'ощущение', 'спокойствие', 'гармония', 'который', 'находить', 'природа']
['птица', 'петь', 'свой', 'мелодия', 'мелодия', 'наполнять', 'воздух', 'радость', 'счастие']
['река', 'текет', 'отражать', 'солнечный', 'луч', 'зелень', 'вокруг', 'создавать', 'волшебный', 'мир', 'природа']
['каждый', 'сезон', 'приносить', 'свой', 'краска', 'запах', 'каждый', 'сезон', 'природа', 'уникальный']
['цветок', 'распускаться', 'весна', 'радовать', 'глаз', 'яркий', 'оттенок', 'весна', 'пробуждать', 'природа']
['закат', 'озеро', 'создавать', 'волшебный', 'атмосфера', 'умиротворение', 'который', 'ощущаться', 'природа']
['прогулка', 'лес', 'позволять', 'ощущать', 'сила', 'красота', 'природа', 'который', 'окружать', 'повсюду']


In [116]:
def make_dict(texts: List[List[str]]) -> Dict[str, int]:

    """Создание словаря уникальных слов из текстов."""
    unique_words = set()
    for text in texts:
        unique_words.update(text)

    return {word: index for index, word in enumerate(unique_words)}

# создание словаря уникальных слов
word_dict = make_dict(tokenized_texts)
print(word_dict)

{'скрытый': 0, 'распускаться': 1, 'ощущение': 2, 'создавать': 3, 'глаз': 4, 'птица': 5, 'сила': 6, 'полный': 7, 'гармония': 8, 'гора': 9, 'вокруг': 10, 'весна': 11, 'озеро': 12, 'прогулка': 13, 'ощущать': 14, 'ощущаться': 15, 'свой': 16, 'природа': 17, 'уникальный': 18, 'каждый': 19, 'чудо': 20, 'мы': 21, 'запах': 22, 'петь': 23, 'река': 24, 'мир': 25, 'оттенок': 26, 'радость': 27, 'мелодия': 28, 'лес': 29, 'приносить': 30, 'атмосфера': 31, 'краска': 32, 'дарить': 33, 'радовать': 34, 'спокойствие': 35, 'пробуждать': 36, 'умиротворение': 37, 'текет': 38, 'сезон': 39, 'удивительный': 40, 'закат': 41, 'волшебный': 42, 'яркий': 43, 'который': 44, 'зелень': 45, 'повсюду': 46, 'отражать': 47, 'наполнять': 48, 'окружать': 49, 'цветок': 50, 'луч': 51, 'находить': 52, 'позволять': 53, 'счастие': 54, 'воздух': 55, 'красота': 56, 'солнечный': 57}


In [117]:
def compute_tf(texts: List[List[str]], word_dict: Dict[str, int]) -> List[List[float]]:

    """Подсчет TF для каждого текста."""
    tf_matrix = []
    for text in texts:
        count_vector = [0] * len(word_dict)
        for word in text:
            if word in word_dict:
                count_vector[word_dict[word]] += 1


        total_words = len(text)
        tf_vector = [count / total_words for count in count_vector]
        tf_matrix.append(tf_vector)

    return tf_matrix


tf_matrix = compute_tf(tokenized_texts, word_dict)
for row in tf_matrix:
    print(row)

[0.1, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.1, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.1, 0.2, 0.0, 0.1, 0.2, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.1, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.1, 0.0]
[0.0, 0.0, 0.1, 0.0, 0.0, 0.0, 0.0, 0.0, 0.1, 0.1, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.1, 0.0, 0.0, 0.0, 0.1, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.1, 0.0, 0.0, 0.0, 0.1, 0.0, 0.1, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.1, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.1, 0.0, 0.0, 0.0, 0.0, 0.0]
[0.0, 0.0, 0.0, 0.0, 0.0, 0.1111111111111111, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.1111111111111111, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.1111111111111111, 0.0, 0.0, 0.0, 0.1111111111111111, 0.2222222222222222, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.1111111111111111, 0.0, 0.0, 0.0, 0.0, 0.0, 0.1111111111111111, 0.1111111111111111, 0.0, 0.0]
[0.0, 0

In [118]:
def compute_idf(texts: List[List[str]], word_dict: Dict[str, int]) -> List[float]:

    """Подсчет IDF для слов."""
    idf_vector = []
    num_docs = len(texts)

    for word in word_dict.keys():
        count = sum(1 for text in texts if word in text) #возвращает количество документов, в которых присутствует данное слово. Если слово не встречается ни в одном документе, count будет равно 0.
        idf = math.log(num_docs / (count + 1))  # добавляем 1 для избежания деления на ноль
        idf_vector.append(idf)

    return idf_vector



idf_vector = compute_idf(tokenized_texts, word_dict)
print(idf_vector)

[1.3862943611198906, 1.3862943611198906, 1.3862943611198906, 0.9808292530117262, 1.3862943611198906, 1.3862943611198906, 1.3862943611198906, 1.3862943611198906, 1.3862943611198906, 1.3862943611198906, 1.3862943611198906, 1.3862943611198906, 1.3862943611198906, 1.3862943611198906, 1.3862943611198906, 1.3862943611198906, 0.6931471805599453, 0.0, 1.3862943611198906, 0.9808292530117262, 1.3862943611198906, 1.3862943611198906, 1.3862943611198906, 1.3862943611198906, 1.3862943611198906, 1.3862943611198906, 1.3862943611198906, 1.3862943611198906, 1.3862943611198906, 0.9808292530117262, 1.3862943611198906, 1.3862943611198906, 1.3862943611198906, 1.3862943611198906, 1.3862943611198906, 1.3862943611198906, 1.3862943611198906, 1.3862943611198906, 1.3862943611198906, 1.3862943611198906, 1.3862943611198906, 1.3862943611198906, 0.9808292530117262, 1.3862943611198906, 0.6931471805599453, 1.3862943611198906, 1.3862943611198906, 1.3862943611198906, 1.3862943611198906, 1.3862943611198906, 1.386294361119

In [119]:
def compute_tfidf(tf_matrix: List[List[float]], idf_vector: List[float]) -> List[List[float]]:

    """Подсчет TF-IDF на основе TF и IDF."""
    tfidf_matrix = []

    for tf_vector in tf_matrix:
        tfidf_vector = [tf * idf for tf, idf in zip(tf_vector, idf_vector)]
        tfidf_matrix.append(tfidf_vector)
    return tfidf_matrix


tfidf_matrix = compute_tfidf(tf_matrix, idf_vector)
for row in tfidf_matrix:
    print(row)

[0.13862943611198905, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.13862943611198905, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.06931471805599453, 0.0, 0.0, 0.09808292530117263, 0.2772588722239781, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.13862943611198905, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.09808292530117263, 0.0]
[0.0, 0.0, 0.13862943611198905, 0.0, 0.0, 0.0, 0.0, 0.0, 0.13862943611198905, 0.13862943611198905, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.13862943611198905, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.09808292530117263, 0.0, 0.0, 0.0, 0.13862943611198905, 0.0, 0.13862943611198905, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.06931471805599453, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.13862943611198905, 0.0, 0.0, 0.0, 0.0, 0.0]
[0.0, 0.0, 0.0, 0.0, 0.0, 0.15403270679109896, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.07701635339554948, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.1540327067910

In [120]:
print("Словарь уникальных слов:", word_dict)
print("Матрица TF-IDF:")
for row in tfidf_matrix:
    print(row)

Словарь уникальных слов: {'скрытый': 0, 'распускаться': 1, 'ощущение': 2, 'создавать': 3, 'глаз': 4, 'птица': 5, 'сила': 6, 'полный': 7, 'гармония': 8, 'гора': 9, 'вокруг': 10, 'весна': 11, 'озеро': 12, 'прогулка': 13, 'ощущать': 14, 'ощущаться': 15, 'свой': 16, 'природа': 17, 'уникальный': 18, 'каждый': 19, 'чудо': 20, 'мы': 21, 'запах': 22, 'петь': 23, 'река': 24, 'мир': 25, 'оттенок': 26, 'радость': 27, 'мелодия': 28, 'лес': 29, 'приносить': 30, 'атмосфера': 31, 'краска': 32, 'дарить': 33, 'радовать': 34, 'спокойствие': 35, 'пробуждать': 36, 'умиротворение': 37, 'текет': 38, 'сезон': 39, 'удивительный': 40, 'закат': 41, 'волшебный': 42, 'яркий': 43, 'который': 44, 'зелень': 45, 'повсюду': 46, 'отражать': 47, 'наполнять': 48, 'окружать': 49, 'цветок': 50, 'луч': 51, 'находить': 52, 'позволять': 53, 'счастие': 54, 'воздух': 55, 'красота': 56, 'солнечный': 57}
Матрица TF-IDF:
[0.13862943611198905, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.13862943611198905, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0