Эта тетрадка содержит примеры и упражнения по двум основным методам векторизации текста: Bag of Words (мешок слов) и TF-IDF (Term Frequency-Inverse Document Frequency).

In [9]:
import re
import pandas as pd

**Часть 1: Исходные данные**

In [10]:
# Наш корпус документов
documents = [
    "Машинное обучение - это подраздел искусственного интеллекта.",
    "Нейронные сети широко используются в машинном обучении.",
    "Глубокое обучение основано на многослойных нейронных сетях.",
    "Искусственный интеллект имитирует когнитивные функции человека.",
    "Компьютерное зрение и обработка языка - примеры применения ИИ."
]

# Вывод документов с номерами
for i, doc in enumerate(documents, 1):
    print(f"Документ {i}: {doc}")

Документ 1: Машинное обучение - это подраздел искусственного интеллекта.
Документ 2: Нейронные сети широко используются в машинном обучении.
Документ 3: Глубокое обучение основано на многослойных нейронных сетях.
Документ 4: Искусственный интеллект имитирует когнитивные функции человека.
Документ 5: Компьютерное зрение и обработка языка - примеры применения ИИ.


**Часть 2: Предобработка**

In [11]:
for i in range(len(documents)):
    # Приведение к нижнему регистру
    documents[i] = documents[i].lower()
    # Удаление пунктуации
    documents[i] = re.sub(r'[^\w\s]', '', documents[i])

  # Вывод предобработанных документов
print("Предобработанные документы:")
for i, doc in enumerate(documents, 1):
    print(f"Документ {i}: {doc}")

Предобработанные документы:
Документ 1: машинное обучение  это подраздел искусственного интеллекта
Документ 2: нейронные сети широко используются в машинном обучении
Документ 3: глубокое обучение основано на многослойных нейронных сетях
Документ 4: искусственный интеллект имитирует когнитивные функции человека
Документ 5: компьютерное зрение и обработка языка  примеры применения ии


**Часть 3: Модель Bag of Words (мешок слов)**

In [13]:
!pip install scikit-learn
from sklearn.feature_extraction.text import CountVectorizer  # Для создания Bag of Words

Collecting scikit-learn
  Downloading scikit_learn-1.8.0-cp312-cp312-win_amd64.whl.metadata (11 kB)
Collecting scipy>=1.10.0 (from scikit-learn)
  Downloading scipy-1.16.3-cp312-cp312-win_amd64.whl.metadata (60 kB)
Collecting threadpoolctl>=3.2.0 (from scikit-learn)
  Downloading threadpoolctl-3.6.0-py3-none-any.whl.metadata (13 kB)
Downloading scikit_learn-1.8.0-cp312-cp312-win_amd64.whl (8.0 MB)
   ---------------------------------------- 0.0/8.0 MB ? eta -:--:--
   --- ------------------------------------ 0.8/8.0 MB 5.6 MB/s eta 0:00:02
   --------- ------------------------------ 1.8/8.0 MB 5.3 MB/s eta 0:00:02
   ------------------ --------------------- 3.7/8.0 MB 7.3 MB/s eta 0:00:01
   -------------------------------- ------- 6.6/8.0 MB 8.8 MB/s eta 0:00:01
   ---------------------------------------- 8.0/8.0 MB 9.0 MB/s eta 0:00:00
Downloading scipy-1.16.3-cp312-cp312-win_amd64.whl (38.6 MB)
   ---------------------------------------- 0.0/38.6 MB ? eta -:--:--
   -- -------------

3.1 Создание матрицы Bag of Words

In [14]:
# Создание векторизатора
count_vectorizer = CountVectorizer()

# Обучение векторизатора и преобразование документов
bow_matrix = count_vectorizer.fit_transform(documents)

# Получение списка фичей (слов)
feature_names = count_vectorizer.get_feature_names_out()

# Преобразование разреженной матрицы в плотную для наглядности
bow_df = pd.DataFrame(
    bow_matrix.toarray(),
    columns=feature_names,
    index=[f'Документ {i+1}' for i in range(len(documents))]
)

# Вывод матрицы Bag of Words
print("Матрица Bag of Words:")
print(bow_df)

Матрица Bag of Words:
            глубокое  зрение  ии  имитирует  интеллект  интеллекта  \
Документ 1         0       0   0          0          0           1   
Документ 2         0       0   0          0          0           0   
Документ 3         1       0   0          0          0           0   
Документ 4         0       0   0          1          1           0   
Документ 5         0       1   1          0          0           0   

            искусственного  искусственный  используются  когнитивные  ...  \
Документ 1               1              0             0            0  ...   
Документ 2               0              0             1            0  ...   
Документ 3               0              0             0            0  ...   
Документ 4               0              1             0            1  ...   
Документ 5               0              0             0            0  ...   

            подраздел  применения  примеры  сети  сетях  функции  человека  \
Документ 1      

Получение списка фичей (слов)

feature_names = count_vectorizer.get_feature_names_out()
Что происходит:
Этот шаг извлекает из обученного CountVectorizer все уникальные слова (или n-граммы), которые были использованы при создании матрицы Bag of Words.

Зачем это нужно:
* Интерпретация результатов: Без этого шага у нас была бы только числовая матрица, но мы не знали бы, какой столбец соответствует какому слову.
* Понимание словаря: Метод get_feature_names_out() возвращает список всех уникальных терминов, которые векторизатор извлек из документов и включил в свой словарь.
* Подготовка к визуализации: Имена признаков необходимы для создания понятной таблицы с метками строк и столбцов.

**Часть 4: Модель TF-IDF**

4.1 Создание матрицы TF-IDF

In [15]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [16]:
# Создание TF-IDF векторизатора
tfidf_vectorizer = TfidfVectorizer()

# Обучение векторизатора и преобразование документов
tfidf_matrix = tfidf_vectorizer.fit_transform(documents)

# Преобразование в DataFrame
tfidf_df = pd.DataFrame(
    tfidf_matrix.toarray(),
    columns=tfidf_vectorizer.get_feature_names_out(),
    index=[f'Документ {i+1}' for i in range(len(documents))]
)

# Вывод матрицы TF-IDF
print("Матрица TF-IDF:")
print(tfidf_df)

Матрица TF-IDF:
            глубокое    зрение        ии  имитирует  интеллект  интеллекта  \
Документ 1  0.000000  0.000000  0.000000   0.000000   0.000000    0.420669   
Документ 2  0.000000  0.000000  0.000000   0.000000   0.000000    0.000000   
Документ 3  0.387757  0.000000  0.000000   0.000000   0.000000    0.000000   
Документ 4  0.000000  0.000000  0.000000   0.408248   0.408248    0.000000   
Документ 5  0.000000  0.377964  0.377964   0.000000   0.000000    0.000000   

            искусственного  искусственный  используются  когнитивные  ...  \
Документ 1        0.420669       0.000000      0.000000     0.000000  ...   
Документ 2        0.000000       0.000000      0.408248     0.000000  ...   
Документ 3        0.000000       0.000000      0.000000     0.000000  ...   
Документ 4        0.000000       0.408248      0.000000     0.408248  ...   
Документ 5        0.000000       0.000000      0.000000     0.000000  ...   

            подраздел  применения   примеры      сет

**Часть 5. Сравнение результатов**

In [17]:
import numpy as np

In [18]:
# Суммируем значения по всем документам для BOW
# Для BOW просто суммируем частоты слов по всем документам
bow_sum = np.sum(bow_matrix.toarray(), axis=0)

# Создаем словарь слово -> суммарная частота
word_bow_dict = dict(zip(feature_names, bow_sum))

# Находим топ-3 слова по BOW (самые частотные в коллекции)
top_bow_words = sorted(word_bow_dict.items(), key=lambda x: x[1], reverse=True)[:3]

print("=== Топ-3 слова по всей коллекции ===\n")
print("Топ-3 слова по BOW (самые частые в коллекции):")
for word, count in top_bow_words:
    print(f"- {word}: {count} раз")

# Для TF-IDF нужно суммировать значения по всем документам
tfidf_sum = np.sum(tfidf_matrix.toarray(), axis=0)

# Создаем словарь слово -> суммарный TF-IDF вес
word_tfidf_dict = dict(zip(feature_names, tfidf_sum))

# Находим топ-3 слова по TF-IDF (с наибольшим суммарным весом по всей коллекции)
top_tfidf_words = sorted(word_tfidf_dict.items(), key=lambda x: x[1], reverse=True)[:3]

print("\nТоп-3 слова по TF-IDF (с наибольшим весом по всей коллекции):")
for word, score in top_tfidf_words:
    print(f"- {word}: {score:.4f}")

# Показываем разницу между списками
print("\nСравнение топ-3 слов:")
bow_words = [word for word, _ in top_bow_words]
tfidf_words = [word for word, _ in top_tfidf_words]

common_words = set(bow_words) & set(tfidf_words)
bow_only = set(bow_words) - common_words
tfidf_only = set(tfidf_words) - common_words

if common_words:
    print(f"Общие слова в обоих топ-3: {', '.join(common_words)}")
if bow_only:
    print(f"Только в BOW топ-3: {', '.join(bow_only)}")
if tfidf_only:
    print(f"Только в TF-IDF топ-3: {', '.join(tfidf_only)}")

=== Топ-3 слова по всей коллекции ===

Топ-3 слова по BOW (самые частые в коллекции):
- обучение: 2 раз
- глубокое: 1 раз
- зрение: 1 раз

Топ-3 слова по TF-IDF (с наибольшим весом по всей коллекции):
- обучение: 0.6522
- интеллекта: 0.4207
- искусственного: 0.4207

Сравнение топ-3 слов:
Общие слова в обоих топ-3: обучение
Только в BOW топ-3: глубокое, зрение
Только в TF-IDF топ-3: интеллекта, искусственного


**Самостоятельная работа**

ЗАДАНИЕ:
1. Предобработайте эти документы (удалите стоп-слова, приведите к нижнему регистру)
2. Создайте матрицу Bag of Words
3. Создайте матрицу TF-IDF
4. Найдите и выведите топ-3 важных слова для каждого документа по Bag of Words
5. Найдите и выведите топ-3 важных слова для каждого документа по TF-IDF
6. Проанализируйте разницу между результатами и объясните её


In [19]:
# Создаем коллекцию документов
exercise_documents = [
    "Япония поражает сочетанием древних традиций и футуристических технологий. Токио с его небоскребами и неоновыми огнями соседствует с тихими храмами и садами. Весной цветение сакуры превращает страну в розовое облако. Японская кухня, от суши до рамена, предлагает уникальные вкусовые ощущения. Синкансэны позволяют комфортно перемещаться между городами.",

    "Исландия — страна потрясающих природных контрастов. Ледники соседствуют с действующими вулканами, а горячие гейзеры бьют среди снежных равнин. Северное сияние зимой и незаходящее солнце летом создают ощущение другой планеты. Голубая лагуна с ее геотермальными водами — идеальное место для расслабления после долгих пеших походов по национальным паркам.",

    "Таиланд привлекает путешественников белоснежными пляжами и кристально чистой водой. Острова Пхукет и Самуи предлагают роскошные курорты и активный отдых. Бангкок поражает контрастами: золотые храмы соседствуют с оживленными рынками и современными торговыми центрами. Тайская кухня с ее острыми ароматами и экзотическими фруктами — отдельное гастрономическое путешествие.",

    "Италия — настоящий музей под открытым небом. Рим хранит наследие древней империи в Колизее и Форуме. Венеция очаровывает каналами и гондолами. Флоренция — сокровищница искусства эпохи Возрождения. Побережье Амальфи и озеро Комо предлагают живописные пейзажи. Итальянская кухня, от пасты до джелато, заслуженно считается одной из лучших в мире.",

    "Перу хранит тайны древних цивилизаций. Мачу-Пикчу, затерянный город инков, привлекает туристов со всего мира. Линии Наска, гигантские рисунки на плато, до сих пор остаются загадкой. Озеро Титикака поражает своими плавучими островами, на которых живут местные племена. Перуанская кухня, с ее свежими морепродуктами и разнообразием картофеля, переживает всемирное признание.",

    "Марокко — это калейдоскоп красок и ароматов. Медины Феса и Марракеша с их узкими улочками и шумными базарами погружают в атмосферу арабских сказок. Пустыня Сахара предлагает незабываемые ночи под звездами в берберских лагерях. Атласские горы привлекают любителей трекинга. Марокканская кухня славится тажинами и кус-кусом, приправленными экзотическими специями.",

    "Новая Зеландия — рай для любителей природы и активного отдыха. Фьорды Милфорд-Саунд, ледники Южных Альп и гейзеры Роторуа демонстрируют разнообразие ландшафтов. Хоббитон, декорации из фильмов «Властелин колец», привлекают поклонников Толкина. Маори, коренное население, сохраняет свою уникальную культуру. Адреналиновые развлечения, от банджи-джампинга до рафтинга, доступны по всей стране.",

    "Кения предлагает классическое африканское сафари. Масаи-Мара, Амбосели и Цаво — национальные парки, где можно увидеть «большую пятерку» африканских животных в их естественной среде. Ежегодная миграция антилоп гну — одно из самых впечатляющих природных зрелищ. Пляжи Момбасы с коралловыми рифами идеальны для дайвинга и снорклинга. Племена масаи и самбуру сохраняют традиционный образ жизни.",

    "Вьетнам сочетает богатую историю и динамичное настоящее. Бухта Халонг с ее карстовыми островами — природное чудо. Хойан очаровывает древними улочками и бумажными фонариками. Дельта Меконга предлагает возможность познакомиться с сельской жизнью. Вьетнамская кухня, от фо до свежих спринг-роллов, покоряет своей свежестью. Система туннелей Ку-Чи напоминает о недавней войне.",

    "Антарктида — последний неосвоенный континент, привлекающий самых отважных путешественников. Круизы из Ушуаи позволяют увидеть айсберги, пингвинов и китов. Пересечение пролива Дрейка — настоящее испытание для морских путешественников. Исследовательские станции разных стран ведут научную работу в суровых условиях. Полуночное солнце летом создает сюрреалистичные пейзажи ледяной пустыни."
]

In [20]:
import re
import nltk
from nltk.corpus import stopwords

stop_words = set(stopwords.words('russian'))

for i in range(len(exercise_documents)):
    exercise_documents[i] = exercise_documents[i].lower()
    exercise_documents[i] = re.sub(r'[^\w\s]', '', exercise_documents[i])

exercise_documents = [
    " ".join([word for word in doc.split() if word not in stop_words])
    for doc in exercise_documents
]

count_vectorizer = CountVectorizer()
bow_matrix = count_vectorizer.fit_transform(exercise_documents)
bow_feature_names = count_vectorizer.get_feature_names_out()

print("\nТоп-3 слова по Bag of Words:\n")

for doc_idx in range(bow_matrix.shape[0]):
    bow_values = bow_matrix[doc_idx].toarray()[0]
    top_indices = np.argsort(bow_values)[-3:][::-1]

    top_words = [(bow_feature_names[i], int(bow_values[i]))
                 for i in top_indices if bow_values[i] > 0]
    print(f"Документ {doc_idx + 1}: {top_words}")

tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(exercise_documents)
tfidf_feature_names = tfidf_vectorizer.get_feature_names_out()

def tfidf_top3_words(tfidf_matrix, feature_names, top_n=3):
    print("\nТоп-3 слова по TF-IDF:\n")

    for doc_idx in range(tfidf_matrix.shape[0]):
        tfidf_values = tfidf_matrix[doc_idx].toarray()[0]
        top_indices = np.argsort(tfidf_values)[-top_n:][::-1]

        top_words = [(feature_names[i], round(float(tfidf_values[i]), 3))
                     for i in top_indices if tfidf_values[i] > 0]
        
        print(f"Документ {doc_idx + 1}: {top_words}")

tfidf_top3_words(tfidf_matrix, tfidf_feature_names)


Топ-3 слова по Bag of Words:

Документ 1: [('цветение', 1), ('городами', 1), ('уникальные', 1)]
Документ 2: [('северное', 1), ('создают', 1), ('равнин', 1)]
Документ 3: [('чистой', 1), ('отдых', 1), ('отдельное', 1)]
Документ 4: [('возрождения', 1), ('древней', 1), ('джелато', 1)]
Документ 5: [('своими', 1), ('переживает', 1), ('поражает', 1)]
Документ 6: [('сказок', 1), ('базарами', 1), ('шумными', 1)]
Документ 7: [('стране', 1), ('сохраняет', 1), ('банджиджампинга', 1)]
Документ 8: [('африканское', 1), ('среде', 1), ('пятерку', 1)]
Документ 9: [('свежих', 1), ('сочетает', 1), ('предлагает', 1)]
Документ 10: [('путешественников', 2), ('пересечение', 1), ('пейзажи', 1)]

Топ-3 слова по TF-IDF:

Документ 1: [('цветение', 0.175), ('городами', 0.175), ('уникальные', 0.175)]
Документ 2: [('северное', 0.171), ('создают', 0.171), ('равнин', 0.171)]
Документ 3: [('острыми', 0.173), ('оживленными', 0.173), ('храмы', 0.173)]
Документ 4: [('возрождения', 0.169), ('древней', 0.169), ('джелато', 