# Задание 1. Мешок слов

In [2]:
# Исходные тексты
text1 = "The cat sat on the mat."
text2 = "A cat is on the mat."

# Создаем мешки слов (приводим все к нижнему регистру)
bow1 = text1.lower().strip('.').split()
bow2 = text2.lower().strip('.').split()

# Создаем словарь уникальных слов
unique_words = sorted(set(bow1 + bow2))
print("Словарь уникальных слов:", unique_words)

# Расчет частоты слов для каждого текста
freq_text1 = {}
freq_text2 = {}

# Подсчет для текста 1
for word in unique_words:
    freq_text1[word] = bow1.count(word)

# Подсчет для текста 2
for word in unique_words:
    freq_text2[word] = bow2.count(word)

print("\nЧастота слов в тексте 1:")
for word, freq in freq_text1.items():
    print(f"{word}: {freq}")

print("\nЧастота слов в тексте 2:")
for word, freq in freq_text2.items():
    print(f"{word}: {freq}")

# Создаем векторные представления
vector1 = [bow1.count(word) for word in unique_words]
vector2 = [bow2.count(word) for word in unique_words]

print("\nВекторное представление текста 1:", vector1)
print("Векторное представление текста 2:", vector2)

Словарь уникальных слов: ['a', 'cat', 'is', 'mat', 'on', 'sat', 'the']

Частота слов в тексте 1:
a: 0
cat: 1
is: 0
mat: 1
on: 1
sat: 1
the: 2

Частота слов в тексте 2:
a: 1
cat: 1
is: 1
mat: 1
on: 1
sat: 0
the: 1

Векторное представление текста 1: [0, 1, 0, 1, 1, 1, 2]
Векторное представление текста 2: [1, 1, 1, 1, 1, 0, 1]


# Задание 2. Косинусная мера сходства

In [3]:
import numpy as np
from collections import Counter

# Исходные документы
doc1 = "Data science is the future of technology"
doc2 = "Technology is evolving with data science"

# Шаг 1: Создаем словарь уникальных слов
def create_vocabulary(doc1, doc2):
    # Преобразуем тексты в нижний регистр и разбиваем на слова
    words1 = doc1.lower().split()
    words2 = doc2.lower().split()
    # Создаем множество уникальных слов
    vocabulary = sorted(set(words1 + words2))
    return vocabulary

# Шаг 2: Создаем векторы документов
def create_vector(doc, vocabulary):
    # Считаем частоту слов в документе
    word_counts = Counter(doc.lower().split())
    # Создаем вектор на основе словаря
    vector = [word_counts[word] for word in vocabulary]
    return vector

# Шаг 3: Вычисляем косинусное сходство
def cosine_similarity(vec1, vec2):
    dot_product = np.dot(vec1, vec2)
    norm1 = np.linalg.norm(vec1)
    norm2 = np.linalg.norm(vec2)
    return dot_product / (norm1 * norm2)

# Создаем словарь
vocabulary = create_vocabulary(doc1, doc2)
print("Словарь:", vocabulary)

# Создаем векторы для документов
vector1 = create_vector(doc1, vocabulary)
vector2 = create_vector(doc2, vocabulary)
print("\nВектор документа 1:", vector1)
print("Вектор документа 2:", vector2)

# Вычисляем косинусное сходство
similarity = cosine_similarity(vector1, vector2)
print(f"\nКосинусное сходство: {similarity:.4f}")

Словарь: ['data', 'evolving', 'future', 'is', 'of', 'science', 'technology', 'the', 'with']

Вектор документа 1: [1, 0, 1, 1, 1, 1, 1, 1, 0]
Вектор документа 2: [1, 1, 0, 1, 0, 1, 1, 0, 1]

Косинусное сходство: 0.6172


# Задание 3. Векторное представление документа

In [7]:
import numpy as np
from collections import Counter

# Исходные тексты
text1 = "Artificial intelligence is changing the world"
text2 = "The world is being shaped by artificial intelligence"

def preprocess_text(text):
    """Предобработка текста: приведение к нижнему регистру"""
    return text.lower().split()

def create_bag_of_words(texts):
    """Создание мешка слов из списка текстов"""
    # Объединяем все слова и создаем словарь уникальных слов
    all_words = []
    for text in texts:
        all_words.extend(preprocess_text(text))
    vocabulary = sorted(set(all_words))

    # Создаем словарь с индексами для каждого слова
    word_to_index = {word: idx for idx, word in enumerate(vocabulary)}
    return vocabulary, word_to_index

def create_vector(text, word_to_index):
    """Создание векторного представления текста"""
    vector = [0] * len(word_to_index)
    words = preprocess_text(text)
    word_counts = Counter(words)

    for word, count in word_counts.items():
        if word in word_to_index:
            vector[word_to_index[word]] = count
    return vector

def cosine_similarity(vec1, vec2):
    """Вычисление косинусного сходства между векторами"""
    dot_product = np.dot(vec1, vec2)
    norm1 = np.linalg.norm(vec1)
    norm2 = np.linalg.norm(vec2)
    return dot_product / (norm1 * norm2)

# 1. Создаем мешок слов
vocabulary, word_to_index = create_bag_of_words([text1, text2])
print("Мешок слов (словарь):")
for idx, word in enumerate(vocabulary):
    print(f"{idx + 1}. {word}")

# 2. Создаем векторные представления текстов
vector1 = create_vector(text1, word_to_index)
vector2 = create_vector(text2, word_to_index)

print("\nВекторное представление текста 1:")
for word, idx in word_to_index.items():
    if vector1[idx] > 0:
        print(f"{word}: {vector1[idx]}")
print(vector1)

print("\nВекторное представление текста 2:")
for word, idx in word_to_index.items():
    if vector2[idx] > 0:
        print(f"{word}: {vector2[idx]}")
print(vector2)

# 3. Вычисляем косинусное сходство
similarity = cosine_similarity(vector1, vector2)
print(f"\nКосинусное сходство между текстами: {similarity:.4f}")

Мешок слов (словарь):
1. artificial
2. being
3. by
4. changing
5. intelligence
6. is
7. shaped
8. the
9. world

Векторное представление текста 1:
artificial: 1
changing: 1
intelligence: 1
is: 1
the: 1
world: 1
[1, 0, 0, 1, 1, 1, 0, 1, 1]

Векторное представление текста 2:
artificial: 1
being: 1
by: 1
intelligence: 1
is: 1
shaped: 1
the: 1
world: 1
[1, 1, 1, 0, 1, 1, 1, 1, 1]

Косинусное сходство между текстами: 0.7217
