# Практическая работа 5: Работа с текстом. Мешок слов
## Цель
Изучить основы работы с текстовыми данными и создание мешка слов для представления текстов в виде числовых признаков.

## Шаги выполнения
1. Изучение предобработки текстовых данных.
2. Программирование создания мешка слов.
3. Использование мешка слов в модели машинного обучения.


## Дополнительные задания.
### Библиотека
scikit-learn

## Исходные данные
* Пример текстовых данных для обучения и тестирования модели.
* Изучение предобработки текстовых данных
* Предобработка текстовых данных включает:

### Необходимо реализовать
* Токенизацию: разделение текста на отдельные слова (токены).
* Удаление стоп-слов: исключение из текста часто встречающихся слов, не несущих смысловой нагрузки (например, "и", "в", "на").
Приведение к нижнему регистру: унификация текста для уменьшения количества различных токенов.
* Программирование создания мешка слов

In [1]:
from sklearn.feature_extraction.text import CountVectorizer

# Пример текстовых данных
documents = [
    "This is the first document.",
    "This document is the second document.",
    "And this is the third one.",
    "Is this the first document?",
]

# Инициализация счетчика слов
count_vectorizer = CountVectorizer()

# Преобразование текста в мешок слов
bag_of_words = count_vectorizer.fit_transform(documents)

# Вывод словаря (токенов)
print("Vocabulary:", count_vectorizer.get_feature_names_out())

# Вывод матрицы мешка слов
print("Bag of Words Matrix:")
print(bag_of_words.toarray())

Vocabulary: ['and' 'document' 'first' 'is' 'one' 'second' 'the' 'third' 'this']
Bag of Words Matrix:
[[0 1 1 1 0 0 1 0 1]
 [0 2 0 1 0 1 1 0 1]
 [1 0 0 1 1 0 1 1 1]
 [0 1 1 1 0 0 1 0 1]]


## Использование мешка слов в модели машинного обучения

In [2]:
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB

# Пример текстовых данных и их меток
texts = ["This is good", "This is bad", "This is terrible", "This is awesome"]
labels = ["positive", "negative", "negative", "positive"]

# Разделение данных на обучающий и тестовый наборы
X_train, X_test, y_train, y_test = train_test_split(texts, labels, test_size=0.2, random_state=42)

# Преобразование текстов в мешок слов
count_vectorizer.fit(texts)  # Нужно подогнать векторизатор на всём наборе данных
X_train_bag_of_words = count_vectorizer.transform(X_train)
X_test_bag_of_words = count_vectorizer.transform(X_test)

# Инициализация и обучение модели
model = MultinomialNB()
model.fit(X_train_bag_of_words, y_train)

# Оценка производительности модели
accuracy = model.score(X_test_bag_of_words, y_test)
print("Model Accuracy:", accuracy)


Model Accuracy: 0.0


## Дополнительные задания
Исследование влияния различных параметров создания мешка слов:
Изучите влияние минимальной и максимальной частоты слов, использование n-грамм на производительность модели.

In [4]:
# Пример использования параметров минимальной и максимальной частоты слов и n-грамм
count_vectorizer = CountVectorizer(min_df=1, max_df=0.75, ngram_range=(1, 2))

# Преобразование текста в мешок слов с новыми параметрами
count_vectorizer.fit(documents)
bag_of_words = count_vectorizer.transform(documents)

# Вывод словаря (токенов) и матрицы мешка слов с новыми параметрами
print("Vocabulary with n-grams:", count_vectorizer.get_feature_names_out())
print("Bag of Words Matrix with n-grams:")
print(bag_of_words.toarray())


Vocabulary with n-grams: ['and' 'and this' 'document' 'document is' 'first' 'first document'
 'is the' 'is this' 'one' 'second' 'second document' 'the first'
 'the second' 'the third' 'third' 'third one' 'this document' 'this is'
 'this the']
Bag of Words Matrix with n-grams:
[[0 0 1 0 1 1 1 0 0 0 0 1 0 0 0 0 0 1 0]
 [0 0 2 1 0 0 1 0 0 1 1 0 1 0 0 0 1 0 0]
 [1 1 0 0 0 0 1 0 1 0 0 0 0 1 1 1 0 1 0]
 [0 0 1 0 1 1 0 1 0 0 0 1 0 0 0 0 0 0 1]]


### Реализация альтернативных методов представления текста, таких как TF-IDF:

In [5]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Инициализация TF-IDF векторизатора
tfidf_vectorizer = TfidfVectorizer()

# Преобразование текста в TF-IDF представление
tfidf_matrix = tfidf_vectorizer.fit_transform(documents)

# Вывод словаря (токенов)
print("TF-IDF Vocabulary:", tfidf_vectorizer.get_feature_names_out())

# Вывод матрицы TF-IDF
print("TF-IDF Matrix:")
print(tfidf_matrix.toarray())

# Применение TF-IDF к модели машинного обучения
tfidf_vectorizer.fit(texts)  # Нужно подогнать векторизатор на всём наборе данных
X_train_tfidf = tfidf_vectorizer.transform(X_train)
X_test_tfidf = tfidf_vectorizer.transform(X_test)

# Инициализация и обучение модели
model_tfidf = MultinomialNB()
model_tfidf.fit(X_train_tfidf, y_train)

# Оценка производительности модели
accuracy_tfidf = model_tfidf.score(X_test_tfidf, y_test)
print("Model Accuracy with TF-IDF:", accuracy_tfidf)


TF-IDF Vocabulary: ['and' 'document' 'first' 'is' 'one' 'second' 'the' 'third' 'this']
TF-IDF Matrix:
[[0.         0.46979139 0.58028582 0.38408524 0.         0.
  0.38408524 0.         0.38408524]
 [0.         0.6876236  0.         0.28108867 0.         0.53864762
  0.28108867 0.         0.28108867]
 [0.51184851 0.         0.         0.26710379 0.51184851 0.
  0.26710379 0.51184851 0.26710379]
 [0.         0.46979139 0.58028582 0.38408524 0.         0.
  0.38408524 0.         0.38408524]]
Model Accuracy with TF-IDF: 0.0


## Заключение
В данной практической работе были изучены основы работы с текстовыми данными и создание мешка слов для представления текстов в виде числовых признаков. Были реализованы этапы предобработки текста, создание мешка слов, а также его применение в модели машинного обучения. Дополнительно были исследованы различные параметры создания мешка слов и реализация альтернативного метода представления текста (TF-IDF).