In [None]:
!pip install nltk pandas pymorphy3

In [None]:
import nltk

nltk.download('punkt_tab') # пакет для токенизации
nltk.download('stopwords') # стоп-слова

import pymorphy3

Мы будем анализировать датасет отзывов на предмет того, является ли отзыв положительным, нейтральным или отрицательным. Датасет лежит [здесь](women_clothing_reviews.csv)

### Загрузка датасета

In [None]:
import pandas as pd

# Пример загрузки CSV файла
df = pd.read_csv('women_clothing_reviews.csv')

df.head()

In [None]:
texts = df['text_column_name']
labels = df['label_column_name']

### Подготовка данных

Для проведения частотного анализа и определения тематики текста рекомендуется выполнить очистку текста от знаков пунктуации, лишних пробельных символов и цифр. Сделать это можно различными способами – с помощью встроенных функций работы со строками, с помощью регулярных выражений, с помощью операций обработки списков или другим способом.

Вам нужно
- удалить пунктуацию
- привести слова в нижний регистр
- разбить предложения на токены
- лемматизировать текст
- удалить стоп-слова

In [3]:
# подсказка для удаления пунктуации
import string

print(string.punctuation)

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~


#### Токенизация

Для последующей обработки очищенный текст необходимо разбить на составные части – токены. В анализе текста на естественном языке применяется разбиение на символы, слова и предложения. Процесс разбиения называется токенизация. Для нашей задачи частотного анализа необходимо разбить текст на слова. Для этого можно использовать готовый метод библиотеки NLTK:

In [None]:
# пример токенизации
from nltk import word_tokenize

text = "Ах, как же нравится ездить в 'Сапсане' по маршруту Москва-Петербург; каждый раз как-то удивляюсь видам, проносящимся из-за окна!"

text_tokens = word_tokenize(text, language="russian")
text_tokens

#### Лемматизация

Лемматизация сводит слова к их лемме — это сложный процесс, который учитывает морфологический анализ слов. Лемматизация обрабатывает слова, приводя их к словарной форме. Для русского можно пользоваться лемматизацией из nltk, можно из pymorphy (документация [тут](https://pymorphy2.readthedocs.io/en/stable/), нужно устанавливать и пользоваться pymorphy3, потому что версия 2 не рабоатет на новых версиях питона)

In [None]:
# пример получения разборов для слова

morph = pymorphy3.MorphAnalyzer()
morph.parse('стали')

#### Удаление стоп-слов
К стоп-словам (или шумовым словам), как правило, относят предлоги, союзы, междометия, частицы и другие части речи, которые часто встречаются в тексте, являются служебными и не несут смысловой нагрузки – являются избыточными.

Библиотека NLTK содержит готовые списки стоп-слов для различных языков. Получим список стоп-слов для русского языка:

In [None]:
from nltk.corpus import stopwords
russian_stopwords = stopwords.words("russian")
russian_stopwords

#### Задание (2 балла)

Напишите функцию, которая предобрабатывает текст

Вам нужно
- удалить пунктуацию
- привести слова в нижний регистр
- разбить предложения на токены
- лемматизировать текст
- удалить стоп-слова

Посчитайте, сколько времени это занимает на всем датасете. Подсказка: используйте библиотеку tqdm. Сохраните предобработанный текст в отдельной переменной

In [None]:
### ВАШ КОД ЗДЕСЬ

#### Разделение выборки

Разделите выборку с предобработкой на обучающую (80%) и тестовую (20%) часть. Сделайте то же с выборкой без предобработки

In [None]:
### ВАШ КОД ЗДЕСЬ

#### Кодирование текста (2 балла)

Используйте следующие методы кодирования текста:

**Bag of Words (BoW):**
- Преобразуйте текст в числовой формат, используя метод мешка слов.
- Используйте CountVectorizer из библиотеки sklearn.

**TF-IDF:**
- Преобразуйте текст в числовой формат, используя метод TF-IDF.
- Используйте TfidfVectorizer из библиотеки sklearn.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

### Пример работы с Bag of words

vectorizer_bow = CountVectorizer()
X_train_bow = vectorizer_bow.fit_transform(X_train)
X_test_bow = vectorizer_bow.transform(X_test)

### Пример работы с TF-IDF
vectorizer_tfidf = TfidfVectorizer()
X_train_tfidf = vectorizer_tfidf.fit_transform(X_train)
X_test_tfidf = vectorizer_tfidf.transform(X_test)

Посмотрите на внутренности BoW и TF-IDF 

#### Обучение модели (2 балла)

Обучите модель классификации (например, Logistic Regression) на каждом из закодированных представлений текста. Используйте библиотеку sklearn обучения. Обратите внимание, что вам может потребоваться кодировать метки классов в числа (например, negative = -1, positive = 1, neutral = 0)

Оцените качество модели на тестовой выборке, используя метрики:

- Точность (Accuracy).
- F1-мера (F1-score) для каждого класса.


Итого у вас должны получиться модели для
- Непредобработанного текста с BoW векторайзером
- Непредобработанного текста с Tf-IDF векторайзером
- Предобработанного текста с BoW векторайзером
- Предобработанного текста с Tf-IDF векторайзером

Сравните результаты на метриках. **Напишите выводы**

In [None]:
### Пример

# Обучение модели на Bag of Words
model_bow = LogisticRegression(multi_class="multinomial", solver="lbfgs")
model_bow.fit(X_train_bow, y_train)

# Оценка модели на Bag of Words
y_pred_bow = model_bow.predict(X_test_bow)
print("Bag of Words:")
print("Accuracy:", accuracy_score(y_test, y_pred_bow))
print("F1-score (по классам):", f1_score(y_test, y_pred_bow, average=None))
print("Classification Report:\n", classification_report(y_test, y_pred_bow))
print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred_bow))

**(+2 допбалла к домашке)** Напишите сами пару выдуманных отзывов и получите предсказания на них на лучшей модели. 
Не забудьте про то, что текст перед подачей нужно предобрабатывать и векторизовать. Предсказания сошлись с ожиданиями?

#### Получение векторных представлений и обучение модели на них

Мы обсуждали, что есть уже готовые модели, которые выдают для слов вектора, опираясь на гипотезу дистрибутивности - для слов с похожими контекстами вектора будут похожими. 

Давайте скачаем новейшую модель для русского языка, созданную на основе Национального корпуса русского языка (НКРЯ), и загрузим в её в память (поскольку zip-архив с моделью весит почти 500 мегабайт, следующая ячейка выполнится у вас не сразу!). Распаковывать скачанный архив для обычных моделей не нужно, так как его содержимое прочитается при помощи специальной инструкции

In [4]:
!pip install wget gensim



In [5]:
import wget
import gensim

In [6]:
import zipfile
model_url = 'http://vectors.nlpl.eu/repository/20/180.zip'
m = wget.download(model_url)
model_file = model_url.split('/')[-1]
with zipfile.ZipFile(model_file, 'r') as archive:
   stream = archive.open('model.bin')
   model = gensim.models.KeyedVectors.load_word2vec_format(stream, binary=True)

#### Задание: Получение векторов из модели для текста (3 балла)

Для каждого текста нужно получить вектор каждого слова, а затем усреднить их (np.mean), чтобы получить один вектор для всего текста.
Ниже дан пример, как нужно получать вектор из модели для одного слова. Обратите внимание, что к слову нужно прибавлять его часть речи, вы можете это сделать например при разборе через pymorphy3, [вот список используемых частей речи](https://universaldependencies.org/u/pos/all.html)

In [None]:
### вот как получается вектор из модели

word = "лицей_NOUN"
model[word]

Обратите внимание, не все слова могут быть доступны в модели, это нужно обрабатывать

In [8]:
word = "вайб_NOUN"

model[word]

KeyError: "Key 'вайб_NOUN' not present"

#### Обучение модели (1 балл)

На полученных вектроах для текста обучите ту же модель, которую вы обучали для классификации. Посчитайте метрики. Сделайте выводы.