Выполнил: Драгомирский Даглар Сарматович

Группа: РИМ-220963

### ДОМАШНЕЕ ЗАДАНИЕ №2
В первой части проекта вы реализовывали классификацию при помощи эвристик и методов классического ML поверх векторизованных слов.

В этой части нужно решить эту же задачу при помощи RNN.



#### ЗАДАЧА
Обучите несколько моделей рекуррентных нейронных сетей, например LSTM, GRU, Bidirectional-LSTM.
Посчитайте значение метрики, которую вы предложили в части 1 и сравните результаты для разных RNN, эвристик и классического ML.


#### РЕЗУЛЬТАТ:
Jupyter-notebook с реализацией требуемых методов.

Эту часть проекта мы будем оценивать по тем же критериям:

Полнота выполненной работы;
Общее качество кода и следование PEP-8;
Итоговое значение метрики качества.


#### ПОДСКАЗКИ:
При работе с RNN можно экспериментировать не только с типом слоя, но и с гиперпараметрами.
«Сравнить результаты» означает не просто посчитать метрику для разных методов, но и сделать вывод о том, что сработало лучше
Не забудьте реализовать валидационную выборку и на ней отследить, что модель не переобучилась.

# ВАЖНАЯ ИНФА

1. При решении д\з с использованием  PyTorch столкнулся со значительными трудностями. В итоге было принято решение использовать tensorflow
2. Используем уже обработанный датасет из 1-го д\з

# Подключение необходимых библиотек

In [1]:
import os
from pathlib import Path
from typing import Literal

import numpy as np
import pandas as pd
from google.colab import drive

from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split

from tensorflow.keras import Sequential, layers
from tensorflow.keras.losses import SparseCategoricalCrossentropy
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.preprocessing.text import Tokenizer


drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


## CONSTANTS

In [2]:
DATA_FOLDER = os.path.abspath("/content/drive/MyDrive/data/NLP/HW/")
MODELS_FOLDER = os.path.join(DATA_FOLDER, "models")
Path(MODELS_FOLDER).mkdir(parents=True, exist_ok=True)
PREPROCESSED_CSV = os.path.join(DATA_FOLDER, "data_preprocessed.csv")
EVAL_CSV = os.path.join(DATA_FOLDER, "evaluate.csv")
EVAL_CSV_NEW = os.path.join(DATA_FOLDER, "evaluate_new.csv")
EVAL_CSV_RATING = os.path.join(DATA_FOLDER, "evaluate_rating.csv")

# Загрузка данных

In [3]:
# Используем уже обработанный датасет из 1-го д\з:
preprocessed_df = pd.read_csv(PREPROCESSED_CSV)
preprocessed_df = preprocessed_df.dropna().reset_index(drop=True)
preprocessed_df

Unnamed: 0,text,sentiment,text_clean,text_stemmer,text_lemma,text_split,text_symbols_n,text_list_len,text_set_len
0,@MeNyrbie @Phil_Gahan @Chrisitv https://t.co/i...,3,menyrbie philgahan chrisitv,menyrbi philgahan chrisitv,menyrbie philgahan chrisitv,"['menyrbie', 'philgahan', 'chrisitv']",27,3,3
1,advice Talk to your neighbours family to excha...,4,advice talk neighbours family exchange phone n...,advic talk neighbour famili exchang phone numb...,advice talk neighbour family exchange phone nu...,"['advice', 'talk', 'neighbours', 'family', 'ex...",196,27,24
2,Coronavirus Australia: Woolworths to give elde...,4,coronavirus australia woolworths give elderly ...,coronavirus australia woolworth give elder dis...,coronavirus australia woolworth give elderly d...,"['coronavirus', 'australia', 'woolworths', 'gi...",99,12,12
3,My food stock is not the only one which is emp...,4,food stock one empty please nt panic enough fo...,food stock one empti pleas nt panic enough foo...,food stock one empty please nt panic enough fo...,"['food', 'stock', 'one', 'empty', 'please', 'n...",170,23,20
4,"Me, ready to go at supermarket during the #COV...",1,ready go supermarket covid outbreak m paranoid...,readi go supermarket covid outbreak m paranoid...,ready go supermarket covid outbreak m paranoid...,"['ready', 'go', 'supermarket', 'covid', 'outbr...",187,23,23
...,...,...,...,...,...,...,...,...,...
41135,Airline pilots offering to stock supermarket s...,3,airline pilots offering stock supermarket shel...,airlin pilot offer stock supermarket shelv nz ...,airline pilot offering stock supermarket shelf...,"['airline', 'pilots', 'offering', 'stock', 'su...",67,9,9
41136,Response to complaint not provided citing COVI...,1,response complaint provided citing covid relat...,respons complaint provid cite covid relat dela...,response complaint provided citing covid relat...,"['response', 'complaint', 'provided', 'citing'...",108,16,16
41137,You know itÂs getting tough when @KameronWild...,4,know getting tough kameronwilds rationing toil...,know get tough kameronwild ration toilet paper...,know getting tough kameronwilds rationing toil...,"['know', 'getting', 'tough', 'kameronwilds', '...",106,13,13
41138,Is it wrong that the smell of hand sanitizer i...,3,wrong smell hand sanitizer starting turn coron...,wrong smell hand sanit start turn coronavirus ...,wrong smell hand sanitizer starting turn coron...,"['wrong', 'smell', 'hand', 'sanitizer', 'start...",70,9,8


In [4]:
# Так же используем таблицу с оценками способов предсказания:
eval_df = pd.read_csv(EVAL_CSV)
eval_df

Unnamed: 0,method,accuracy
0,random,0.200219
1,most_popular,0.279917
2,unique_words,0.301664
3,multinomial_naive_bayes,0.443203
4,random_forest_classifier,0.526303


# Подготовка данных

Масштабируем оценки [1; 5] (где 1-негативно, 5-позитивно) -> в диапазон [0; 4]:

In [5]:
preprocessed_df["sentiment"] = preprocessed_df["sentiment"].apply(lambda x: x - 1)

Разделим на:
- предикторы
- target (собственно оценку текста):

In [6]:
X = preprocessed_df["text_clean"]
y = preprocessed_df["sentiment"].values

In [7]:
MAX_LEN = 50

# Токенизация текста
tokenizer = Tokenizer()
tokenizer.fit_on_texts(X)
X = tokenizer.texts_to_sequences(X)

# паддинг
X = pad_sequences(X, padding='post', maxlen=MAX_LEN)
MAX_VOCAB_SIZE = len(tokenizer.word_index)
print(f"Vocabulary size = {MAX_VOCAB_SIZE}")
print(f"X.shape = {X.shape}")

Vocabulary size = 55583
X.shape = (41140, 50)


Токенизированный текст -> train + test:

In [8]:
X_train, X_test, y_train, y_test = train_test_split(
    X,
    y,
    stratify=y,
    test_size=0.1,
    random_state=42,
)
X_train[4]

array([  220,   890,   811,     2,  1476, 23511,  2578,   579, 11049,
       23512,   796,   117,    26,     7,    56,    82,   178,  2115,
         115,  8825,  7446,   440,   827,     0,     0,     0,     0,
           0,     0,     0,     0,     0,     0,     0,     0,     0,
           0,     0,     0,     0,     0,     0,     0,     0,     0,
           0,     0,     0,     0,     0], dtype=int32)

In [9]:
# Ключевые константы + гиперпараметры:
EMBEDDING_DIM = 16
HIDDEN_DIM = 256
OUTPUT_SIZE = 5
VOCAB_SIZE = MAX_VOCAB_SIZE + 1
BATCH_SIZE = 16
LEARNING_RATE = 0.001
NUM_EPOCHS = 3
DROPOUT = 0.3
VALIDATION_SPLIT = 0.1

In [10]:
# Зададим класс MyNlp, в рамках которого будем задавать одну из нейросеток (GRU, LSTM, BDLSTM) -> активацию в главном слое -> обучение + тестирование модели на наших test/train данных:
class MyNlp:
    def __init__(
        self,
        model_type: Literal["GRU", "LSTM", "BDLSTM"],
        activation: str,
        epoch: int = NUM_EPOCHS,
        hidden_dim: int = HIDDEN_DIM,
        vocab_size: int = VOCAB_SIZE,
        embedding_dim: int = EMBEDDING_DIM,
        input_length: int = MAX_LEN,
        output_size: int = OUTPUT_SIZE,
        batch_size: int = BATCH_SIZE,
        dropout: float = DROPOUT,
        validation_split: float = VALIDATION_SPLIT,
    ) -> None:
        self.model_name = f"{model_type}_{activation}"
        if model_type == "GRU":
            self.main_layer = layers.GRU(
                hidden_dim,
                return_sequences=True,
            )
        elif model_type == "LSTM":
            self.main_layer = layers.LSTM(
                hidden_dim,
                return_sequences=True,
            )
        elif model_type == "BDLSTM":
            self.main_layer = layers.Bidirectional(
                layers.LSTM(
                    hidden_dim,
                    return_sequences=True,
                )
            )
        else:
            raise ValueError('`model_type` should be one of "GRU", "LSTM", "BDLSTM"')
        self.model = Sequential(
            [
                layers.Embedding(
                    vocab_size,
                    embedding_dim,
                    input_length=input_length,
                ),
                self.main_layer,  # Main nlp layer depending on model type
                layers.GlobalMaxPool1D(),
                layers.Dropout(dropout),
                layers.Dense(
                    64,
                    activation=activation,
                ),
                layers.Dropout(dropout),
                layers.Dense(output_size),
            ],
            name=self.model_name,
        )
        self.optimizer = Adam()
        self.epoch = epoch
        self.validation_split = validation_split
        self.batch_size = batch_size

    def _print_line(self, item: str = "_") -> None:
        print(item * 65)

    def compile(self) -> None:
        self.model.compile(
            loss=SparseCategoricalCrossentropy(from_logits=True),
            optimizer=self.optimizer,
            metrics=["accuracy"],
        )
        self.model.summary()
        print("\n\n")

    def train(self, X, y) -> None:
        print(f"Start training model `{self.model_name}`:")
        self._print_line()
        self.history = self.model.fit(
            X,
            y,
            epochs=self.epoch,
            validation_split=self.validation_split,
            batch_size=self.batch_size,
        )
        self._print_line()
        print("\n\n")

    def test(self, X, y) -> None:
        print(f"Start testing model `{self.model_name}`:")
        self._print_line()
        y_predicted = np.argmax(
            self.model.predict(X),
            axis=1,
        )
        self.accuracy = accuracy_score(y_predicted, y)
        print(f"Test Accuracy: {round(self.accuracy, 6)}")
        self._print_line("**")
        print("\n\n\n")

    def add_info_to_df(self, df) -> None:
        df.loc[len(df)] = [
            self.model_name,
            self.accuracy,
        ]

    def save_model(self) -> None:
        self.model.save(os.path.join(MODELS_FOLDER, f"{self.model_name}.keras"))

    def train_test_pipeline(
        self,
        X_train,
        y_train,
        X_test,
        y_test,
        df,
    ) -> None:
        self.compile()
        self.train(X_train, y_train)
        self.test(X_test, y_test)
        self.add_info_to_df(df)
        self.save_model()

Обучаем 3 нейросети -> для каждой 3 типа активации (elu, relu, leaky_relu):

In [11]:
for model_type in ["GRU", "LSTM", "BDLSTM"]:
    for activation in ["elu", "relu", "leaky_relu"]:
        model = MyNlp(model_type, activation)
        model.train_test_pipeline(X_train, y_train, X_test, y_test, eval_df)

Model: "GRU_elu"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 embedding (Embedding)       (None, 50, 16)            889344    
                                                                 
 gru (GRU)                   (None, 50, 256)           210432    
                                                                 
 global_max_pooling1d (Glob  (None, 256)               0         
 alMaxPooling1D)                                                 
                                                                 
 dropout (Dropout)           (None, 256)               0         
                                                                 
 dense (Dense)               (None, 64)                16448     
                                                                 
 dropout_1 (Dropout)         (None, 64)                0         
                                                           

In [12]:
# Результаты
eval_df.to_csv(EVAL_CSV_NEW, index=False)
eval_df

Unnamed: 0,method,accuracy
0,random,0.200219
1,most_popular,0.279917
2,unique_words,0.301664
3,multinomial_naive_bayes,0.443203
4,random_forest_classifier,0.526303
5,GRU_elu,0.724113
6,GRU_relu,0.726787
7,GRU_leaky_relu,0.708556
8,LSTM_elu,0.717793
9,LSTM_relu,0.719494


In [13]:
# Сортировка + рейтинг моделек:
eval_df_sorted = eval_df.sort_values(by="accuracy", ascending=False).reset_index(drop=True)
eval_df_sorted.to_csv(EVAL_CSV_RATING, index=False)
eval_df_sorted

Unnamed: 0,method,accuracy
0,LSTM_leaky_relu,0.736753
1,BDLSTM_relu,0.730919
2,BDLSTM_leaky_relu,0.727759
3,GRU_relu,0.726787
4,GRU_elu,0.724113
5,LSTM_relu,0.719494
6,LSTM_elu,0.717793
7,BDLSTM_elu,0.711473
8,GRU_leaky_relu,0.708556
9,random_forest_classifier,0.526303


# Вывод

Результаты моделей, на основе нейросетей показали примерно одинаковый результат (точность более 70%) что значительно лучше тех же моделей classic ML.
При прогоне несколько раз - результаты могут отличаться, но в среднем все справляются нормально. (Разве что GRU и leaky_relu чаще других выбивались в лидеры).