<a href="https://colab.research.google.com/github/Vakhranev/Compling/blob/master/Vakhranyov_AY_Deep_learning_Sentiment_Analysis.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

В этом проекте я постарался с помощью предобученного берта сделать предсказания для текста на сентимент-анализ. Я взял датасет Sentiment Analysis Dataset.csv он есть здесь (https://github.com/vineetdhanawat/twitter-sentiment-analysis/blob/master/datasets/Sentiment%20Analysis%20Dataset.csv). Пояснений к нему, к сожалению, нет, поэтому точно сказать не могу, но, судя по всему, представленные в нём разбиты следующим образом: целевой класс (представлены единицей) — твиты с положительно-окрашенным мнением, всё остальное — представлено нулями. Помимо того, что я попробовал замерять лоссы на эпохах, также я использовал ф-меру для оценки модели.

В последнее время применение глубокого обучения для решения проблемы сентимент-анализа стало популярной темой исследований. Существуют различные архитектуры глубокого обучения и технологии, которые применяют для подобного рода анализа: эмбеддинги, автоэнкодеры, CNN, RNN, LSTM, применение аттеншн-механизма в RNN, MemNN, RecNN. Многие из этих методов глубокого обучения показали отличные результаты для различных задач сентимент-анализа. Если верить научным работам по теме, которые я просмотрел, то с развитием исследований и приложений глубокого обучения в ближайшем будущем появятся более интересные исследования применения глубокого обучения для сентимент-анализа.

In [16]:
!pip install transformers
import pandas as pd
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased')
data = pd.read_csv("Sentiment Analysis Dataset.csv", header= None)
max_len = 512



  interactivity=interactivity, compiler=compiler, result=result)


In [17]:
data = data[:5000]
data.columns = ["id", "sentiment", "text"]

In [18]:
from sklearn.preprocessing import LabelEncoder
label_encoder = LabelEncoder()
data["id"] = label_encoder.fit_transform(data["id"])
data["sentiment"] = label_encoder.fit_transform(data["sentiment"])
data["text"] = label_encoder.fit_transform(data["text"])

In [19]:
data.head

<bound method NDFrame.head of         id  sentiment  text
0     4999          2  4999
1        0          0     2
2     1111          0     3
3     2222          1     6
4     3333          0     9
...    ...        ...   ...
4995  4439          0  4155
4996  4440          0  4156
4997  4441          1  4157
4998  4442          0  4158
4999  4446          0  1935

[5000 rows x 3 columns]>

In [20]:
from sklearn.model_selection import train_test_split
train, test = train_test_split(data, test_size=0.1, random_state=42)

In [21]:
from torch.utils.data import Dataset
class dataset(Dataset):
    def __init__(self, texts, targets, tokenizer, max_len):
        self.texts = texts
        self.targets = targets
        self.tokenizer = tokenizer
        self.max_len = max_len
    
    def __len__(self):
        return len(self.texts)

    def __getitem__(self, item):   
        text = str(self.texts[item])
        target = self.targets[item]
        encoding = self.tokenizer.encode_plus(text, add_special_tokens=True,max_length=self.max_len, return_token_type_ids=False,padding='max_length', return_attention_mask=True, return_tensors='pt', truncation = True)
        return {'text': text, 'input_ids': encoding['input_ids'].flatten(), 'attention_mask': encoding['attention_mask'].flatten(), 'targets': torch.tensor(target, dtype=torch.long)}

In [22]:
import numpy as np
from torch.utils.data import DataLoader
def fn_Dataloader(data, tokenizer, max_len, batch_size):
    ds = dataset(data.text.to_numpy(), data.sentiment.to_numpy(), tokenizer=tokenizer, max_len=max_len)
    return DataLoader(ds,batch_size=batch_size)

batch_size = 8
loader = fn_Dataloader(train, tokenizer, max_len, batch_size)
test_loader = fn_Dataloader(test, tokenizer, max_len, batch_size)

In [23]:
print(type(loader))

torch.utils.data.dataloader.DataLoader


In [24]:
from transformers import BertModel
model = BertModel.from_pretrained('bert-base-uncased', return_dict=False)

In [25]:
import torch
from torch import nn
class Classifier(torch.nn.Module):
    
    def __init__(self,n_classes):
        super(Classifier, self).__init__()
        self.bert = model
        self.drop = nn.Dropout(p=0.3)
        self.out = nn.Sequential(
            nn.Linear(self.bert.config.hidden_size, 32),
            nn.BatchNorm1d(32),
            nn.ReLU(),
            nn.Linear(32, n_classes)
        )
    
    def forward(self, input_ids, attention_mask):
        _, pooled_output = self.bert(input_ids=input_ids,attention_mask=attention_mask)
        output = self.drop(pooled_output)
        return self.out(output)

In [26]:
model = Classifier(3)

In [27]:
epochs = 6
for param in model.parameters():
    param.requires_grad = False
loss = torch.nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters())

In [None]:
from tqdm import tqdm
from sklearn.metrics import f1_score
from statistics import mean
train_losses = list()
train_loss_per_epoch = list()
test_loss_per_epoch = list()
for epoch in range(epochs):
    train_epoch_losses = list()
    test_epoch_losses = list()
    train_f1s = list()
    test_f1s = list()
    print(f'Epoch: {epoch}')
    model.train()
    for element in tqdm(loader):
        x = element["input_ids"]
        mask_train = element["attention_mask"]
        y = element["targets"]
        outputs = model(input_ids=x,attention_mask=mask_train)
        _, preds = torch.max(outputs, dim=1)
        train_loss = loss(outputs, y)
        optimizer.step()
        optimizer.zero_grad()
        train_losses.append(train_loss.item())
        train_epoch_losses.append(train_loss.item())
        train_f1s.append(f1_score(y, outputs.argmax(1), average='micro'))
    model.eval()
    for element in tqdm(test_loader):
        x = element["input_ids"]
        mask_test = element["attention_mask"]
        y = element["targets"]
        with torch.no_grad():
            outputs_test = model(input_ids=x,attention_mask=mask_test)
            _, preds_test = torch.max(outputs_test, dim=1)
            test_loss = loss(outputs_test, y)
        test_epoch_losses.append(test_loss.item())
    train_loss_per_epoch.append(np.mean(train_epoch_losses))
    test_loss_per_epoch.append(np.mean(test_epoch_losses))
    test_f1s.append(f1_score(y, outputs_test.argmax(1), average='micro'))
    mean_train = mean(train_f1s)
    mean_test = mean(test_f1s)
    print(f'Epoch {epoch}')
    print(f'Loss: train {train_loss_per_epoch[-1]:.2f} | test {test_loss_per_epoch[-1]:.2f}')
    print(f'F1: train {mean_train} | test {mean_test}')


  0%|          | 0/563 [00:00<?, ?it/s][A

Epoch: 0



  0%|          | 1/563 [00:15<2:24:47, 15.46s/it][A
  0%|          | 2/563 [00:30<2:24:02, 15.41s/it][A
  1%|          | 3/563 [00:46<2:23:41, 15.39s/it][A
  1%|          | 4/563 [01:01<2:23:02, 15.35s/it][A
  1%|          | 5/563 [01:16<2:22:11, 15.29s/it][A
  1%|          | 6/563 [01:31<2:21:22, 15.23s/it][A
  1%|          | 7/563 [01:46<2:21:07, 15.23s/it][A
  1%|▏         | 8/563 [02:02<2:20:52, 15.23s/it][A
  2%|▏         | 9/563 [02:17<2:20:46, 15.25s/it][A
  2%|▏         | 10/563 [02:32<2:20:42, 15.27s/it][A
  2%|▏         | 11/563 [02:47<2:20:21, 15.26s/it][A
  2%|▏         | 12/563 [03:03<2:20:13, 15.27s/it][A
  2%|▏         | 13/563 [03:18<2:20:04, 15.28s/it][A
  2%|▏         | 14/563 [03:33<2:20:03, 15.31s/it][A
  3%|▎         | 15/563 [03:49<2:19:39, 15.29s/it][A
  3%|▎         | 16/563 [04:04<2:19:25, 15.29s/it][A
  3%|▎         | 17/563 [04:19<2:19:16, 15.30s/it][A
  3%|▎         | 18/563 [04:35<2:19:17, 15.33s/it][A
  3%|▎         | 19/563 [04:50<2:19:

Epoch 0
Loss: train 1.11 | test 1.08
F1: train 0.35324156305506216 | test 0.5
Epoch: 1



  0%|          | 1/563 [00:15<2:26:49, 15.68s/it][A
  0%|          | 2/563 [00:31<2:26:33, 15.67s/it][A
  1%|          | 3/563 [00:47<2:26:25, 15.69s/it][A
  1%|          | 4/563 [01:02<2:26:23, 15.71s/it][A
  1%|          | 5/563 [01:18<2:26:04, 15.71s/it][A
  1%|          | 6/563 [01:34<2:26:04, 15.74s/it][A
  1%|          | 7/563 [01:50<2:25:41, 15.72s/it][A
  1%|▏         | 8/563 [02:05<2:25:27, 15.72s/it][A
  2%|▏         | 9/563 [02:21<2:25:17, 15.74s/it][A
  2%|▏         | 10/563 [02:37<2:25:04, 15.74s/it][A
  2%|▏         | 11/563 [02:53<2:25:02, 15.77s/it][A
  2%|▏         | 12/563 [03:08<2:25:00, 15.79s/it][A
  2%|▏         | 13/563 [03:24<2:24:58, 15.81s/it][A
  2%|▏         | 14/563 [03:40<2:24:53, 15.83s/it][A
  3%|▎         | 15/563 [03:56<2:24:23, 15.81s/it][A
  3%|▎         | 16/563 [04:12<2:24:00, 15.80s/it][A
  3%|▎         | 17/563 [04:28<2:23:44, 15.80s/it][A
  3%|▎         | 18/563 [04:43<2:23:24, 15.79s/it][A
  3%|▎         | 19/563 [04:59<2:23:

Epoch 1
Loss: train 1.11 | test 1.13
F1: train 0.34902309058614567 | test 0.0
Epoch: 2



  0%|          | 1/563 [00:15<2:25:12, 15.50s/it][A
  0%|          | 2/563 [00:30<2:24:41, 15.48s/it][A
  1%|          | 3/563 [00:46<2:24:29, 15.48s/it][A
  1%|          | 4/563 [01:01<2:24:15, 15.48s/it][A
  1%|          | 5/563 [01:17<2:23:56, 15.48s/it][A
  1%|          | 6/563 [01:32<2:23:41, 15.48s/it][A
  1%|          | 7/563 [01:48<2:23:20, 15.47s/it][A
  1%|▏         | 8/563 [02:03<2:23:03, 15.47s/it][A
  2%|▏         | 9/563 [02:19<2:22:50, 15.47s/it][A
  2%|▏         | 10/563 [02:34<2:22:26, 15.46s/it][A
  2%|▏         | 11/563 [02:50<2:21:55, 15.43s/it][A
  2%|▏         | 12/563 [03:05<2:21:43, 15.43s/it][A
  2%|▏         | 13/563 [03:20<2:21:39, 15.45s/it][A
  2%|▏         | 14/563 [03:36<2:21:02, 15.41s/it][A
  3%|▎         | 15/563 [03:51<2:20:36, 15.39s/it][A
  3%|▎         | 16/563 [04:07<2:20:21, 15.40s/it][A
  3%|▎         | 17/563 [04:22<2:20:08, 15.40s/it][A
  3%|▎         | 18/563 [04:37<2:20:00, 15.41s/it][A
  3%|▎         | 19/563 [04:53<2:19:

Epoch 2
Loss: train 1.11 | test 1.13
F1: train 0.34369449378330375 | test 0.5
Epoch: 3



  0%|          | 1/563 [00:15<2:25:54, 15.58s/it][A
  0%|          | 2/563 [00:31<2:25:42, 15.58s/it][A
  1%|          | 3/563 [00:46<2:25:21, 15.57s/it][A
  1%|          | 4/563 [01:02<2:25:16, 15.59s/it][A
  1%|          | 5/563 [01:17<2:24:56, 15.59s/it][A
  1%|          | 6/563 [01:33<2:24:34, 15.57s/it][A
  1%|          | 7/563 [01:49<2:24:19, 15.57s/it][A
  1%|▏         | 8/563 [02:04<2:23:53, 15.56s/it][A
  2%|▏         | 9/563 [02:20<2:23:50, 15.58s/it][A
  2%|▏         | 10/563 [02:36<2:24:15, 15.65s/it][A
  2%|▏         | 11/563 [02:51<2:23:37, 15.61s/it][A
  2%|▏         | 12/563 [03:07<2:23:06, 15.58s/it][A
  2%|▏         | 13/563 [03:22<2:22:45, 15.57s/it][A
  2%|▏         | 14/563 [03:38<2:22:20, 15.56s/it][A
  3%|▎         | 15/563 [03:53<2:22:17, 15.58s/it][A
  3%|▎         | 16/563 [04:09<2:21:59, 15.57s/it][A
  3%|▎         | 17/563 [04:24<2:21:37, 15.56s/it][A
  3%|▎         | 18/563 [04:40<2:21:27, 15.57s/it][A
  3%|▎         | 19/563 [04:55<2:20:

Epoch 3
Loss: train 1.11 | test 1.12
F1: train 0.34436056838365897 | test 0.5
Epoch: 4



  0%|          | 1/563 [00:15<2:26:28, 15.64s/it][A
  0%|          | 2/563 [00:31<2:25:46, 15.59s/it][A
  1%|          | 3/563 [00:46<2:24:39, 15.50s/it][A
  1%|          | 4/563 [01:01<2:24:01, 15.46s/it][A
  1%|          | 5/563 [01:17<2:23:21, 15.42s/it][A
  1%|          | 6/563 [01:32<2:22:58, 15.40s/it][A
  1%|          | 7/563 [01:47<2:22:29, 15.38s/it][A
  1%|▏         | 8/563 [02:03<2:22:11, 15.37s/it][A
  2%|▏         | 9/563 [02:18<2:21:55, 15.37s/it][A
  2%|▏         | 10/563 [02:34<2:22:01, 15.41s/it][A
  2%|▏         | 11/563 [02:49<2:22:56, 15.54s/it][A
  2%|▏         | 12/563 [03:05<2:22:39, 15.53s/it][A
  2%|▏         | 13/563 [03:20<2:22:04, 15.50s/it][A

In [None]:
from matplotlib import pyplot as plt
plt.figure(figsize=(14, 12))
plt.plot(train_loss_per_epoch)
plt.grid()

In [None]:
from matplotlib import pyplot as plt
plt.figure(figsize=(14, 12))
plt.plot(test_loss_per_epoch)
plt.grid()

In [None]:
from matplotlib import pyplot as plt
plt.figure(figsize=(14, 12))
plt.plot(train_f1s)
plt.grid()

In [None]:
print('Лучшая метрика на test:')
print('Loss: ', min(test_loss_per_epoch))

Я выдающимися знаниями особо никогда не блистал, поэтому для меня даже достаточно простая задача (если сравнивать с другими вариантами проектов) давалась непросто. Наверное, главная проблема, с которой я столкнулся — это подсчёт ф-меры на тесте. На любом количестве — даже на сотнях и десятках тысяч я упорно получал нули после каждой эпохи. В причнах этой проблемы, к сожалению, мне разобраться не удалось. Полагаю, что это может быть связано с не самой очевидной разметкой данных в датасете. Я пробовал увеличивать количество эпох обучения, но результат не менялся. Уменьшать learning rate я не стал, потому что по умолчанию он и так стоит небольшой, вряд ли это помогло бы с решением проблемы.
Ф-мера на трейне вела себя довольно хаотично. Также, как видно на графиках, на 6 (последней) эпохе резко портятся лоссы (особенно на тесте), что, вероятнее всего, свидетельствует о переобучении модели. Думаю, что на таком количестве данных оптимально было бы остановиться на 5 эпохах.