<a href="https://colab.research.google.com/github/Vakhranev/Compling/blob/master/Vakhranyov_AY_Deep_learning_Sentiment_Analysis.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

В этом проекте я постарался с помощью предобученного берта сделать предсказания для текста на сентимент-анализ. Я взял датасет Sentiment Analysis Dataset.csv он есть здесь (https://github.com/vineetdhanawat/twitter-sentiment-analysis/blob/master/datasets/Sentiment%20Analysis%20Dataset.csv). Пояснений к нему, к сожалению, нет, поэтому точно сказать не могу, но, судя по всему, представленные в нём разбиты следующим образом: целевой класс (представлены единицей) — твиты с положительно-окрашенным мнением, всё остальное — представлено нулями. Помимо того, что я попробовал замерять лоссы на эпохах, также я использовал ф-меру для оценки модели.

В последнее время применение глубокого обучения для решения проблемы сентимент-анализа стало популярной темой исследований. Существуют различные архитектуры глубокого обучения и технологии, которые применяют для подобного рода анализа: эмбеддинги, автоэнкодеры, CNN, RNN, LSTM, применение аттеншн-механизма в RNN, MemNN, RecNN. Многие из этих методов глубокого обучения показали отличные результаты для различных задач сентимент-анализа. Если верить научным работам по теме, которые я просмотрел, то с развитием исследований и приложений глубокого обучения в ближайшем будущем появятся более интересные исследования применения глубокого обучения для сентимент-анализа.

In [127]:
!pip install transformers
import pandas as pd
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased')
data = pd.read_csv("Sentiment Analysis Dataset.csv", header= None)
max_len = 512



  interactivity=interactivity, compiler=compiler, result=result)


In [128]:
data = data[:500]
data.columns = ["id", "sentiment", "text"]

In [129]:
from sklearn.preprocessing import LabelEncoder
label_encoder = LabelEncoder()
data["id"] = label_encoder.fit_transform(data["id"])
data["sentiment"] = label_encoder.fit_transform(data["sentiment"])
data["text"] = label_encoder.fit_transform(data["text"])

In [130]:
data.head

<bound method NDFrame.head of       id  sentiment  text
0    499          2   499
1      0          0     2
2    111          0     3
3    222          1     6
4    333          0     9
..   ...        ...   ...
495  439          1   432
496  440          0   459
497  441          0   460
498  442          1   185
499  443          0   320

[500 rows x 3 columns]>

In [131]:
from sklearn.model_selection import train_test_split
train, test = train_test_split(data, test_size=0.1, random_state=42)

In [132]:
from torch.utils.data import Dataset
class dataset(Dataset):
    def __init__(self, texts, targets, tokenizer, max_len):
        self.texts = texts
        self.targets = targets
        self.tokenizer = tokenizer
        self.max_len = max_len
    
    def __len__(self):
        return len(self.texts)

    def __getitem__(self, item):   
        text = str(self.texts[item])
        target = self.targets[item]
        encoding = self.tokenizer.encode_plus(text, add_special_tokens=True,max_length=self.max_len, return_token_type_ids=False,padding='max_length', return_attention_mask=True, return_tensors='pt', truncation = True)
        return {'text': text, 'input_ids': encoding['input_ids'].flatten(), 'attention_mask': encoding['attention_mask'].flatten(), 'targets': torch.tensor(target, dtype=torch.long)}

In [133]:
import numpy as np
from torch.utils.data import DataLoader
def fn_Dataloader(data, tokenizer, max_len, batch_size):
    ds = dataset(data.text.to_numpy(), data.sentiment.to_numpy(), tokenizer=tokenizer, max_len=max_len)
    return DataLoader(ds,batch_size=batch_size)

batch_size = 8
loader = fn_Dataloader(train, tokenizer, max_len, batch_size)
test_loader = fn_Dataloader(test, tokenizer, max_len, batch_size)

In [134]:
print(type(loader))

torch.utils.data.dataloader.DataLoader


In [135]:
from transformers import BertModel
model = BertModel.from_pretrained('bert-base-uncased', return_dict=False)

In [136]:
from torch import nn
class Classifier(torch.nn.Module):
    
    def __init__(self,n_classes):
        super(Classifier, self).__init__()
        self.bert = model
        self.drop = nn.Dropout(p=0.3)
        self.out = nn.Sequential(
            nn.Linear(self.bert.config.hidden_size, 32),
            nn.BatchNorm1d(32),
            nn.ReLU(),
            nn.Linear(32, n_classes)
        )
    
    def forward(self, input_ids, attention_mask):
        _, pooled_output = self.bert(input_ids=input_ids,attention_mask=attention_mask)
        output = self.drop(pooled_output)
        return self.out(output)

In [137]:
model = Classifier(3)

In [138]:
epochs = 6
for param in model.parameters():
    param.requires_grad = False
loss = torch.nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters())

In [None]:
from tqdm import tqdm
from sklearn.metrics import f1_score
from statistics import mean
train_losses = list()
train_loss_per_epoch = list()
test_loss_per_epoch = list()
for epoch in range(epochs):
    train_epoch_losses = list()
    test_epoch_losses = list()
    train_f1s = list()
    test_f1s = list()
    print(f'Epoch: {epoch}')
    model.train()
    for element in tqdm(loader):
        x = element["input_ids"]
        mask_train = element["attention_mask"]
        y = element["targets"]
        outputs = model(input_ids=x,attention_mask=mask_train)
        _, preds = torch.max(outputs, dim=1)
        train_loss = loss(outputs, y)
        optimizer.step()
        optimizer.zero_grad()
        train_losses.append(train_loss.item())
        train_epoch_losses.append(train_loss.item())
        train_f1s.append(f1_score(y, outputs.argmax(1), average='micro'))
    model.eval()
    for element in tqdm(test_loader):
        x = element["input_ids"]
        mask_test = element["attention_mask"]
        y = element["targets"]
        with torch.no_grad():
            outputs_test = model(input_ids=x,attention_mask=mask_test)
            _, preds_test = torch.max(outputs_test, dim=1)
            test_loss = loss(outputs_test, y)
        test_epoch_losses.append(test_loss.item())
    train_loss_per_epoch.append(np.mean(train_epoch_losses))
    test_loss_per_epoch.append(np.mean(test_epoch_losses))
    test_f1s.append(f1_score(y, outputs_test.argmax(1), average='micro'))
    mean_train = mean(train_f1s)
    mean_test = mean(test_f1s)
    print(f'Epoch {epoch}')
    print(f'Loss: train {train_loss_per_epoch[-1]:.2f} | test {test_loss_per_epoch[-1]:.2f}')
    print(f'F1: train {mean_train} | test {mean_test}')
























  0%|          | 0/57 [00:00<?, ?it/s][A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A

Epoch: 0

























  2%|▏         | 1/57 [00:16<15:11, 16.27s/it][A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A






















  4%|▎         | 2/57 [00:33<15:14, 16.63s/it][A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A






















  5%|▌         | 3/57 [00:49<14:43, 16.36s/it][A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A






















  7%|▋         | 4/57 [01:05<14:16, 16.16s/it][A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A






















  9%|▉         | 5/57 [01:20<13:54, 16.04s/it][A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A






















 11%|█         | 6/57 [01:36<13:32, 15.93s/it][A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A






















 12%|█▏        | 7/57 [01:52<13:12, 15.86s/it][A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A






















 14%|█▍    

In [None]:
from matplotlib import pyplot as plt
plt.figure(figsize=(14, 12))
plt.plot(train_loss_per_epoch)
plt.grid()

In [None]:
from matplotlib import pyplot as plt
plt.figure(figsize=(14, 12))
plt.plot(test_loss_per_epoch)
plt.grid()

In [None]:
from matplotlib import pyplot as plt
plt.figure(figsize=(14, 12))
plt.plot(mean_train)
plt.grid()

In [None]:
from matplotlib import pyplot as plt
plt.figure(figsize=(14, 12))
plt.plot(mean_test)
plt.grid()

In [None]:
print('Лучшая метрика на test:')
print('F1 test: ', max(mean_test))

Я выдающимися знаниями особо никогда не блистал, поэтому для меня даже достаточно простая задача (если сравнивать с другими вариантами проектов) давалась непросто. Наверное, главная проблема, с которой я столкнулся — это подсчёт ф-меры на большом количестве данных на тесте. На сотнях и десятках тысяч я упорно получал нули после каждой эпохи. В причнах этой проблемы, к сожалению, мне разобраться не удалось. Я пробовал увеличивать количество эпох обучения, но результат не менялся. Уменьшать learning rate я не стал, потому что по умолчанию он и так стоит небольшой, вряд ли это помогло бы с решением проблемы. В результате, относительного успеха удалось добиться, снизив объём данных до 2000.
Но здесь, само собой, были свои проблемы.
Например, ф-мера на трейне была довольно низкая, а лоссы на трейне вообще вели себя довольно хаотично. Также, как видно на графиках, на 6 (последней) эпохе резко портятся метрики, что, вероятнее всего, свидетельствует о переобучении модели. Думаю, что на таком количестве данных оптимально было бы остановиться на 5 эпохах.
Тем не менее, мне удалось получить ф-меру равную 0.77 на тесте, что является достаточно хорошим результатом.