# <img src="https://s8.hostingkartinok.com/uploads/images/2018/08/308b49fcfbc619d629fe4604bceb67ac.jpg" width=500, height=450>
<h3 style="text-align: center;"><b>Физтех-Школа Прикладной математики и информатики (ФПМИ) МФТИ</b></h3>

---

# Embeddings

Привет! В этом домашнем задании мы с помощью эмбеддингов решим задачу семантической классификации твитов.

Для этого мы воспользуемся предобученными эмбеддингами word2vec.

Для начала скачаем датасет для семантической классификации твитов:

In [5]:
#!gdown https://drive.google.com/uc?id=1eE1FiUkXkcbw0McId4i7qY-L8hH-_Qph&export=download
#!unzip archive.zip

Импортируем нужные библиотеки:

In [6]:
import math
import random
import string

import numpy as np
import pandas as pd
import seaborn as sns

import torch
import nltk
import gensim
import gensim.downloader as api

In [9]:
random.seed(42)
np.random.seed(42)
torch.random.manual_seed(42)
torch.cuda.random.manual_seed(42)
torch.cuda.random.manual_seed_all(42)

device = "cuda" if torch.cuda.is_available() else "cpu"

In [10]:
data = pd.read_csv("training.1600000.processed.noemoticon.csv", encoding="latin", header=None, names=["emotion", "id", "date", "flag", "user", "text"])

Посмотрим на данные:

In [11]:
data.head()

Unnamed: 0,emotion,id,date,flag,user,text
0,0,1467810369,Mon Apr 06 22:19:45 PDT 2009,NO_QUERY,_TheSpecialOne_,"@switchfoot http://twitpic.com/2y1zl - Awww, t..."
1,0,1467810672,Mon Apr 06 22:19:49 PDT 2009,NO_QUERY,scotthamilton,is upset that he can't update his Facebook by ...
2,0,1467810917,Mon Apr 06 22:19:53 PDT 2009,NO_QUERY,mattycus,@Kenichan I dived many times for the ball. Man...
3,0,1467811184,Mon Apr 06 22:19:57 PDT 2009,NO_QUERY,ElleCTF,my whole body feels itchy and like its on fire
4,0,1467811193,Mon Apr 06 22:19:57 PDT 2009,NO_QUERY,Karoli,"@nationwideclass no, it's not behaving at all...."


Выведем несколько примеров твитов, чтобы понимать, с чем мы имеем дело:

In [18]:
examples = data["text"].sample(10)
print("\n".join(examples))

@cre8tivkj Thanks - you too!!!!  
@jordanknight woooo hhooooo your finally done  have a good lunch!
going to do nothing again this week... *sigh* 
right, i'm going! dreading tomorrow morning. i proper don't like having tests done  i hate needles haha! night all !  x
click here and facebook me....  http://bit.ly/mOnf6
Officially on my way back to the STL  in Strasburg, VA http://loopt.us/-TJimQ.t
talking to little al 
Dinner is about ready and been listing to Kenny G and Luther while cooking....GREAT night 
@ladyg007 its n0t in your area  lol.
Really considering dropping firefox. But I stored all my bookmarks with the google toolbar. 


Как вилим, тексты твитов очень "грязные". Нужно предобработать датасет, прежде чем строить для него модель классификации.

Чтобы сравнивать различные методы обработки текста/модели/прочее, разделим датасет на dev(для обучения модели) и test(для получения качества модели).

In [15]:
indexes = np.arange(data.shape[0])
np.random.shuffle(indexes)
dev_size = math.ceil(data.shape[0] * 0.8)

dev_indexes = indexes[:dev_size]
test_indexes = indexes[dev_size:]

dev_data = data.iloc[dev_indexes]
test_data = data.iloc[test_indexes]

dev_data.reset_index(drop=True, inplace=True)
test_data.reset_index(drop=True, inplace=True)

## Обработка текста

Токенизируем текст, избавимся от знаков пунктуации и выкинем все слова, состоящие менее чем из 4 букв:

In [35]:
dev_data["text"][:1]

0    I need more practice in badminton! Won 1 out o...
Name: text, dtype: object

In [16]:
tokenizer = nltk.WordPunctTokenizer()
line = tokenizer.tokenize(dev_data["text"][0].lower())
print(" ".join(line))

i need more practice in badminton ! won 1 out of 3 games .


In [39]:
tokenizer = nltk.WordPunctTokenizer()
line = tokenizer.tokenize(dev_data["text"][0].lower())
line

['i',
 'need',
 'more',
 'practice',
 'in',
 'badminton',
 '!',
 'won',
 '1',
 'out',
 'of',
 '3',
 'games',
 '.']

In [37]:
filtered_line = [w for w in line if all(c not in string.punctuation for c in w) and len(w) > 3]
print(" ".join(filtered_line))

need more practice badminton games


In [38]:
filtered_line = [w for w in line if all(c not in string.punctuation for c in w) and len(w) > 3]
filtered_line

['need', 'more', 'practice', 'badminton', 'games']

Загрузим предобученную модель эмбеддингов. 

Если хотите, можно попробовать другую. Полный список можно найти здесь: https://github.com/RaRe-Technologies/gensim-data.

Данная модель выдает эмбеддинги для **слов**. Строить по эмбеддингам слов эмбеддинги предложений мы будем ниже.

In [28]:
#word2vec = api.load("word2vec-google-news-300")



In [45]:
emb_line = [word2vec.get_vector(w) for w in filtered_line if w in word2vec]
print(sum(emb_line).shape)

(300,)


In [95]:
word2vec.index2word[:2]

['</s>', 'in']

In [84]:
mean = np.mean(word2vec.vectors, 0)
#mean

Нормализуем эмбеддинги, прежде чем обучать на них сеть. 
(наверное, вы помните, что нейронные сети гораздо лучше обучаются на нормализованных данных)

In [51]:
mean = np.mean(word2vec.vectors, 0)
std = np.std(word2vec.vectors, 0)
norm_emb_line = [(word2vec.get_vector(w) - mean) / std for w in filtered_line if w in word2vec and len(w) > 3]
print(sum(norm_emb_line).shape)
print([all(norm_emb_line[i] == emb_line[i]) for i in range(len(emb_line))])

(300,)
[False, False, False, False, False]


Сделаем датасет, который будет по запросу возвращать подготовленные данные.

In [189]:
from torch.utils.data import Dataset, random_split


class TwitterDataset(Dataset):
    def __init__(self, data: pd.DataFrame, feature_column: str, target_column: str, word2vec: gensim.models.Word2Vec):
        self.tokenizer = nltk.WordPunctTokenizer()
        
        self.data = data

        self.feature_column = feature_column
        self.target_column = target_column

        self.word2vec = word2vec

        self.label2num = lambda label: 0 if label == 0 else 1
        self.mean = np.mean(word2vec.vectors, axis=0)
        self.std = np.std(word2vec.vectors, axis=0)

    def __getitem__(self, item):
        text = self.data[self.feature_column][item]
        label = self.label2num(self.data[self.target_column][item])

        tokens = self.get_tokens_(text)
        embeddings = self.get_embeddings_(tokens)

        return {"feature": embeddings, "target": label}

    def get_tokens_(self, text):
        # Получи все токены из текста и профильтруй их
        tokenizer = nltk.WordPunctTokenizer()
        token = tokenizer.tokenize(text.lower())
        filtered_token = [w for w in line if all(c not in string.punctuation for c in w) and len(w) > 3]
        
        return filtered_token

    def get_embeddings_(self, tokens):
        # Получи эмбеддинги слов и усредни их
        embeddings = [self.word2vec.get_vector(t) for t in tokens if t in self.word2vec]
        
        if len(embeddings) == 0:
            embeddings = np.zeros((1, self.word2vec.vector_size))
        else:
            embeddings = np.array(embeddings)
            if len(embeddings.shape) == 1:
                embeddings = embeddings.reshape(-1, 1)

        return embeddings

    def __len__(self):
        return self.data.shape[0]

In [190]:
dev = TwitterDataset(dev_data, "text", "emotion", word2vec)

Отлично, мы готовы с помощью эмбеддингов слов превращать твиты в векторы и обучать нейронную сеть.

Превращать твиты в векторы, используя эмбеддинги слов, можно несколькими способами. А именно такими:

## Average embedding (2 балла)
---
Это самый простой вариант, как получить вектор предложения, используя векторные представления слов в предложении. А именно: вектор предложения есть средний вектор всех слов в предлоежнии (которые остались после токенизации и удаления коротких слов, конечно). 

In [191]:
indexes = np.arange(len(dev))
np.random.shuffle(indexes)
example_indexes = indexes[::1000]

examples = {"features": [np.sum(dev[i]["feature"], axis=0) for i in example_indexes], 
            "targets": [dev[i]["target"] for i in example_indexes]}
print(len(examples["features"]))

1280


In [210]:
"chmod" in word2vec

True

Давайте сделаем визуализацию полученных векторов твитов тренировочного (dev) датасета. Так мы увидим, насколько хорошо твиты с разными target значениями отделяются друг от друга, т.е. насколько хорошо усреднение эмбеддингов слов предложения передает информацию о предложении.

Для визуализации векторов надо получить их проекцию на плоскость. Сделаем это с помощью `PCA`. Если хотите, можете вместо PCA использовать TSNE: так у вас получится более точная проекция на плоскость (а значит, более информативная, т.е. отражающая реальное положение векторов твитов в пространстве). Но TSNE будет работать намного дольше.

In [211]:
from sklearn.decomposition import PCA
from sklearn.manifold import TSNE

# pca = PCA(n_components=2)
# examples["transformed_features"] = pca.fit_transform(examples["features"])# Обучи PCA на эмбеддингах слов

tsne = TSNE(n_components=2)
examples["transformed_features"] = tsne.fit_transform(examples["features"])

In [212]:
examples["transformed_features"][100:120]

array([[ 0.39391333,  1.0982745 ],
       [-0.17199183, -0.29090866],
       [ 1.8385533 ,  0.25675207],
       [ 0.5595881 ,  1.7133285 ],
       [ 1.4955238 , -1.0771631 ],
       [ 1.5139614 , -0.98957783],
       [-0.22457732,  0.3901121 ],
       [-0.3298963 ,  0.38990805],
       [-0.25855303,  0.06357124],
       [-1.2804718 ,  1.2294648 ],
       [ 0.34404993, -0.32401842],
       [-0.2829999 , -0.700679  ],
       [-0.66534066,  1.0236696 ],
       [ 0.3977096 ,  0.21285515],
       [-0.30634227, -0.42191947],
       [ 0.4291677 ,  1.0718013 ],
       [ 0.9656221 ,  0.15244356],
       [ 0.91162956,  1.5876111 ],
       [-0.180697  ,  0.35477027],
       [ 0.97210985,  0.02199873]], dtype=float32)

In [116]:
import bokeh.models as bm, bokeh.plotting as pl
from bokeh.io import output_notebook
output_notebook()

In [124]:
def draw_vectors(x, y, radius=10, alpha=0.25, color='blue',
                 width=600, height=400, show=True, **kwargs):
    """ draws an interactive plot for data points with auxilirary info on hover """
    data_source = bm.ColumnDataSource({ 'x' : x, 'y' : y, 'color': color, **kwargs })

    fig = pl.figure(active_scroll='wheel_zoom', width=width, height=height)
    fig.scatter('x', 'y', size=radius, color='color', alpha=alpha, source=data_source)

    fig.add_tools(bm.HoverTool(tooltips=[(key, "@" + key) for key in kwargs.keys()]))
    if show: pl.show(fig)
    return fig

In [213]:
draw_vectors(
    examples["transformed_features"][:, 0], 
    examples["transformed_features"][:, 1], 
    color=[["red", "blue"][t] for t in examples["targets"]]
    )

Скорее всего, на визуализации нет четкого разделения твитов между классами. Это значит, что по полученным нами векторам твитов не так-то просто определить, к какому классу твит пренадлежит. Значит, обычный линейный классификатор не очень хорошо справится с задачей. Надо будет делать глубокую (хотя бы два слоя) нейронную сеть.

Подготовим загрузчики данных.
Усреднее векторов будем делать в "батчевалке"(`collate_fn`). Она используется для того, чтобы собирать из данных `torch.Tensor` батчи, которые можно отправлять в модель.


In [214]:
from torch.utils.data import DataLoader


batch_size = 1024
num_workers = 4

def average_emb(batch):
    features = [np.mean(b["feature"], axis=0) for b in batch]
    targets = [b["target"] for b in batch]

    return {"features": torch.FloatTensor(features), "targets": torch.LongTensor(targets)}


train_size = math.ceil(len(dev) * 0.8)

train, valid = random_split(dev, [train_size, len(dev) - train_size])

train_loader = DataLoader(train, batch_size=batch_size, num_workers=num_workers, shuffle=True, drop_last=True, collate_fn=average_emb)
valid_loader = DataLoader(valid, batch_size=batch_size, num_workers=num_workers, shuffle=False, drop_last=False, collate_fn=average_emb)

Определим функции для тренировки и теста модели:

In [307]:
from tqdm.notebook import tqdm
from sklearn.metrics import accuracy_score

def training(model, optimizer, criterion, train_loader, epoch, device="cpu"):
    pbar = tqdm(train_loader, desc=f"Epoch {e + 1}. Train Loss: {0}")
    model.train()
    for batch in pbar:
        features = batch["features"].to(device)
        targets = batch["targets"].to(device)
        
        # Получи предсказания модели
        predictions = model(features)
        # Посчитай лосс
        loss = criterion(predictions,targets) 
        # Обнови параметры модели
        
        loss.backward()
        optimizer.step()
        optimizer.zero_grad()
        
        pbar.set_description(f"Epoch {e + 1}. Train Loss: {loss:.4}")
    

def testing(model, criterion, test_loader, device="cpu"):
    pbar = tqdm(test_loader, desc=f"Test Loss: {0}, Test Acc: {0}")
    mean_loss = 0
    mean_acc = 0
    model.eval()
    with torch.no_grad():
        for batch in pbar:
            features = batch["features"].to(device)
            targets = batch["targets"].to(device)
            predictions = model(features)
            # Получи предсказания модели
            loss = criterion(predictions,targets) # Посчитай лосс
            acc =  accuracy_score(targets, predictions[:,0] > 0.5)# Посчитай точность модели

            mean_loss += loss.item()
            mean_acc += acc.item()

            pbar.set_description(f"Test Loss: {loss:.4}, Test Acc: {acc:.4}")

    pbar.set_description(f"Test Loss: {mean_loss / len(test_loader):.4}, Test Acc: {mean_acc / len(test_loader):.4}")

    return {"Test Loss": mean_loss / len(test_loader), "Test Acc": mean_acc / len(test_loader)}

Создадим модель, оптимизатор и целевую функцию. Вы можете сами выбрать количество слоев в нейронной сети, ваш любимый оптимизатор и целевую функцию.


In [308]:
import torch.nn as nn
from torch.optim import Adam


# Не забудь поиграться с параметрами ;)
vector_size = dev.word2vec.vector_size
num_classes = 2
lr = 1e-2
num_epochs = 1

model = nn.Sequential(nn.Linear(vector_size, 128),
                      nn.ReLU(),
                      nn.Linear(128, num_classes),
                      nn.Sigmoid())# Твоя модель
#model = model.cuda()
criterion = nn.CrossEntropyLoss()# Твой лосс
optimizer = Adam(model.parameters(), lr)# Твой оптимайзер


Наконец, обучим модель и протестируем её.

После каждой эпохи будем проверять качество модели на валидационной части датасета. Если метрика стала лучше, будем сохранять модель. **Подумайте, какая метрика (точность или лосс) будет лучше работать в этой задаче?** 

In [309]:
best_metric = np.inf
for e in range(num_epochs):
    training(model, optimizer, criterion, train_loader, e, device)
    log = testing(model, criterion, valid_loader, device)
    print(log)
    if log["Test Loss"] < best_metric:
        torch.save(model.state_dict(), "model.pt")
        best_metric = log["Test Loss"]

HBox(children=(FloatProgress(value=0.0, description='Epoch 1. Train Loss: 0', max=1000.0, style=ProgressStyle(…




HBox(children=(FloatProgress(value=0.0, description='Test Loss: 0, Test Acc: 0', max=250.0, style=ProgressStyl…

predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] tor

predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] tor

predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])

{'Test Loss': 0.6931488301753997, 'Test Acc': 0.49991015625}


In [310]:
test_loader = DataLoader(
    TwitterDataset(test_data, "text", "emotion", word2vec), 
    batch_size=batch_size, 
    num_workers=num_workers, 
    shuffle=False,
    drop_last=False, 
    collate_fn=average_emb)

model.load_state_dict(torch.load("model.pt", map_location=device))

print(testing(model, criterion, test_loader, device=device))

HBox(children=(FloatProgress(value=0.0, description='Test Loss: 0, Test Acc: 0', max=313.0, style=ProgressStyl…

predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] tor

predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] tor

predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] torch.Size([1024])
predictions torch.Size([1024, 2])
predictions[:,0] tor