#  Преобразование текстов в последовательность индексов токенов. Torchtext.

__Автор задач: Блохин Н.В. (NVBlokhin@fa.ru)__

Материалы:
* Deep Learning with PyTorch (2020) Авторы: Eli Stevens, Luca Antiga, Thomas Viehmann
* https://pytorch.org/text/stable/
* https://pytorch.org/text/stable/vocab.html
* https://pytorch.org/text/stable/transforms.html

## Задачи для совместного разбора

1\. Рассмотрите основные шаги по преобразованию текста в последовательность индексов токенов.

In [1]:
corpus = [
    "Студенты усердно занимаются стремясь получить знания и достичь успеха",
    "Студенты активно участвуют в общественной жизни университета"
]

In [2]:
from nltk import word_tokenize
import nltk

nltk.download("punkt")

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [3]:
corpus_t = [
    word_tokenize(text.lower())
    for text in corpus
]
corpus_t

[['студенты',
  'усердно',
  'занимаются',
  'стремясь',
  'получить',
  'знания',
  'и',
  'достичь',
  'успеха'],
 ['студенты',
  'активно',
  'участвуют',
  'в',
  'общественной',
  'жизни',
  'университета']]

In [4]:
corpus_t

[['студенты',
  'усердно',
  'занимаются',
  'стремясь',
  'получить',
  'знания',
  'и',
  'достичь',
  'успеха'],
 ['студенты',
  'активно',
  'участвуют',
  'в',
  'общественной',
  'жизни',
  'университета']]

In [5]:
words = set()
words.update(corpus_t[0])
words.update(corpus_t[1])
words = list(words)

In [6]:
itos = words

In [7]:
words

['стремясь',
 'жизни',
 'университета',
 'получить',
 'усердно',
 'в',
 'и',
 'активно',
 'общественной',
 'достичь',
 'успеха',
 'занимаются',
 'участвуют',
 'студенты',
 'знания']

In [8]:
stoi = {v: idx for idx, v in enumerate(itos)}

In [10]:
itos[0], stoi["стремясь"]

('стремясь', 0)

In [29]:
stoi

{'стремясь': 0,
 'жизни': 1,
 'университета': 2,
 'получить': 3,
 'усердно': 4,
 'в': 5,
 'и': 6,
 'активно': 7,
 'общественной': 8,
 'достичь': 9,
 'успеха': 10,
 'занимаются': 11,
 'участвуют': 12,
 'студенты': 13,
 'знания': 14}

In [11]:
corpus_i = [
    [stoi[t] for t in tokens]
    for tokens in corpus_t
]

In [12]:
corpus_i

[[13, 4, 11, 0, 3, 14, 6, 9, 10], [13, 7, 12, 5, 8, 1, 2]]

In [13]:
import torch as th

In [14]:
corpus_i[1].extend((-1, -1)) # padding

In [15]:
th.tensor(corpus_i)

tensor([[13,  4, 11,  0,  3, 14,  6,  9, 10],
        [13,  7, 12,  5,  8,  1,  2, -1, -1]])

2\. Рассмотрите процесс создания `Vocab` из `torchtext`.

In [16]:
import torchtext

In [17]:
torchtext.__version__

'0.15.2+cpu'

In [18]:
from torchtext.vocab import build_vocab_from_iterator

In [20]:
corpus_t

[['студенты',
  'усердно',
  'занимаются',
  'стремясь',
  'получить',
  'знания',
  'и',
  'достичь',
  'успеха'],
 ['студенты',
  'активно',
  'участвуют',
  'в',
  'общественной',
  'жизни',
  'университета']]

In [19]:
vocab = build_vocab_from_iterator(
    corpus_t
)

In [23]:
vocab

Vocab()

In [22]:
vocab.lookup_indices(["занимаются", "стремясь"])

[5, 10]

3\. Примените преобразование `AddToken` из пакета `torchtext`.

In [24]:
from torchtext.transforms import AddToken

In [25]:
corpus_i

[[13, 4, 11, 0, 3, 14, 6, 9, 10], [13, 7, 12, 5, 8, 1, 2, -1, -1]]

In [26]:
add = AddToken(token=999, begin=True)
add(corpus_i)

[[999, 13, 4, 11, 0, 3, 14, 6, 9, 10], [999, 13, 7, 12, 5, 8, 1, 2, -1, -1]]

## Задачи для самостоятельного решения

<p class="task" id="1"></p>

1\. Опишите класс `Vocab`. При создании объекта `Vocab` в конструктор передается набор текстов, предварительно разбитых на токены. Объект должен позволять:
* по токену получить его уникальный индекс (в случае отсутствия токена в словаре вернуть 1)
* по индексу токена получить сам токен (в случае отсутствия токена в словаре вернуть `<UNK>`)

Первые 4 индекса зарезервированы под специальные токены `<PAD>`, `<UNK>`, `<SOS>`, `<EOS>`.
    
Создайте `Vocab` на основе списка `corpus` и закодируйте каждый токен в предложениях, используя `Vocab`. Выведите полученный результат на экран.

- [ ] Проверено на семинаре

In [1]:
from nltk import word_tokenize
import nltk

nltk.download("punkt")

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [2]:
class Vocab:
    def __init__(self, data):
        self.data = data

        self.tokens = ['<PAD>', '<UNK>', '<SOS>', '<EOS>']
        words = set()
        for text in data:
          words.update(text)
        self.tokens.extend(list(words))
        self.n_tokens = len(self.tokens)
        self.uniwords = words

        self.vocab = {token: idx for idx, token in enumerate(self.tokens)}

    def itos(self, idx):
        """Возвращает токен по индексу"""
        if idx < self.n_tokens:
          return self.tokens[idx]
        return '<UNK>'

    def stoi(self, s):
        """Возвращает индекс токена"""
        return self.vocab.get(s, 1)

In [3]:
corpus = [
    "Маленький котенок игриво прыгает за шариком",
    "Пушистый котик мурлыкает, лежа на солнышке",
    "Котенок любопытно нюхает цветы в саду",
    "Котик ловко лазает по дереву, исследуя окружающий мир",
    "Спящий котик мило моргает своими яркими глазками",
]

corpus_t = [
    word_tokenize(text.lower())
    for text in corpus
]

vcb = Vocab(corpus_t)

corpus_i = [
    [vcb.stoi(t) for t in tokens]
    for tokens in corpus_t
]
corpus_i

[[5, 24, 33, 18, 16, 17],
 [27, 6, 23, 4, 34, 15, 12],
 [24, 10, 22, 11, 25, 28],
 [6, 7, 9, 26, 30, 4, 19, 13, 14],
 [21, 6, 32, 31, 29, 20, 8]]

<p class="task" id="2"></p>

2\. Создайте класс `NewsDataset` на основе данных из файла `news.csv`. Реализуйте метод `__getitem__` таким образом, чтобы он возвращал набор индексов токенов для заголовка новости (или новостей, если используются срезы) и метки классов для этих новостей. Для кодирования текстов используйте собственную реализацию `Vocab`. Там, где это возможно, возвращайте результат в виде тензора, а не списка.

Выведите на экран результат выполнения `dataset[0]` и `dataset[:3]`

- [ ] Проверено на семинаре

In [4]:
import pandas as pd
import torch as th
from torch.utils.data import Dataset

In [38]:
class NewsDataset(Dataset):
  def __init__(self, data):
    self.texts = data['text'].apply(lambda x: word_tokenize(x.lower()))
    self.labels = th.tensor(data['label'].values)
    self.vocab = Vocab(self.texts)

  def __getitem__(self, idx):
    list_of_tokens = self.texts.iloc[idx]
    if isinstance(idx, int):
      list_of_tokens = [list_of_tokens]
    corpus_i = [th.tensor([self.vocab.stoi(t) for t in tokens]) for tokens in list_of_tokens]
    return corpus_i, self.labels[idx]

  def __len__(self):
    return self.labels.shape[0]

In [39]:
df = pd.read_csv('news.csv')
ds = NewsDataset(df)

ds[0]

([tensor([2413, 2045, 5542, 5377,  524, 4711])], tensor(0))

In [40]:
ds[:3]

([tensor([2413, 2045, 5542, 5377,  524, 4711]),
  tensor([4460, 1739, 2085, 1089, 2852,    8, 5540, 3378, 5596]),
  tensor([2413,  645, 2020, 1306,  417,    8, 5540, 4551, 5034, 1503])],
 tensor([0, 1, 0]))

In [41]:
len(df)

1101

<p class="task" id="3"></p>

3\. Реализуйте преобразование `Truncate`, которое обрезает каждый текст в батче до `n` токенов. Создайте версию `NewsDataset` с обрезкой предложений до 5 токенов. Выведите на экран результат выполнения `dataset[0]` и `dataset[:3]`

- [ ] Проверено на семинаре

In [8]:
class Truncate:
    def __init__(self, n):
        self.n = n

    def __call__(self, corpus_i):
      return corpus_i[:self.n]

In [42]:
class NewsDatasetTruncate(Dataset):
  def __init__(self, data, truncate):
    self.texts = data['text'].apply(lambda x: word_tokenize(x.lower()))
    self.labels = th.tensor(data['label'].values)
    self.vocab = Vocab(self.texts)
    self.truncate = truncate

  def __getitem__(self, idx):
    list_of_tokens = self.texts.iloc[idx]
    if isinstance(idx, int):
      list_of_tokens = [list_of_tokens]
    corpus_i = th.tensor([[self.vocab.stoi(t) for t in self.truncate(tokens)] for tokens in list_of_tokens])
    return corpus_i, self.labels[idx]

  def __len__(self):
    return self.labels.shape[0]

In [43]:
df = pd.read_csv('news.csv')
tr = Truncate(5)
ds_tr = NewsDatasetTruncate(df, tr)

ds_tr[0]

(tensor([[2413, 2045, 5542, 5377,  524]]), tensor(0))

In [44]:
ds_tr[:3]

(tensor([[2413, 2045, 5542, 5377,  524],
         [4460, 1739, 2085, 1089, 2852],
         [2413,  645, 2020, 1306,  417]]),
 tensor([0, 1, 0]))

<p class="task" id="4"></p>

4\. Реализуйте преобразование `Pad`, которое расширяет каждый текст в батче до `n` токенов значением `pad_idx`. Создайте версию `NewsDataset` с расширением предложений до 30 токенов. Выведите на экран результат выполнения `dataset[0]` и `dataset[:3]`

- [ ] Проверено на семинаре

In [12]:
class Pad:
    def __init__(self, n, pad_idx):
        self.n = n
        self.pad_idx = pad_idx

    def __call__(self, text):
      padd = [self.pad_idx]*(self.n-len(text))
      text.extend(padd)
      return text

In [45]:
class NewsDatasetPad(Dataset):
  def __init__(self, data, pad=None):
    self.texts = data['text'].apply(lambda x: word_tokenize(x.lower()))
    self.labels = th.tensor(data['label'].values)
    self.vocab = Vocab(self.texts)

    if pad:
      self.pad = pad
    else:
      self.pad = lambda x: x

  def __getitem__(self, idx):
    list_of_tokens = self.texts.iloc[idx]
    if isinstance(idx, int):
      list_of_tokens = [list_of_tokens]

    corpus_i = th.tensor([self.pad([self.vocab.stoi(t) for t in tokens]) for tokens in list_of_tokens])

    return corpus_i, self.labels[idx]

  def __len__(self):
    return self.labels.shape[0]

In [46]:
df = pd.read_csv('news.csv')
pad = Pad(30,0)
ds_pad = NewsDatasetPad(df, pad)

ds_pad[0]

(tensor([[2413, 2045, 5542, 5377,  524, 4711,    0,    0,    0,    0,    0,    0,
             0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
             0,    0,    0,    0,    0,    0]]),
 tensor(0))

In [47]:
ds_pad[0][0].shape

torch.Size([1, 30])

In [48]:
ds_pad[:3]

(tensor([[2413, 2045, 5542, 5377,  524, 4711,    0,    0,    0,    0,    0,    0,
             0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
             0,    0,    0,    0,    0,    0],
         [4460, 1739, 2085, 1089, 2852,    8, 5540, 3378, 5596,    0,    0,    0,
             0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
             0,    0,    0,    0,    0,    0],
         [2413,  645, 2020, 1306,  417,    8, 5540, 4551, 5034, 1503,    0,    0,
             0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
             0,    0,    0,    0,    0,    0]]),
 tensor([0, 1, 0]))

In [49]:
ds_pad[:3][0].shape

torch.Size([3, 30])

<p class="task" id="5"></p>

5\. Создайте объект `torchtext.vocab.Vocab` на основе данных из файла `news.csv`. Первые 4 индекса зарезервируйте под специальные токены `<PAD>`, `<UNK>`, `<SOS>`, `<EOS>`. Опишите класс `NewsDatasetTorchText`, аналогичный по функционалу классу `NewsDataset`, но использующего реализацию `torchtext.vocab.Vocab`. Выведите на экран результат выполнения `dataset[0]` и `dataset[:3]`

- [ ] Проверено на семинаре

In [18]:
import torchtext
from torchtext.vocab import build_vocab_from_iterator
from torchtext.transforms import AddToken

In [29]:
build_vocab_from_iterator(corpus_t, specials=['<PAD>', '<UNK>', '<SOS>', '<EOS>'], special_first=True).lookup_tokens([0,1,2,3])

['<PAD>', '<UNK>', '<SOS>', '<EOS>']

In [33]:
class NewsDatasetTorchText:
  def __init__(self, data):
    self.texts = data['text'].apply(lambda x: word_tokenize(x.lower()))
    self.labels = th.tensor(data['label'].values)
    self.vocab = build_vocab_from_iterator(self.texts, specials=['<PAD>', '<UNK>', '<SOS>', '<EOS>'], special_first=True)

  def __getitem__(self, idx):
    list_of_tokens = self.texts.iloc[idx]
    if isinstance(idx, int):
      list_of_tokens = [list_of_tokens]
    corpus_i = [th.tensor(self.vocab(tokens)) for tokens in list_of_tokens]
    return corpus_i, self.labels[idx]

  def __len__(self):
    return self.labels.shape[0]

In [35]:
df = pd.read_csv('news.csv')
ds_torchtext = NewsDatasetTorchText(df)

ds_torchtext[0]

([tensor([  31,  203, 3355, 5413,  491, 3095])], tensor(0))

([tensor([  31,  203, 3355, 5413,  491, 3095])], tensor(0))

In [24]:
ds_torchtext[:3]

([tensor([  31,  203, 3355, 5413,  491, 3095]),
  tensor([  27,  147, 3913,    4,  379,   12,   10, 2422, 4484]),
  tensor([  31,   63,   29, 4036,  318,   12,   10, 3667,  568,  991])],
 tensor([0, 1, 0]))

<p class="task" id="6"></p>

6\. Создайте преобразование, которое последовательно:
* преобразует набор токенов в последовательность индексов;
* преобразует результат в тензор;
* расширяет предложения до 30 символов, заполняя недостающие позиции индексом 0.

Создайте версию NewsDatasetTorchText с указанием этого преобразования. Выведите на экран результат выполнения `dataset[0]` и `dataset[:3]`

- [ ] Проверено на семинаре

In [70]:
th.cat((th.tensor([1,2,3]),th.full((5-3,), 0)))

tensor([1, 2, 3, 0, 0])

In [104]:
class Transform:
  def __init__(self, vcb, n, pad_idx):
    self.vcb = vcb
    self.n = n
    self.pad_idx = pad_idx

  def __call__(self, tokens):
    out = self.vcb.lookup_indices(tokens)
    out = th.tensor(out)
    out = th.cat((out,th.full((self.n-out.shape[0],), self.pad_idx)))
    return out

In [105]:
class NewsDatasetTorchText2:
  def __init__(self, data, transform, n=30, pad_idx=0):
    self.texts = data['text'].apply(lambda x: word_tokenize(x.lower()))
    self.labels = th.tensor(data['label'].values)
    self.vocab = build_vocab_from_iterator(self.texts, specials=['<PAD>', '<UNK>', '<SOS>', '<EOS>'], special_first=True)
    self.transform = transform(self.vocab, n, pad_idx)

  def __getitem__(self, idx):
    list_of_tokens = self.texts.iloc[idx]
    if isinstance(idx, int):
      list_of_tokens = [list_of_tokens]
    corpus_i = th.stack([self.transform(tokens) for tokens in list_of_tokens], dim=0)
    return corpus_i, self.labels[idx]

  def __len__(self):
    return self.labels.shape[0]

In [106]:
df = pd.read_csv('news.csv')
ds_torchtext2 = NewsDatasetTorchText2(df, Transform)

ds_torchtext2[0]

(tensor([[  31,  203, 3355, 5413,  491, 3095,    0,    0,    0,    0,    0,    0,
             0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
             0,    0,    0,    0,    0,    0]]),
 tensor(0))

In [107]:
ds_torchtext2[:3]

(tensor([[  31,  203, 3355, 5413,  491, 3095,    0,    0,    0,    0,    0,    0,
             0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
             0,    0,    0,    0,    0,    0],
         [  27,  147, 3913,    4,  379,   12,   10, 2422, 4484,    0,    0,    0,
             0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
             0,    0,    0,    0,    0,    0],
         [  31,   63,   29, 4036,  318,   12,   10, 3667,  568,  991,    0,    0,
             0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
             0,    0,    0,    0,    0,    0]]),
 tensor([0, 1, 0]))

## Обратная связь
- [ ] Хочу получить обратную связь по решению