In [1]:
import os
from torchtext.vocab import build_vocab_from_iterator
from torchtext.data.utils import get_tokenizer
import pyrootutils

pyrootutils.setup_root(os.curdir, indicator=".project-root", pythonpath=True)
from extras.paths import *
from extras.constants import *
from src.data import preprocess

In [6]:
with open(TRAIN_EN_PATH, mode='r') as f:
    train_en = [line.rstrip() for line in f]

In [7]:
train_en[:5]

['Res@@ um@@ ption of the session',
 'I declare resumed the session of the European Parliament ad@@ jour@@ ned on Friday 17 December 1999 , and I would like once again to wish you a happy new year in the hope that you enjoyed a pleasant fes@@ tive period .',
 'Although , as you will have seen , the d@@ read@@ ed &apos; millenni@@ um bug &apos; failed to materi@@ alise , still the people in a number of countries suffered a series of natural disasters that truly were d@@ read@@ ful .',
 'You have requested a debate on this subject in the course of the next few days , during this part-session .',
 'In the meantime , I should like to observe a minute &apos; s silence , as a number of Members have requested , on behalf of all the victims concerned , particularly those of the terrible stor@@ ms , in the various countries of the European Union .']

In [8]:
len(train_en)

4500962

In [9]:
with open(TRAIN_DE_PATH, mode='r') as f:
    train_de = [line.rstrip() for line in f]

In [10]:
train_de[:5]

['Wiederaufnahme der Sitzungsperiode',
 'Ich erklär@@ e die am Freitag , dem 17. Dezember unterbro@@ ch@@ ene Sitzungsperiode des Europäischen Parlaments für wieder@@ aufgenommen , wünsche Ihnen nochmals alles Gute zum Jahres@@ wechsel und hoffe , daß Sie schöne Ferien hatten .',
 'Wie Sie feststellen konnten , ist der ge@@ für@@ chtete &quot; Mill@@ en@@ i@@ um-@@ Bu@@ g &quot; nicht eingetreten . Doch sind Bürger einiger unserer Mitgliedstaaten Opfer von schrecklichen Naturkatastrophen geworden .',
 'Im Parlament besteht der Wunsch nach einer Aussprache im Verlauf dieser Sitzungsperiode in den nächsten Tagen .',
 'Heute möchte ich Sie bitten - das ist auch der Wunsch einiger Kolleginnen und Kollegen - , allen Opfern der St@@ ür@@ me , insbesondere in den verschiedenen Ländern der Europäischen Union , in einer Schwei@@ ge@@ minute zu ge@@ denken .']

In [11]:
len(train_de)

4500962

In [2]:
test_en = []
for path in TEST_EN_PATHS:
    with open(path) as f:
        test_en += [line.rstrip() for line in f]

In [3]:
test_en[:5]

['Prague Stock Market falls to min@@ us by the end of the trading day',
 'After a sharp drop in the morning , the Prague Stock Market corrected its losses .',
 'Trans@@ actions with stocks from the Czech Energy Enterprise ( Č@@ E@@ Z ) reached nearly half of the regular daily trading .',
 'The Prague Stock Market immediately continued its fall from Monday at the beginning of Tuesday &apos;s trading , when it dropped by nearly six percent .',
 'This time the fall in stocks on Wall Street is responsible for the drop .']

In [4]:
len(test_en)

22140

In [5]:
test_de = []
for path in TEST_DE_PATHS:
    with open(path) as f:
        test_de += [line.rstrip() for line in f]

In [6]:
test_de[:5]

['Die Pra@@ ger Börse st@@ ürzt gegen Geschäfts@@ schluss ins Min@@ us .',
 'Nach dem stei@@ len Ab@@ fall am Morgen konnte die Pra@@ ger Börse die Verluste korrigieren .',
 'Die Transaktionen mit den Aktien von Č@@ E@@ Z erreichten fast die Hälfte des normalen Tages@@ geschäf@@ ts .',
 'Die Pra@@ ger Börse knü@@ pf@@ te gleich zu Beginn der Dienst@@ ag@@ s@@ geschäfte an den Ein@@ bruch vom Montag an , als sie um weitere sechs Prozent@@ punkte s@@ ank .',
 'Dies@@ mal lag der Grund für den Ein@@ bruch an der Wall Street .']

In [7]:
len(test_de)

22140

### save test dataset

In [8]:
with open(TEST_EN_PATH, 'w') as f:
    f.write('\n'.join(test_en))
with open(TEST_DE_PATH, 'w') as f:
    f.write('\n'.join(test_de))

In [9]:
with open(TEST_EN_PATH, mode='r') as f:
    test_en_ = [line.rstrip() for line in f]

In [12]:
for a, b in zip(test_en, test_en_):
    assert a == b

## Multi30k translation dataset

In [3]:
from torch.utils.data import DataLoader
from torchtext.datasets import Multi30k

In [2]:
datasets = Multi30k(split=('train', 'valid', 'test'), language_pair=('de', 'en'))

In [4]:
datasets

(ShardingFilterIterDataPipe,
 ShardingFilterIterDataPipe,
 ShardingFilterIterDataPipe)

In [5]:
loader = DataLoader(datasets[0], batch_size=32)

In [6]:
for de_text_batch, en_text_batch in loader:
    print(de_text_batch)
    print(en_text_batch)
    break

('Zwei junge weiße Männer sind im Freien in der Nähe vieler Büsche.', 'Mehrere Männer mit Schutzhelmen bedienen ein Antriebsradsystem.', 'Ein kleines Mädchen klettert in ein Spielhaus aus Holz.', 'Ein Mann in einem blauen Hemd steht auf einer Leiter und putzt ein Fenster.', 'Zwei Männer stehen am Herd und bereiten Essen zu.', 'Ein Mann in grün hält eine Gitarre, während der andere Mann sein Hemd ansieht.', 'Ein Mann lächelt einen ausgestopften Löwen an.', 'Ein schickes Mädchen spricht mit dem Handy während sie langsam die Straße entlangschwebt.', 'Eine Frau mit einer großen Geldbörse geht an einem Tor vorbei.', 'Jungen tanzen mitten in der Nacht auf Pfosten.', 'Eine Ballettklasse mit fünf Mädchen, die nacheinander springen.', 'Vier Typen, von denen drei Hüte tragen und einer nicht, springen oben in einem Treppenhaus.', 'Ein schwarzer Hund und ein gefleckter Hund kämpfen.', 'Ein Mann in einer neongrünen und orangefarbenen Uniform fährt auf einem grünen Traktor.', 'Mehrere Frauen warten 

### tokenization

In [7]:
import spacy

tokenizer = spacy.load('en_core_web_sm')

In [9]:
tokens = tokenizer('Hello, world!')
[token.text for token in tokens]

['Hello', ',', 'world', '!']

In [13]:
de_tokenizer = spacy.load('de_core_news_sm')
en_tokenizer = spacy.load('en_core_web_sm')

dataset = Multi30k(split='train', language_pair=('de', 'en'))

for de_text, en_text in dataset:
    de_tokens = de_tokenizer(de_text)
    en_tokens = en_tokenizer(en_text)
    break

### english counter

In [15]:
import spacy
from torchtext.datasets import Multi30k
datasets = Multi30k(split='train', language_pair=('en', 'de'))
src_texts, tgt_texts = list(zip(*datasets))

In [16]:
tokenizer = spacy.load('en_core_web_sm')
texts = src_texts

In [22]:
from tqdm import tqdm
from collections import Counter

counter = Counter()
for tokens in tqdm(tokenizer.pipe(texts), total=len(texts)):
    counter.update([token.text for token in tokens])

100%|██████████| 29001/29001 [00:16<00:00, 1717.25it/s]


In [26]:
from pathlib import Path
vocab_path = Path('./vocab.txt')
with vocab_path.open(mode='w') as f:
    for token, count in counter.most_common():
        f.write(token + '\n')

In [1]:
from pathlib import Path
vocab_path = Path('./vocab.txt')
with vocab_path.open(mode='r') as f:
    vocab = f.read().splitlines()

In [4]:
SPECIAL_TOKENS = ['<unk>', '<pad>', '<sos>', '<eos>']
tokens = SPECIAL_TOKENS + vocab
lookup = {token: i for i, token in enumerate(tokens)}

In [26]:
from collections import Counter
from tqdm import tqdm
class Vocab:
    SPECIAL_TOKENS = {
        'UNK': '<unk>',
        'PAD': '<pad>',
        'SOS': '<sos>',
        'EOS': '<eos>'
    }
    SPECIAL_TOKENS_ORDER = ['UNK', 'PAD', 'SOS', 'EOS']
    SPECIAL_TOKENS_IDX = {token: i for i, token in enumerate(SPECIAL_TOKENS_ORDER)}

    def __init__(self, vocab_path, language):
        self.vocab = Vocab.load_vocab(vocab_path, language)
        self.lookup = {token: i for i, token in enumerate(self.vocab)}
    
    def __len__(self):
        return len(self.vocab)
    
    def __call__(self, tokens):
        return [self.lookup.get(token, Vocab.SPECIAL_TOKENS_IDX['UNK']) for token in tokens]
    
    @staticmethod
    def load_vocab(vocab_path, language):
        if vocab_path.exists():
            with vocab_path.open(mode='r') as f:
                vocab = f.read().splitlines()
        else:
            vocab = Vocab.build_vocab(vocab_path, language)
        
        return vocab

    @staticmethod
    def build_vocab(vocab_path, language):
        datasets = Multi30k(split='train', language_pair=('en', 'de'))
        src_texts, tgt_texts = list(zip(*datasets))

        if language == 'en':
            tokenizer = spacy.load('en_core_web_sm')
            texts = src_texts
        else:
            tokenizer = spacy.load('de_core_news_sm')
            texts = tgt_texts
            
        counter = Counter()
        for tokens in tqdm(tokenizer.pipe(texts), total=len(texts)):
            counter.update([token.text for token in tokens])
        
        vocab = [Vocab.SPECIAL_TOKENS[special_token] for special_token in Vocab.SPECIAL_TOKENS_ORDER]
        with vocab_path.open(mode='w') as f:
            for token, count in counter.most_common():
                f.write(token + '\n')
                vocab += [token]
        return vocab

In [27]:
from pathlib import Path
en_vocab = Vocab(vocab_path=Path('./en_vocab.txt'), language='en')

In [28]:
en_vocab(['Hel', ',', 'world', '!'])

[0, 11, 1857, 1224]