experimental.dataset WikiText2, WikiText103, PennTreeBank, WMTNewsCrawl #774

rmz59 · 2020-05-15T00:49:32Z

Update word language modeling datasets [HELP WANTED] Re-write datasets in torchtext #742

…language_modeling # Conflicts: # torchtext/experimental/datasets/language_modeling.py

torchtext/experimental/datasets/language_modeling.py

torchtext/experimental/datasets/raw/language_modeling.py

torchtext/experimental/datasets/text_classification.py

This reverts commit ebfd0a7

torchtext/experimental/datasets/language_modeling.py

zhangguanheng66 · 2020-05-17T20:57:40Z

torchtext/experimental/datasets/language_modeling.py

        self.vocab = vocab
+        self.transforms = transforms
+        self.data = torch.cat(tuple(transforms(row) for row in data), axis=0)


To be consistent with text classification datasets, please call the transform func in __getitem__ func

It might be hard to call the transform func in __getitem__. For dataset like WikiText2, the raw data wiki.train.tokens is stored as a multi-line txt file, and self.__getitem__[i] is expeced to output i-th token. Therefore, pre-processing is required to concat and tokenize the multi-line file. Can you advise if we need an additional preprocess func?

I cant' move transforms into __getitem__, because tokenizer must be applied before __getitem__. Otherwise, the unit test https://github.com/pytorch/text/blob/master/test/data/test_builtin_datasets.py#L54-L57 will fail here.

Possible solution

Move tokenizer out of transforms

OR: split transforms into two parts - global transforms / token-level transforms.

Please advise how I can move forward. Thanks.

torchtext/experimental/datasets/language_modeling.py

torchtext/experimental/datasets/raw/language_modeling.py

zhangguanheng66

Looks good to me and very close to the dataset abstraction. Only made a few suggestions for changes.

zhangguanheng66

Could you also consolidate WMTNewsCrawl here into word language modeling datasets?

zhangguanheng66 · 2020-05-21T13:47:18Z

torchtext/experimental/datasets/language_modeling.py

@@ -210,14 +159,13 @@ def PennTreebank(*args, **kwargs):
    Separately returns the train/test/valid set

    Arguments:
+        root: Directory where the datasets are saved. Default: ".data"
+        vocab: Vocabulary used for dataset. If None, it will generate a new


Since you change the order of vocab and tokenizer, will this be a BC breaking?

Yes, it's a possible BC breaking if people use args instead of kwargs. I restored the previous order of vocab and tokenizer in commit f433b40 above.

Great. Let me know when you are done with the revision. I will have another look.

I thought we agreed to go by tokenizer, root, vocab in order.

zhangguanheng66 · 2020-06-03T01:18:23Z

@z-Runmin Please kindly let us know if you need a review.

rmz59 · 2020-06-03T02:25:11Z

Not sure why unittest_windows failed to install torchtext

zhangguanheng66 · 2020-06-03T22:19:38Z

Not sure why unittest_windows failed to install torchtext

@peterjc123 Could you take a look at here? The master branch is green.

zhangguanheng66 · 2020-06-03T22:22:25Z

torchtext/experimental/datasets/language_modeling.py

-                                     token_id_3, token_id_1]).long()
-            >>> vocab = build_vocab_from_iterator([['language', 'modeling']])
-            >>> dataset = LanguageModelingDataset(data, vocab)
+            transforms: Text string transforms.



and docs for single_line

zhangguanheng66

LGTM. Add only two comments. Once the CI tests are fixed, we can merge the PR. Then, I will switch my BERT pipeline to the new datasets.

zhangguanheng66

And could you add a test for WMTNewsCrawl dataset? like

text/test/data/test_builtin_datasets.py

Line 79 in e709553

def test_penntreebank(self):

peterjc123 · 2020-06-04T01:47:23Z

Not sure why unittest_windows failed to install torchtext

@peterjc123 Could you take a look at here? The master branch is green.

@z-Runmin @zhangguanheng66 You might need to rebase your branch on master.

peterjc123 · 2020-06-04T10:56:54Z

Looks like the wmt dataset is so large that it couldn't be downloaded within the time limit (30 min).

zhangguanheng66 · 2020-06-04T15:28:30Z

Looks like the wmt dataset is so large that it couldn't be downloaded within the time limit (30 min).

OK, let me remove the test.

…to download files

zhangguanheng66

Add some minor changes. Will merge after CI tests pass.

…NewsCrawl (pytorch#774)

rmz59 added 6 commits May 10, 2020 22:46

torchtext.experimental.raw: update __init__.py

e4b094c

add language_modeling.py in raw dataset

eb5409c

fix typo

ebfd0a7

add new language_modeling dataset

5dcf6e2

add new language_modeling dataset

7be2bfe

Merge remote-tracking branch 'origin/new_language_modeling' into new_…

5d71b3c

…language_modeling # Conflicts: # torchtext/experimental/datasets/language_modeling.py

zhangguanheng66 reviewed May 15, 2020

View reviewed changes

torchtext/experimental/datasets/language_modeling.py Outdated Show resolved Hide resolved

zhangguanheng66 reviewed May 15, 2020

View reviewed changes

torchtext/experimental/datasets/raw/language_modeling.py Show resolved Hide resolved

zhangguanheng66 reviewed May 15, 2020

View reviewed changes

torchtext/experimental/datasets/text_classification.py Outdated Show resolved Hide resolved

cpuhrsch changed the title ~~New language modeling~~ experimental.dataset WikiText2, WikiText103, PennTreeBank May 15, 2020

rmz59 added 3 commits May 14, 2020 21:28

Revert "fix typo". Will submit another dedicated PR for typos

71baaf1

This reverts commit ebfd0a7

remove duplicated functions.

7704105

fix incorrect dataset orders

b9e4645

rmz59 marked this pull request as draft May 15, 2020 16:34

rmz59 added 3 commits May 15, 2020 12:47

remove setup_iter

37514b5

explicitly select data

0117041

remove sys

ecafa7b

rmz59 marked this pull request as ready for review May 15, 2020 17:09

rmz59 requested a review from zhangguanheng66 May 15, 2020 17:10

zhangguanheng66 reviewed May 17, 2020

View reviewed changes