Speed data reader for IMDB dataset. #7002

qingqing01 · 2017-12-25T11:38:54Z

Test Env:
- model config: https://github.com/dzhwinter/benchmark/blob/master/fluid/understand_sentiment_dynamic_lstm.py
- CPU, 2 epoc
Total Time:
- 109.56469s -> 51.86136s

… imdb_data

chengduoZH · 2017-12-25T14:47:42Z

python/paddle/v2/dataset/imdb.py

@@ -76,45 +75,19 @@ def build_dict(pattern, cutoff):

 def reader_creator(pos_pattern, neg_pattern, word_idx, buffer_size):


buffer_size becomes useless.

buffer_size is never used. Even in the previous experiment, people only set the shuffle buffer.

Done. Remove the buffer size. And I test the time for whether to use two threads.

Not use two threads: 16.65757s

Use two threads: 25 - 27s. I'm not sure why this is slower, the code is as follows:

def reader_creator(pos_pattern, neg_pattern, word_idx, buffer_size): start_time = time.time() UNK = word_idx['<unk>'] POS = [] NEG = [] def load(pattern, out, label): for doc in tokenize(pattern): out.append(([word_idx.get(w, UNK) for w in doc], label)) # Creates two threads that loads positive and negative samples # into qs. t0 = threading.Thread( target=load, args=( pos_pattern, POS, 0, )) t0.daemon = True t0.start() t1 = threading.Thread( target=load, args=( neg_pattern, NEG, 1, )) t1.daemon = True t1.start() t0.join() t1.join() INS = POS + NEG random.shuffle(INS) duration = time.time() - start_time print('\nTotal time: %.5f ' % (duration)) def reader(): for doc, label in INS: yield doc, label return reader

dzhwinter

Great enhance

reyoung

Excellent jobs. Thanks

qingqing01 added 2 commits December 25, 2017 19:32

Speed data reader for imdb dataset.

26c9e8e

Merge branch 'develop' of https://github.com/PaddlePaddle/Paddle into…

17f4438

… imdb_data

qingqing01 requested review from reyoung, dzhwinter and chengduoZH December 25, 2017 11:39

Fix importing bug.

3247baa

chengduoZH reviewed Dec 25, 2017

View reviewed changes

Remove the buffer size.

eb8edeb

dzhwinter approved these changes Dec 26, 2017

View reviewed changes

reyoung approved these changes Dec 26, 2017

View reviewed changes

qingqing01 merged commit c3fd2c2 into PaddlePaddle:develop Dec 26, 2017

qingqing01 deleted the imdb_data branch November 14, 2019 05:26

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Speed data reader for IMDB dataset. #7002

Speed data reader for IMDB dataset. #7002

qingqing01 commented Dec 25, 2017 •

edited

chengduoZH Dec 25, 2017

dzhwinter Dec 26, 2017

qingqing01 Dec 26, 2017 •

edited

dzhwinter left a comment

reyoung left a comment

		@@ -76,45 +75,19 @@ def build_dict(pattern, cutoff):

		def reader_creator(pos_pattern, neg_pattern, word_idx, buffer_size):

Speed data reader for IMDB dataset. #7002

Speed data reader for IMDB dataset. #7002

Conversation

qingqing01 commented Dec 25, 2017 • edited

chengduoZH Dec 25, 2017

Choose a reason for hiding this comment

dzhwinter Dec 26, 2017

Choose a reason for hiding this comment

qingqing01 Dec 26, 2017 • edited

Choose a reason for hiding this comment

dzhwinter left a comment

Choose a reason for hiding this comment

reyoung left a comment

Choose a reason for hiding this comment

qingqing01 commented Dec 25, 2017 •

edited

qingqing01 Dec 26, 2017 •

edited