In [1]:
from mxnet import nd
import random
import zipfile

In [3]:
with zipfile.ZipFile('../data/jaychou_lyrics.txt.zip') as zin:
    with zin.open('jaychou_lyrics.txt') as f:
        corpus_chars = f.read().decode('utf-8')
corpus_chars[:40]

'想要有直升机\n想要和你飞到宇宙去\n想要和你融化在一起\n融化在宇宙里\n我每天每天每'

In [4]:
corpus_chars = corpus_chars.replace('\n', ' ').replace('\r', ' ')
corpus_chars = corpus_chars[0:10000]

In [8]:
idx_to_char = list(set(corpus_chars))
char_to_idx = dict([(char, i) for i, char in enumerate(idx_to_char)])
vocab_size = len(char_to_idx)
vocab_size

1027

In [15]:
corpus_indices = [char_to_idx[char] for char in corpus_chars]
sample = corpus_indices[:20]
print('chars:', ''.join(idx_to_char[idx] for idx in sample))
print('indices:', sample)

chars: 想要有直升机 想要和你飞到宇宙去 想要和
indices: [329, 38, 388, 857, 411, 373, 608, 329, 38, 518, 502, 972, 885, 131, 381, 574, 608, 329, 38, 518]


In [25]:
def data_iter_random(corpus_indics, batch_size, num_steps, ctx=None):
    num_examples = (len(corpus_chars) - 1) // num_steps
    epoch_size = num_examples // batch_size
    example_indices = list(range(num_examples))
    random.shuffle(example_indices)

    def _data(pos):
        return corpus_indices[pos: pos + num_steps]

    for i in range(epoch_size):
        i = i * batch_size
        batch_indices = example_indices[i:i + batch_size]
        X = [_data(j * num_steps) for j in batch_indices]
        Y = [_data(j * num_steps + 1) for j in batch_indices]
        yield nd.array(X, ctx), nd.array(Y, ctx)

In [24]:
my_seq = list(range(30))
for X, Y in data_iter_random(my_seq, batch_size=2, num_steps=6):
    print('X:', X, '\nY', Y, '\n')
X

X: 
[[479. 387. 183. 979. 720. 656.]
 [ 34. 389. 523. 494. 285. 608.]]
<NDArray 2x6 @cpu(0)> 
Y 
[[387. 183. 979. 720. 656. 479.]
 [389. 523. 494. 285. 608. 432.]]
<NDArray 2x6 @cpu(0)> 

X: 
[[ 839.  271.   94.  667.  255.  132.]
 [ 305.  608.  476.   88. 1023.  829.]]
<NDArray 2x6 @cpu(0)> 
Y 
[[ 271.   94.  667.  255.  132.  829.]
 [ 608.  476.   88. 1023.  829.  926.]]
<NDArray 2x6 @cpu(0)> 

X: 
[[305. 976.  94. 519. 499. 807.]
 [927. 900.  94. 505. 608.  34.]]
<NDArray 2x6 @cpu(0)> 
Y 
[[976.  94. 519. 499. 807. 666.]
 [900.  94. 505. 608.  34. 389.]]
<NDArray 2x6 @cpu(0)> 

X: 
[[124. 608. 408. 785. 429. 412.]
 [986. 608. 447.  98. 473. 307.]]
<NDArray 2x6 @cpu(0)> 
Y 
[[608. 408. 785. 429. 412. 608.]
 [608. 447.  98. 473. 307. 253.]]
<NDArray 2x6 @cpu(0)> 

X: 
[[529. 843. 360. 608. 484. 962.]
 [ 94. 319. 869. 388. 608. 953.]]
<NDArray 2x6 @cpu(0)> 
Y 
[[843. 360. 608. 484. 962.  94.]
 [319. 869. 388. 608. 953. 296.]]
<NDArray 2x6 @cpu(0)> 

X: 
[[443. 608. 499. 750. 410. 198.]

X: 
[[ 661.  608.  608.  445.  360. 1012.]
 [ 665.  556.  492.  410.  310.  124.]]
<NDArray 2x6 @cpu(0)> 
Y 
[[ 608.  608.  445.  360. 1012.  443.]
 [ 556.  492.  410.  310.  124.  608.]]
<NDArray 2x6 @cpu(0)> 

X: 
[[608. 560. 686. 869. 890. 499.]
 [697. 474. 241. 519. 502. 937.]]
<NDArray 2x6 @cpu(0)> 
Y 
[[560. 686. 869. 890. 499. 608.]
 [474. 241. 519. 502. 937. 833.]]
<NDArray 2x6 @cpu(0)> 

X: 
[[301. 410. 499. 608. 140. 638.]
 [608. 499. 743. 608. 499. 743.]]
<NDArray 2x6 @cpu(0)> 
Y 
[[410. 499. 608. 140. 638.  94.]
 [499. 743. 608. 499. 743. 608.]]
<NDArray 2x6 @cpu(0)> 

X: 
[[255. 132. 829. 608. 726. 610.]
 [ 42. 499. 767. 416.  31. 608.]]
<NDArray 2x6 @cpu(0)> 
Y 
[[132. 829. 608. 726. 610.  94.]
 [499. 767. 416.  31. 608. 388.]]
<NDArray 2x6 @cpu(0)> 

X: 
[[ 608.  979.  331.  441.  608.  979.]
 [ 829.  608. 1011. 1011.   94.  519.]]
<NDArray 2x6 @cpu(0)> 
Y 
[[ 979.  331.  441.  608.  979.  331.]
 [ 608. 1011. 1011.   94.  519.  499.]]
<NDArray 2x6 @cpu(0)> 

X: 
[[708.  

X: 
[[ 94. 760. 374.  53. 641. 608.]
 [667. 289. 637. 180. 287. 344.]]
<NDArray 2x6 @cpu(0)> 
Y 
[[760. 374.  53. 641. 608. 317.]
 [289. 637. 180. 287. 344. 991.]]
<NDArray 2x6 @cpu(0)> 

X: 
[[ 829.  608. 1011. 1011.   94.  519.]
 [ 697.  937.  697.   43.  608.  499.]]
<NDArray 2x6 @cpu(0)> 
Y 
[[ 608. 1011. 1011.   94.  519.  499.]
 [ 937.  697.   43.  608.  499.  585.]]
<NDArray 2x6 @cpu(0)> 

X: 
[[858. 410. 408. 857. 885.  10.]
 [107. 302. 408.  79. 639. 438.]]
<NDArray 2x6 @cpu(0)> 
Y 
[[410. 408. 857. 885.  10. 608.]
 [302. 408.  79. 639. 438. 608.]]
<NDArray 2x6 @cpu(0)> 

X: 
[[408. 820. 869. 432. 388. 854.]
 [125. 501. 743. 403. 608. 322.]]
<NDArray 2x6 @cpu(0)> 
Y 
[[820. 869. 432. 388. 854. 138.]
 [501. 743. 403. 608. 322. 503.]]
<NDArray 2x6 @cpu(0)> 

X: 
[[502. 937. 833. 608. 608. 822.]
 [394. 608. 499. 329. 898. 379.]]
<NDArray 2x6 @cpu(0)> 
Y 
[[937. 833. 608. 608. 822. 926.]
 [608. 499. 329. 898. 379. 823.]]
<NDArray 2x6 @cpu(0)> 

X: 
[[430. 293. 430. 412. 430. 429.]

Y 
[[388.   6. 555. 661. 608. 608.]
 [214. 608. 926. 956. 517. 468.]]
<NDArray 2x6 @cpu(0)> 

X: 
[[ 132.  829.  608. 1011. 1011.   94.]
 [ 388.  502.  926.  499.  388.    6.]]
<NDArray 2x6 @cpu(0)> 
Y 
[[ 829.  608. 1011. 1011.   94.  519.]
 [ 502.  926.  499.  388.    6.  555.]]
<NDArray 2x6 @cpu(0)> 

X: 
[[834. 827. 468.  75. 549. 608.]
 [132. 922. 716. 422. 456. 493.]]
<NDArray 2x6 @cpu(0)> 
Y 
[[827. 468.  75. 549. 608. 502.]
 [922. 716. 422. 456. 493. 608.]]
<NDArray 2x6 @cpu(0)> 

X: 
[[ 179.  360. 1026.  608.  926.    6.]
 [   7.  162.  779.  601.  835.  204.]]
<NDArray 2x6 @cpu(0)> 
Y 
[[ 360. 1026.  608.  926.    6.    7.]
 [ 162.  779.  601.  835.  204.   94.]]
<NDArray 2x6 @cpu(0)> 

X: 
[[829. 872. 403. 499. 608. 225.]
 [437. 608. 726. 488. 607. 209.]]
<NDArray 2x6 @cpu(0)> 
Y 
[[872. 403. 499. 608. 225. 450.]
 [608. 726. 488. 607. 209. 792.]]
<NDArray 2x6 @cpu(0)> 

X: 
[[ 388.  590.  590.   94.  726.  488.]
 [ 128.  305.  608.  476.   88. 1023.]]
<NDArray 2x6 @cpu(0)> 


<NDArray 2x6 @cpu(0)> 

X: 
[[ 38. 107. 656. 479. 300. 499.]
 [920. 479. 608. 991. 410. 408.]]
<NDArray 2x6 @cpu(0)> 
Y 
[[107. 656. 479. 300. 499. 590.]
 [479. 608. 991. 410. 408. 245.]]
<NDArray 2x6 @cpu(0)> 

X: 
[[972. 608.  14. 125. 407. 223.]
 [499. 387. 410. 835. 779. 735.]]
<NDArray 2x6 @cpu(0)> 
Y 
[[608.  14. 125. 407. 223. 172.]
 [387. 410. 835. 779. 735. 365.]]
<NDArray 2x6 @cpu(0)> 

X: 
[[241. 388. 240.  89. 125. 693.]
 [710. 258. 357. 241. 388. 889.]]
<NDArray 2x6 @cpu(0)> 
Y 
[[388. 240.  89. 125. 693. 640.]
 [258. 357. 241. 388. 889. 257.]]
<NDArray 2x6 @cpu(0)> 

X: 
[[329. 423. 608. 109.  25. 107.]
 [778.  94. 374. 364. 608. 482.]]
<NDArray 2x6 @cpu(0)> 
Y 
[[423. 608. 109.  25. 107. 623.]
 [ 94. 374. 364. 608. 482. 182.]]
<NDArray 2x6 @cpu(0)> 

X: 
[[608. 208.  42. 499. 767. 416.]
 [ 68. 982.  29.  88. 499. 270.]]
<NDArray 2x6 @cpu(0)> 
Y 
[[208.  42. 499. 767. 416.  31.]
 [982.  29.  88. 499. 270. 757.]]
<NDArray 2x6 @cpu(0)> 

X: 
[[ 85. 608. 499. 743.  38. 107.]

X: 
[[608. 726. 488. 607. 209. 792.]
 [803. 608. 329. 656. 479. 241.]]
<NDArray 2x6 @cpu(0)> 
Y 
[[726. 488. 607. 209. 792. 608.]
 [608. 329. 656. 479. 241. 738.]]
<NDArray 2x6 @cpu(0)> 

X: 
[[656. 567. 331. 441. 535. 161.]
 [608. 200. 527. 448. 608. 408.]]
<NDArray 2x6 @cpu(0)> 
Y 
[[567. 331. 441. 535. 161.  94.]
 [200. 527. 448. 608. 408. 180.]]
<NDArray 2x6 @cpu(0)> 

X: 
[[482. 182. 150. 369. 854. 778.]
 [585. 912. 912. 593. 640. 608.]]
<NDArray 2x6 @cpu(0)> 
Y 
[[182. 150. 369. 854. 778.  94.]
 [912. 912. 593. 640. 608. 499.]]
<NDArray 2x6 @cpu(0)> 

X: 
[[991. 687. 675. 607. 582. 578.]
 [499. 839. 271.  94. 667. 255.]]
<NDArray 2x6 @cpu(0)> 
Y 
[[687. 675. 607. 582. 578. 743.]
 [839. 271.  94. 667. 255. 132.]]
<NDArray 2x6 @cpu(0)> 

X: 
[[193. 193. 456.  98. 322. 493.]
 [456.  98. 322. 493. 608. 872.]]
<NDArray 2x6 @cpu(0)> 
Y 
[[193. 456.  98. 322. 493. 608.]
 [ 98. 322. 493. 608. 872. 710.]]
<NDArray 2x6 @cpu(0)> 

X: 
[[608. 946. 161. 499. 608. 555.]
 [686. 803. 608. 771. 9

X: 
[[233. 829.  74. 857. 743. 828.]
 [763. 499. 698. 270. 502. 355.]]
<NDArray 2x6 @cpu(0)> 
Y 
[[829.  74. 857. 743. 828. 608.]
 [499. 698. 270. 502. 355. 502.]]
<NDArray 2x6 @cpu(0)> 

X: 
[[ 249.  829.  184. 1021.  515.  608.]
 [ 172.  608.  872.  848.  848.  608.]]
<NDArray 2x6 @cpu(0)> 
Y 
[[ 829.  184. 1021.  515.  608.  861.]
 [ 608.  872.  848.  848.  608.  408.]]
<NDArray 2x6 @cpu(0)> 

X: 
[[ 259.  259.  608.  150.  441.  959.]
 [ 298. 1006.  319.  480.  181.  608.]]
<NDArray 2x6 @cpu(0)> 
Y 
[[ 259.  608.  150.  441.  959.  608.]
 [1006.  319.  480.  181.  608.  287.]]
<NDArray 2x6 @cpu(0)> 

X: 
[[255. 927. 408. 218. 901. 608.]
 [608. 499. 329. 687. 656. 479.]]
<NDArray 2x6 @cpu(0)> 
Y 
[[927. 408. 218. 901. 608. 996.]
 [499. 329. 687. 656. 479. 421.]]
<NDArray 2x6 @cpu(0)> 

X: 
[[ 608.  835. 1012.  926.  868.  683.]
 [ 176.  580.   55.  608.  847.  754.]]
<NDArray 2x6 @cpu(0)> 
Y 
[[ 835. 1012.  926.  868.  683.  608.]
 [ 580.   55.  608.  847.  754.  905.]]
<NDArray 2x6

X: 
[[608. 287. 344. 499. 958. 902.]
 [683. 608. 331. 441. 220. 179.]]
<NDArray 2x6 @cpu(0)> 
Y 
[[287. 344. 499. 958. 902. 502.]
 [608. 331. 441. 220. 179. 360.]]
<NDArray 2x6 @cpu(0)> 

X: 
[[379. 823. 407. 608. 387. 502.]
 [329. 640. 608. 991. 502. 916.]]
<NDArray 2x6 @cpu(0)> 
Y 
[[823. 407. 608. 387. 502. 366.]
 [640. 608. 991. 502. 916. 441.]]
<NDArray 2x6 @cpu(0)> 

X: 
[[ 94. 352. 495. 608. 502. 608.]
 [408. 627. 608. 303.  94. 667.]]
<NDArray 2x6 @cpu(0)> 
Y 
[[352. 495. 608. 502. 608. 926.]
 [627. 608. 303.  94. 667. 289.]]
<NDArray 2x6 @cpu(0)> 

X: 
[[829. 730.  61.  84. 341. 322.]
 [150. 246. 901. 202. 404.   7.]]
<NDArray 2x6 @cpu(0)> 
Y 
[[730.  61.  84. 341. 322. 128.]
 [246. 901. 202. 404.   7.  94.]]
<NDArray 2x6 @cpu(0)> 

X: 
[[659.  94. 667. 255. 132. 829.]
 [223. 226.  94. 936. 744. 608.]]
<NDArray 2x6 @cpu(0)> 
Y 
[[ 94. 667. 255. 132. 829. 608.]
 [226.  94. 936. 744. 608. 499.]]
<NDArray 2x6 @cpu(0)> 

X: 
[[408. 497. 399. 924.  94.  10.]
 [ 61. 916. 441. 432. 3


[[428. 608. 499. 388.   6. 428.]
 [608. 687. 916. 441. 351. 172.]]
<NDArray 2x6 @cpu(0)>