- Image batches are commonly represented by a 4-D array with shape (batch_size, num_channels, width, height)
- mnist images are grayscale, the input is `(batch_size, 1, 28, 28)`
- When feeding training examples, it is critical that we don’t feed samples with the same label in succession. Doing so can slow down training. Data iterators take care of this by randomly shuffling the inputs.
- MLPs contains several fully connected layers. A fully connected layer or FC layer for short, is one where each neuron in the layer is connected to every neuron in its preceding layer. From a linear algebra perspective, an FC layer applies an affine transform to the n x m input matrix X and outputs a matrix Y of size n x k, where k is the number of neurons in the FC layer. k is also referred to as the hidden size. The output Y is computed according to the equation Y = W X + b. The FC layer has two learnable parameters, the m x k weight matrix W and the m x 1 bias vector b.

In [2]:
import mxnet as mx
mnist = mx.test_utils.get_mnist()

  label = np.fromstring(flbl.read(), dtype=np.int8)
  image = np.fromstring(fimg.read(), dtype=np.uint8).reshape(len(label), rows, cols)


In [57]:
batch_size = 2 # 100
train_iter = mx.io.NDArrayIter(mnist['train_data'], mnist['train_label'], batch_size, shuffle=True)
val_iter = mx.io.NDArrayIter(mnist['test_data'], mnist['test_label'], batch_size)

In [58]:
data = mx.sym.var('data')
# Flatten the data from 4-D shape into 2-D (batch_size, num_channel*width*height)
data = mx.sym.flatten(data=data)

In [59]:
fc1 = mx.sym.FullyConnected(data=data, num_hidden=128)
act1 = mx.sym.Activation(data=fc1, act_type='relu')
fc2 = mx.sym.FullyConnected(data=act1, num_hidden=64)
act2 = mx.sym.Activation(data=fc2, act_type='relu')
fc3 = mx.sym.FullyConnected(data=act2, num_hidden=10)
mlp = mx.sym.SoftmaxOutput(data=fc3, name='softmax')

In [60]:
import numpy
#@register
#@alias('ce')
class CrossEntropy(mx.metric.EvalMetric):
    def __init__(self, eps=1e-12, name='cross-entropy',
                 output_names=None, label_names=None):
        super(CrossEntropy, self).__init__(
            name, eps=eps,
            output_names=output_names, label_names=label_names)
        self.eps = eps

    def update(self, labels, preds):
        # check_label_shapes(labels, preds)
        print('labels={}'.format(labels))
        print('preds={}'.format(preds))
        for label, pred in zip(labels, preds):
            label = label.asnumpy()
            pred = pred.asnumpy()
            print('label={}'.format(label))
            print('pred={}'.format(pred))
            label = label.ravel()
            assert label.shape[0] == pred.shape[0]

            prob = pred[numpy.arange(label.shape[0]), numpy.int64(label)]
            self.sum_metric += (-numpy.log(prob + self.eps)).sum()
            self.num_inst += label.shape[0]



In [61]:
import logging
logging.getLogger().setLevel(logging.DEBUG)  # logging to stdout
# create a trainable module on CPU
mlp_model = mx.mod.Module(symbol=mlp, context=mx.cpu())
mlp_model.fit(train_iter,  # train data
              eval_data=val_iter,  # validation data
              optimizer='sgd',  # use SGD to train
              optimizer_params={'learning_rate':0.1},  # use fixed learning rate
              eval_metric= [CrossEntropy()], # 'acc',  # report accuracy during training
              batch_end_callback = mx.callback.Speedometer(batch_size, 100), # output progress for each 100 data batches
              num_epoch=10)  # train for at most 10 dataset passes

labels=[
[6. 6.]
<NDArray 2 @cpu(0)>]
preds=[
[[0.09999979 0.0999874  0.10002475 0.09999491 0.10000254 0.09999043
  0.10001322 0.09998852 0.09999517 0.10000326]
 [0.10000587 0.09999114 0.10002345 0.09998234 0.10001592 0.09999555
  0.10001698 0.09998593 0.09999037 0.09999247]]
<NDArray 2x10 @cpu(0)>]
label=[6. 6.]
pred=[[0.09999979 0.0999874  0.10002475 0.09999491 0.10000254 0.09999043
  0.10001322 0.09998852 0.09999517 0.10000326]
 [0.10000587 0.09999114 0.10002345 0.09998234 0.10001592 0.09999555
  0.10001698 0.09998593 0.09999037 0.09999247]]
labels=[
[3. 1.]
<NDArray 2 @cpu(0)>]
preds=[
[[0.09896198 0.09894928 0.09897467 0.09895441 0.0989591  0.09894476
  0.10940453 0.09894499 0.09895106 0.09895527]
 [0.09896223 0.09895806 0.09896589 0.09895356 0.09896521 0.09895048
  0.10938646 0.09894519 0.09895179 0.09896115]]
<NDArray 2x10 @cpu(0)>]
label=[3. 1.]
pred=[[0.09896198 0.09894928 0.09897467 0.09895441 0.0989591  0.09894476
  0.10940453 0.09894499 0.09895106 0.09895527]
 [0.09896223 0

INFO:root:Epoch[0] Batch [100]	Speed: 615.45 samples/sec	cross-entropy=2.308332


preds=[
[[0.08606645 0.10312925 0.09500643 0.08555174 0.08543436 0.10593444
  0.09916592 0.12969993 0.10345749 0.10655395]
 [0.08606302 0.10311531 0.09500829 0.08554695 0.08542976 0.1059358
  0.09918337 0.12969792 0.10346162 0.10655794]]
<NDArray 2x10 @cpu(0)>]
label=[1. 6.]
pred=[[0.08606645 0.10312925 0.09500643 0.08555174 0.08543436 0.10593444
  0.09916592 0.12969993 0.10345749 0.10655395]
 [0.08606302 0.10311531 0.09500829 0.08554695 0.08542976 0.1059358
  0.09918337 0.12969792 0.10346162 0.10655794]]
labels=[
[5. 8.]
<NDArray 2 @cpu(0)>]
preds=[
[[0.08531524 0.10727561 0.094096   0.08480251 0.084692   0.10480019
  0.10323021 0.12799895 0.10237966 0.10540958]
 [0.08531069 0.10728138 0.09410085 0.08480553 0.08469199 0.10480297
  0.1032159  0.12800659 0.10237325 0.10541081]]
<NDArray 2x10 @cpu(0)>]
label=[5. 8.]
pred=[[0.08531524 0.10727561 0.094096   0.08480251 0.084692   0.10480019
  0.10323021 0.12799895 0.10237966 0.10540958]
 [0.08531069 0.10728138 0.09410085 0.08480553 0.084691

preds=[
[[0.09987003 0.11325121 0.09069921 0.09322055 0.09562507 0.08435968
  0.09824024 0.08514275 0.10607446 0.13351679]
 [0.099867   0.11324134 0.09070262 0.09322251 0.09563476 0.08435841
  0.09823417 0.08513018 0.10608201 0.133527  ]]
<NDArray 2x10 @cpu(0)>]
label=[3. 3.]
pred=[[0.09987003 0.11325121 0.09069921 0.09322055 0.09562507 0.08435968
  0.09824024 0.08514275 0.10607446 0.13351679]
 [0.099867   0.11324134 0.09070262 0.09322251 0.09563476 0.08435841
  0.09823417 0.08513018 0.10608201 0.133527  ]]
labels=[
[7. 3.]
<NDArray 2 @cpu(0)>]
preds=[
[[0.09891079 0.11201742 0.08991297 0.10212421 0.09476425 0.08368981
  0.09731015 0.08445716 0.10500876 0.13180447]
 [0.09890398 0.11202256 0.08991531 0.10213163 0.09476157 0.08369029
  0.09730789 0.08444809 0.10501359 0.1318051 ]]
<NDArray 2x10 @cpu(0)>]
label=[7. 3.]
pred=[[0.09891079 0.11201742 0.08991297 0.10212421 0.09476425 0.08368981
  0.09731015 0.08445716 0.10500876 0.13180447]
 [0.09890398 0.11202256 0.08991531 0.10213163 0.0947

INFO:root:Epoch[0] Batch [200]	Speed: 607.16 samples/sec	cross-entropy=2.320872


preds=[
[[0.08233792 0.12432197 0.09369598 0.11694764 0.092607   0.08572555
  0.08689123 0.10148655 0.10691437 0.10907174]
 [0.08233741 0.12430672 0.09369383 0.11693984 0.09260844 0.08572742
  0.08691517 0.10148158 0.10692946 0.10906022]]
<NDArray 2x10 @cpu(0)>]
label=[3. 0.]
pred=[[0.08233792 0.12432197 0.09369598 0.11694764 0.092607   0.08572555
  0.08689123 0.10148655 0.10691437 0.10907174]
 [0.08233741 0.12430672 0.09369383 0.11693984 0.09260844 0.08572742
  0.08691517 0.10148158 0.10692946 0.10906022]]
labels=[
[6. 8.]
<NDArray 2 @cpu(0)>]
preds=[
[[0.08584568 0.12277786 0.09281567 0.12151109 0.09175129 0.08499692
  0.08616816 0.10045731 0.10578846 0.10788746]
 [0.08584392 0.12279732 0.09282473 0.12152411 0.09175389 0.08499199
  0.08614927 0.10045987 0.10577762 0.10787729]]
<NDArray 2x10 @cpu(0)>]
label=[6. 8.]
pred=[[0.08584568 0.12277786 0.09281567 0.12151109 0.09175129 0.08499692
  0.08616816 0.10045731 0.10578846 0.10788746]
 [0.08584392 0.12279732 0.09282473 0.12152411 0.0917

preds=[
[[0.07559613 0.11531734 0.08574121 0.12109143 0.10742778 0.08581857
  0.09404309 0.11509051 0.10957262 0.0903012 ]
 [0.07558873 0.1152922  0.08577941 0.12116128 0.10742584 0.08582021
  0.09402741 0.11506534 0.10955483 0.09028478]]
<NDArray 2x10 @cpu(0)>]
label=[6. 3.]
pred=[[0.07559613 0.11531734 0.08574121 0.12109143 0.10742778 0.08581857
  0.09404309 0.11509051 0.10957262 0.0903012 ]
 [0.07558873 0.1152922  0.08577941 0.12116128 0.10742584 0.08582021
  0.09402741 0.11506534 0.10955483 0.09028478]]
labels=[
[9. 7.]
<NDArray 2 @cpu(0)>]
preds=[
[[0.07497469 0.11390618 0.08494926 0.12568688 0.10621033 0.08501707
  0.09785304 0.11369225 0.10828904 0.08942119]
 [0.07497834 0.11391136 0.08493732 0.12568292 0.10621244 0.08501026
  0.09783585 0.11372831 0.10828446 0.08941872]]
<NDArray 2x10 @cpu(0)>]
label=[9. 7.]
pred=[[0.07497469 0.11390618 0.08494926 0.12568688 0.10621033 0.08501707
  0.09785304 0.11369225 0.10828904 0.08942119]
 [0.07497834 0.11391136 0.08493732 0.12568292 0.1062

INFO:root:Epoch[0] Batch [300]	Speed: 469.43 samples/sec	cross-entropy=2.313602


preds=[
[[0.09530517 0.10292679 0.0879539  0.11369299 0.10423183 0.10645085
  0.08320511 0.09932111 0.09923241 0.10767987]
 [0.09534207 0.10283385 0.08796933 0.113709   0.10423394 0.10648758
  0.08320677 0.0992724  0.09924816 0.10769684]]
<NDArray 2x10 @cpu(0)>]
label=[7. 5.]
pred=[[0.09530517 0.10292679 0.0879539  0.11369299 0.10423183 0.10645085
  0.08320511 0.09932111 0.09923241 0.10767987]
 [0.09534207 0.10283385 0.08796933 0.113709   0.10423394 0.10648758
  0.08320677 0.0992724  0.09924816 0.10769684]]
labels=[
[3. 0.]
<NDArray 2 @cpu(0)>]
preds=[
[[0.09435432 0.1018038  0.08718798 0.11240975 0.10310607 0.1107021
  0.08247207 0.10329016 0.09821793 0.10645577]
 [0.09443188 0.10171717 0.08716892 0.11236256 0.10312196 0.11072975
  0.08248869 0.10328456 0.09822442 0.10647006]]
<NDArray 2x10 @cpu(0)>]
label=[3. 0.]
pred=[[0.09435432 0.1018038  0.08718798 0.11240975 0.10310607 0.1107021
  0.08247207 0.10329016 0.09821793 0.10645577]
 [0.09443188 0.10171717 0.08716892 0.11236256 0.103121

preds=[
[[0.09233225 0.08199126 0.08606383 0.08605708 0.11920601 0.1298782
  0.11102376 0.11804003 0.08227842 0.09312925]
 [0.09229153 0.08208961 0.0860635  0.0860938  0.11916287 0.1298668
  0.11093845 0.11805637 0.08228505 0.09315201]]
<NDArray 2x10 @cpu(0)>]
label=[8. 9.]
pred=[[0.09233225 0.08199126 0.08606383 0.08605708 0.11920601 0.1298782
  0.11102376 0.11804003 0.08227842 0.09312925]
 [0.09229153 0.08208961 0.0860635  0.0860938  0.11916287 0.1298668
  0.11093845 0.11805637 0.08228505 0.09315201]]
labels=[
[0. 5.]
<NDArray 2 @cpu(0)>]
preds=[
[[0.09168372 0.08140565 0.08543194 0.08540644 0.11791409 0.12843922
  0.10997009 0.11673164 0.085915   0.09710219]
 [0.09159259 0.08142469 0.08545007 0.08546226 0.11792699 0.12839638
  0.10991664 0.11674653 0.08594001 0.09714381]]
<NDArray 2x10 @cpu(0)>]
label=[0. 5.]
pred=[[0.09168372 0.08140565 0.08543194 0.08540644 0.11791409 0.12843922
  0.10997009 0.11673164 0.085915   0.09710219]
 [0.09159259 0.08142469 0.08545007 0.08546226 0.11792699

INFO:root:Epoch[0] Batch [400]	Speed: 574.88 samples/sec	cross-entropy=2.303079


preds=[
[[0.09188709 0.07635225 0.09073145 0.08242948 0.12722494 0.12466884
  0.10060814 0.12079728 0.0831066  0.1021939 ]
 [0.09196947 0.0760259  0.09073845 0.08228544 0.12749077 0.12474406
  0.10079829 0.1206908  0.08307869 0.10217814]]
<NDArray 2x10 @cpu(0)>]
label=[1. 4.]
pred=[[0.09188709 0.07635225 0.09073145 0.08242948 0.12722494 0.12466884
  0.10060814 0.12079728 0.0831066  0.1021939 ]
 [0.09196947 0.0760259  0.09073845 0.08228544 0.12749077 0.12474406
  0.10079829 0.1206908  0.08307869 0.10217814]]
labels=[
[1. 4.]
<NDArray 2 @cpu(0)>]
preds=[
[[0.09100726 0.0796317  0.08994217 0.08176912 0.13209973 0.12311979
  0.09960412 0.11928751 0.08241669 0.10112193]
 [0.09104987 0.07948834 0.08988519 0.08165478 0.13227415 0.12311045
  0.09966434 0.11930152 0.08239216 0.10117915]]
<NDArray 2x10 @cpu(0)>]
label=[1. 4.]
pred=[[0.09100726 0.0796317  0.08994217 0.08176912 0.13209973 0.12311979
  0.09960412 0.11928751 0.08241669 0.10112193]
 [0.09104987 0.07948834 0.08988519 0.08165478 0.1322

INFO:root:Epoch[0] Batch [500]	Speed: 562.09 samples/sec	cross-entropy=2.324080


pred=[[0.09365214 0.07938696 0.08960532 0.11146298 0.11280089 0.10513101
  0.11101294 0.1143997  0.07528457 0.10726358]
 [0.09337136 0.07963405 0.08940741 0.11114344 0.11292426 0.10499819
  0.11061396 0.11502615 0.07531755 0.10756356]]
labels=[
[1. 7.]
<NDArray 2 @cpu(0)>]
preds=[
[[0.09245198 0.07921602 0.09321004 0.11006347 0.11144973 0.10392045
  0.10931938 0.11934544 0.07477425 0.10624928]
 [0.09257542 0.07884273 0.09309629 0.10977143 0.11169951 0.10387167
  0.1094082  0.11959808 0.07470049 0.10643606]]
<NDArray 2x10 @cpu(0)>]
label=[1. 7.]
pred=[[0.09245198 0.07921602 0.09321004 0.11006347 0.11144973 0.10392045
  0.10931938 0.11934544 0.07477425 0.10624928]
 [0.09257542 0.07884273 0.09309629 0.10977143 0.11169951 0.10387167
  0.1094082  0.11959808 0.07470049 0.10643606]]
labels=[
[6. 6.]
<NDArray 2 @cpu(0)>]
preds=[
[[0.09180949 0.08218287 0.09242085 0.10877148 0.11033418 0.10287717
  0.1085468  0.12380096 0.07416089 0.1050954 ]
 [0.091723   0.08229879 0.09245858 0.10889709 0.1102

preds=[
[[0.08205822 0.11417123 0.0797328  0.09452105 0.09934863 0.11202031
  0.09878425 0.11100552 0.093777   0.11458091]
 [0.08163809 0.11464921 0.07939009 0.09382197 0.09983326 0.11151124
  0.09823797 0.11219052 0.09351154 0.11521604]]
<NDArray 2x10 @cpu(0)>]
label=[5. 7.]
pred=[[0.08205822 0.11417123 0.0797328  0.09452105 0.09934863 0.11202031
  0.09878425 0.11100552 0.093777   0.11458091]
 [0.08163809 0.11464921 0.07939009 0.09382197 0.09983326 0.11151124
  0.09823797 0.11219052 0.09351154 0.11521604]]
labels=[
[6. 4.]
<NDArray 2 @cpu(0)>]
preds=[
[[0.08175506 0.11183496 0.07892493 0.09324776 0.09834301 0.11657149
  0.09805202 0.11523813 0.09283336 0.11319924]
 [0.08082046 0.11363674 0.07879987 0.09320159 0.09840067 0.11593073
  0.09714464 0.11610561 0.09253576 0.11342396]]
<NDArray 2x10 @cpu(0)>]
label=[6. 4.]
pred=[[0.08175506 0.11183496 0.07892493 0.09324776 0.09834301 0.11657149
  0.09805202 0.11523813 0.09283336 0.11319924]
 [0.08082046 0.11363674 0.07879987 0.09320159 0.0984

INFO:root:Epoch[0] Batch [600]	Speed: 570.94 samples/sec	cross-entropy=2.295841



label=[2. 4.]
pred=[[0.07150034 0.09954596 0.11623532 0.0818863  0.08259028 0.10464474
  0.10496363 0.10067678 0.11809813 0.11985849]
 [0.07051434 0.10093965 0.11312    0.08109764 0.08424041 0.10374334
  0.10301109 0.1042017  0.11626563 0.12286621]]
labels=[
[0. 7.]
<NDArray 2 @cpu(0)>]
preds=[
[[0.07081456 0.09963701 0.11929033 0.08080928 0.08744502 0.10316173
  0.10223813 0.10174804 0.11508081 0.11977509]
 [0.06946854 0.1024222  0.11548782 0.08045266 0.08907293 0.10216632
  0.09991492 0.1054011  0.11287445 0.12273906]]
<NDArray 2x10 @cpu(0)>]
label=[0. 7.]
pred=[[0.07081456 0.09963701 0.11929033 0.08080928 0.08744502 0.10316173
  0.10223813 0.10174804 0.11508081 0.11977509]
 [0.06946854 0.1024222  0.11548782 0.08045266 0.08907293 0.10216632
  0.09991492 0.1054011  0.11287445 0.12273906]]
labels=[
[5. 8.]
<NDArray 2 @cpu(0)>]
preds=[
[[0.07300431 0.1024522  0.11562799 0.08086663 0.08747774 0.10170787
  0.09945723 0.10797583 0.11178635 0.11964388]
 [0.07451059 0.09740371 0.11915284 0.

<NDArray 2x10 @cpu(0)>]
label=[6. 2.]
pred=[[0.0793925  0.07452156 0.12725393 0.07203496 0.07684875 0.11009489
  0.13500638 0.07654308 0.16609813 0.08220588]
 [0.078293   0.07830174 0.124718   0.07283779 0.07823922 0.11046661
  0.12952332 0.08036517 0.16186897 0.08538613]]
labels=[
[0. 1.]
<NDArray 2 @cpu(0)>]
preds=[
[[0.07987151 0.06081851 0.15283933 0.06713909 0.06782357 0.10267899
  0.17174591 0.06144687 0.16767795 0.06795832]
 [0.07011959 0.09871714 0.11895323 0.07508796 0.08286646 0.10880429
  0.11366804 0.09663446 0.13684748 0.09830134]]
<NDArray 2x10 @cpu(0)>]
label=[0. 1.]
pred=[[0.07987151 0.06081851 0.15283933 0.06713909 0.06782357 0.10267899
  0.17174591 0.06144687 0.16767795 0.06795832]
 [0.07011959 0.09871714 0.11895323 0.07508796 0.08286646 0.10880429
  0.11366804 0.09663446 0.13684748 0.09830134]]
labels=[
[7. 1.]
<NDArray 2 @cpu(0)>]
preds=[
[[0.07104696 0.10703924 0.10581446 0.07178041 0.08834682 0.10565718
  0.10103713 0.11216342 0.12681568 0.11029866]
 [0.07197141 0

INFO:root:Epoch[0] Batch [700]	Speed: 538.31 samples/sec	cross-entropy=2.116469


preds=[
[[4.7888927e-02 3.3289049e-04 2.3892224e-02 2.1007848e-03 3.6731310e-04
  3.4096048e-03 9.2000443e-01 1.1557271e-04 1.7286708e-03 1.5958284e-04]
 [2.4185633e-02 2.8855522e-05 8.2411710e-03 3.7649056e-04 5.0099909e-05
  6.8856869e-04 9.6610826e-01 1.0105621e-05 2.9463918e-04 1.6140761e-05]]
<NDArray 2x10 @cpu(0)>]
label=[8. 6.]
pred=[[4.7888927e-02 3.3289049e-04 2.3892224e-02 2.1007848e-03 3.6731310e-04
  3.4096048e-03 9.2000443e-01 1.1557271e-04 1.7286708e-03 1.5958284e-04]
 [2.4185633e-02 2.8855522e-05 8.2411710e-03 3.7649056e-04 5.0099909e-05
  6.8856869e-04 9.6610826e-01 1.0105621e-05 2.9463918e-04 1.6140761e-05]]
labels=[
[0. 6.]
<NDArray 2 @cpu(0)>]
preds=[
[[0.14455965 0.05181303 0.14957224 0.06475481 0.03562542 0.09250856
  0.22826679 0.03512737 0.16364881 0.03412334]
 [0.1503531  0.03987405 0.15272751 0.05707319 0.03137778 0.08357647
  0.26388413 0.02776435 0.16516899 0.02820048]]
<NDArray 2x10 @cpu(0)>]
label=[0. 6.]
pred=[[0.14455965 0.05181303 0.14957224 0.06475481 0

preds=[
[[0.7596476  0.00232953 0.02792564 0.02415129 0.01211177 0.04823139
  0.10251645 0.00118524 0.02053311 0.00136801]
 [0.7527687  0.00295269 0.02903731 0.026955   0.01449914 0.05447704
  0.09299619 0.00170627 0.02274165 0.00186599]]
<NDArray 2x10 @cpu(0)>]
label=[6. 0.]
pred=[[0.7596476  0.00232953 0.02792564 0.02415129 0.01211177 0.04823139
  0.10251645 0.00118524 0.02053311 0.00136801]
 [0.7527687  0.00295269 0.02903731 0.026955   0.01449914 0.05447704
  0.09299619 0.00170627 0.02274165 0.00186599]]
labels=[
[8. 7.]
<NDArray 2 @cpu(0)>]
preds=[
[[0.09652285 0.12295252 0.09285913 0.09582098 0.08762737 0.13091344
  0.10733996 0.08628499 0.10416031 0.0755185 ]
 [0.02610867 0.02668229 0.02367894 0.03069979 0.31720483 0.03578674
  0.01549969 0.2726093  0.05756195 0.1941678 ]]
<NDArray 2x10 @cpu(0)>]
label=[8. 7.]
pred=[[0.09652285 0.12295252 0.09285913 0.09582098 0.08762737 0.13091344
  0.10733996 0.08628499 0.10416031 0.0755185 ]
 [0.02610867 0.02668229 0.02367894 0.03069979 0.3172

KeyboardInterrupt: 