mila-iqia · rizar · Feb 25, 2015 · Feb 23, 2015 · Feb 23, 2015 · Feb 23, 2015
diff --git a/blocks/datasets/streams.py b/blocks/datasets/streams.py
@@ -314,6 +314,33 @@ def _cache(self):
             cache.extend(data)
 
 
+class SortMapping(object):
+    """Callable class for creating sorting mappings.
+
+    This class can be used to create a callable that can be used by the
+    :class:`DataStreamMapping` constructor.
+
+    Parameters
+    ----------
+    key : callable
+        The mapping that returns the value to sort on. Its input will be
+        a tuple that contains a single data point for each source.
+    reverse : boolean value that indicates whether the sort order should
+        be reversed.
+
+    """
+    def __init__(self, key, reverse=False):
+        self.key = key
+        self.reverse = reverse
+
+    def __call__(self, x):
+        values = [self.key(i) for i in zip(*x)]
+        indices = [i for (v, i) in
+                   sorted(((v, i) for (i, v) in enumerate(values)),
+                          reverse=self.reverse)]
+        return tuple([[i[j] for j in indices] for i in x])
+
+
 class BatchDataStream(DataStreamWrapper):
     """Creates minibatches from data streams providing single examples.
 

diff --git a/tests/datasets/test_datasets.py b/tests/datasets/test_datasets.py
@@ -1,14 +1,15 @@
 from collections import OrderedDict
 
 import numpy
+import operator
 import theano
 from six.moves import zip
 from nose.tools import assert_raises
 
 from blocks.datasets import ContainerDataset
 from blocks.datasets.streams import (
     CachedDataStream, DataStream, DataStreamMapping, BatchDataStream,
-    PaddingDataStream, DataStreamFilter, ForceFloatX)
+    PaddingDataStream, DataStreamFilter, ForceFloatX, SortMapping)
 from blocks.datasets.schemes import BatchSizeScheme, ConstantScheme
 
 floatX = theano.config.floatX
@@ -42,6 +43,38 @@ def test_data_stream_mapping():
     assert list(wrapper2.get_epoch_iterator()) == list(zip(data, data_doubled))
 
 
+def test_data_stream_mapping_sort():
+    data = [[1, 2, 3],
+            [2, 3, 1],
+            [3, 2, 1]]
+    data_sorted = [[1, 2, 3]] * 3
+    data_sorted_rev = [[3, 2, 1]] * 3
+    stream = ContainerDataset(data).get_default_stream()
+    wrapper1 = DataStreamMapping(stream,
+                                 mapping=SortMapping(operator.itemgetter(0)))
+    assert list(wrapper1.get_epoch_iterator()) == list(zip(data_sorted))
+    wrapper2 = DataStreamMapping(stream, SortMapping(lambda x: -x[0]))
+    assert list(wrapper2.get_epoch_iterator()) == list(zip(data_sorted_rev))
+    wrapper3 = DataStreamMapping(stream, SortMapping(operator.itemgetter(0),
+                                                     reverse=True))
+    assert list(wrapper3.get_epoch_iterator()) == list(zip(data_sorted_rev))
+
+
+def test_data_stream_mapping_multisource():
+    data_dict = {'x': [[1, 2, 3], [2, 3, 1], [3, 2, 1]],
+                 'y': [[6, 5, 4], [6, 5, 4], [6, 5, 4]]}
+    data = OrderedDict()
+    data['x'] = data_dict['x']
+    data['y'] = data_dict['y']
+    data_sorted = [([1, 2, 3], [6, 5, 4]),
+                   ([1, 2, 3], [4, 6, 5]),
+                   ([1, 2, 3], [4, 5, 6])]
+    stream = ContainerDataset(data).get_default_stream()
+    wrapper = DataStreamMapping(stream,
+                                mapping=SortMapping(operator.itemgetter(0)))
+    assert list(wrapper.get_epoch_iterator()) == data_sorted
+
+
 def test_data_stream_filter():
     data = [1, 2, 3]
     data_filtered = [1, 3]