apache · holdenk · Aug 5, 2015 · Aug 5, 2015 · Aug 6, 2015 · Aug 6, 2015
diff --git a/mllib/src/main/scala/org/apache/spark/ml/feature/StringIndexer.scala b/mllib/src/main/scala/org/apache/spark/ml/feature/StringIndexer.scala
@@ -122,6 +122,11 @@ class StringIndexerModel (
     map
   }
 
+  /**
+   * The labels used for applying this transformation
+   */
+  private[spark] def getLabels() = labels
+
   /** @group setParam */
   def setHandleInvalid(value: String): this.type = set(handleInvalid, value)
   setDefault(handleInvalid, "error")

diff --git a/python/pyspark/ml/feature.py b/python/pyspark/ml/feature.py
@@ -26,8 +26,8 @@
 from pyspark.mllib.common import inherit_doc
 from pyspark.mllib.linalg import _convert_to_vector
 
-__all__ = ['Binarizer', 'Bucketizer', 'HashingTF', 'IDF', 'IDFModel', 'NGram', 'Normalizer',
-           'OneHotEncoder', 'PolynomialExpansion', 'RegexTokenizer', 'StandardScaler',
+__all__ = ['Binarizer', 'Bucketizer', 'HashingTF', 'IDF', 'IDFModel', 'IndexToString', 'NGram',
+           'Normalizer', 'OneHotEncoder', 'PolynomialExpansion', 'RegexTokenizer', 'StandardScaler',
            'StandardScalerModel', 'StringIndexer', 'StringIndexerModel', 'Tokenizer',
            'VectorAssembler', 'VectorIndexer', 'Word2Vec', 'Word2VecModel', 'PCA',
            'PCAModel', 'RFormula', 'RFormulaModel']
@@ -731,6 +731,11 @@ class StringIndexer(JavaEstimator, HasInputCol, HasOutputCol):
     >>> sorted(set([(i[0], i[1]) for i in td.select(td.id, td.indexed).collect()]),
     ...     key=lambda x: x[0])
     [(0, 0.0), (1, 2.0), (2, 1.0), (3, 0.0), (4, 0.0), (5, 1.0)]
+    >>> inverter = IndexToString(inputCol="indexed", outputCol="label2", labels=model.labels())
+    >>> itd = inverter.transform(td)
+    >>> sorted(set([(i[0], str(i[1])) for i in itd.select(itd.id, itd.label2).collect()]),
+    ...     key=lambda x: x[0])
+    [(0, 'a'), (1, 'b'), (2, 'c'), (3, 'a'), (4, 'a'), (5, 'c')]
     """
 
     @keyword_only
@@ -760,6 +765,60 @@ class StringIndexerModel(JavaModel):
     """
     Model fitted by StringIndexer.
     """
+    @property
+    def labels(self):
+        return self._java_obj.labels
+
+
+class IndexToString(JavaTransformer, HasInputCol, HasOutputCol):
+    """
+    Convert provided indexes back to strings using either the metadata on the input column
+    or user provided labels.
+    Note: By default we keep the original columns during StringIndexerModel's transformation,
+    so the inverse should only be used on new columns such as predicted labels.
+    """
+    # a placeholder to make the labels show up in generated doc
+    labels = Param(Params._dummy(), "lables",
+                   "Optional labels to be provided by the user, if not supplied column " +
+                   "metadata is read for labels. The default value is an empty array, " +
+                   "but the empty array is ignored and column metadata used instead.")
+
+    @keyword_only
+    def __init__(self, inputCol=None, outputCol=None, labels=[]):
+        """
+        Initialize this instace of the IndexToString using the provided java_obj.
+        """
+        super(IndexToString, self).__init__()
+        self._java_obj = self._new_java_obj("org.apache.spark.ml.feature.IndexToString",
+                                            self.uid)
+        self.labels = Param(self, "labels",
+                            "Optional labels to be provided by the user, if not supplied column " +
+                            "metadata is read for labels. The default value is an empty array, " +
+                            "but the empty array is ignored and column metadata used instead.")
+        kwargs = self.__init__._input_kwargs
+        self.setParams(**kwargs)
+
+    @keyword_only
+    def setParams(self, inputCol=None, outputCol=None, labels=[]):
+        """
+        setParams(self, inputCol="input", outputCol="output", labels=[])
+        Sets params for this IndexToString
+        """
+        kwargs = self.setParams._input_kwargs
+        return self._set(**kwargs)
+
+    def setLabels(self, value):
+        """
+        Specify the labels to be used.
+        """
+        self._paramMap[self.labels] = value
+        return self
+
+    def getLabels(self):
+        """
+        Get the labels.
+        """
+        return self.getOrDefault(self.labels)
 
 
 @inherit_doc

diff --git a/python/pyspark/ml/wrapper.py b/python/pyspark/ml/wrapper.py
@@ -136,7 +136,8 @@ def _fit(self, dataset):
 class JavaTransformer(Transformer, JavaWrapper):
     """
     Base class for :py:class:`Transformer`s that wrap Java/Scala
-    implementations.
+    implementations. Subclasses should ensure they have the transformer Java object
+    available as _java_obj.
     """
 
     __metaclass__ = ABCMeta