salesforce · Jauntbox · Mar 26, 2020 · Mar 3, 2020 · Mar 3, 2020 · Mar 4, 2020
@@ -33,7 +33,8 @@ package com.salesforce.op.filters
 import java.util.Objects
 
 import com.salesforce.op.features.{FeatureDistributionLike, FeatureDistributionType}
-import com.salesforce.op.stages.impl.feature.{HashAlgorithm, Inclusion, NumericBucketizer, TextStats}
+import com.salesforce.op.stages.impl.feature.{HashAlgorithm, Inclusion, NumericBucketizer, TextStats,
+  SmartTextVectorizer}
 import com.salesforce.op.utils.json.EnumEntrySerializer
 import com.twitter.algebird.Monoid._
 import com.twitter.algebird._
@@ -282,7 +283,15 @@ object FeatureDistribution {
    * @return TextStats object containing a Map from a value to its frequency (histogram)
    */
   private def cardinalityValues(values: ProcessedSeq): TextStats = {
-    TextStats(countStringValues(values.left.getOrElse(values.right.get)), Map.empty)
+    implicit val testStatsMonoid: Monoid[TextStats] = TextStats.monoid(RawFeatureFilter.MaxCardinality)
+
+    val stringVals = values match {
+      case Left(stringSeq) => stringSeq
+      case Right(doubleSeq) => doubleSeq.map(_.toString)
+    }
+    stringVals.foldLeft(TextStats.empty)((acc, el) => acc + SmartTextVectorizer.computeTextStats(
+      Option(el), shouldCleanText = false, maxCardinality = RawFeatureFilter.MaxCardinality)
+    )
   }
 
   private def countStringValues[T](seq: Seq[T]): Map[String, Long] = {

@@ -67,17 +67,6 @@ class SmartTextMapVectorizer[T <: OPMap[String]]
 
   private implicit val textMapStatsSeqEnc: Encoder[Array[TextMapStats]] = ExpressionEncoder[Array[TextMapStats]]()
 
-  private def computeTextMapStats
-  (
-    textMap: T#Value, shouldCleanKeys: Boolean, shouldCleanValues: Boolean
-  ): TextMapStats = {
-    val keyValueCounts = textMap.map{ case (k, v) =>
-      cleanTextFn(k, shouldCleanKeys) ->
-        TextStats(Map(cleanTextFn(v, shouldCleanValues) -> 1L), Map(cleanTextFn(v, shouldCleanValues).length -> 1L))
-    }
-    TextMapStats(keyValueCounts)
-  }
-
   private def makeHashingParams() = HashingFunctionParams(
     hashWithIndex = $(hashWithIndex),
     prependFeatureName = $(prependFeatureName),
@@ -184,7 +173,7 @@ class SmartTextMapVectorizer[T <: OPMap[String]]
 
     implicit val testStatsMonoid: Monoid[TextMapStats] = TextMapStats.monoid(maxCard)
     val valueStats: Dataset[Array[TextMapStats]] = dataset.map(
-      _.map(computeTextMapStats(_, shouldCleanKeys, shouldCleanValues)).toArray
+      _.map(SmartTextMapVectorizer.computeTextMapStats(_, shouldCleanKeys, shouldCleanValues, maxCard)).toArray
     )
     val aggregatedStats: Array[TextMapStats] = valueStats.reduce(_ + _)
 
@@ -203,6 +192,36 @@ class SmartTextMapVectorizer[T <: OPMap[String]]
   }
 }
 
+object SmartTextMapVectorizer extends CleanTextFun {
+
+  /**
+   * Computes a TextMapStats instance from a text map entry
+   *
+   * @param textMap            Text value (eg. entry in a dataframe)
+   * @param shouldCleanKeys    Whether or not the keys (feature names) should be cleaned
+   * @param shouldCleanValues  Whether or not the values (the actual text) should be cleaned
+   * @param maxCardinality     Max cardinality to keep track of in maps (relevant for the text length distribution here)
+   * @tparam T                 Feature type that the text map value is coming from
+   * @return                   TextMapStats instance with value and length counts filled out appropriately for each key
+   */
+  private[op] def computeTextMapStats[T <:  OPMap[String]](
+    textMap: T#Value,
+    shouldCleanKeys: Boolean,
+    shouldCleanValues: Boolean,
+    maxCardinality: Int
+  )(implicit tti: TypeTag[T], ttiv: TypeTag[T#Value]): TextMapStats = {
+    val keyValueCounts = textMap.map{ case (k, v) =>
+      val cleanedText = cleanTextFn(v, shouldCleanValues)
+      val lengthsMap: Map[Int, Long] = TextTokenizer.tokenizeString(cleanedText).tokens.value
+        .foldLeft(Map.empty[Int, Long])(
+          (acc, el) => TextStats.additionHelper(acc, Map(el.length -> 1L), maxCardinality)
+        )
+      cleanTextFn(k, shouldCleanKeys) -> TextStats(Map(cleanedText -> 1L), lengthsMap)
+    }
+    TextMapStats(keyValueCounts)
+  }
+}
+
 /**
  * Summary statistics of a text feature
  *

@@ -85,7 +85,9 @@ class SmartTextVectorizer[T <: Text](uid: String = UID[SmartTextVectorizer[T]])(
     val shouldCleanText = $(cleanText)
 
     implicit val testStatsMonoid: Semigroup[TextStats] = TextStats.monoid(maxCard)
-    val valueStats: Dataset[Array[TextStats]] = dataset.map(_.map(computeTextStats(_, shouldCleanText)).toArray)
+    val valueStats: Dataset[Array[TextStats]] = dataset.map(
+      _.map(SmartTextVectorizer.computeTextStats(_, shouldCleanText, maxCard)).toArray
+    )
     val aggregatedStats: Array[TextStats] = valueStats.reduce(_ + _)
 
     val (vectorizationMethods, topValues) = aggregatedStats.map { stats =>
@@ -121,14 +123,6 @@ class SmartTextVectorizer[T <: Text](uid: String = UID[SmartTextVectorizer[T]])(
       .setTrackTextLen($(trackTextLen))
   }
 
-  private def computeTextStats(text: T#Value, shouldCleanText: Boolean): TextStats = {
-    val (valueCounts, lengthCounts) = text match {
-      case Some(v) => (Map(cleanTextFn(v, shouldCleanText) -> 1L), Map(cleanTextFn(v, shouldCleanText).length -> 1L))
-      case None => (Map.empty[String, Long], Map.empty[Int, Long])
-    }
-    TextStats(valueCounts, lengthCounts)
-  }
-
   private def makeVectorMetadata(smartTextParams: SmartTextVectorizerModelArgs): OpVectorMetadata = {
     require(inN.length == smartTextParams.vectorizationMethods.length)
 
@@ -164,13 +158,40 @@ class SmartTextVectorizer[T <: Text](uid: String = UID[SmartTextVectorizer[T]])(
   }
 }
 
-object SmartTextVectorizer {
+object SmartTextVectorizer extends CleanTextFun {
   val MaxCardinality: Int = 100
   val MinTextLengthStdDev: Double = 0
+
   private[op] def partition[T: ClassTag](input: Array[T], condition: Array[Boolean]): (Array[T], Array[T]) = {
     val all = input.zip(condition)
     (all.collect { case (item, true) => item }, all.collect { case (item, false) => item })
   }
+
+  /**
+   * Computes a TextStats instance from a Text entry
+   *
+   * @param text            Text value (eg. entry in a dataframe)
+   * @param shouldCleanText Whether or not the text should be cleaned
+   * @param maxCardinality  Max cardinality to keep track of in maps (relevant for the text length distribution here)
+   * @tparam T              Feature type that the text value is coming from
+   * @return                TextStats instance with value and length counts filled out appropriately
+   */
+  private[op] def computeTextStats[T <: Text : TypeTag](
+    text: T#Value,
+    shouldCleanText: Boolean,
+    maxCardinality: Int
+  ): TextStats = {
+    // Go through each token in text and start appending it to a TextStats instance
+    val lengthsMap: Map[Int, Long] = TextTokenizer.tokenizeStringOpt(text).tokens.value
+      .foldLeft(Map.empty[Int, Long])(
+        (acc, el) => TextStats.additionHelper(acc, Map(el.length -> 1L), maxCardinality)
+      )
+    val (valueCounts, lengthCounts) = text match {
+      case Some(v) => (Map(cleanTextFn(v, shouldCleanText) -> 1L), lengthsMap)
+      case None => (Map.empty[String, Long], Map.empty[Int, Long])
+    }
+    TextStats(valueCounts, lengthCounts)
+  }
 }
 
 /**
@@ -189,8 +210,8 @@ private[op] case class TextStats
   val lengthMean: Double = lengthCounts.foldLeft(0.0)((acc, el) => acc + el._1 * el._2) / lengthSize
   val lengthVariance: Double = lengthCounts.foldLeft(0.0)(
     (acc, el) => acc + el._2 * (el._1 - lengthMean) * (el._1 - lengthMean)
-  )
-  val lengthStdDev: Double = math.sqrt(lengthVariance / lengthSize)
+  ) / lengthSize
+  val lengthStdDev: Double = math.sqrt(lengthVariance)
 }
 
 private[op] object TextStats {

@@ -140,7 +140,7 @@ object TextTokenizer {
   /**
    * Language wise sentence tokenization
    *
-   * @param text                text to tokenize
+   * @param textString          text to tokenize (in String form)
    * @param languageDetector    language detector instance
    * @param analyzer            text analyzer instance
    * @param sentenceSplitter    sentence splitter instance
@@ -151,8 +151,8 @@ object TextTokenizer {
    * @param minTokenLength      minimum token length
    * @return detected language and sentence tokens
    */
-  def tokenize(
-    text: Text,
+  private[op] def tokenizeString(
+    textString: String,
     languageDetector: LanguageDetector = LanguageDetector,
     analyzer: TextAnalyzer = Analyzer,
     sentenceSplitter: Option[SentenceSplitter] = None,
@@ -162,30 +162,84 @@ object TextTokenizer {
     toLowercase: Boolean = ToLowercase,
     minTokenLength: Int = MinTokenLength
   ): TextTokenizerResult = {
-    text match {
-      case SomeValue(Some(txt)) =>
-        val language =
-          if (!autoDetectLanguage) defaultLanguage
-          else {
-            languageDetector
-              .detectLanguages(txt)
-              .collectFirst { case (lang, confidence) if confidence > autoDetectThreshold => lang }
-              .getOrElse(defaultLanguage)
-          }
-        val lowerTxt = if (toLowercase) txt.toLowerCase else txt
+    val language =
+      if (!autoDetectLanguage) defaultLanguage
+      else {
+        languageDetector
+          .detectLanguages(textString)
+          .collectFirst { case (lang, confidence) if confidence > autoDetectThreshold => lang }
+          .getOrElse(defaultLanguage)
+      }
+    val lowerTxt = if (toLowercase) textString.toLowerCase else textString
 
-        val sentences = sentenceSplitter.map(_.getSentences(lowerTxt, language))
-          .getOrElse(Seq(lowerTxt))
-          .map { sentence =>
-            val tokens = analyzer.analyze(sentence, language)
-            tokens.filter(_.length >= minTokenLength).toTextList
-          }
-        TextTokenizerResult(language, sentences)
-      case _ =>
-        TextTokenizerResult(defaultLanguage, Seq(TextList.empty))
+    val sentences = sentenceSplitter.map(_.getSentences(lowerTxt, language))
+      .getOrElse(Seq(lowerTxt))
+      .map { sentence =>
+        val tokens = analyzer.analyze(sentence, language)
+        tokens.filter(_.length >= minTokenLength).toTextList
+      }
+    TextTokenizerResult(language, sentences)
+  }
+
+  /**
+   * Language wise sentence tokenization
+   *
+   * @param textStringOpt       text to tokenize (in Option[String] form)
+   * @param languageDetector    language detector instance
+   * @param analyzer            text analyzer instance
+   * @param sentenceSplitter    sentence splitter instance
+   * @param autoDetectLanguage  whether to attempt language detection
+   * @param defaultLanguage     default language
+   * @param autoDetectThreshold language detection threshold
+   * @param toLowercase         whether to convert all characters to lowercase before tokenizing
+   * @param minTokenLength      minimum token length
+   * @return detected language and sentence tokens
+   */
+  private[op] def tokenizeStringOpt(
+    textStringOpt: Option[String],
+    languageDetector: LanguageDetector = LanguageDetector,
+    analyzer: TextAnalyzer = Analyzer,
+    sentenceSplitter: Option[SentenceSplitter] = None,
+    autoDetectLanguage: Boolean = AutoDetectLanguage,
+    defaultLanguage: Language = DefaultLanguage,
+    autoDetectThreshold: Double = AutoDetectThreshold,
+    toLowercase: Boolean = ToLowercase,
+    minTokenLength: Int = MinTokenLength
+  ): TextTokenizerResult = {
+    textStringOpt match {
+      case Some(txt) => tokenizeString(txt, languageDetector, analyzer, sentenceSplitter, autoDetectLanguage,
+        defaultLanguage, autoDetectThreshold, toLowercase, minTokenLength)
+      case None => TextTokenizerResult(defaultLanguage, Seq(TextList.empty))
     }
   }
 
+  /**
+   * Language wise sentence tokenization
+   *
+   * @param text                text to tokenize
+   * @param languageDetector    language detector instance
+   * @param analyzer            text analyzer instance
+   * @param sentenceSplitter    sentence splitter instance
+   * @param autoDetectLanguage  whether to attempt language detection
+   * @param defaultLanguage     default language
+   * @param autoDetectThreshold language detection threshold
+   * @param toLowercase         whether to convert all characters to lowercase before tokenizing
+   * @param minTokenLength      minimum token length
+   * @return detected language and sentence tokens
+   */
+  def tokenize(
+    text: Text,
+    languageDetector: LanguageDetector = LanguageDetector,
+    analyzer: TextAnalyzer = Analyzer,
+    sentenceSplitter: Option[SentenceSplitter] = None,
+    autoDetectLanguage: Boolean = AutoDetectLanguage,
+    defaultLanguage: Language = DefaultLanguage,
+    autoDetectThreshold: Double = AutoDetectThreshold,
+    toLowercase: Boolean = ToLowercase,
+    minTokenLength: Int = MinTokenLength
+  ): TextTokenizerResult = tokenizeStringOpt(text.value, languageDetector, analyzer, sentenceSplitter,
+    autoDetectLanguage, defaultLanguage, autoDetectThreshold, toLowercase, minTokenLength)
+
   /**
    * Text tokenization result
    *

@@ -78,9 +78,9 @@ class FeatureDistributionTest extends FlatSpec with PassengerSparkFixtureTest wi
     distribs(3).distribution.sum shouldBe 0
     distribs(4).distribution.sum shouldBe 3
     distribs(4).summaryInfo.length shouldBe bins
-    distribs(2).cardEstimate.get shouldBe TextStats(Map("male" -> 1, "female" -> 1), Map.empty)
+    distribs(2).cardEstimate.get shouldBe TextStats(Map("male" -> 1, "female" -> 1), Map(4 -> 1L, 6 -> 1L))
     distribs(2).moments.get shouldBe Moments(2, 5.0, 2.0, 0.0, 2.0)
-    distribs(4).cardEstimate.get shouldBe TextStats(Map("5.0" -> 1, "1.0" -> 1, "3.0" -> 1), Map.empty)
+    distribs(4).cardEstimate.get shouldBe TextStats(Map("5.0" -> 1, "1.0" -> 1, "3.0" -> 1), Map(3 -> 3L))
     distribs(4).moments.get shouldBe Moments(3, 3.0, 8.0, 0.0, 32.0)
   }