salesforce · Jauntbox · Mar 26, 2020 · Mar 3, 2020 · Mar 3, 2020 · Mar 4, 2020
@@ -67,17 +67,6 @@ class SmartTextMapVectorizer[T <: OPMap[String]]
 
   private implicit val textMapStatsSeqEnc: Encoder[Array[TextMapStats]] = ExpressionEncoder[Array[TextMapStats]]()
 
-  private def computeTextMapStats
-  (
-    textMap: T#Value, shouldCleanKeys: Boolean, shouldCleanValues: Boolean
-  ): TextMapStats = {
-    val keyValueCounts = textMap.map{ case (k, v) =>
-      cleanTextFn(k, shouldCleanKeys) ->
-        TextStats(Map(cleanTextFn(v, shouldCleanValues) -> 1L), Map(cleanTextFn(v, shouldCleanValues).length -> 1L))
-    }
-    TextMapStats(keyValueCounts)
-  }
-
   private def makeHashingParams() = HashingFunctionParams(
     hashWithIndex = $(hashWithIndex),
     prependFeatureName = $(prependFeatureName),
@@ -184,7 +173,7 @@ class SmartTextMapVectorizer[T <: OPMap[String]]
 
     implicit val testStatsMonoid: Monoid[TextMapStats] = TextMapStats.monoid(maxCard)
     val valueStats: Dataset[Array[TextMapStats]] = dataset.map(
-      _.map(computeTextMapStats(_, shouldCleanKeys, shouldCleanValues)).toArray
+      _.map(SmartTextMapVectorizer.computeTextMapStats(_, shouldCleanKeys, shouldCleanValues, maxCard)).toArray
     )
     val aggregatedStats: Array[TextMapStats] = valueStats.reduce(_ + _)
 
@@ -203,6 +192,26 @@ class SmartTextMapVectorizer[T <: OPMap[String]]
   }
 }
 
+object SmartTextMapVectorizer extends CleanTextFun {
+
+  private[op] def computeTextMapStats[T <:  OPMap[String]](
+    textMap: T#Value,
+    shouldCleanKeys: Boolean,
+    shouldCleanValues: Boolean,
+    maxCardinality: Int
+  )(implicit tti: TypeTag[T], ttiv: TypeTag[T#Value]): TextMapStats = {
+    val keyValueCounts = textMap.map{ case (k, v) =>
+      val cleanedText = cleanTextFn(v, shouldCleanValues)
+      val lengthsMap: Map[Int, Long] = TextTokenizer.tokenizeString(cleanedText).tokens.value
+        .foldLeft(Map.empty[Int, Long])(
+          (acc, el) => TextStats.additionHelper(acc, Map(el.length -> 1L), maxCardinality)
+        )
+      cleanTextFn(k, shouldCleanKeys) -> TextStats(Map(cleanedText -> 1L), lengthsMap)
+    }
+    TextMapStats(keyValueCounts)
+  }
+}
+
 /**
  * Summary statistics of a text feature
  *

@@ -85,7 +85,9 @@ class SmartTextVectorizer[T <: Text](uid: String = UID[SmartTextVectorizer[T]])(
     val shouldCleanText = $(cleanText)
 
     implicit val testStatsMonoid: Semigroup[TextStats] = TextStats.monoid(maxCard)
-    val valueStats: Dataset[Array[TextStats]] = dataset.map(_.map(computeTextStats(_, shouldCleanText)).toArray)
+    val valueStats: Dataset[Array[TextStats]] = dataset.map(
+      _.map(SmartTextVectorizer.computeTextStats(_, shouldCleanText, maxCard)).toArray
+    )
     val aggregatedStats: Array[TextStats] = valueStats.reduce(_ + _)
 
     val (vectorizationMethods, topValues) = aggregatedStats.map { stats =>
@@ -121,14 +123,6 @@ class SmartTextVectorizer[T <: Text](uid: String = UID[SmartTextVectorizer[T]])(
       .setTrackTextLen($(trackTextLen))
   }
 
-  private def computeTextStats(text: T#Value, shouldCleanText: Boolean): TextStats = {
-    val (valueCounts, lengthCounts) = text match {
-      case Some(v) => (Map(cleanTextFn(v, shouldCleanText) -> 1L), Map(cleanTextFn(v, shouldCleanText).length -> 1L))
-      case None => (Map.empty[String, Long], Map.empty[Int, Long])
-    }
-    TextStats(valueCounts, lengthCounts)
-  }
-
   private def makeVectorMetadata(smartTextParams: SmartTextVectorizerModelArgs): OpVectorMetadata = {
     require(inN.length == smartTextParams.vectorizationMethods.length)
 
@@ -164,13 +158,31 @@ class SmartTextVectorizer[T <: Text](uid: String = UID[SmartTextVectorizer[T]])(
   }
 }
 
-object SmartTextVectorizer {
+object SmartTextVectorizer extends CleanTextFun {
   val MaxCardinality: Int = 100
   val MinTextLengthStdDev: Double = 0
+
   private[op] def partition[T: ClassTag](input: Array[T], condition: Array[Boolean]): (Array[T], Array[T]) = {
     val all = input.zip(condition)
     (all.collect { case (item, true) => item }, all.collect { case (item, false) => item })
   }
+
+  private[op] def computeTextStats[T <: Text : TypeTag](
+    text: T#Value,
+    shouldCleanText: Boolean,
+    maxCardinality: Int
+  ): TextStats = {
+    // Go through each token in text and start appending it to a TextStats instance
+    val lengthsMap: Map[Int, Long] = TextTokenizer.tokenizeStringOpt(text).tokens.value
+      .foldLeft(Map.empty[Int, Long])(
+        (acc, el) => TextStats.additionHelper(acc, Map(el.length -> 1L), maxCardinality)
+      )
+    val (valueCounts, lengthCounts) = text match {
+      case Some(v) => (Map(cleanTextFn(v, shouldCleanText) -> 1L), lengthsMap)
+      case None => (Map.empty[String, Long], Map.empty[Int, Long])
+    }
+    TextStats(valueCounts, lengthCounts)
+  }
 }
 
 /**
@@ -189,8 +201,8 @@ private[op] case class TextStats
   val lengthMean: Double = lengthCounts.foldLeft(0.0)((acc, el) => acc + el._1 * el._2) / lengthSize
   val lengthVariance: Double = lengthCounts.foldLeft(0.0)(
     (acc, el) => acc + el._2 * (el._1 - lengthMean) * (el._1 - lengthMean)
-  )
-  val lengthStdDev: Double = math.sqrt(lengthVariance / lengthSize)
+  ) / lengthSize
+  val lengthStdDev: Double = math.sqrt(lengthVariance)
 }
 
 private[op] object TextStats {

@@ -140,7 +140,7 @@ object TextTokenizer {
   /**
    * Language wise sentence tokenization
    *
-   * @param text                text to tokenize
+   * @param textString          text to tokenize (in String form)
    * @param languageDetector    language detector instance
    * @param analyzer            text analyzer instance
    * @param sentenceSplitter    sentence splitter instance
@@ -151,8 +151,8 @@ object TextTokenizer {
    * @param minTokenLength      minimum token length
    * @return detected language and sentence tokens
    */
-  def tokenize(
-    text: Text,
+  def tokenizeString(
+    textString: String,
     languageDetector: LanguageDetector = LanguageDetector,
     analyzer: TextAnalyzer = Analyzer,
     sentenceSplitter: Option[SentenceSplitter] = None,
@@ -162,30 +162,84 @@ object TextTokenizer {
     toLowercase: Boolean = ToLowercase,
     minTokenLength: Int = MinTokenLength
   ): TextTokenizerResult = {
-    text match {
-      case SomeValue(Some(txt)) =>
-        val language =
-          if (!autoDetectLanguage) defaultLanguage
-          else {
-            languageDetector
-              .detectLanguages(txt)
-              .collectFirst { case (lang, confidence) if confidence > autoDetectThreshold => lang }
-              .getOrElse(defaultLanguage)
-          }
-        val lowerTxt = if (toLowercase) txt.toLowerCase else txt
+    val language =
+      if (!autoDetectLanguage) defaultLanguage
+      else {
+        languageDetector
+          .detectLanguages(textString)
+          .collectFirst { case (lang, confidence) if confidence > autoDetectThreshold => lang }
+          .getOrElse(defaultLanguage)
+      }
+    val lowerTxt = if (toLowercase) textString.toLowerCase else textString
 
-        val sentences = sentenceSplitter.map(_.getSentences(lowerTxt, language))
-          .getOrElse(Seq(lowerTxt))
-          .map { sentence =>
-            val tokens = analyzer.analyze(sentence, language)
-            tokens.filter(_.length >= minTokenLength).toTextList
-          }
-        TextTokenizerResult(language, sentences)
-      case _ =>
-        TextTokenizerResult(defaultLanguage, Seq(TextList.empty))
+    val sentences = sentenceSplitter.map(_.getSentences(lowerTxt, language))
+      .getOrElse(Seq(lowerTxt))
+      .map { sentence =>
+        val tokens = analyzer.analyze(sentence, language)
+        tokens.filter(_.length >= minTokenLength).toTextList
+      }
+    TextTokenizerResult(language, sentences)
+  }
+
+  /**
+   * Language wise sentence tokenization
+   *
+   * @param textStringOpt       text to tokenize (in Option[String] form)
+   * @param languageDetector    language detector instance
+   * @param analyzer            text analyzer instance
+   * @param sentenceSplitter    sentence splitter instance
+   * @param autoDetectLanguage  whether to attempt language detection
+   * @param defaultLanguage     default language
+   * @param autoDetectThreshold language detection threshold
+   * @param toLowercase         whether to convert all characters to lowercase before tokenizing
+   * @param minTokenLength      minimum token length
+   * @return detected language and sentence tokens
+   */
+  def tokenizeStringOpt(
+    textStringOpt: Option[String],
+    languageDetector: LanguageDetector = LanguageDetector,
+    analyzer: TextAnalyzer = Analyzer,
+    sentenceSplitter: Option[SentenceSplitter] = None,
+    autoDetectLanguage: Boolean = AutoDetectLanguage,
+    defaultLanguage: Language = DefaultLanguage,
+    autoDetectThreshold: Double = AutoDetectThreshold,
+    toLowercase: Boolean = ToLowercase,
+    minTokenLength: Int = MinTokenLength
+  ): TextTokenizerResult = {
+    textStringOpt match {
+      case Some(txt) => tokenizeString(txt, languageDetector, analyzer, sentenceSplitter, autoDetectLanguage,
+        defaultLanguage, autoDetectThreshold, toLowercase, minTokenLength)
+      case None => TextTokenizerResult(defaultLanguage, Seq(TextList.empty))
     }
   }
 
+  /**
+   * Language wise sentence tokenization
+   *
+   * @param text                text to tokenize
+   * @param languageDetector    language detector instance
+   * @param analyzer            text analyzer instance
+   * @param sentenceSplitter    sentence splitter instance
+   * @param autoDetectLanguage  whether to attempt language detection
+   * @param defaultLanguage     default language
+   * @param autoDetectThreshold language detection threshold
+   * @param toLowercase         whether to convert all characters to lowercase before tokenizing
+   * @param minTokenLength      minimum token length
+   * @return detected language and sentence tokens
+   */
+  def tokenize(
+    text: Text,
+    languageDetector: LanguageDetector = LanguageDetector,
+    analyzer: TextAnalyzer = Analyzer,
+    sentenceSplitter: Option[SentenceSplitter] = None,
+    autoDetectLanguage: Boolean = AutoDetectLanguage,
+    defaultLanguage: Language = DefaultLanguage,
+    autoDetectThreshold: Double = AutoDetectThreshold,
+    toLowercase: Boolean = ToLowercase,
+    minTokenLength: Int = MinTokenLength
+  ): TextTokenizerResult = tokenizeStringOpt(text.value, languageDetector, analyzer, sentenceSplitter,
+    autoDetectLanguage, defaultLanguage, autoDetectThreshold, toLowercase, minTokenLength)
+
   /**
    * Text tokenization result
    *

@@ -112,6 +112,13 @@ class SmartTextMapVectorizerTest
   val (rawDFSeparateMaps, rawTextMap1, rawTextMap2, rawTextMap3) =
     TestFeatureBuilder("textMap1", "textMap2", "textMap3", mapDataSeparate)
 
+  val textMapData = Map(
+    "f1" -> "I have got a lovely bunch of coconuts. Here they are all standing in a row.",
+    "f2" -> "Olly wolly polly woggy ump bump fizz!"
+  )
+  val tokensMap = textMapData.mapValues(s => TextTokenizer.tokenizeString(s).tokens)
+  val tol = 1e-12 // Tolerance for comparing real numbers
+
   /**
    * Estimator instance to be tested
    */
@@ -444,7 +451,7 @@ class SmartTextMapVectorizerTest
 
     val smartVectorized = new SmartTextMapVectorizer()
       .setMaxCardinality(10).setNumFeatures(hashSize).setMinSupport(10).setTopK(topKCategorial)
-      .setMinLengthStdDev(1.0)
+      .setMinLengthStdDev(0.5)
       .setAutoDetectLanguage(false).setMinTokenLength(1).setToLowercase(false)
       .setTrackNulls(true).setTrackTextLen(true)
       .setInput(rawTextMap).getOutput()
@@ -480,7 +487,7 @@ class SmartTextMapVectorizerTest
 
     val smartVectorized = new SmartTextMapVectorizer()
       .setMaxCardinality(10).setNumFeatures(hashSize).setMinSupport(10).setTopK(topKCategorial)
-      .setMinLengthStdDev(1.0)
+      .setMinLengthStdDev(0.5)
       .setAutoDetectLanguage(false).setMinTokenLength(1).setToLowercase(false)
       .setTrackNulls(true).setTrackTextLen(true)
       .setInput(rawTextMap1, rawTextMap2, rawTextMap3).getOutput()
@@ -509,4 +516,93 @@ class SmartTextMapVectorizerTest
     meta.columns.slice(18, 21).forall(_.indicatorValue.contains(OpVectorColumnMetadata.NullString))
   }
 
+  it should "create a TextStats object from text that makes sense" in {
+    val res = SmartTextMapVectorizer.computeTextMapStats[TextMap](
+      textMapData,
+      shouldCleanKeys = false,
+      shouldCleanValues = false,
+      maxCardinality = 100
+    )
+
+    // Check sizes
+    res.keyValueCounts.size shouldBe 2 // Two keys in textMapData
+    res.keyValueCounts.keySet should contain theSameElementsAs Seq("f1", "f2")
+
+    // Check value counts
+    res.keyValueCounts("f1").valueCounts.size shouldBe 1
+    res.keyValueCounts("f1").valueCounts should contain
+      ("I have got a lovely bunch of coconuts. Here they are all standing in a row." -> 1)
+    res.keyValueCounts("f2").valueCounts.size shouldBe 1
+    res.keyValueCounts("f2").valueCounts should contain ("Olly wolly polly woggy ump bump fizz!" -> 1)
+
+    // Check token length counts
+    res.keyValueCounts("f1").lengthCounts.size shouldBe tokensMap("f1").value.map(_.length).distinct.length
+    res.keyValueCounts("f1").lengthCounts should contain (6 -> 1L)
+    res.keyValueCounts("f1").lengthCounts should contain (3 -> 2L)
+    res.keyValueCounts("f1").lengthCounts should contain (5 -> 1L)
+    res.keyValueCounts("f1").lengthCounts should contain (8 -> 2L)
+    res.keyValueCounts("f2").lengthCounts.size shouldBe tokensMap("f2").value.map(_.length).distinct.length
+    res.keyValueCounts("f2").lengthCounts should contain (4 -> 3L)
+    res.keyValueCounts("f2").lengthCounts should contain (5 -> 3L)
+    res.keyValueCounts("f2").lengthCounts should contain (3 -> 1L)
+  }
+
+  it should "create a TextStats with the correct derived quantites" in {
+    val res = SmartTextMapVectorizer.computeTextMapStats[TextMap](
+      textMapData,
+      shouldCleanKeys = false,
+      shouldCleanValues = false,
+      maxCardinality = 100
+    )
+
+    // Check derived quantities
+    val lengthSeq1 = Seq(6, 3, 3, 5, 8, 8).map(_.toLong)
+    val expectedLengthMean1 = lengthSeq1.sum.toDouble / lengthSeq1.length
+    val expectedLengthVariance1 = lengthSeq1.map(x => math.pow((x - expectedLengthMean1), 2)).sum / lengthSeq1.length
+    val expectedLengthStdDev1 = math.sqrt(expectedLengthVariance1)
+    res.keyValueCounts("f1").lengthSize shouldBe lengthSeq1.length
+    compareWithTol(res.keyValueCounts("f1").lengthMean, expectedLengthMean1, tol)
+    compareWithTol(res.keyValueCounts("f1").lengthVariance, expectedLengthVariance1, tol)
+    compareWithTol(res.keyValueCounts("f1").lengthStdDev, expectedLengthStdDev1, tol)
+
+    val lengthSeq2 = Seq(4, 5, 5, 5, 3, 4, 4).map(_.toLong)
+    val expectedLengthMean2 = lengthSeq2.sum.toDouble / lengthSeq2.length
+    val expectedLengthVariance2 = lengthSeq2.map(x => math.pow((x - expectedLengthMean2), 2)).sum / lengthSeq2.length
+    val expectedLengthStdDev2 = math.sqrt(expectedLengthVariance2)
+
+    res.keyValueCounts("f2").lengthSize shouldBe lengthSeq2.length
+    compareWithTol(res.keyValueCounts("f2").lengthMean, expectedLengthMean2, tol)
+    compareWithTol(res.keyValueCounts("f2").lengthVariance, expectedLengthVariance2, tol)
+    compareWithTol(res.keyValueCounts("f2").lengthStdDev, expectedLengthStdDev2, tol)
+  }
+
+  it should "turn a string into a corresponding TextStats instance that respects maxCardinality" in {
+    val res = SmartTextMapVectorizer.computeTextMapStats[TextMap](
+      textMapData,
+      shouldCleanKeys = false,
+      shouldCleanValues = false,
+      maxCardinality = 2
+    )
+
+    // Check lengths
+    res.keyValueCounts.size shouldBe 2 // Two keys in textMapData
+    res.keyValueCounts.keySet should contain theSameElementsAs Seq("f1", "f2")
+
+    // Check value counts
+    res.keyValueCounts("f1").valueCounts.size shouldBe 1
+    res.keyValueCounts("f1").valueCounts should contain
+    ("I have got a lovely bunch of coconuts. Here they are all standing in a row." -> 1)
+    res.keyValueCounts("f2").valueCounts.size shouldBe 1
+    res.keyValueCounts("f2").valueCounts should contain ("Olly wolly polly woggy ump bump fizz!" -> 1)
+
+    // Check token length counts
+    res.keyValueCounts("f1").lengthCounts.size shouldBe 3
+    res.keyValueCounts("f1").lengthCounts should contain (6 -> 1L)
+    res.keyValueCounts("f1").lengthCounts should contain (3 -> 1L)
+    res.keyValueCounts("f1").lengthCounts should contain (5 -> 1L)
+    res.keyValueCounts("f2").lengthCounts.size shouldBe 3
+    res.keyValueCounts("f2").lengthCounts should contain (4 -> 1L)
+    res.keyValueCounts("f2").lengthCounts should contain (5 -> 3L)
+    res.keyValueCounts("f2").lengthCounts should contain (3 -> 1L)
+  }
 }