add and update test for new disallow-empty-morpheme default

mh-northlander · mh-northlander · commit 058532908d16 · 2024-11-06T18:04:48.000+09:00
diff --git a/src/test/java/com/worksap/nlp/elasticsearch/sudachi/index/CustomAnalyzerTest.kt b/src/test/java/com/worksap/nlp/elasticsearch/sudachi/index/CustomAnalyzerTest.kt
@@ -45,15 +45,68 @@ class CustomAnalyzerTest : SearchEngineTestBase {
     """.jsonSettings()
     val analyzers = engine.indexAnalyzers(settings)
     val basic = analyzers.get("sudachi_basic")
-    basic.assertTerms("東京に行く", "東京", "に", "行く")
+    basic.assertTerms("東京に行く。", "東京", "に", "行く")
+  }
+
+  @Test
+  fun discardPunctuationFalse() {
+    val settings =
+        """
+      {
+        "index.analysis": {
+          "analyzer": {
+            "sudachi_basic": {
+              "type": "custom",
+              "tokenizer": "sudachi_tokenizer"
+            }
+          },
+          "tokenizer": {
+            "sudachi_tokenizer": {
+              "type": "sudachi_tokenizer",
+              "discard_punctuation": false
+            }
+          }
+        }
+      }
+    """.jsonSettings()
+    val analyzers = engine.indexAnalyzers(settings)
+    val basic = analyzers.get("sudachi_basic")
+    basic.assertTerms("東京に行く。", "東京", "に", "行く", "。")
+  }
+
+  @Test
+  fun allowEmptyMorphemeTrue() {
+    val settings =
+        """
+      {
+        "index.analysis": {
+          "analyzer": {
+            "sudachi_basic": {
+              "type": "custom",
+              "tokenizer": "sudachi_tokenizer"
+            }
+          },
+          "tokenizer": {
+            "sudachi_tokenizer": {
+              "type": "sudachi_tokenizer",
+              "split_mode": "A",
+              "allow_empty_morpheme": true
+            }
+          }
+        }
+      }
+    """.jsonSettings()
+    val analyzers = engine.indexAnalyzers(settings)
+    val basic = analyzers.get("sudachi_basic")
+    basic.assertTerms("㍿に行く", "㍿", "", "に", "行く")
   }
 
   @Test
   fun stoptagsEmpty() {
     val settings =
         """
       {
-        "index.analysis": {          
+        "index.analysis": {
           "analyzer": {
             "sudachi_basic": {
               "type": "custom",
@@ -71,7 +124,7 @@ class CustomAnalyzerTest : SearchEngineTestBase {
           },
           "filter": {
             "pos": {
-              "type": "sudachi_part_of_speech"              
+              "type": "sudachi_part_of_speech"
             }
           }
         }
@@ -87,7 +140,7 @@ class CustomAnalyzerTest : SearchEngineTestBase {
     val settings =
         """
       {
-        "index.analysis": {          
+        "index.analysis": {
           "analyzer": {
             "sudachi_basic": {
               "type": "custom",
@@ -122,7 +175,7 @@ class CustomAnalyzerTest : SearchEngineTestBase {
     val settings =
         """
       {
-        "index.analysis": {          
+        "index.analysis": {
           "analyzer": {
             "sudachi_test": {
               "type": "custom",
@@ -156,7 +209,7 @@ class CustomAnalyzerTest : SearchEngineTestBase {
     val settings =
         """
       {
-        "index.analysis": {          
+        "index.analysis": {
           "analyzer": {
             "sudachi_test": {
               "type": "custom",
@@ -190,7 +243,7 @@ class CustomAnalyzerTest : SearchEngineTestBase {
     val settings =
         """
       {
-        "index.analysis": {          
+        "index.analysis": {
           "analyzer": {
             "sudachi_test": {
               "type": "custom",
@@ -224,7 +277,7 @@ class CustomAnalyzerTest : SearchEngineTestBase {
     val settings =
         """
       {
-        "index.analysis": {          
+        "index.analysis": {
           "analyzer": {
             "sudachi_test": {
               "type": "custom",
@@ -259,7 +312,7 @@ class CustomAnalyzerTest : SearchEngineTestBase {
     val settings =
         """
       {
-        "index.analysis": {          
+        "index.analysis": {
           "analyzer": {
             "sudachi_test": {
               "type": "custom",
@@ -294,7 +347,7 @@ class CustomAnalyzerTest : SearchEngineTestBase {
     val settings =
         """
       {
-        "index.analysis": {          
+        "index.analysis": {
           "analyzer": {
             "sudachi_test": {
               "type": "custom",
@@ -329,7 +382,7 @@ class CustomAnalyzerTest : SearchEngineTestBase {
     val settings =
         """
       {
-        "index.analysis": {          
+        "index.analysis": {
           "analyzer": {
             "sudachi_test": {
               "type": "custom",
diff --git a/src/test/java/com/worksap/nlp/elasticsearch/sudachi/index/TestSudachiAnalysis.kt b/src/test/java/com/worksap/nlp/elasticsearch/sudachi/index/TestSudachiAnalysis.kt
@@ -51,7 +51,7 @@ open class TestSudachiAnalysis : SearchEngineTestBase {
     val settings =
         """
       {
-        "index.analysis": {          
+        "index.analysis": {
           "analyzer": {
             "sudachi": {
               "type": "sudachi",
@@ -71,7 +71,7 @@ open class TestSudachiAnalysis : SearchEngineTestBase {
     val settings =
         """
       {
-        "index.analysis": {          
+        "index.analysis": {
           "analyzer": {
             "sudachi": {
               "type": "sudachi",
diff --git a/src/test/java/com/worksap/nlp/lucene/sudachi/ja/TestSudachiSplitFilter.kt b/src/test/java/com/worksap/nlp/lucene/sudachi/ja/TestSudachiSplitFilter.kt
@@ -201,8 +201,8 @@ class TestSudachiSplitFilter : BaseTokenStreamTestCase() {
     val tokenStream = setUpTokenStream("search", "六三四㍿に行くカ゛カ゛カ゛")
     assertTokenStreamContents(
         tokenStream,
-        arrayOf("六三四", "㍿", "㍿", "", "に", "行く", "カ゛カ゛カ゛", "カ゛カ゛", "カ゛"),
-        intArrayOf(0, 3, 3, 4, 4, 5, 7, 7, 11),
+        arrayOf("六三四", "㍿", "㍿", "㍿", "に", "行く", "カ゛カ゛カ゛", "カ゛カ゛", "カ゛"),
+        intArrayOf(0, 3, 3, 3, 4, 5, 7, 7, 11),
         intArrayOf(3, 4, 4, 4, 5, 7, 13, 11, 13),
         intArrayOf(1, 1, 0, 1, 1, 1, 1, 0, 1),
         intArrayOf(1, 2, 1, 1, 1, 1, 2, 1, 1),
@@ -219,7 +219,7 @@ class TestSudachiSplitFilter : BaseTokenStreamTestCase() {
     assertTokenStreamContents(
         tokenStream,
         arrayOf("六三四", "株式会社", "株式", "会社", "に", "行く", "ガガガ", "ガガ", "ガ"),
-        intArrayOf(0, 3, 3, 4, 4, 5, 7, 7, 11),
+        intArrayOf(0, 3, 3, 3, 4, 5, 7, 7, 11),
         intArrayOf(3, 4, 4, 4, 5, 7, 13, 11, 13),
         intArrayOf(1, 1, 0, 1, 1, 1, 1, 0, 1),
         intArrayOf(1, 2, 1, 1, 1, 1, 2, 1, 1),
diff --git a/src/test/java/com/worksap/nlp/lucene/sudachi/ja/TestSudachiTokenizer.kt b/src/test/java/com/worksap/nlp/lucene/sudachi/ja/TestSudachiTokenizer.kt
@@ -45,9 +45,10 @@ open class TestSudachiTokenizer : BaseTokenStreamTestCase() {
   fun makeTokenizer(
       mode: SplitMode,
       noPunctuation: Boolean = true,
+      allowEmptyMorpheme: Boolean = false,
       capacity: Int = 0
   ): SudachiTokenizer {
-    val dict = ReloadableDictionary(config)
+    val dict = ReloadableDictionary(config.allowEmptyMorpheme(allowEmptyMorpheme))
     val extractor =
         if (capacity == 0) {
           NoopInputExtractor.INSTANCE
@@ -113,7 +114,7 @@ open class TestSudachiTokenizer : BaseTokenStreamTestCase() {
 
   @Test
   fun incrementTokenByPunctuationMode() {
-    val tokenizer = makeTokenizer(SplitMode.C, false)
+    val tokenizer = makeTokenizer(SplitMode.C, noPunctuation = false)
     tokenizer.setReader(StringReader("東京都に行った。"))
     assertTokenStreamContents(
         tokenizer,
@@ -128,7 +129,7 @@ open class TestSudachiTokenizer : BaseTokenStreamTestCase() {
 
   @Test
   fun incrementTokenWithPunctuationsByDefaultMode() {
-    val tokenizer = makeTokenizer(SplitMode.C, true)
+    val tokenizer = makeTokenizer(SplitMode.C, noPunctuation = true)
     tokenizer.setReader(StringReader("東京都に行った。東京都に行った。"))
     assertTokenStreamContents(
         tokenizer,
@@ -143,7 +144,7 @@ open class TestSudachiTokenizer : BaseTokenStreamTestCase() {
 
   @Test
   fun incrementTokenWithPunctuationsByPunctuationMode() {
-    val tokenizer = makeTokenizer(SplitMode.C, false)
+    val tokenizer = makeTokenizer(SplitMode.C, noPunctuation = false)
     tokenizer.setReader(StringReader("東京都に行った。東京都に行った。"))
     assertTokenStreamContents(
         tokenizer,
@@ -158,7 +159,7 @@ open class TestSudachiTokenizer : BaseTokenStreamTestCase() {
 
   @Test
   fun incrementTokenWithPunctuationsByPunctuationModeCached() {
-    val tokenizer = makeTokenizer(SplitMode.C, false, capacity = 10)
+    val tokenizer = makeTokenizer(SplitMode.C, noPunctuation = false, capacity = 10)
     tokenizer.setReader(StringReader("東京都に行った。東京都に行った。"))
     assertTokenStreamContents(
         tokenizer,
@@ -173,7 +174,7 @@ open class TestSudachiTokenizer : BaseTokenStreamTestCase() {
 
   @Test
   fun incrementTokenWithOOVByDefaultMode() {
-    val tokenizer = makeTokenizer(SplitMode.C, true)
+    val tokenizer = makeTokenizer(SplitMode.C)
     tokenizer.setReader(StringReader("アマゾンに行った。"))
     assertTokenStreamContents(
         tokenizer,
@@ -188,7 +189,7 @@ open class TestSudachiTokenizer : BaseTokenStreamTestCase() {
 
   @Test
   fun incrementTokenWithOOVByPunctuationMode() {
-    val tokenizerPunctuation = makeTokenizer(SplitMode.C, false)
+    val tokenizerPunctuation = makeTokenizer(SplitMode.C, noPunctuation = false)
     tokenizerPunctuation.setReader(StringReader("アマゾンに行った。"))
     assertTokenStreamContents(
         tokenizerPunctuation,
@@ -203,7 +204,7 @@ open class TestSudachiTokenizer : BaseTokenStreamTestCase() {
 
   @Test
   fun incrementTokenByAMode() {
-    val tokenizerA = makeTokenizer(SplitMode.A, true)
+    val tokenizerA = makeTokenizer(SplitMode.A)
     tokenizerA.setReader(StringReader("東京都に行った。"))
     assertTokenStreamContents(
         tokenizerA,
@@ -218,7 +219,7 @@ open class TestSudachiTokenizer : BaseTokenStreamTestCase() {
 
   @Test
   fun incrementTokenByBMode() {
-    val tokenizerB = makeTokenizer(SplitMode.B, true)
+    val tokenizerB = makeTokenizer(SplitMode.B)
     tokenizerB.setReader(StringReader("東京都に行った。"))
     assertTokenStreamContents(
         tokenizerB,
@@ -236,7 +237,7 @@ open class TestSudachiTokenizer : BaseTokenStreamTestCase() {
     val builder = NormalizeCharMap.Builder()
     builder.add("東京都", "京都")
     val filter = MappingCharFilter(builder.build(), StringReader("東京都に行った。"))
-    val tokenizer = makeTokenizer(SplitMode.C, true)
+    val tokenizer = makeTokenizer(SplitMode.C)
     tokenizer.setReader(filter)
     assertTokenStreamContents(
         tokenizer,
@@ -249,9 +250,57 @@ open class TestSudachiTokenizer : BaseTokenStreamTestCase() {
     )
   }
 
+  @Test
+  fun incrementTokenWithCorrectSplitOffset() {
+    val builder = NormalizeCharMap.Builder()
+    builder.add("（株）", "株式会社")
+    val filter = MappingCharFilter(builder.build(), StringReader("（株）に行った。"))
+    val tokenizer = makeTokenizer(SplitMode.A)
+    tokenizer.setReader(filter)
+    assertTokenStreamContents(
+        tokenizer,
+        arrayOf("株式", "会社", "に", "行っ", "た"),
+        intArrayOf(0, 2, 3, 4, 6),
+        intArrayOf(2, 3, 4, 6, 7),
+        intArrayOf(1, 1, 1, 1, 1),
+        intArrayOf(1, 1, 1, 1, 1),
+        8,
+    )
+  }
+
+  @Test
+  fun incrementTokenWithDisallowEmptyMorpheme() {
+    val tokenizer = makeTokenizer(SplitMode.A, allowEmptyMorpheme = false)
+    tokenizer.setReader(StringReader("㍿に行った。"))
+    assertTokenStreamContents(
+        tokenizer,
+        arrayOf("㍿", "㍿", "に", "行っ", "た"),
+        intArrayOf(0, 0, 1, 2, 4),
+        intArrayOf(1, 1, 2, 4, 5),
+        intArrayOf(1, 1, 1, 1, 1),
+        intArrayOf(1, 1, 1, 1, 1),
+        6,
+    )
+  }
+
+  @Test
+  fun incrementTokenWithAllowEmptyMorpheme() {
+    val tokenizer = makeTokenizer(SplitMode.A, allowEmptyMorpheme = true)
+    tokenizer.setReader(StringReader("㍿に行った。"))
+    assertTokenStreamContents(
+        tokenizer,
+        arrayOf("㍿", "", "に", "行っ", "た"),
+        intArrayOf(0, 1, 1, 2, 4),
+        intArrayOf(1, 1, 2, 4, 5),
+        intArrayOf(1, 1, 1, 1, 1),
+        intArrayOf(1, 1, 1, 1, 1),
+        6,
+    )
+  }
+
   @Test
   fun additionalSettings() {
-    val tokenizer = makeTokenizer(SplitMode.C, true)
+    val tokenizer = makeTokenizer(SplitMode.C)
     tokenizer.setReader(StringReader("自然言語"))
     assertTokenStreamContents(
         tokenizer,
@@ -268,7 +317,7 @@ open class TestSudachiTokenizer : BaseTokenStreamTestCase() {
     config =
         Config.fromClasspath(ResourceUtil::class.java.getResource("additional.json"), anchor)
             .withFallback(config)
-    val tokenizer2 = makeTokenizer(SplitMode.C, true)
+    val tokenizer2 = makeTokenizer(SplitMode.C)
     tokenizer2.setReader(StringReader("自然言語"))
     assertTokenStreamContents(
         tokenizer2,
@@ -283,8 +332,8 @@ open class TestSudachiTokenizer : BaseTokenStreamTestCase() {
 
   @Test
   fun equalsHashCodeCoverage() {
-    val tokenizerA = makeTokenizer(SplitMode.A, true)
-    val tokenizerB = makeTokenizer(SplitMode.B, true)
+    val tokenizerA = makeTokenizer(SplitMode.A)
+    val tokenizerB = makeTokenizer(SplitMode.B)
     assertNotEquals(tokenizerA, tokenizerB)
     assertNotEquals(tokenizerA.hashCode().toLong(), tokenizerB.hashCode().toLong())
   }
diff --git a/src/test/java/com/worksap/nlp/lucene/sudachi/ja/attributes/MorphemeAttributeImplTest.kt b/src/test/java/com/worksap/nlp/lucene/sudachi/ja/attributes/MorphemeAttributeImplTest.kt
@@ -48,7 +48,7 @@ class MorphemeAttributeImplTest {
   @Before
   fun setup() {
     val configDir = testDic.root.toPath().resolve("config/sudachi")
-    config = Config.fromFile(configDir.resolve("sudachi.json"))
+    config = Config.fromFile(configDir.resolve("sudachi.json")).allowEmptyMorpheme(false)
   }
 
   @Test
diff --git a/src/test/java/com/worksap/nlp/test/TestDictionary.kt b/src/test/java/com/worksap/nlp/test/TestDictionary.kt
@@ -187,7 +187,7 @@ class InMemoryDictionary {
     val base = Config.fromClasspath(ResourceUtil.resource("sudachi.json"), anchor)
     val dic = TestDictionary.inMemorySystemData.duplicate()
     dic.order(ByteOrder.LITTLE_ENDIAN)
-    base.systemDictionary(BinaryDictionary(dic))
+    base.systemDictionary(BinaryDictionary(dic)).allowEmptyMorpheme(false)
   }
 
   val dic = newDictionary()
diff --git a/src/test/resources/dict/lex.csv b/src/test/resources/dict/lex.csv
@@ -43,4 +43,5 @@
 株式会社,8,8,6000,株式会社,名詞,普通名詞,一般,*,*,*,カブシキガイシャ,株式会社,*,C,40/41,40/41,40/41,*
 ガ,5,5,3500,ガ,副詞,*,*,*,*,*,ガ,ガ,*,A,*,*,*,*
 ガガ,5,5,5500,ガガ,副詞,*,*,*,*,*,ガガ,ガガ,*,A,*,*,*,*
-ガガガ,5,5,8494,ガガガ,副詞,*,*,*,*,*,ガガガ,ガガガ,*,B,44/43,*,44/43,*
+ガガガ,5,5,8494,ガガガ,副詞,*,*,*,*,*,ガガガ,ガガガ,*,B,44/43,*,44/43,*
+。,6,6,1861,。,補助記号,句点,*,*,*,*,。,。,*,A,*,*,*,*

Original file line number	Diff line number	Diff line change
`@@ -48,7 +48,7 @@ class MorphemeAttributeImplTest {`
`48`	`48`	`@Before`
`49`	`49`	`fun setup() {`
`50`	`50`	`val configDir = testDic.root.toPath().resolve("config/sudachi")`
`51`		`- config = Config.fromFile(configDir.resolve("sudachi.json"))`
	`51`	`+ config = Config.fromFile(configDir.resolve("sudachi.json")).allowEmptyMorpheme(false)`
`52`	`52`	`}`
`53`	`53`
`54`	`54`	`@Test`
Original file line number	Diff line number	Diff line change
`@@ -187,7 +187,7 @@ class InMemoryDictionary {`
`187`	`187`	`val base = Config.fromClasspath(ResourceUtil.resource("sudachi.json"), anchor)`
`188`	`188`	`val dic = TestDictionary.inMemorySystemData.duplicate()`
`189`	`189`	`dic.order(ByteOrder.LITTLE_ENDIAN)`
`190`		`- base.systemDictionary(BinaryDictionary(dic))`
	`190`	`+ base.systemDictionary(BinaryDictionary(dic)).allowEmptyMorpheme(false)`
`191`	`191`	`}`
`192`	`192`
`193`	`193`	`val dic = newDictionary()`