fix(itn): set 0to9 for measure & money by xingchensong · Pull Request #109 · wenet-e2e/WeTextProcessing

xingchensong · 2023-09-10T07:29:36Z

xingchensong · 2023-09-10T07:31:09Z

@duj12 please review this PR

xingchensong · 2023-09-11T01:23:58Z

From now on, we will have enable_standalone_number=True && enable_0_to_9=False as our default.

xingchensong · 2023-09-11T01:56:59Z

            if self.enable_0_to_9:
                cardinal |= number
            else:
-                number_two_plus = (digits + digits.plus) | teen | tens | hundred | thousand | ten_thousand  # noqa
-                cardinal |= number_two_plus


之前enable_0_to_9只有在cardinal的tagger中才生效，在遇到量词时 (比如“九天”) measure中用的是cardinal.number，而非cardinal.tagger，此时设置enable_0_to_9=False，“九天”依旧会被转成“9天”

xingchensong · 2023-09-11T02:00:12Z

+        yyyy = digit + (digit | zero)**3  # 二零零八年
+        yyy = digit + (digit | zero)**2   # 公元一六八年
+        yy = (digit | zero)**2            # 零八年奥运会


这个是为了过单元测试，顺手附带修的bug，现在单元测试分成了四组，若这里不添加yy，则其中一组单元测试过不去：

standalone number 0to9

yes yes

yes no

no no

no yes

xingchensong · 2023-09-11T02:01:24Z

        # 百分之三十, 百分三十, 百分之百
        percent = ((sign + delete('的').ques).ques + delete('百分') +
-                   delete('之').ques + (number | cross('百', '100'))
+                   delete('之').ques + (Cardinal().number | cross('百', '100'))


这里没用number而是用cardinal().number是因为百分数不应该区分是否0~9，比如“百分之二”理应被转换为“2%”

xingchensong · 2023-09-11T02:02:29Z

                        help='enable standalone number')
    parser.add_argument('--enable_0_to_9', type=str,
-                        default='True',
+                        default='False',


以后默认模式就是 enable standalone number = True， enable_0_to_9 = False

xingchensong · 2023-09-11T02:02:50Z

+class TestNormalizerDisablestandalonenumberEnable0to9:
+
+    normalizer = InverseNormalizer(
+        overwrite_cache=True,
+        enable_standalone_number=False,
+        enable_0_to_9=True)
+
+    normalizer_cases = chain(
+        parse_test_case('data/char.txt'),
+        parse_test_case('data/date.txt'),
+        parse_test_case('data/fraction.txt'),
+        parse_test_case('data/math.txt'),
+        parse_test_case('data/measure.txt'),
+        parse_test_case('data/money.txt'),
+        parse_test_case('data/time.txt'),
+        parse_test_case('data/whitelist.txt'),
+        parse_test_case('data/normalizer_disable_standalone_number_enable_0_to_9.txt'))
+
+    @pytest.mark.parametrize("spoken, written", normalizer_cases)
+    def test_normalizer(self, spoken, written):
+        assert self.normalizer.normalize(spoken) == written
+
+
+class TestNormalizerEnablestandalonenumberDisable0to9:
+
+    normalizer = InverseNormalizer(
+        overwrite_cache=True,
+        enable_standalone_number=True,
+        enable_0_to_9=False)
+
+    normalizer_cases = chain(
+        parse_test_case('data/char.txt'),
+        parse_test_case('data/date.txt'),
+        parse_test_case('data/fraction.txt'),
+        parse_test_case('data/math.txt'),
+        parse_test_case('data/money.txt'),
+        parse_test_case('data/time.txt'),
+        parse_test_case('data/whitelist.txt'),
+        parse_test_case('data/normalizer_enable_standalone_number_disable_0_to_9.txt'))
+
+    @pytest.mark.parametrize("spoken, written", normalizer_cases)
+    def test_normalizer(self, spoken, written):
+        assert self.normalizer.normalize(spoken) == written
+
+
+class TestNormalizerDisablestandalonenumberDisable0to9:
+
+    normalizer = InverseNormalizer(
+        overwrite_cache=True,
+        enable_standalone_number=False,
+        enable_0_to_9=False)
+
+    normalizer_cases = chain(
+        parse_test_case('data/char.txt'),
+        parse_test_case('data/date.txt'),
+        parse_test_case('data/fraction.txt'),
+        parse_test_case('data/math.txt'),
+        parse_test_case('data/money.txt'),
+        parse_test_case('data/time.txt'),
+        parse_test_case('data/whitelist.txt'),
+        parse_test_case('data/normalizer_disable_standalone_number_disable_0_to_9.txt'))
+
+    @pytest.mark.parametrize("spoken, written", normalizer_cases)
+    def test_normalizer(self, spoken, written):
+        assert self.normalizer.normalize(spoken) == written


增加三组对照测试

fix(itn): set 0to9 for measure & money

c40e208

xingchensong commented Sep 11, 2023

View reviewed changes

xingchensong requested a review from pengzhendong September 11, 2023 02:03

pengzhendong approved these changes Sep 11, 2023

View reviewed changes

xingchensong merged commit f60d9e4 into master Sep 11, 2023

xingchensong deleted the xcsong-fix-0to9 branch September 11, 2023 02:10

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

fix(itn): set 0to9 for measure & money#109

fix(itn): set 0to9 for measure & money#109
xingchensong merged 1 commit intomasterfrom
xcsong-fix-0to9

xingchensong commented Sep 10, 2023

Uh oh!

xingchensong commented Sep 10, 2023

Uh oh!

xingchensong commented Sep 11, 2023

Uh oh!

xingchensong Sep 11, 2023

Uh oh!

xingchensong Sep 11, 2023

Uh oh!

xingchensong Sep 11, 2023

Uh oh!

xingchensong Sep 11, 2023

Uh oh!

xingchensong Sep 11, 2023

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

Conversation

xingchensong commented Sep 10, 2023

Uh oh!

xingchensong commented Sep 10, 2023

Uh oh!

xingchensong commented Sep 11, 2023

Uh oh!

xingchensong Sep 11, 2023

Choose a reason for hiding this comment

Uh oh!

xingchensong Sep 11, 2023

Choose a reason for hiding this comment

Uh oh!

xingchensong Sep 11, 2023

Choose a reason for hiding this comment

Uh oh!

xingchensong Sep 11, 2023

Choose a reason for hiding this comment

Uh oh!

xingchensong Sep 11, 2023

Choose a reason for hiding this comment

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants