-
Notifications
You must be signed in to change notification settings - Fork 117
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
NormalizerNFKC: add unify_katakana_di_sound
option
#1504
Conversation
In the current implementation, normalizers normalize |
考えてみると、「ヂ」を使うということは現代仮名遣いじゃないことを想定しているので、「ヂャ」「ヂュ」「ヂョ」を使うこともあるか。 普通は「ジャ」「ジュ」「ジョ」になることを期待するだろうし、単独の「ヂ」しか変更しないのは単純に使い勝手の面からも不便そうではある。 |
Is the example in the description correct? |
ちょっとなにを心配しているのかわからないんですが、「ヂャ」が「ジャ」になるとダメじゃない?と言っていますか? |
前提として、 #1501 などで小書き文字を含めて別の一文字にノーマライズする対応をしていたことから、「ヂ」と「ヂャ」は別の一文字扱いになるのでは?というような意識が働いていました。 なのですが、よくよく考えてみると #1501 は小書き文字まで含めて別の一文字に変換しているが、「ヂャ」-> 「ジャ」は「ヂ」が「ジ」に変わるだけで特に「ヂャ」で一文字という感じでもないですし、ユーザーもこのノーマライザーで「ヂャ」-> 「ジャ」になることを期待するだろうことから、単純に「ヂ」 -> 「ジ」としてしまって良いという結論に至りました。 |
Fixed. |
Could you remove |
Fixed. |
unify_katakana_di_sounds
optionunify_katakana_di_sound
option
8599449
to
132c3c7
Compare
426247e
to
e70e273
Compare
When
unify_katakana_di_sound
is specified,NormalizerNFKC*
normalize characters as below.ヂ -> ジ