Skip to content

ryonakai/query_itaiji_regex

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Query-regex: 正規表現による異体字吸収クエリ作成システム

Query-regex は、与えられた検索クエリを処理し、異体字を含めて検索することのできる正規表現を生成する。

例えば、「福沢諭吉」を「福澤諭吉」や「福澤諭吉」に、「高崎」を「髙嵜」にマッチさせることができる。

任意のコード中で、 query_regex.rbrequire したうえで query_regex(some_query) を呼び出すことにより、既存の検索システムを異体字に対応させることができる。

テスト

query_regex.rb にクエリを引数として渡して実行することで、変換結果を確認できる。

$ ruby query_regex.rb '福沢諭吉'

> ^(?:福|畗|福)(?:沢|澤|泽|途)(?:諭|谕|喻|喩)(?:吉|桔|姞|㮮)$

参考URL

クエリを正規表現に変換することで異体字の違いを吸収するアイデアは、下記のブログ記事に基づく。

異体字一覧は、下記のリストを元に作成した。

About

Converting query to regular expression with CJK variant characters

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages