# 氏名漢字カナ突合モデル

漢字カナ突合モデルはJava17で記述されている。Mavenを用いて漢字カナ突合モデルをビルドする。
仕様等については[README](./README.md)を参照のこと。


## 必要なモジュール

- JDK 17
- Maven 3




## 事前準備

- ファイル
[dict](../dict)で作成した，辞書ファイル及び，[train](../train)で作成したAIモデルのファイルを，Javaのリソースとして使用するために，src/main/resources以下にファイルをコピーする。なお，事前に作成した辞書及び，事前学習済みのモデルを，[resources][https://kktg.digital.go.jp/support/resources/]で配布している。これらのファイルをあらかじめ，../dictおよび，../train/model, ../train/model_r以下にコピーしたのちに，下記スクリプトを実行してもよい。

In [1]:
import os
with open('../version.txt','r',encoding='utf-8') as f:
    for l in f:
        version=l.rstrip()
        break
os.environ["VER"]=version


## 実行する

漢字姓名とカナ姓名が入力されたファイルをCSVもしくはTSV形式で用意する。漢字姓名とカナ姓名以外のフィールドが含まれていても良い。
なお，VMパラメタとして`-Xmx4096M`を指定し，４Gのメモリを確保すること。
### 実行クラス
jp.go.digital.kanjikana.core.executor.match.KanjiKanaMatchMain
### パラメタ
- infile
入力ファイル。行に漢字姓名とカナ姓名を含むファイルで，TSVもしくはCSV形式で作成しること。また，ヘッダがあっても良くヘッダがある場合には`has_header`パラメタを指定する。また，漢字姓名とカナ姓名の列を`kanji_idx`と`kana_idx`パラメタで指定する
- okfile
漢字姓名とカナ姓名が一致と判断されたレコードが保存されるファイル
- ngfile
漢字姓名とカナ姓名が不一致と判断されたレコードが保存されるファイル
- logfile
入力ファイルの各行を実行する際のログファイル
- kanji_idx
infileのファイルの漢字姓名の列番号，0から始まる
- kana_idx
infileのファイルのカナ姓名の列番号，0から始まる
- sep
infileの各列の区切り文字を指定する。csvもしくはtsvを指定する。
- thread_num
infileに大量の行が含まれる場合には，本プログラムをスレッドで多重化して計算することができる。`thread_num`に1を指定すると（デフォルト），シングルスレッドで実行され，それ以上を値を指定するとその数だけスレッドで計算される。スレッドでケインさんした場合には，`okfile`と`ngfile`，`logfile`の末尾にスレッド番号が付与されたファイルが作成される
- has_header
infileにヘッダ業がある場合には`true`を指定する。デフォルトは`false`であり，infileにヘッダ行は含まれない
- strategy
漢字姓名とカナ姓名の突合モデルをどれを使うかを指定する。BASIC, ONLY_AI, ONLY_DICT, AI, ENSEMBLEから選択し，セットする。    

  |モデル|内容|
  |-----|---|
  |ENSEMBLE||
  |BASIC|姓名辞書，異体字辞書との突合のみ|
  |ONLY_AI|AIモデルとの突合のみ|
  |ONLY_DICT|姓名辞書及び単漢字辞書，異体字辞書との突合のみ|
  |AI|BASIC + ONLY_AI|
  

In [2]:
# 出力結果がoutput.txtに出力される
!java -Xmx4096M -Dlog4j.configurationFile=log4j2.xml -classpath lib/kanjikana_core-$VER-jar-with-dependencies.jar jp.go.digital.kanjikana.core.executor.match.KanjiKanaMatchMain --infile input.txt --outfile outfile.txt --kanji_idx 1 --kana_idx 2 --strategy ENSEMBLE --has_header true --thread_num 1 --sep csv


16:35:57.522 [main] DEBUG ai.djl.repository.zoo.DefaultModelZoo -- Scanning models in repo: class ai.djl.repository.SimpleRepository, /tmp/model_2620279341121713455.tmp
16:35:57.527 [main] DEBUG ai.djl.engine.Engine -- Registering EngineProvider: PyTorch
16:35:57.528 [main] DEBUG ai.djl.engine.Engine -- Found default engine: PyTorch
16:35:58.027 [main] INFO ai.djl.util.Ec2Utils -- DJL will collect telemetry to help us better understand our users’ needs, diagnose issues, and deliver additional features. If you would like to learn more or opt-out please go to: https://docs.djl.ai/docs/telemetry.html for more information.
16:35:58.029 [main] DEBUG ai.djl.repository.zoo.ModelZoo -- Loading model with Criteria:
	Application: UNDEFINED
	Input: class ai.djl.ndarray.NDList
	Output: class ai.djl.ndarray.NDList
	Engine: PyTorch
	ModelZoo: ai.djl.localmodelzoo
	No translator supplied

16:35:58.030 [main] DEBUG ai.djl.repository.zoo.ModelZoo -- Searching model in specified model zoo: ai.djl.localm

## 結果を表示する

In [14]:
!head outfile.txt

no,kanji,kana,okng,result_flg,result_per,result,start_date,end_date
1,山田　太郎,ヤマダ　ハナコ,ng,false,0,{true;山田;ヤマダ;WordEngine;DictOSS;0:/canna/freewnn/kakasi/;null}{false;太郎;ハナコ;WordEngine;;0:/;}[<|IDictCharModel|{true;山田;ヤマダ;WordEngine;DictOSS;0:/canna/freewnn/kakasi/;null}{false;太郎;ハナコ;CharEngine;;0:/;}><|AiCharModel|{true;山田;ヤマダ;AiWordEngine;;0:/;rank:0;Probability:0.693487004581911}{false;太郎;ハナコ;AiCharEngine;;0:/;}>],2025-01-21 15:26:16.477 +0900,2025-01-21 15:26:20.107 +0900
2,山田　太郎,ヤマダタロウ,ok,true,80,{false;山田　太郎;ヤマダタロウ;WordEngine;;0:/;}[<|DictCharModel|{true;山田;ヤマダ;CharEngine;DictSeimei;0:/wikipedia/;null}{true;太郎;タロウ;CharEngine;DictSeimei;0:/wikipedia/;null}><|AiCharModel|{true;山田太郎;ヤマダタロウ;AiCharEngine;;0:/;rank:0;Probability:0.9998961699101548}>],2025-01-21 15:26:20.109 +0900,2025-01-21 15:26:20.881 +0900
3,山田　太郎,サンダ　フトロウ,ok,false,30,{false;山田;サンダ;WordEngine;;0:/;}{false;太郎;フトロウ;WordEngine;;0:/;}[<|DictCharModel|{true;山;サン;CharEngine;DictSeimei;0:/wikipedia/;null}{true;田;ダ;CharEngine;

## javadocを作成する
Javadocを作成し，/docs以下へ移動する。GithubPagesで見えるようにする。 

URLは [https://studious-chainsaw-5k2p5q6.pages.github.io/](https://studious-chainsaw-5k2p5q6.pages.github.io/)


In [15]:
!mvn javadoc:javadoc

[[1;34mINFO[m] Scanning for projects...
[[1;34mINFO[m] 
[[1;34mINFO[m] [1m---------< [0;36mjp.go.digital.kanjikana:shimei_kanjikana_core_oss[0;1m >----------[m
[[1;34mINFO[m] [1mBuilding shimei_kanjikana_core_oss 1.6o[m
[[1;34mINFO[m]   from pom.xml
[[1;34mINFO[m] [1m--------------------------------[ jar ]---------------------------------[m
[[1;34mINFO[m] 
[[1;34mINFO[m] [1m>>> [0;32mjavadoc:3.11.2:javadoc[m [1m(default-cli)[0;1m > [0;1mgenerate-sources[m @ [36mshimei_kanjikana_core_oss[0;1m >>>[m
[[1;34mINFO[m] 
[[1;34mINFO[m] [1m<<< [0;32mjavadoc:3.11.2:javadoc[m [1m(default-cli)[0;1m < [0;1mgenerate-sources[m @ [36mshimei_kanjikana_core_oss[0;1m <<<[m
[[1;34mINFO[m] 
[[1;34mINFO[m] 
[[1;34mINFO[m] [1m--- [0;32mjavadoc:3.11.2:javadoc[m [1m(default-cli)[m @ [36mshimei_kanjikana_core_oss[0;1m ---[m
[[1;34mINFO[m] Skipping javadoc generation, everything is up to date.
[[1;34mINFO[m] [1m-----------------------------------

In [3]:
!date

2025年 10月  6日 月曜日 16:47:06 JST
