# 氏名漢字カナ突合モデル

漢字カナ突合モデルはJava17で記述されている。Mavenを用いて漢字カナ突合モデルをビルドする。
仕様等については[README](./README.md)を参照のこと。


## 必要なモジュール

- JDK 17
- Maven 3




## 事前準備
- バージョン
pom.xmlのバージョン番号を書き換える

```xml
    <groupId>jp.go.digital.kanjikana</groupId>
    <artifactId>kanjikana_core_oss</artifactId>
    <version>1.6o</version>   // ここを書き換えるとコンパイル後のJarファイル名にもこのバージョン番号が入る

```

- ファイル
[dict](../dict)で作成した，辞書ファイル及び，[train](../train)で作成したAIモデルのファイルを，Javaのリソースとして使用するために，src/main/resources以下にファイルをコピーする。

In [1]:
!mvn clean antrun:run


[[1;34mINFO[m] Scanning for projects...
[[1;34mINFO[m] 
[[1;34mINFO[m] [1m---------< [0;36mjp.go.digital.kanjikana:shimei_kanjikana_core_oss[0;1m >----------[m
[[1;34mINFO[m] [1mBuilding shimei_kanjikana_core_oss 1.0[m
[[1;34mINFO[m]   from pom.xml
[[1;34mINFO[m] [1m--------------------------------[ jar ]---------------------------------[m
[[1;34mINFO[m] 
[[1;34mINFO[m] [1m--- [0;32mclean:3.2.0:clean[m [1m(default-clean)[m @ [36mshimei_kanjikana_core_oss[0;1m ---[m
[[1;34mINFO[m] Deleting /Users/utsubo-katsuhiko/Documents/GitHub/kanjikana-model/core/target
[[1;34mINFO[m] 
[[1;34mINFO[m] [1m--- [0;32mantrun:3.1.0:run[m [1m(default-cli)[m @ [36mshimei_kanjikana_core_oss[0;1m ---[m
[[1;34mINFO[m] Executing tasks
[[1;34mINFO[m] Executed tasks
[[1;34mINFO[m] [1m------------------------------------------------------------------------[m
[[1;34mINFO[m] [1;32mBUILD SUCCESS[m
[[1;34mINFO[m] [1m------------------------------------------

## コンパイルする


In [2]:
!mvn compile assembly:single


[[1;34mINFO[m] Scanning for projects...
[[1;34mINFO[m] 
[[1;34mINFO[m] [1m---------< [0;36mjp.go.digital.kanjikana:shimei_kanjikana_core_oss[0;1m >----------[m
[[1;34mINFO[m] [1mBuilding shimei_kanjikana_core_oss 1.0[m
[[1;34mINFO[m]   from pom.xml
[[1;34mINFO[m] [1m--------------------------------[ jar ]---------------------------------[m
[[1;34mINFO[m] 
[[1;34mINFO[m] [1m--- [0;32mresources:3.2.0:resources[m [1m(default-resources)[m @ [36mshimei_kanjikana_core_oss[0;1m ---[m
[[1;34mINFO[m] Using 'UTF-8' encoding to copy filtered resources.
[[1;34mINFO[m] Using 'UTF-8' encoding to copy filtered properties files.
[[1;34mINFO[m] Copying 28 resources
[[1;34mINFO[m] The encoding used to copy filtered properties files have not been set. This means that the same encoding will be used to copy filtered properties files as when copying other filtered resources. This might not be what you want! Run your build with --debug to see which files might be affec

## 実行する

漢字姓名とカナ姓名が入力されたファイルをCSVもしくはTSV形式で用意する。漢字姓名とカナ姓名以外のフィールドが含まれていても良い。
なお，VMパラメタとして`-Xmx4096M`を指定し，４Gのメモリを確保すること。
### 実行クラス
jp.go.digital.kanjikana.core.executor.match.KanjiKanaMatchMain
### パラメタ
- infile
入力ファイル。行に漢字姓名とカナ姓名を含むファイルで，TSVもしくはCSV形式で作成しること。また，ヘッダがあっても良くヘッダがある場合には`has_header`パラメタを指定する。また，漢字姓名とカナ姓名の列を`kanji_idx`と`kana_idx`パラメタで指定する
- okfile
漢字姓名とカナ姓名が一致と判断されたレコードが保存されるファイル
- ngfile
漢字姓名とカナ姓名が不一致と判断されたレコードが保存されるファイル
- logfile
入力ファイルの各行を実行する際のログファイル
- kanji_idx
infileのファイルの漢字姓名の列番号，0から始まる
- kana_idx
infileのファイルのカナ姓名の列番号，0から始まる
- sep
infileの各列の区切り文字を指定する。csvもしくはtsvを指定する。
- thread_num
infileに大量の行が含まれる場合には，本プログラムをスレッドで多重化して計算することができる。`thread_num`に1を指定すると（デフォルト），シングルスレッドで実行され，それ以上を値を指定するとその数だけスレッドで計算される。スレッドでケインさんした場合には，`okfile`と`ngfile`，`logfile`の末尾にスレッド番号が付与されたファイルが作成される
- has_header
infileにヘッダ業がある場合には`true`を指定する。デフォルトは`false`であり，infileにヘッダ行は含まれない
- strategy
漢字姓名とカナ姓名の突合モデルをどれを使うかを指定する。BASIC, ONLY_AI, ONLY_DICT, AI, ENSEMBLEから選択し，セットする。    

  |モデル|内容|
  |-----|---|
  |ENSEMBLE||
  |BASIC|姓名辞書，異体字辞書との突合のみ|
  |ONLY_AI|AIモデルとの突合のみ|
  |ONLY_DICT|姓名辞書及び単漢字辞書，異体字辞書との突合のみ|
  |AI|BASIC + ONLY_AI|
  

In [3]:
# 出力結果がng.txtとok.txtに出力される
!java -Xmx4096M -Dlog4j.configurationFile=log4j2.xml -classpath target/kanjikana_core_oss-1.6o-jar-with-dependencies.jar jp.go.digital.kanjikana.core.executor.match.KanjiKanaMatchMain --infile input.txt --okfile ok.txt --ngfile ng.txt --logfile log.txt --kanji_idx 1 --kana_idx 2 --strategy ENSEMBLE


エラー: メイン・クラスjp.go.digital.kanjikana.core.executor.match.KanjiKanaMatchMainを検出およびロードできませんでした
原因: java.lang.ClassNotFoundException: jp.go.digital.kanjikana.core.executor.match.KanjiKanaMatchMain


## javadocを作成する
Javadocを作成し，/docs以下へ移動する。GithubPagesで見えるようにする。 

URLは [https://studious-chainsaw-5k2p5q6.pages.github.io/](https://studious-chainsaw-5k2p5q6.pages.github.io/)


In [4]:
!mvn javadoc:javadoc

[[1;34mINFO[m] Scanning for projects...
[[1;34mINFO[m] 
[[1;34mINFO[m] [1m---------< [0;36mjp.go.digital.kanjikana:shimei_kanjikana_core_oss[0;1m >----------[m
[[1;34mINFO[m] [1mBuilding shimei_kanjikana_core_oss 1.0[m
[[1;34mINFO[m]   from pom.xml
[[1;34mINFO[m] [1m--------------------------------[ jar ]---------------------------------[m
[[1;34mINFO[m] 
[[1;34mINFO[m] [1m>>> [0;32mjavadoc:3.11.2:javadoc[m [1m(default-cli)[0;1m > [0;1mgenerate-sources[m @ [36mshimei_kanjikana_core_oss[0;1m >>>[m
[[1;34mINFO[m] 
[[1;34mINFO[m] [1m<<< [0;32mjavadoc:3.11.2:javadoc[m [1m(default-cli)[0;1m < [0;1mgenerate-sources[m @ [36mshimei_kanjikana_core_oss[0;1m <<<[m
[[1;34mINFO[m] 
[[1;34mINFO[m] 
[[1;34mINFO[m] [1m--- [0;32mjavadoc:3.11.2:javadoc[m [1m(default-cli)[m @ [36mshimei_kanjikana_core_oss[0;1m ---[m
[[1;34mINFO[m] No previous run data found, generating javadoc.
[[1;34mINFO[m] [1m-------------------------------------------