Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

重複検出機 v2.0 をリリースしました。 #4

Open
kaeauiama opened this issue Sep 11, 2021 · 0 comments
Open

重複検出機 v2.0 をリリースしました。 #4

kaeauiama opened this issue Sep 11, 2021 · 0 comments

Comments

@kaeauiama
Copy link
Owner

先日リリースした v1.0 ですが、処理に無駄が多かったので、前回イシューでの宣言通り県+地点での総当たり式に変更しました。normal モードで実行すると、精度は落とさずに前回よりぐっと実行時間を抑えることができます(だいたい1/3くらい)。

コマンドラインからの起動時に2種類のオプションをつけることができます。デフォルトは csv, normal です。

  • 読み込むファイルの形式
    • CSV なら --type csv、エクセルなら --type excel
  • 精度
    • 速度重視なら --mode speedy、精度重視なら --mode careful、ちょうどいいチューニングなら --mode normal

以下のような最終出力が得られます。

2021-09-12 03:16:57,506 [line: 268] [INFO] ==========サマリ==========
2021-09-12 03:16:57,506 [line: 272] [INFO] 類似度の高いファイル:
2021-09-12 03:16:57,507 [line: 274] [INFO]  類似度: 0.91 比較ファイル:14_d_001-2_utf8.csv, 14_d_099_utf8.csv
2021-09-12 03:16:57,507 [line: 274] [INFO]  類似度: 0.89 比較ファイル:14_d_001-3_utf8.csv, 14_d_099_utf8.csv
2021-09-12 03:16:57,507 [line: 274] [INFO]  類似度: 0.94 比較ファイル:20_e_003_utf8.csv, 20_e_099_utf8.csv
2021-09-12 03:16:57,508 [line: 274] [INFO]  類似度: 0.91 比較ファイル:23_e_002_utf8.csv, 23_e_099_utf8.csv
2021-09-12 03:16:57,508 [line: 274] [INFO]  類似度: 0.93 比較ファイル:44_c_007_utf8.csv, 44_c_099_utf8.csv
2021-09-12 03:16:57,508 [line: 274] [INFO]  類似度: 0.89 比較ファイル:44_c_008_utf8.csv, 44_c_099_utf8.csv

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant