Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

表記ゆれや品詞ゆれの吸収について(スクリプト版) #101

Closed
ko-ichi-h opened this issue Oct 14, 2019 · 5 comments
Closed

Comments

@ko-ichi-h
Copy link
Owner

@ko-ichi-h ko-ichi-h commented Oct 14, 2019

まえがき

「2段階の分析」というKH Coderの設計思想から,分析の最初の段階では,すなわち抽出語を使った分析の段階では,たとえば「可愛い」と「かわいい」を同じものと見なすような操作はあまりお勧めしていません

しかし,ご要望をいただくことは多く,そうした語の統合を行えた方が便利な状況というのもあるだろうと存じます。その場合には,マウス操作で設定を行える有料プラグイン「文錦® 表記ゆれ&同義語エディター for KH Coder」をお使いになるのが便利かつ簡単で,操作ミスも起こりにくいでしょう。

対策プラグイン(スクリプト版)

それ以外の方法として,あまり便利で簡単とは言えないかもしれませんが,対策プラグイン(スクリプト版)による語の統合も可能です。使い方は以下の通りです。
z1_edit_words3.zip

  1. KH Coderを終了します
  2. 「z1_edit_words3.pm」を「plugin_jp」フォルダにコピーします
  3. コピーした「z1_edit_words3.pm」をテキストエディタで編集します
  4. KH Coderを起動し,もしまだの場合は前処理を実行します
  5. メニューから「ツール」「プラグイン」「表記ゆれの吸収」を選択します

なお,前処理を実行する度にステップ4を繰り返す必要があります。

ステップ2ではプラグインの以下の部分を編集してください。なお「#」より右はコメントとしてKH Coder(Perl)には無視される部分です。

my $config = {
	'友達' =>
		[
			'友人',
			'旧友',
			'親友',
			'盟友',
			'',
		],
	'格別' =>
		[
			'特別',
			'格別', # 通常は不要。『こころ』には複数の品詞の「格別」があった
		],              # ので,1つの「格別」にまとめるために指定。
	'偶然' =>
		[
			'偶然', # 形容動詞・副詞・副詞可能の「偶然」を1種類の語にまとめる
		],
};

このデフォルトの指定では「友人」や「旧友」は,「友達」にまとめられます。また複数の品詞に分かれて,複数の種類の語と見なされていた「格別」や「偶然」が,1種類の語と見なされるようになります。

Before:
2019-10-14 23_42_17-設定

After:
2019-10-14 23_43_17-設定

語の統合のしかたを変えたい場合は,ステップ2の編集を再度行って,KH Coderを再起動し,前処理を実行してから,このプラグインを実行(ステップ4)してください。

以前のバージョンとの違い

このプラグインは以前に旧掲示板で公開したものに,若干の改良を加えたものです。以前公開のバージョンでは,スクリーンショットの「格別」のように,複数の品詞の語に分けて抽出された語を,1種類の語に統一することができませんでした。そうした「品詞ゆれ」を吸収できるように,今回のバージョンでは改良を行いました。

@ko-ichi-h ko-ichi-h closed this Oct 15, 2019
@ko-ichi-h ko-ichi-h changed the title 表記ゆれや品詞ゆれの吸収について 表記ゆれや品詞ゆれの吸収について(スクリプト版) Nov 18, 2019
@ko-ichi-h
Copy link
Owner Author

@ko-ichi-h ko-ichi-h commented Mar 2, 2020

英語版が #96 にあります。

@ko-ichi-h
Copy link
Owner Author

@ko-ichi-h ko-ichi-h commented Jun 21, 2020

統合した語の文書数がおかしくなるバグがあったので、スクリプトを更新しました。

@pfftsp
Copy link

@pfftsp pfftsp commented Mar 9, 2021

樋口先生、こんにちは。
この「表記揺れ吸収プラグイン」のライセンスについて教えていただけますでしょうか。
(コメント位置間違っていたら申し訳ありません・・・)

KH Coder本体と同じGPLでしたら、例えば社内で編集したスクリプトを社内で使う分には問題ないとおもいますが、
顧客企業内で使うために編集したスクリプトを顧客企業に提供する場合、スクリプトの公開が必要かどうかを懸念しております。

@ko-ichi-h
Copy link
Owner Author

@ko-ichi-h ko-ichi-h commented Mar 9, 2021

こんにちは、樋口です。書き込みありがとうございます。

リポジトリのトップページ等にGPL v2と記載していますので、本プラグインも含めて、特段のお断りがないものはすべてGPL v2となります。

顧客企業内で使うために編集したスクリプトを顧客企業に提供する場合、スクリプトの公開が必要かどうかを懸念しております。

あくまで私のGPLに対する理解なのですが、提供されたスクリプトを顧客企業が第三者に公開することは止められませんが、「公開が必要」とはならないはずです。正確&確実なところは、ご自身でGPLをお読みになるか、貴社法務部門や顧問弁護士の方に相談なさってください。

それでもご心配であれば、表記ゆれや同義語の定義部分を、外部ファイル(データファイル)から読み込むようにスクリプトを修正するとよいかもしれませんね。どう転んでも「データファイルまで公開しろ」とはならないように思いますが、これもやっぱり、正確&確実なところは法律の専門家にご相談いただくのが安心かと存じます。

@pfftsp
Copy link

@pfftsp pfftsp commented Mar 9, 2021

樋口先生、ご回答ありがとうございます。
おっしゃる通り外部ファイル化という方法もありますね。
法務に確認してみます。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Linked pull requests

Successfully merging a pull request may close this issue.

None yet
2 participants