表記ゆれや品詞ゆれの吸収について(スクリプト版) #1089
Replies: 5 comments
-
英語版が #96 にあります。 |
Beta Was this translation helpful? Give feedback.
-
統合した語の文書数がおかしくなるバグがあったので、スクリプトを更新しました。 |
Beta Was this translation helpful? Give feedback.
-
樋口先生、こんにちは。 KH Coder本体と同じGPLでしたら、例えば社内で編集したスクリプトを社内で使う分には問題ないとおもいますが、 |
Beta Was this translation helpful? Give feedback.
-
こんにちは、樋口です。書き込みありがとうございます。 リポジトリのトップページ等にGPL v2と記載していますので、本プラグインも含めて、特段のお断りがないものはすべてGPL v2となります。
あくまで私のGPLに対する理解なのですが、提供されたスクリプトを顧客企業が第三者に公開することは止められませんが、「公開が必要」とはならないはずです。正確&確実なところは、ご自身でGPLをお読みになるか、貴社法務部門や顧問弁護士の方に相談なさってください。 それでもご心配であれば、表記ゆれや同義語の定義部分を、外部ファイル(データファイル)から読み込むようにスクリプトを修正するとよいかもしれませんね。どう転んでも「データファイルまで公開しろ」とはならないように思いますが、これもやっぱり、正確&確実なところは法律の専門家にご相談いただくのが安心かと存じます。 |
Beta Was this translation helpful? Give feedback.
-
樋口先生、ご回答ありがとうございます。 |
Beta Was this translation helpful? Give feedback.
-
まえがき
「2段階の分析」というKH Coderの設計思想から,分析の最初の段階では,すなわち抽出語を使った分析の段階では,たとえば「可愛い」と「かわいい」を同じものと見なすような操作はあまりお勧めしていません。
しかし,ご要望をいただくことは多く,そうした語の統合を行えた方が便利な状況というのもあるだろうと存じます。その場合には,マウス操作で設定を行える有料プラグイン「文錦® 表記ゆれ&同義語エディター for KH Coder」をお使いになるのが便利かつ簡単で,操作ミスも起こりにくいでしょう。
対策プラグイン(スクリプト版)
それ以外の方法として,あまり便利で簡単とは言えないかもしれませんが,対策プラグイン(スクリプト版)による語の統合も可能です。使い方は以下の通りです。
z1_edit_words3.zip
なお,前処理を実行する度にステップ4を繰り返す必要があります。
ステップ2ではプラグインの以下の部分を編集してください。なお「#」より右はコメントとしてKH Coder(Perl)には無視される部分です。
このデフォルトの指定では「友人」や「旧友」は,「友達」にまとめられます。また複数の品詞に分かれて,複数の種類の語と見なされていた「格別」や「偶然」が,1種類の語と見なされるようになります。
Before:

After:

語の統合のしかたを変えたい場合は,ステップ2の編集を再度行って,KH Coderを再起動し,前処理を実行してから,このプラグインを実行(ステップ4)してください。
以前のバージョンとの違い
このプラグインは以前に旧掲示板で公開したものに,若干の改良を加えたものです。以前公開のバージョンでは,スクリーンショットの「格別」のように,複数の品詞の語に分けて抽出された語を,1種類の語に統一することができませんでした。そうした「品詞ゆれ」を吸収できるように,今回のバージョンでは改良を行いました。
エラーになる場合
このスクリプトをご自身で編集するとエラーになり、それを何回かの試行錯誤で解決できないような場合、「文錦® 表記ゆれ&同義語エディター for KH Coder」のご利用をお勧めいたします。
Beta Was this translation helpful? Give feedback.
All reactions