Skip to content

This issue was moved to a discussion.

You can continue the conversation there. Go to discussion →

New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

ファイルでの「使用しない言語」の設定が「---cell---」のみ反映されない #534

Closed
TsuguSan opened this issue Nov 14, 2022 · 7 comments
Labels
error Non-English Communication in Japanese language.

Comments

@TsuguSan
Copy link

■お使いのKH Coderのバージョン
3.Beta.05a

■KH Coderのインストール先フォルダ(解凍先フォルダ)
C:\khcoder3

■どんなエラー・不具合・問題ですか?
使用しない言語選択時に、KH coderにデフォルトで設定されている「---cell---」は機能するが、テキストファイルで同様に「---cell---」を使用しない言語に設定しても分析結果に「---cell---」が入ってしまう。
「---cell---」以外の単語は、テキストファイルでも反映されます。

■分析しようとしているのは何語のテキストですか?
日本語

■分析対象として指定しているファイルの形式は何ですか?
Excel形式(.xlsx)

■お使いのOS
Windows 10

■お使いのセキュリティ対策/ウイルス対策ソフトウェア
無し

■お使いのCPU
Intel Core i5

@TsuguSan TsuguSan added error Non-English Communication in Japanese language. labels Nov 14, 2022
@TsuguSan TsuguSan changed the title ファイルでの「使用しない言語」の設定が反映されない ファイルでの「使用しない言語」の設定が「---cell---」のみ反映されない Nov 14, 2022
@ko-ichi-h
Copy link
Owner

ko-ichi-h commented Nov 14, 2022

こんにちは、開発者の樋口です。書き込みありがとうございます。

なぜテキストファイルの分析で「---cell---」の指定が必用になるのでしょう?

ともあれ、「強制抽出」欄と「使用しない語」欄の両方に入力していることと、両方の欄の一番上に入力していることをご確認ください。


テキストファイルを分析するのではなく、「使用しない語」欄に直接打ち込むかわりに「ファイルから読み込み」にチェックを入れるということでしょうか。その場合でも対策は同じで、「強制抽出」「使用しない語」両方のファイルの一番上に「---cell---」を入力してください。

@TsuguSan
Copy link
Author

回答ありがとうございます。
すみません、伝え方が悪かったようです。
分析対象としているファイルはExcel形式で、KH Coderの「使用しない語」欄に入力した「---cell---」は分析結果から無くなるのですが、「使用しない語」を「ファイルから読み込み」にし、その読み込ませるテキストファイルに「--cell---」と記述しても、分析結果に出てしまうという現象が起きています。
※「強制抽出」「使用しない語」の両方に設定するテキストファイルの一番上には「---cell---」と入力されています。

@ko-ichi-h
Copy link
Owner

こんにちは、開発者の樋口です。書き込みありがとうございます。

上の書き込みの編集部分にも書きましたが、状況、理解できたと思います。丁寧にご説明いただきありがとうございます。

さて本題ですが、再度「前処理の実行」はされましたか? 「前処理の実行」をしても「---cell---」が除外されない場合は、「強制抽出」「使用しない語」の両方のテキストファイルをここに貼り付けていただければ、何か分かるかもしれません。

手元の環境では、両方のファイルの一番上に「---cell---」を入力して「前処理の実行」をすれば、「---cell---」を除外できるようです。

@TsuguSan
Copy link
Author

「前処理の実行」は実施済みです。
使用しているファイルを添付します。(個人情報が含まれている可能性があるため、「---cell---」のみ記述したファイルとなります。こちらのファイルでも「---cell---」が除外されないことは確認済みです。)
強制抽出する語r2.txt
使用しない語.txt

@ko-ichi-h
Copy link
Owner

ko-ichi-h commented Nov 16, 2022

こんにちは、開発者の樋口です。書き込みありがとうございます。

テキストファイルにBOMがついているのが原因でした。
BOMを削除してから前処理をやり直せば「---cell---」が除外されました。

フリーのサクラエディタを使ってBOMを外す方法がこちらのリンクに載っています。
https://boukenki.info/sakura-editor-bom-settei-houhou/

ちなみに、何というソフトでこのテキストファイルを作成されましたか?


この掲示板をご覧になっているすべての方にお伝えしたいのですが、このように状況を再現するためのファイルを最初から添付していただけば、ここでのやり取りや、解決までに必要な日数を大幅に短縮できるケースがまま見られます。最初の書き込み時になるべくご協力いただけましたら幸いです。

@ko-ichi-h
Copy link
Owner

ko-ichi-h commented Nov 16, 2022

941915a にてKH Coderの修正を行い、BOM付きテキストファイルの読み込みに対応しました。次のバージョンからは、BOMをわざわざ外していただかなくても大丈夫です。

ほかのたいていのテキストファイル読み込み局面では、BOM対応のための修正を既に行っていると思うのですが、ここは漏れていました。

@TsuguSan
Copy link
Author

回答ありがとうございます。
BOM付きテキストファイルだったのが原因だったのですね、納得しました。
使用したテキストエディタは「TeraPad」です。

また、次回からは最初から原因のファイルを添付するように致します。

This issue was moved to a discussion.

You can continue the conversation there. Go to discussion →

Labels
error Non-English Communication in Japanese language.
Projects
None yet
Development

No branches or pull requests

2 participants