Skip to content
Tokyo Metropolitan University Sentiment Treebank (TMUST)
Branch: master
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
.gitignore
README.md
STree.txt
make_lex.py
mask_word.py
parent_annotation.py
restore_word.py
sentiment_labels.txt

README.md

首都大学東京日本語評価極性タグ付きコーパス

このデータセットは下記の研究で作成したコーパスです。 使用した研究を発表する場合は、下記の原稿を引用してください。

  • 中澤真人, 池田可奈子, 山田美知花, 吉村綾馬, 鈴木由衣, 小町守. リビュー文書を対象とした句単位の日本語評価極性タグ付きコーパス. 言語処理学会第24回年次大会, pp.781-784. March 14, 2018.

タグの設計については小町が提案し、鈴木が仕様をまとめ、山田・吉村・中澤 の3人がアノテーションを行いました。スクリプトは吉村が作成しました。 原稿は1-2節を池田が、3-5節を中澤が、6節を小町が書き、鈴木と小町が 原稿全体に渡って内容を見たものです。

配布物

本コーパス本体は sentiment_label.txt です。ただし、このコーパスからは テキストが除去されているので、lex.txt という補助データを作成する必要 があります。また、アノテーションの時に用いたフレーズの情報は、STree.txt に含まれています。

sentiment_label.txt

TSUKUBA コーパスから Ckylark でフレーズ抽出し、3人のアノテータで極性の ラベルをつけたデータです。Excel で作業したデータを tsv でエクスポートし、 mask_word.py で単語をマスクしました。フォーマットは以下です。

フレーズID\tカテゴリ\t極性1\t極性2\t極性3\tフレーズ

STree.txt

Ckylark による句構造解析結果になる構文木の情報がエンコードされています。 親のノードのIDを示す方法でエンコードされています。parent_annotation.py によって生成されたものです。

同等の情報は楽天データセットの本文に対し、KyTea および Ckylark をかけることでも得ることができます。(KyTea および Ckylark のモデル やバージョンの違いにより、アノテーション結果がずれる可能性を考慮し、 今回の配布物に含めてあります)

Ckylark は KyTea の付与する品詞や読み推定の情報を使わないので、自分で Ckylark をかける場合 -notags オプションをつけることにご注意ください。 cat tsukuba-corpus.txt.orig | kytea -notags | ckylark --model ./jdc

準備

今回のデータの復元に必要なものは TSUKUBA コーパスです。 「楽天データ公開」からデータを取得し、テキストのみ抽出した上で、 KyTea 0.4.7 にて単語分割してください。

http://www.nlp.mibel.cs.tsukuba.ac.jp/~inui/SA/corpus/ http://www.phontron.com/kytea/index-ja.html

KyTea 0.4.7 で必要なのは単語分割だけなので、品詞の情報は含めない よう、下記の -notags オプションで処理してください。 kytea -notags < tsukuba-corpus.txt.orig > tsukuba-corpus.txt

lex.txt

TSUKUBA コーパスのテキスト部分を KyTea で単語分割し、含まれている 単語を Python で sort | uniq し、ID 化した結果です。 make_lex.py < tsukuba-corpus.txt > lex.txt で作成します。

lex.txt を restore_word.py に与えることで、sentiment_label.txt の テキストを復元することができます。 restore_word.py -l lex.txt -c sentiment_label.txt 復元されるテキストは KyTea 解析済みのテキストになります。

ライセンス

スクリプトおよびデータは MIT ライセンスにて配布いたします。 データに関してはテキストを復元するには上記の「楽天データ公開」 から取得する必要があります。

著作権

アノテートされたデータの著作権は、山田・吉村・中澤・鈴木・小町の5人に あります。parent_annotation.py は吉村に、残りのスクリプトは小町に著作 権があります。

履歴

  • 2018/03/15 (version 0.2)
    • ライセンス、著作権、履歴を追加。
    • フレーズ ID 55,000 以降のデータがなかった問題を解決。
  • 2018/03/14 (version 0.1)
    • 最初のリリース
You can’t perform that action at this time.