NAISTテキストコーパスに対する述語語義と意味役割のアノテーションデータ
#本資源について 本資源は,奈良先端科学技術大学院大学 松本裕治研究室と,株式会社KDDI研究所の2011年度の共同研究による成果の一部です.
述語項構造が表層格レベルで既に付与されているNAISTテキストコーパスに対して, 岡山大学竹内研究室で公開されている「動詞項構造シソーラス」で定義されている項構造と意味役割の体系に則って 項の意味役割のアノテーションを行いました.
また,動詞項構造シソーラス(以下「岡大LCS」)でも用いられている「基本語データベース:Lexeed」の語義番号も付与しました.
#内容物
- id_map.csv
- 本アノテーションデータにおける「記事ID」とNAISTテキストコーパスにおける記事番号の対照表です.
- sense_tag.csv
- Lexeedの語義番号を,各述語に対して付与したものです.作業者のコメントがある場合があります.
- srl_tag.csv
- 動詞項構造シソーラスで定義されている,意味役割を述語の項に対して,付与したものです.
- SRL.orginal.txt
- もともとの岡大LCSで定義されている意味役割の一覧です.
- SRL.fix.txt
- 岡大LCSの意味役割を修正して,本アノテーションで利用した意味役割の一覧です.
#データの仕様 ##述語の特定について
- 述語は「記事ID」,「文番号」,「述語位置」から一意に特定できます.
- 本データにおける「記事ID」はNAISTテキストコーパスにおける記事番号とは異なります.復元にはid_map.csvを利用してください.
- 「文番号」は0から始まります.
- 「述語位置」は0から1文字づつカウントします.
##語義番号について
- Lexeedの語義番号に対応しています
- 負の語義番号は,それぞれ次の意味を持ちます.
- -4 使役と結合
- -3 複合動詞
- -2 慣用句
- -1 不明
#関連文献 詳細は,
林部祐太, 小町守, 松本裕治 (NAIST), 隅田飛鳥 (KDDI研究所). 「日本語テキストに対する述語語義と意味役割のアノテーション」,言語処理学会第18回年次大会, pp.397-400, 広島.(2012.3.14)
をご覧ください.
#FAQ
- アノテーションデータをコーパスに変換するツールはありますか?
- すみませんが,ありません.開発予定もありません.
- 本データをメンテナンスしていく予定はありますか?
- 当面ありません.
- アノテーションに使ったシステムを公開する予定はありますか?
- ありません.
- アノテーションに変なところがあるので,修正したいのですが?
- どうぞよろしくお願いいたします.
- 使用・改変・再配布に制限はありますか?
- 特に制限はいたしません.
#文責 林部 祐太 (http://hayashibe.jp)