NAISTテキストコーパスに対する述語語義と意味役割のアノテーションデータ
Switch branches/tags
Nothing to show
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
SRL.fix.txt
SRL.orginal.txt
id_map.csv
readme.md
sense_tag.csv
srl_tag.csv

readme.md

NAISTテキストコーパスに対する述語語義と意味役割のアノテーションデータ

#本資源について 本資源は,奈良先端科学技術大学院大学 松本裕治研究室と,株式会社KDDI研究所の2011年度の共同研究による成果の一部です.

述語項構造が表層格レベルで既に付与されているNAISTテキストコーパスに対して, 岡山大学竹内研究室で公開されている「動詞項構造シソーラス」で定義されている項構造と意味役割の体系に則って 項の意味役割のアノテーションを行いました.

また,動詞項構造シソーラス(以下「岡大LCS」)でも用いられている「基本語データベース:Lexeed」の語義番号も付与しました.

#内容物

  • id_map.csv
  • 本アノテーションデータにおける「記事ID」とNAISTテキストコーパスにおける記事番号の対照表です.
  • sense_tag.csv
  • Lexeedの語義番号を,各述語に対して付与したものです.作業者のコメントがある場合があります.
  • srl_tag.csv
  • 動詞項構造シソーラスで定義されている,意味役割を述語の項に対して,付与したものです.
  • SRL.orginal.txt
  • もともとの岡大LCSで定義されている意味役割の一覧です.
  • SRL.fix.txt
  • 岡大LCSの意味役割を修正して,本アノテーションで利用した意味役割の一覧です.

#データの仕様 ##述語の特定について

  • 述語は「記事ID」,「文番号」,「述語位置」から一意に特定できます.
  • 本データにおける「記事ID」はNAISTテキストコーパスにおける記事番号とは異なります.復元にはid_map.csvを利用してください.
  • 「文番号」は0から始まります.
  • 「述語位置」は0から1文字づつカウントします.

##語義番号について

  • Lexeedの語義番号に対応しています
  • 負の語義番号は,それぞれ次の意味を持ちます.
  • -4 使役と結合
  • -3 複合動詞
  • -2 慣用句
  • -1 不明

#関連文献 詳細は,

林部祐太, 小町守, 松本裕治 (NAIST), 隅田飛鳥 (KDDI研究所). 「日本語テキストに対する述語語義と意味役割のアノテーション」,言語処理学会第18回年次大会, pp.397-400, 広島.(2012.3.14)

をご覧ください.

#FAQ

  • アノテーションデータをコーパスに変換するツールはありますか?
  • すみませんが,ありません.開発予定もありません.
  • 本データをメンテナンスしていく予定はありますか?
  • 当面ありません.
  • アノテーションに使ったシステムを公開する予定はありますか?
  • ありません.
  • アノテーションに変なところがあるので,修正したいのですが?
  • どうぞよろしくお願いいたします.
  • 使用・改変・再配布に制限はありますか?
  • 特に制限はいたしません.

#文責 林部 祐太 (http://hayashibe.jp)