No description, website, or topics provided.
Switch branches/tags
Nothing to show
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Failed to load latest commit information.
rb
.gitattributes
.gitignore
00CHECKLIST.txt
00VERSION.txt
ChangeLog
README.md
bccwj-deppara.patch
to_cabocha.rb

README.md

  1. アノテーションの復元
  • DVD 中の core_M-XML をこの README.md があるフォルダに展開する。

    mkdir cabocha ruby to_cabocha.rb core_M-XML/ これにより cabocha/ 以下に、係り受けタグなしの .cabocha ファイルが生成される

  • patch

    patch -p0 < ./bccwj-deppara.patch

    Windows ユーザ対策

  1. ChaKi での利用 .cabocha から .db ファイルの作成方法 "c:\Program Files\NAIST\ChaKi.NET\CreateCorpusSLA.exe" -e=UTF-8 c:\Users\masayu-a\mergedfinal\00001_A_OC01_00001.cabocha c:\Users\masayu-a\mergedfinal\00001_A_OC01_00001.db

.db から .cabocha ファイルの作成方法 "c:\Program Files\NAIST\ChaKi.NET\ExportCorpus.exe" -t="Cabocha" c:\Users\masayu-a\mergedfinal\00001_A_OC01_00001.db c:\Users\masayu-a\mergedfinal\00001_A_OC01_00001.cabocha

  1. 制限事項 現在のところ、全データに対して、係り受けと並列構造を1回アノテーションした だけのものです。 アノテータ間の揺れやアノテーション誤りなどの修正はこれから行います。 特に係り受け関係タグ "O" は未チェックのものです。 00CHECKLIST.txt 中のファイルは今後優先的に再チェックされるファイルです。 また、いくつかの文は文境界の修正が間に合っていないものがあります。 今後、正式版リリースに向けて、二次チェック行います。

係り受けのアノテーション定義については別途(近日に)配布するマニュアルを 参照してください。 正式版では secondary edge のアノテーションを復元できる形にします。

  1. 配布に際して

diff -U 0 --strip-trailing-cr cabocha/ annotated/ > bccwj-deppara.patch

  1. ライセンス 現在一次チェックが済んだ状況です。 二次チェックが完了後、正式版をリリースします。 正式版では、商用利用可のライセンス(修正 BSD ライセンス)にする予定です。

  2. 変更履歴 00VERSION.txt を参照してください。