-
Notifications
You must be signed in to change notification settings - Fork 0
/
README
160 lines (117 loc) · 5.24 KB
/
README
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
SynCha -- Japanese Predicate-Argument Structure Analyzer
Ryu Iida <ryu-i@is.naist.jp>
Mamoru Komachi <mamoru-k@is.naist.jp>
Computational Linguistics Laboratory
Graduate School of Information Science
Nara Institute of Science and Technology
0. はじめに
このプログラムは既に更新されていません。動作する日本語の述語項構造解析器
を探している方は、新たにスクラッチから作成された以下のバージョンをお使い
ください。
https://sites.google.com/site/ryuiida/syncha
1. 概要
新茶(SynCha)は述語項構造解析を行なうプログラムです。形態素解析・係り受け
解析などの結果を受け取って、「誰が」「何を」「何に」「どうした」といった
情報を出力することができます。
2. 必要条件
このプログラムは x86 Linux 上で動きます。開発は Gentoo Linux 2006.1 上で
行っておりますが、新しい目のディストリビューションであれば他の Linux
でも動くのではないかと思います。RedHat Enterprise WS3 上での動作報告が
あります。今後 Mac OS X (PPC/x86) 上での動作に対応する予定です。
その他必要なソフトウェアは
* darts http://chasen.org/~taku/software/darts/
* chasen http://chasen.naist.jp/hiki/ChaSen/
* tinysvm http://chasen.org/~taku/software/TinySVM/
* bact http://chasen.org/~taku/software/bact/
* yamcha http://chasen.org/~taku/software/yamcha/
* cabocha http://chasen.org/~taku/software/cabocha/
があります。また、Perl 5.8.6 以降が必要です。
実際に解析を行うためには辞書のデータベースを syncha を置いたディレクトリ
の dict ディレクトリに置く(もしくはシンボリックリンクを張る)必要がある
のですが、このデータベースの中にはライセンス上すでに持っている場合しか
使えないものが含まれているため、下記のリソースが使える場合にのみデータ
ベースのバイナリ(Berkeley DB 形式)をお渡しします。
* 分類語彙表
上記シソーラスをお持ちでない方でも実行できるようにツールを書き換える予定
です。また、実行結果を見たい人は
http://cl.naist.jp/~ryu-i/syncha/
にて文章を入力してデモを見ることができます。WebAPI も用意してあります。
http://syncha.sourceforge.jp/
より参照ください。
3. 使い方
適当な場所に syncha ディレクトリを置いて、データベースのバイナリが入った
dict ディレクトリをその中に配置します。
mamoru-k@elm syncha % pwd
/work/mamoru-k/syncha
mamoru-k@elm syncha % ls
CVS Makefile README bin dict ena mugicha resolveZero
標準入力から日本語文を入れると標準出力に解析結果を出します(入力は SJIS/
EUC-JP/ISO-2022-JP/UTF-8 を受け付けますが、出力は EUC-JP になります)。
解析結果は CaboCha に準じます。
mamoru-k@elm syncha % echo "太郎は花子を見た。" | bin/syncha
* 0 2D 0/1 3.41155724
太郎 タロウ 太郎 名詞-固有名詞-人名-名 B-PERSON
は ハ は 助詞-係助詞 O
* 1 2D 0/1 0.00000000
花子 ハナコ 花子 名詞-固有名詞-人名-名 B-PERSON
ID=0
を ヲ を 助詞-格助詞-一般 O
* 2 -1O 0/1 0.00000000
見 ミ 見る 動詞-自立 一段 連用形 O EVENT:WO=0
た タ た 助動詞 特殊・タ 基本形 O
。 。 。 記号-句点 O
EOS
「見た」という動詞がどのような述語項構造を取るかが第2文節の最後のカラム
に示されています。意見情報抽出など、精度は低くても再現率は高くして、
とにかくなにかは出力してほしい場合は、パラメータ -a と -e を調節する
ことで対応できます。文内・文間・文外の3つの閾値を変更できます。
それぞれ ':' で区切って入力します。負の値を入れると出やすくなります。
mamoru-k@elm syncha % echo "太郎は花子を見た。" | bin/syncha -a '-1:-1:-1'
* 0 2D 0/1 3.41155724
太郎 タロウ 太郎 名詞-固有名詞-人名-名 B-PERSON
ID=1
は ハ は 助詞-係助詞 O
* 1 2D 0/1 0.00000000
花子 ハナコ 花子 名詞-固有名詞-人名-名 B-PERSON
ID=2
を ヲ を 助詞-格助詞-一般 O
* 2 -1O 0/1 0.00000000
見 ミ 見る 動詞-自立 一段 連用形 O
EVENT:GA=1,WO=2,NI=1
た タ た 助動詞 特殊・タ 基本形 O
。 。 。 記号-句点 O
EOS
現在のところ、動詞・形容詞・事態性名詞について、ガ格・ヲ格・ニ格を出力
することができます。「名詞+だ」のように判定詞が使われている場合も出力
します。
パラメータの詳しい説明は perldoc syncha すると表示されます。
4. ライセンス
このソフトウェアは LGPL です。
5. 連絡先
このソフトウェアに関する要望・コメント等は SynCha の開発用メーリングリスト
<syncha-dev@lists.sourceforge.jp> までお送りください。
6. 参考文献
*
- Ryu Iida, Kentaro Inui and Yuji Matsumoto.
- Anaphora resolution by antecedent identification followed by anaphoricity
determination.
- ACM Transactions on Asian Language Information Processing (TALIP). Vol 4,
Issue 4, pp.417-434, 2005.
*
- 飯田龍, 乾健太郎, 松本裕治.
- 文脈的手がかりを考慮した機械学習による日本語ゼロ代名詞の先行詞同定.
- 情報処理学会論文誌, Vol 45, No. 3, 2004.
*
- 小町守, 飯田龍, 乾健太郎, 松本裕治
- 事態性名詞の項構造解析における共起尺度と構文パターンの有効性の分析
- 言語処理学会第13回年次大会論文集, pp.47-50, March 2007.
*
- 小町守, 飯田龍, 乾健太郎, 松本裕治
- 共起用例と名詞の出現パターンを用いた動作性名詞の項構造解析
- 言語処理学会第12回年次大会論文集, pp.821-824, March 2006.
--
飯田龍 <ryu-i@is.naist.jp>
小町守 <mamoru-k@is.naist.jp>
奈良先端科学技術大学院大学情報科学研究科
自然言語処理学講座(松本研究室)
http://cl.naist.jp/