こふ語コッパスッ
Python
Switch branches/tags
Nothing to show
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Failed to load latest commit information.
annot
keyword
parsed
raw
scripts
.gitignore
LICENSE
Makefile
README.rst

README.rst

こふ語コッパスッ

こふ語コッパスですっこふ語の解析にご利用くださいっ

raw/
    raw.txt                ;生コッパスッ
parsed/
    kovlang.parsed.txt     ;annot.txt で KyTea を訓練して raw.txt を解析した解析済みコッパスッ
annot/
    preannot.txt           ;raw.txt を KyTea コッパス用に変換したもの (スペッスの挿入とエスケップ)
    annot.txt              ;訓練用の部分的アノテッションコッパスッ
    annot0.txt              ;訓練用の部分的アノテッションコッパスッ
keyword/
    keyword.lst            ;こふ語のうち比較的変わった使い方をする単語リスヨッ

部分的アノテッションコーパス annot.txt は KyTea 用のものですっ この部分的アノテッションコーパスを利用して学習したこふ語の KyTea モデルを使って 生コッパス raw/raw.txt を解析した結果が parsed/kovlang.parsed.txt ですっ

実際にこふ語用の KyTea モデルを学習するには次のようにしますっ

train-kytea -dictn 4 -charw 3 -charn 3 -typew 3 -typew 3 -global 1 \
    -feat kytea-0.4.2.feat \
    -part annot/preannot.txt \
    -part annot/annot.txt \
    -part annot/annot0.txt \
    -model kovlang.model

ここでは学習に KyTea の素性ファイル を用いましたっ

こふ語と思われる単語には、通常の品詞タグではなく こふ語 という品詞タグをつけていますっ 名前と思われる単語には、 名前 タグをつけていますっ