日本語ウィキペディアからまぁまぁ綺麗な文章を抽出するプロジェクト
Python Shell
Switch branches/tags
Nothing to show
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Failed to load latest commit information.
.gitignore
LICENSE
README.md
download.sh
parse-mwlib.py
parse.py
sample-50.txt

README.md

ja-wikipedia-corpus-soso

日本語ウィキペディアからまぁまぁ綺麗な文章を抽出するプロジェクト

使い方

公式のダンプデータの取得

sh download.sh

コーパスの生成

./parse.py jawiki-latest-pages-meta-current.xml > corpus.txt

サンプルデータ

先頭50行の結果はsample-50.txtにあります。「1行1ページ」の構造になっています。

ライセンス

sample-50.txtやコーパスの結果はWikipediaと同様「Creative Commons Attribution-ShareAlike 3.0 Unported License」となりますが、ソースコードはMIT Licenseで公開しています