Skip to content
master
Switch branches/tags
Code

Latest commit

 

Git stats

Files

Permalink
Failed to load latest commit information.
Type
Name
Latest commit message
Commit time
 
 
 
 
 
 
 
 
 
 

ja-wikipedia-corpus-soso

日本語ウィキペディアからまぁまぁ綺麗な文章を抽出するプロジェクト

使い方

公式のダンプデータの取得

sh download.sh

コーパスの生成

./parse.py jawiki-latest-pages-meta-current.xml > corpus.txt

サンプルデータ

先頭50行の結果はsample-50.txtにあります。「1行1ページ」の構造になっています。

ライセンス

sample-50.txtやコーパスの結果はWikipediaと同様「Creative Commons Attribution-ShareAlike 3.0 Unported License」となりますが、ソースコードはMIT Licenseで公開しています

About

日本語ウィキペディアからまぁまぁ綺麗な文章を抽出するプロジェクト

Resources

License

Packages

No packages published