Skip to content

sugtao4423/WikiArticleXML2SQLite3

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 

Repository files navigation

WikiArticleXML2SQLite3

Wikipediaの全ページのXMLデータである jawiki-latest-pages-articles.xml を使い、Wikipedia冒頭にある要約文をSQLite3データベースに突っ込むスクリプト

jawiki-latest-abstract.xml がちゃんと要約文を抽出できてなかったので作った。

完全に全てのページの要約文を抽出できるわけではない。

$ cat jawiki-latest-pages-articles.xml | grep "<title>" | grep -v "<title>Wikipedia:" | grep -v "<title>Help:" | grep -v "<title>ファイル:" | wc -l
1991020

$sqlite3 wiki_articles.sqlite3 "select count(*) from wikipedia;"
1990962

このように抽出できていないページが58件ある。

冒頭の要約文にあるリンクも除去しようとしたが、記法が多岐にわたっていて難しいので諦めた。

Macで動かしてみたら2時間かかっても終わらなかった。
なんか3分半で終わるようになった。なんだったん?
Debianのサーバで動かしたところ7分で終わった。

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages