WikiArticleXML2SQLite3

Wikipediaの全ページのXMLデータである jawiki-latest-pages-articles.xml を使い、Wikipedia冒頭にある要約文をSQLite3データベースに突っ込むスクリプト

jawiki-latest-abstract.xml がちゃんと要約文を抽出できてなかったので作った。

完全に全てのページの要約文を抽出できるわけではない。

$ cat jawiki-latest-pages-articles.xml | grep "<title>" | grep -v "<title>Wikipedia:" | grep -v "<title>Help:" | grep -v "<title>ファイル:" | wc -l
1991020

$sqlite3 wiki_articles.sqlite3 "select count(*) from wikipedia;"
1990962

このように抽出できていないページが58件ある。

冒頭の要約文にあるリンクも除去しようとしたが、記法が多岐にわたっていて難しいので諦めた。

~~Macで動かしてみたら2時間かかっても終わらなかった。~~
なんか3分半で終わるようになった。なんだったん？
Debianのサーバで動かしたところ7分で終わった。

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
.gitignore		.gitignore
README.md		README.md
wikiArticles2sqlite3.php		wikiArticles2sqlite3.php

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

.gitignore

.gitignore

README.md

README.md

wikiArticles2sqlite3.php

wikiArticles2sqlite3.php

Repository files navigation

WikiArticleXML2SQLite3

About

Releases

Packages

Languages

sugtao4423/WikiArticleXML2SQLite3

Folders and files

Latest commit

History

Repository files navigation

WikiArticleXML2SQLite3

About

Resources

Stars

Watchers

Forks

Languages