Skip to content
The LOD dataset of Media-Arts Database
Python
Branch: master
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
madb
src
.gitignore
LICENSE
README.md
convert_to_rdf.py
requirements.txt
scrapy.cfg

README.md

MADB-LOD

メディア芸術データベース Web APIからデータを取得するためのクローラと、RDFへの変換スクリプト

すぐ使いたい方は、SPARQLエンドポイントとRDFデータのダンプファイルを以下で公開していますので、ご利用ください。

Usage

依存パッケージのインストール

$ pip install -r requirements.txt

メディア芸術データベース Web APIからデータ取得

$ scrapy crawl api [-a fieldId={animation,collection,game,manga,mediaart}]

取得したデータは分野ごとにJSON Lines形式で出力されます。

  • {animation,collection,game,manga,mediaart}.jsonl

設定ファイル(madb/settings.py)について

  • 全件取得はかなりサーバ負荷をかけていると思われるので、不用意にDOWNLOAD_DELAYを小さくしないようご注意ください。

RDFへ変換

$ ./convert_to_rdf.py *.jsonl

変換結果はN-Triples形式で madb.nt ファイルに出力されます。

RDF語彙へのマッピングは、QName-likeなWeb APIレスポンス「メタデータキー名」からお気持ちを汲んで設定しました。(Web APIドキュメントを参照)

You can’t perform that action at this time.