スクレイピングデータHackathon

Fumihiro Kato edited this page Jul 16, 2015 · 1 revision

Table of Contents

7/7(木)

手順

  1. 嘉村さんがすでに検討している40館ほどのデータとLODACのデータをマッピング
  2. 必須項目の列挙
  3. 必須項目が取れていないもの* 最低限取りたいものは,手作業で取る
  4. 松村さんによる各館からの項目を切り出したデータを必須項目にマッピングする

注意点

  • descriptionの中までは見ない

7/8(金)

案件

  1. ID問題:資料の固有IDを持つものが少ない.どのようにIDをつけるか.→ institution + institutionalID
  2. 美術品とそれ以外(遺物など)を分けるかどうか.仕分ける場合,現状のデータも仕分けなくてはならない.現在のLODACの語彙ではどこまでカバーできるか?→ 美術品,立体物はカバーできる → まず美術品をもつ館をチェック!

語彙

  • 文様 → lodac:visualPattern
  • 制作年 → 要検討
  • 用途 → 却下(タイプに近い)
  • 形状 → 却下(タイプに近い)
  • 受入れ形態 → 収蔵経緯にマージ
  • 作者解説 → dc:description
  • 生地 / 没地 →rda2:placeOfBirth, rda2:placeOfDeath
  • テーマ → 却下(タイプに近い)
  • 関連リンク → rdfs:seeAlso
  • 初出展覧会 → 展覧会歴にマージ
  • その他情報(備考) → dc:description

年代

  • 和暦 → 西暦に変換

RDF化対象館

未判別(緑)

整形無し

  • 横浜美術館 (RDF化済)
  • 金沢美術館
  • 青森県立美術館
  • 千葉市美術館 (詳細はdc:descriptionで)
  • 倉敷市立美術館(五十三次)
  • 倉敷市立美術館
  • 富士市立博物館 (美術) (サイズ関係はdc:extentに全部入れる)
  • 富士市立博物館 (歴史) (サイズ関係はdc:extentに全部入れる)
  • 富士市立博物館 (紙) (サイズ関係はdc:extentに全部入れる)
  • 岐阜市歴史博物館 (絵はがき
  • 福岡県立美術館
  • 福岡アジア美術館(en)
  • 兵庫県立歴史博物館
  • 中原悌二郎記念旭川市彫刻美術館
  • SAGAデジタルミュージアム
  • wakayama_museum.tsv
  • yokaichi_museum.tsv

要整形

  • 川崎市民ミュージアム(美術)
    • 値に含まれるメタ項目を削除
    • 制作年:
    • 制作国:
    • 区 分:
    • 技 法:
    • サイズ:
  • 愛知県美術館
    • 作者名 (作者名読み)
    • 生年 / 没年
    • 生地 / 没地
  • 郡山市美術館
    • 素材の値を「材質」と「サイズ」に分割
    • 素材: "木版・紙  37.8×49.4cm"
  • 秋田市立千秋美術館
    • 作者名と生没年 => 作者名, 生年, 没年
  • 熊本県立美術館(近代)
    • 「作者名」「よみ」「生年」「没年」に分割
    • 作者名: "境野一之 (サカイノカズユキ ,1900〜1989)"
  • 熊本県立近代美術館(古美術)
    • 「作者名」「よみ」「生年」「没年」に分割
    • 作者名: "土肥樵石 (ドイショウセキ ,1842〜1915)"
  • 熊本県立近代美術館(西洋)
    • 「作者名」「よみ」「生年」「没年」に分割
    • 作者名: "CALLOT,Jacques (カロ,ジャック ,1594〜1635)"
  • 熊本県立近代美術館(東洋)
    • 「作者名」「よみ」「生年」「没年」に分割
  • 足立美術館
    • 作品名と制作年
      • 「(.*?)(?:((.*)))*」(.*)((.*))
      • 作品名、作品名(かな)、制作年(和暦)、制作年(西暦)
  • 岐阜市歴史博物館 (陶芸)
    • 作家名 作家名読み
  • 福岡アジア美術館(ja)
    • 作家を 読み,漢字氏名,ローマ字,に分割
    • 作家: "ジャン・ルォイー(張若一)Zhang Ruoyi"
    • 国名と読みを分割
    • 国・地域: "チュウゴク「中国」
  • 長崎県美術館
    • 作者を「漢字氏名」「ローマ字氏名」に分割
    • "作者": "東松照明 TOMATSU Shomei",
  • 岡山県立博物館デジタルミュージアム
    • 分野
      • "分野" : "美術・工芸"のように分野のみ分割した方がいい
  • 岡山市立オリエント美術館
    • 制作年(詳細)
      • 末尾に(数字)が付いてしまっているので除去の必要がある
  • 大分県立芸術会館
    • 作品名(かな)
      • (.*)((.*))
        = {作品名 , 作品名読み}
    • 詳細(材質・技法、サイズ、展覧情報など)
      • サイズ以外はインスタンス辞書が無いと""無理""
  • 埼玉県立歴史と民俗の博物館
    • 種別 形態
      • インスタンス辞書が無いと""無理""
  • 神奈川県立近代美術館
    • 制作年と素材・手法 → 最初の半角スペースで分割,前半が制作年(?のときは空白にする),後半は材料・技法に相当(分割不可)
    • 作者名と生没年 → 「 (」で分割し,前半を作者名,後半を生没年とする.生没年はさらに「-」で分割し,生年および没年を取得できる.
  • 山口県立美術館
    • スクレイピングは不首尾。
    • 元htmlは
    • タグで各項目が囲まれている。順序によって内容が決まる。
  • 中身がないタグがあると飛ばされる。
  • 基本順は
    • 作品名(かな)
    • 作品名
    • 作品名(英語)
    • 制作年
    • 作家名
    • 作家解説
    • 材質、技法
    • 材質、技法(英語)
    • サイズ
  • よく飛ばされるタグは、作者解説(たぶんこれだけ?)
  • 自分でHTMLを処理すればとれる。適当に内容で判別すればよい。もし解説だけ省略の可能性があるなら、単に
  • の個数(9か8)で判別。
  • 滋賀県立近代美術館
    • 材質・技法・形状の分離は難しいそう。
    • サイズは縦、横、奥行をマージする。
  • 宮城県美術館
    • 解説文 → 「コレクション」の文字が含まれるものは「コレクション」に入れられる
    • 技法 → 材料,技法の双方が含まれており,分割はむずかしい
    • imgURL上,下 → 1枚の画像が上下に分割されているのでそのまま記載するのは難しい…
    • 作者名 → 作者名,生年,没年に分割可能 例)ヴァシリー・カンディンスキー (1866-1944)
    • 生年,没年 → 作者名から取得可能
  • 三重県立美術館
    • 「-」のみのデータは空白なので除外
    • 寄贈者 → 末尾の「寄贈」をとれば寄贈者の名前だけになる(作者自身が寄贈した場合は作者となっている)
    • imgUrl → 「http://www.bunka.pref.mie.lg.jp/MDAS_Picture/NoImage_s.jpg」は除外
    • 作者名 → 最初の半角スペースで区切り,前半を「作者名」,後半を「作者英名」とする
  • 静岡県立美術館
    • 制作年 → 西暦,世紀,時代など表記はいろいろ
    • 材質・技法 → 分けるのは難しい
  • 石川県立美術館
    • 「*」のみのデータは空白なので除外
    • その他(産地/窯)→ dc:descriptionにマージ
  • 北海道立 三岸好太郎美術館
    • 形状に相当する行から材質・形状を削除
  • 石橋美術館
    • 生年・没年(半角小括弧削除、中点区切り)
    • 技法・素材(中点区切り)
  • hyogo_art_museum.tsv
    • 制作年(半角小括弧内は和暦)
  • tokushima_syodou_sakuhin
    • 資料・作品表題(スペース区切り、小括弧内はふりがな、順序は、作者名、ID?、作品名←スペース有り)例:中林梧竹 書幅182 臨 周 各隣鼎銘(ナカバヤシゴチク ショフク182 リン シュウ カクリンテイメイ)
  • iwate_art_museum.tsv
    • 作品分類(大括弧内は分類詳細)例:絵画[油彩]
    • 作品名(半角小括弧内は作品よみがな)
    • 制作年(半角小括弧内は和暦)
    • 技法/材質(そのままそれぞれ)
  • 取得困難

    • 福岡市美術館
      • データ数約80点.元ソースはいくつかのレイアウト.
    • 和歌山近代美術館
      • 一つのファイルに複数の作品あり。
      • 全部で5ファイル、全文で52件?
      • まあ、無視して良いのでは。