Skip to content
View SCP-JP-Crawler's full-sized avatar
  • Joined Jun 21, 2026

Block or report SCP-JP-Crawler

Block user

Prevent this user from interacting with your repositories and sending you notifications. Learn more about blocking users.

You must be logged in to block users.

Maximum 250 characters. Please don’t include any personal information such as legal names or email addresses. Markdown is supported. This note will only be visible to you.
Report abuse

Contact GitHub support about this user’s behavior. Learn more about reporting abuse.

Report abuse
scp-jp-crawler/README.md

scp_crawler

Scrapy で構築した Web クローラーです。SCP-JP と SCP International Hub からデータを収集します。

インストール

make install

全体クロール

すべてのスパイダーを実行し、SCP-JP と SCP International Hub のデータを data ディレクトリに出力します。

make crawl

scrapy CLI で個別実行

scrapy コマンドを使って、スパイダーを個別に実行できます。

利用可能なスパイダー一覧を表示:

scrapy list

SCP International Hub のアイテムをクロールし、任意のファイル名で保存:

scrapy crawl scp_int -o scp_international_items.json

生データの構造

取得するコンテンツは 2 種類です。

  • SCPアイテム
  • SCP短編

すべてのコンテンツ(アイテム / 短編)には次の情報が含まれます。

  • URL
  • タイトル
  • レーティング
  • タグ
  • 履歴(リビジョン ID、日時、作者、コメント)
  • 本文コンテンツ(サイトナビゲーション等を除いた本文 HTML)

SCPアイテムには以下も含まれます。

  • SCP 識別子(例: SCP-3000)
  • SCP 番号(取得できる場合)
  • SCPシリーズ
    • 1-5(将来のシリーズ拡張にも対応)
    • joke, explained, decommissioned
    • Generic International(メインサイト由来)
    • 各国タグ(International Hub 由来)

生成ファイル

クロール結果は、オブジェクト配列を含む複数の JSON ファイルとして出力されます。

ファイル名 ソース 種別 ターゲット
goi.json Main Tale goi
scp_items.json Main Item scp
scp_titles.json Main Title scp
scp_hubs.json Main Hub scp
scp_tales.json Main Tale scp
scp_int.json International Item scp_int
scp_int_titles.json International Title scp_int
scp_int_tales.json International Tale scp_int

make TARGET(例: make goi / make scp)を実行すると、対象サイトのファイルを生成します。make data を実行すると不足ファイルを補完します。

すべて再生成する場合は make fresh を実行します。

後処理データ

postproc システムは Titles / Hubs / Items / Tales を使って、より包括的なデータセットを生成します。既存データの結合・相互参照・拡張を行います。

ライセンス

SCP Wiki 上のテキストコンテンツは CC BY-SA 3.0 ライセンスで公開されています。

このプロジェクトは画像ファイルをダウンロードしません。

Popular repositories Loading

  1. scp-jp-crawler scp-jp-crawler Public

    SCP-JP Wiki Crawler

    Python

  2. scp-jp-api scp-jp-api Public

    SCPの記事、アイテム、メタデータのデータセットを毎日更新

    Shell