Permalink
Browse files

Add a post

  • Loading branch information...
vzvu3k6k committed Jan 30, 2014
1 parent 4e77398 commit 98bb5d3d1926ea66b0513b96ee07ca7d739b6717
Showing with 20 additions and 0 deletions.
  1. +20 −0 _posts/2014-01-30-github-robots-txt.md
@@ -0,0 +1,20 @@
---
layout: post
title: https://github.com/robots.txt
---
冒頭に
# If you would like to crawl GitHub contact us at support@github.com.
# We also provide an extensive API: http://developer.github.com/
と人間向けのメッセージがある。
ボットは基本的に[/humans.txt](https://github.com/humans.txt)にしかアクセスできないことになっている。主だったサーチエンジンのクローラは別扱いになっているが、サーバーの負担を避けるためなのか、かなり詳細にDisallowが設定されている。User-Agentごとに同じAllowとDisallowの設定が繰り返されていてムズムズする。robots.txtがあまり複雑なフォーマットをサポートするとパーサーを書くのが大変だろうから、仕方がないのだろうか。
目を引いたのは
Disallow: /ekansa/Open-Context-Data
Disallow: /ekansa/opencontext-*
という部分。個人のリポジトリがDisallowに指定されている。[ekansa/Open-Context-Data · GitHub](https://github.com/ekansa/Open-Context-Data)のREADMEによると、このリポジトリには総計3GB以上のXMLファイルが含まれていて、GitHubに変更をpushしようとするとHTTP 500 range errorが返ってきてしまうなどと書かれている。あまりにサイズが大きすぎるのでクロールが禁止されてしまったらしい。

0 comments on commit 98bb5d3

Please sign in to comment.