Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

外部リンクチェックを安定させる #756

Closed
faithandbrave opened this issue Apr 21, 2020 · 17 comments
Closed

外部リンクチェックを安定させる #756

faithandbrave opened this issue Apr 21, 2020 · 17 comments
Assignees
Labels
link_check_ci_discuss リンクチェックCIについて議論が発生しているもの TASK

Comments

@faithandbrave
Copy link
Member

#755

CI失敗ごとのIssueで小さな議論・相談をしていましたが、安定するまで対策を考えるのはこちらに集約しようかと思います。
安定するまで、CI失敗のIssueは、発生したらこちらにリンクを貼ったら閉じる運用にしたいです。

@faithandbrave
Copy link
Member Author

ほかに考えられる対策としては、以下かなと思います。

  1. URLを重複のないリストにして、チェック件数を減らす
  2. HTTPクライアントをブラウザに偽装する
  3. チェックが通ったことのあるURLリストをもっておいて、一定期間はチェック対象外にするか、一定期間は警告にするか

 1. はかんたんではありますが、一時しのぎな感じはします。
 2. bot対策をとっているWebサイトで頻度高いアクセスが弾かれるときに使われる方式ですが、やらずに済むならその方がいい気がしてます。
 3. は仕組み作りが必要なのでちょっと大変。

@faithandbrave
Copy link
Member Author

重複のないリストにするのは、実行時間を短くする効果もあるので、ひとまずやってみようかと思います。

@faithandbrave
Copy link
Member Author

ブラウザ偽装の方法。
https://stackoverflow.com/questions/27652543/how-to-use-python-requests-to-fake-a-browser-visit

fake-useragentライブラリを使う。
https://pypi.org/project/fake-useragent/

@yumetodo
Copy link
Member

UA偽装はお行儀が悪いのでできれば避けたいですね。

@faithandbrave
Copy link
Member Author

手元で100回くらい連続して以下のページにアクセスしても弾かれないので、bot対策されてるわけではなさそうです。おそらく。

curl -v http://cmd.inp.nsk.su/old/cmd2/manuals/cernlib/shortwrups/node244.html 

@faithandbrave
Copy link
Member Author

GitHub Actionsのツールでもやってることはこちらと同じで、リトライ + sleepでした。sleep時間は[最低sleep時間, 最大sleep時間]内での乱数みたいですが。
actions/toolkit#369

@faithandbrave
Copy link
Member Author

こちらは2秒sleepですが、あちらは20〜30秒のsleepのようです。
ひとまず20秒に伸ばしてみます。

@yumetodo
Copy link
Member

乱数時間のsleepはトラフィックが同じタイミングに集中するのを避ける効果があるのでこれでもだめなら乱数時間にしてみるといいかもしれませんね。

@faithandbrave
Copy link
Member Author

自分のリポジトリで試したらsleep(20)で失敗したので、乱数にしてみます。

@faithandbrave
Copy link
Member Author

自分のリポジトリで、6回CIを動かしたら、同じURLで失敗しました。
http://cmd.inp.nsk.su/old/cmd2/manuals/cernlib/shortwrups/node244.html

んー。どうすれば…。

@faithandbrave
Copy link
Member Author

このページも歴史的資料みたいなものなので、Web Archiveに変更すれば安定するかも。このWebサイトのサーバーが弱いんじゃないかという推測で。

@faithandbrave
Copy link
Member Author

https://web.archive.org/web/20190922154624/http://cmd.inp.nsk.su/old/cmd2/manuals/cernlib/shortwrups/node244.html

このURLで何度か試してみていけそうなら、こちらのリポジトリのURLを置き換えます。

@faithandbrave
Copy link
Member Author

自分のリポジトリで10回CIを流してすべて通ったので、安定したかはわかりませんが、ひとまずRANLUXの参照URLをWeb Archiveに差し替えました。

@faithandbrave faithandbrave changed the title 外部リンクチェックの対策を考える 外部リンクチェックを安定させる Apr 21, 2020
@yumetodo
Copy link
Member

なんならWebArchiveのリンクはチェックしなくていいんじゃないですかね?消えるってことがあったらこんな監視に引っかかる前に世界的なニュースになりそうなので。

@faithandbrave
Copy link
Member Author

たしかに…。
CI実行時間を減らす効果もあるので、それはやってもよさそうです。

@faithandbrave
Copy link
Member Author

外部リンクチェックは、だいぶ安定したようです。
15分前後でおわっていて、極端に時間がかかることもなくなりましたね。
接続が安定しないページはWeb Archiveに置き換える、という方針で問題なさそうです。
https://github.com/cpprefjp/site/actions?query=workflow%3A%22outer+link+check%22

あとは、Web Archiveのリンクチェックをしない修正を入れて2〜3日動かしたら、このIssueは閉じることにします。

@faithandbrave
Copy link
Member Author

閉じます。

@yumetodo yumetodo added the link_check_ci_discuss リンクチェックCIについて議論が発生しているもの label Nov 25, 2021
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
link_check_ci_discuss リンクチェックCIについて議論が発生しているもの TASK
Projects
None yet
Development

No branches or pull requests

2 participants