ImageScraper は、指定された Web ページから画像をスクレイピングし、ローカルに保存する Python スクリプトです。
Selenium と BeautifulSoup を使用して、設定ファイルで指定された URL から画像をダウンロードし、指定されたフォルダに保存します。
進行状況はprogress.json
に記録され、プログラムの途中で停止した場合でも、どこまで処理が進んだかを追跡できます。
- 複数の Web ページから画像をスクレイピング
- 各ページに対して指定された数の画像をダウンロード
- ダウンロードした画像をローカルの指定フォルダに保存
.gif
ファイルの除外- 進行状況の記録と追跡
- Python 3
- Selenium
- BeautifulSoup
- requests
- webdriver_manager
-
依存関係のインストール:
pip install selenium bs4 requests webdriver_manager
-
config.json
ファイルを編集して、スクレイピングする URL と画像数を指定します。 -
save_folder.txt
に画像を保存するフォルダのパスを記載します。 -
スクリプトを実行します:
python image_scraper.py
このファイルには、ダウンロードした画像を保存するディレクトリのパスを記載します。例えば:
C:/Users/yourname/Documents/Images/
このファイルでは、スクレイピングする URL とページごとの画像数を指定します。以下はその例です:
{
"pages": {
"https://example.com/page1": 5,
"https://example.com/page2": 3
}
}
スクリプトには、go_to_next_page 関数が含まれています。
これは、Web サイトによって異なるページ遷移のメカニズムに対応するためのものです。特定のサイトに合わせてこの関数をカスタマイズすることで、異なるタイプのページ遷移に柔軟に対応できます。
- このスクリプトは、個人的な使用を目的としています。Web サイトの利用規約に違反しないようにしてください。
- スクレイピングによってサーバーに負荷をかけすぎないよう注意してください。
- このスクリプトの使用によって生じたいかなる問題に対しても、作者は責任を負いません。