ウェブスクレイピングのジャーニー

概要

Python でウェブスクレイピングのアプリケーションを開発するのジャーニーを解説します。

情報収集

まずウェブスクレイピングについての情報を収集するために、 "web scraping", "ウェブスクレイピング" などを検索しました。

ウィキペディア：ウェブスクレイピング（定義）
Webスクレイピングとは？基本や仕組み、活用事例まで解説（詳しい説明）
- スクレイピングの違法性と注意事項について (重要ポイント)
How to perform Web Scraping using Selenium and Python (チュートリアル)
PythonでWebスクレイピングをする方法を解説！【入門編】 (チュートリアル)

ウェブスクレイピングの基本的な流れ

ウェブページを取得する
取得したウェブページを解析し、特定のデータを抽出する
抽出したデータを保存する

プロトタイプ

情報収集で見つかったものを基に最低限の機能があるプロトタイプを作成します。

目標：映画.com から今週公開予定の映画のポスターをダウンロードします。

依存ライブラリ

ウェブページ取得
- Requests
HTML解析
- BeautifulSoup

必要なライブラリを直接にコマンドラインで入力してインストールできます。

> pip install requests beautifulsoup4

またはライブラリを requirements.txt でリストアップして下記のコマンドを実行できます。

> pip install -r requirements.txt

特定のデータの検索方法

https://eiga.com/movie/ をブラウザで表示して欲しいデータのパターンを探します。「今週公開の映画」の最初の画像を右クリックして要素を検証します。

「今週公開の映画」のリストはページの中に最初に CSSのクラス(class)が slide-menu となっている要素です。
そのリストの中に画像要素（タグ＝img）の src プロパティを参照したら画像ファイルをダウンロードできます。
なお、映画のタイトルが img の alt プロパティに設定されます。

<img src="https://eiga.k-img.com/images/movie/99730/photo/9bd390e4f14ec7c6/160.jpg?1689920285" alt="月" loading="lazy">

「今週公開の映画」のリストの各 img 要素をループしたら、欲しいデータを取得できます。

ソースコード： prototype.py

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
README.md		README.md
eigacom_inspect_this_weeks_releases.png		eigacom_inspect_this_weeks_releases.png
prototype.py		prototype.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

ウェブスクレイピングのジャーニー

概要

情報収集

ウェブスクレイピングの基本的な流れ

プロトタイプ

依存ライブラリ

特定のデータの検索方法

About

Uh oh!

Releases

Packages

Uh oh!

Languages

srdougherty/python_web_scraping

Folders and files

Latest commit

History

Repository files navigation

ウェブスクレイピングのジャーニー

概要

情報収集

ウェブスクレイピングの基本的な流れ

プロトタイプ

依存ライブラリ

特定のデータの検索方法

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages