Skip to content

srdougherty/python_web_scraping

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 

Repository files navigation

ウェブスクレイピングのジャーニー

概要

Python でウェブスクレイピングのアプリケーションを開発するのジャーニーを解説します。

情報収集

まずウェブスクレイピングについての情報を収集するために、 "web scraping", "ウェブスクレイピング" などを検索しました。

ウェブスクレイピングの基本的な流れ

  1. ウェブページを取得する
  2. 取得したウェブページを解析し、特定のデータを抽出する
  3. 抽出したデータを保存する

プロトタイプ

情報収集で見つかったものを基に最低限の機能があるプロトタイプを作成します。

目標:映画.com から今週公開予定の映画のポスターをダウンロードします。

依存ライブラリ

必要なライブラリを直接にコマンドラインで入力してインストールできます。

> pip install requests beautifulsoup4

または ライブラリを requirements.txt でリストアップして下記のコマンドを実行できます。

> pip install -r requirements.txt

特定のデータの検索方法

https://eiga.com/movie/ をブラウザで表示して欲しいデータのパターンを探します。 「今週公開の映画」の最初の画像を右クリックして要素を検証します。
映画.comで今週公開の映画の要素を検証する

「今週公開の映画」のリストはページの中に最初に CSSのクラス(class)が slide-menu となっている要素です。
そのリストの中に画像要素(タグ=img)の src プロパティを参照したら画像ファイルをダウンロードできます。
なお、映画のタイトルが imgalt プロパティに設定されます。

<img src="https://eiga.k-img.com/images/movie/99730/photo/9bd390e4f14ec7c6/160.jpg?1689920285" alt="月" loading="lazy">

「今週公開の映画」のリストの各 img 要素をループしたら、欲しいデータを取得できます。

ソースコード: prototype.py

About

Pythonでのウェブスクレイピング

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages