In [147]:
import requests
from bs4 import BeautifulSoup

In [148]:
URL = "http://localhost/index.html"

response = requests.get(URL, timeout=5)
response.raise_for_status()          # 4xx/5xx を検知
response.encoding = response.apparent_encoding
soup = BeautifulSoup(response.text, "html.parser")

In [149]:
# 属性値やコンテンツの取得
element = soup.find("h1")
print(element)                      # 要素全体を取得
print(element.text)                 # コンテンツをプロパティで取得
print(element.get_text())           # コンテンツをメソッドで取得
print(element["id"])                # 属性名を指定して属性値を取得
print(element["class"])             # 属性名を指定して属性値を取得

<h1 class="title" id="main-title">スクレイピング練習ページ</h1>
スクレイピング練習ページ
スクレイピング練習ページ
main-title
['title']


In [None]:
# 単一の要素を指定
element = soup.find("h1")                   # タグを指定
print(element)
element = soup.select_one("h1")             # タグを指定
print(element)
element = soup.find(id="main-title")        # id を指定
print(element)
element = soup.select_one("#main-title")    # id を指定
print(element)

print("---")

# 複数の要素を指定
elements = soup.find_all("h2")              # タグを指定
for e in elements:
    print(e)
elements = soup.select("h2")                # タグを指定
for e in elements:
    print(e)
elements = soup.find_all(class_="item")     # class を指定
for e in elements:
    print(e)
elements = soup.select(".item")             # class を指定
for e in elements:
    print(e)

<h1 class="title" id="main-title">スクレイピング練習ページ</h1>
<h1 class="title" id="main-title">スクレイピング練習ページ</h1>
<h1 class="title" id="main-title">スクレイピング練習ページ</h1>
<h1 class="title" id="main-title">スクレイピング練習ページ</h1>
---
<h2 class="section-title">商品一覧</h2>
<h2 class="section-title">最新ニュース</h2>
<h2 class="section-title">商品一覧</h2>
<h2 class="section-title">最新ニュース</h2>
<p class="item" data-price="1200">りんご</p>
<p class="item" data-price="800">みかん</p>
<p class="item" data-price="1500">ぶどう</p>
<p class="item" data-price="1200">りんご</p>
<p class="item" data-price="800">みかん</p>
<p class="item" data-price="1500">ぶどう</p>


In [None]:
# 子要素の取得
children = soup.select("body > *")                      # 「> *」は直下限定
print(len(children))
for e in children:
    print(e.get_text(strip=True))
print("---")
children = soup.select("body *")                        # 「*」は子孫すべて
print(len(children))
for e in children:
    print(e.get_text(strip=True))

print()
print("===")
print()

# 子要素の取得
elements = soup.find("body")
children = elements.find_all(recursive=False)           # 再帰検索なし（直下限定）
print(len(children))
for e in children:
    print(e.get_text(strip=True))
print("---")
children = elements.find_all()                          # 再帰検索なし（子孫すべて）
for e in children:
    print(e.get_text(strip=True))


4
スクレイピング練習ページ
商品一覧りんごみかんぶどう
最新ニュースAI 技術が進化していますPython 4.0 がリリース予定
お問い合わせ:info@example.com
---
13
スクレイピング練習ページ
商品一覧りんごみかんぶどう
商品一覧
りんご
みかん
ぶどう
最新ニュースAI 技術が進化していますPython 4.0 がリリース予定
最新ニュース
AI 技術が進化しています
Python 4.0 がリリース予定
お問い合わせ:info@example.com
お問い合わせ:info@example.com
info@example.com

===

4
スクレイピング練習ページ
商品一覧りんごみかんぶどう
最新ニュースAI 技術が進化していますPython 4.0 がリリース予定
お問い合わせ:info@example.com
---
スクレイピング練習ページ
商品一覧りんごみかんぶどう
商品一覧
りんご
みかん
ぶどう
最新ニュースAI 技術が進化していますPython 4.0 がリリース予定
最新ニュース
AI 技術が進化しています
Python 4.0 がリリース予定
お問い合わせ:info@example.com
お問い合わせ:info@example.com
info@example.com
