In [1]:
# webスクレイピングに必要最低限のライブラリをインポート
import requests
from bs4 import BeautifulSoup

In [2]:
# アクセスしたいWebサイトのURLを指定
url = 'https://www.musashino-u.ac.jp/'

# WebサイトにHTTPリクエストを送信
# レスポンスを変数に格納しておく
res = requests.get(url)

In [3]:
print(f"レスポンス:{res}")  # レスポンンスオブジェクトを表示
print(f"レスポンスの型:{type(res)}")  # レスポンスオブジェクトの型を表示
print(f"ステータスコード:{res.status_code}")  # ステータスコードを表示
print(f"ステータスメッセージ:{res.reason}")  # ステータスメッセージを表示

print(f"リクエスト:{res.request}")  # リクエストオブジェクトを表示
print(f"リクエストの型:{type(res.request)}")  # リクエストオブジェクトの型を表示
print(f"リクエストヘッダー:{res.request.headers}")  # リクエストヘッダーを表示
print(f"リクエストメソッド:{res.request.method}")  # リクエストメソッドを表示
print(f"リクエストURL:{res.request.url}")  # リクエストURLを表示

レスポンス:<Response [200]>
レスポンスの型:<class 'requests.models.Response'>
ステータスコード:200
ステータスメッセージ:OK
リクエスト:<PreparedRequest [GET]>
リクエストの型:<class 'requests.models.PreparedRequest'>
リクエストヘッダー:{'User-Agent': 'python-requests/2.32.5', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}
リクエストメソッド:GET
リクエストURL:https://www.musashino-u.ac.jp/


In [None]:
# レスポンス
print(f"レスポンスヘッダー:{res.headers}")  # レスポンスヘッダーを表示
print(f"レスポンスボディ:{res.text}")   # レスポンスボディを表示

In [4]:
heders = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}

In [None]:
# 別のURLにアクセスしてみる
url = 'https://ja.wikipedia.org/wiki/%E6%AD%A6%E8%94%B5%E9%87%8E%E5%A4%A7%E5%AD%A6'
res = requests.get(url, headers=heders)
print(f"ステータスコード:{res.status_code}")  # ステータスコードを表示
print(f"レスポンスボディ:{res.text}")   # レスポンスボディを表示

In [None]:
# url = "https://www.musashino-u.ac.jp/search.html?query=データサイエンス"
url = "https://www.musashino-u.ac.jp/search.html"
params = {
    'query': 'データサイエンス'
}
res = requests.get(url, headers=heders, params=params)
res.encoding = res.apparent_encoding  # レスポンスのエンコーディングを設定
print(f"ステータスコード：{res.status_code}")  # ステータスコードを表示
print(f"レスポンスボディ：{res.text}")  # レスポンスボディを表示

In [5]:
url = "https://www.musashino-u.ac.jp/"
res = requests.get(url, headers=heders)
res.encoding = res.apparent_encoding  # レスポンスのエンコーディングを設定
print(f"ステータスコード：{res.status_code}")  # ステータスコードを表示

ステータスコード：200


In [6]:
# HTMLのソースコードを解析
soup = BeautifulSoup(res.text, 'html.parser')
print(f"soupの型：{type(soup)}")  # soupオブジェクトの型を表示

soupの型：<class 'bs4.BeautifulSoup'>


In [7]:
# ソースコード全体から<a>タグを抽出
soup_a = soup.a
print(f"<a>タグ：{soup_a}")  # 最初に見つかった<a>タグを表示
print(f"<a>タグの型：{type(soup_a)}")  # <a>タグオブジェクトの型を表示

# ソースコード全体から<p>タグを抽出
soup_p = soup.p
print(f"<p>タグ：{soup_p}")  # 最初に見つかった<p>タグを表示
print(f"<p>タグの型：{type(soup_p)}")  # <p>タグオブジェクトの型を表示

<a>タグ：<a href="#main">
					このページの本文へ移動
				</a>
<a>タグの型：<class 'bs4.element.Tag'>
<p>タグ：<p>
										重要なお知らせ
									</p>
<p>タグの型：<class 'bs4.element.Tag'>


In [8]:
# ソースコード全体から<div>タグを抽出
soup_div = soup.div
# print(f"<div>タグ：{soup_div}")  # 最初に見つかった<div>タグを表示
# print(f"<div>タグの型：{type(soup_div)}")  # <div>タグオブジェクトの型を表示

soup_div_div = soup_div.div
print(f"<div>タグの中の<div>タグ：{soup_div_div}")  # 最初に見つかった<div>タグを表示
print(f"<div>タグの中の<div>タグの型：{type(soup_div_div)}")  # <div>タグオブジェクトの型を表示

<div>タグの中の<div>タグ：<div class="c-skip">
<a href="#main">
					このページの本文へ移動
				</a>
</div>
<div>タグの中の<div>タグの型：<class 'bs4.element.Tag'>


In [9]:
# BeautifulSoupオブジェクトとTagオブジェクトは，"."でHTMLタグを連結することでより深いタグにアクセスすることができる．
soup_div_div = soup.div.div
print(f"<div>タグの中の<div>タグ：{soup_div_div}")  # 最初に見つかった<div>タグを表示
print(f"<div>タグの中の<div>タグの型：{type(soup_div_div)}")  # <div>タグオブジェクトの型を表示

<div>タグの中の<div>タグ：<div class="c-skip">
<a href="#main">
					このページの本文へ移動
				</a>
</div>
<div>タグの中の<div>タグの型：<class 'bs4.element.Tag'>


In [10]:
# Tagオブジェクト.stringでタグ内のテキストを取得できる．
print(f"<a>タグのテキスト：{soup_a.string}")  # <a>タグ内のテキストを表示

# コンテンツがない場合はNoneが返される．
print(f"<div>タグの中の<div>タグのテキスト：{soup_div_div.string}")  # <div>タグ内のテキストを表示

<a>タグのテキスト：
					このページの本文へ移動
				
<div>タグの中の<div>タグのテキスト：None
