In [15]:
# webスクレイピングに最低限必要なライブラリをインポート
import requests
from bs4 import BeautifulSoup

# HTTPリクエスト
## 基本のリクエスト

In [16]:
#　アクセスしたいwebサイトのURLを指定
url = "https://www.musashino-u.ac.jp/"

#webサーバーにHTTPリクエストを送信
#レスポンスを変数に格納しておく
res = requests.get(url)

In [17]:
res.encoding = res.apparent_encoding  #レスポンスのエンコーディングを設定

print(f"レスポンス：{res}")  #レスポンスオブジェクトを表示
print(f"レスポンスの型：{type(res)}")  #レスポンスオブジェクトの型を表示
print(f"ステータスコード：{res.status_code}")  #ステータスコードを表示
print(f"ステータスメッセージ：{res.reason}")  #ステータスメッセージを表示

print(f"リクエスト：{res.request}")  #リクエストオブジェクトを表示
print(f"リクエストの型：{type(res.request)}")  #リクエストオブジェクトの型を表示
print(f"リクエストのヘッダー：{res.request.headers}")  #リクエストヘッダーを表示
print(f"リクエストメソッド：{res.request.method}")  #リクエストメソッドを表示
print(f"リクエストURL：{res.request.url}")  #リクエストURLを表示

レスポンス：<Response [200]>
レスポンスの型：<class 'requests.models.Response'>
ステータスコード：200
ステータスメッセージ：OK
リクエスト：<PreparedRequest [GET]>
リクエストの型：<class 'requests.models.PreparedRequest'>
リクエストのヘッダー：{'User-Agent': 'python-requests/2.32.5', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}
リクエストメソッド：GET
リクエストURL：https://www.musashino-u.ac.jp/


In [None]:
# レスポンス
print(f"レスポンスヘッダー：{res.headers}")  #レスポンスヘッダーを表示
print(f"レスポンスボディ：{res.text}") #レスポンスボディを表示

In [19]:
#悪用厳禁(普通のブラウザのように振る舞うための偽りのヘッダー情報)
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}

In [None]:
# 別のURLにアクセス
#https://ja.wikipedia.org/wiki/%E6%AD%A6%E8%94%B5%E9%87%8E%E5%A4%A7%E5%AD%A6
url = 'https://ja.wikipedia.org/wiki/武蔵野大学'
res = requests.get(url, headers=headers)
print(f"ステータスコード：{res.status_code}")  #ステータスコードを表示
print(f"レスポンスボディ：{res.text}") #レスポンスボディを表示

## パラメータ付きのリクエスト

In [None]:
#url = "https://www.musashino-u.ac.jp/search.html?qyery=データサイエンス"
url = "https://www.musashino-u.ac.jp/search.html"
params = {
    'query': 'データサイエンス'
}
res = requests.get(url, headers=headers, params=params)
res.encoding = res.apparent_encoding  #レスポンスのエンコーディングを設定
print(f"ステータスコード：{res.status_code}")  #ステータスコードを表示
print(f"レスポンスボディ：{res.text}") #レスポンスボディを表示

# BeautifulSSoupでHTMLソースから任意の情報を取得する

In [24]:
url = "https://www.musashino-u.ac.jp/"
res = requests.get(url, headers=headers)
res.encoding = res.apparent_encoding  #レスポンスのエンコーディングを設定
print(f"ステータスコード：{res.status_code}")  #ステータスコードを表示

ステータスコード：200


In [25]:
# HTMLのソースコードを解析
soup = BeautifulSoup(res.text, 'html.parser')
print(f"soupの型：{type(soup)}")  #soupオブジェクトの型を表示

soupの型：<class 'bs4.BeautifulSoup'>


In [None]:
# ソースコード全体から<a>タグを抽出
soup_a = soup.a
print(f"<a>タグ：{soup_a}")  #最初に見つかった<a>タグを表示
print(f"<a>タグの型：{type(soup_a)}")  #<a>タグオブジェクトの型を表示

# ソースコード全体から<p>タグを抽出
soup_p = soup.p
print(f"<p>タグ：{soup_p}")  #最初に見つかった<p>タグを表示
print(f"<p>タグの型：{type(soup_p)}")  #<p>タグオブジェクトの型を表示


In [30]:
# ソースコード全体から<div>タグを抽出
soup_div = soup.div
# print(f"<div>タグ：{soup_div}")  #最初に見つかった<div>タグを表示
# print(f"<div>タグの型：{type(soup_div)}")  #<div>タグオブジェクトの型を表示

soup_div_div = soup_div.div
print(f"<div>タグの中の<div>タグ：{soup_div_div}")  #最初に見つかった<div>タグの中の<div>タグを表示
print(f"<div>タグの中の<div>タグの型：{type(soup_div_div)}")  #<div>タグの中の<div>タグオブジェクトの型を表示

<div>タグの中の<div>タグ：<div class="c-skip">
<a href="#main">
					このページの本文へ移動
				</a>
</div>
<div>タグの中の<div>タグの型：<class 'bs4.element.Tag'>


In [31]:
# BeautifulSSoupのオブジェクトとTagオブジェクトは、 "."でHTMLタグを連結することでより深いタグにアクセスできる
soup_div_div = soup_div.div
print(f"<div>タグの中の<div>タグ：{soup_div_div}")  #最初に見つかった<div>タグを表示
print(f"<div>タグの中の<div>タグの型：{type(soup_div_div)}")  #<div>タグオブジェクトの型を表示

<div>タグの中の<div>タグ：<div class="c-skip">
<a href="#main">
					このページの本文へ移動
				</a>
</div>
<div>タグの中の<div>タグの型：<class 'bs4.element.Tag'>


In [32]:
# Tagオブジェクト.stringでタグ内のテキスト情報を取得可能
print(f"<a>タグのテキスト：{soup_a.string}")  #<a>タグのテキストを表示

print(f"<div>タグの中の<div>タグのテキスト：{soup_div_div.string}")  #<div>タグの中の<div>タグのテキストを表示

<a>タグのテキスト：
					このページの本文へ移動
				
<div>タグの中の<div>タグのテキスト：None
