In [15]:
# Webスクレイピングに最低限必要なライブラリをインポート
import requests
from bs4 import BeautifulSoup

# HTTPリクエスト
## 基本のリクエスト

In [16]:
# アクセスしたいWebサイトのURLを指定
url = 'https://www.musashino-u.ac.jp/'

# WebサーバーにHTTPリクエストを送信
# レスポンスを変数に格納しておく
res = requests.get(url)

In [21]:
res.encoding = res.apparent_encoding # レスポンスのエンコーディングを設定

print(f"レスポンス:{res}") # レスポンスオブジェクトを表示
print(f"レスポンスの型:{type(res)}") # レスポンスオブジェクトの型を表示
print(f"ステータスコード:{res.status_code}") # ステータスコードを表示
print(f"ステータスメッセージ:{res.reason}") # ステータスメッセージを表示

print(f"リクエスト:{res.request}") # リクエストオブジェクトを表示
print(f"リクエストの型:{type(res.request)}") # リクエストオブジェクトの型を表示
print(f"リクエストのヘッダー:{res.request.headers}") # リクエストのヘッダーを表示
print(f"リクエストメソッド:{res.request.method}") # リクエストメソッドを表示
print(f"リクエストURL:{res.request.url}") # リクエストURL

レスポンス:<Response [200]>
レスポンスの型:<class 'requests.models.Response'>
ステータスコード:200
ステータスメッセージ:OK
リクエスト:<PreparedRequest [GET]>
リクエストの型:<class 'requests.models.PreparedRequest'>
リクエストのヘッダー:{'User-Agent': 'python-requests/2.32.5', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}
リクエストメソッド:GET
リクエストURL:https://www.musashino-u.ac.jp/


In [20]:
# レスポンス
print(f"レスポンスヘッダー:{res.headers}") #レスポンスヘッダーを表示
print(f"レスポンスボディ:{res.text}") #レスポンスボディを表示

レスポンスヘッダー:{'Content-Type': 'text/html', 'Content-Length': '19018', 'Connection': 'keep-alive', 'Date': 'Wed, 29 Oct 2025 02:42:14 GMT', 'Server': 'Apache', 'Last-Modified': 'Wed, 29 Oct 2025 02:32:29 GMT', 'Accept-Ranges': 'none', 'Vary': 'Accept-Encoding', 'Content-Encoding': 'gzip', 'X-Frame-Options': 'SAMEORIGIN', 'X-XSS-Protection': '1; mode=block', 'X-Content-Type-Options': 'nosniff', 'X-Cache': 'Miss from cloudfront', 'Via': '1.1 a2bbba9dadca892f0e41c148c2e5de6c.cloudfront.net (CloudFront)', 'X-Amz-Cf-Pop': 'NRT57-P6', 'Alt-Svc': 'h3=":443"; ma=86400', 'X-Amz-Cf-Id': 'YEqGRT1WSq9I7YiTi3PoeF7FoD2wbSylnS1iB3sDwS6Qn_eMb0bxmA=='}
レスポンスボディ:<!doctype html>
<html lang="ja">
	<head>

		<meta charset="utf-8">
		<meta http-equiv="X-UA-Compatible" content="IE=edge">
		<meta name="viewport" id="viewport" content="width=device-width, initial-scale=1.0, user-scalable=yes">
		<meta name="format-detection" content="telephone=no">
		<meta name="theme-color" content="#541B86">

		<title>武蔵野大学</tit

In [12]:
# 悪用厳禁
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}

In [None]:
# 別のURLにアクセスしてみる
# url ='https://ja.wikipedia.org/wiki/%E6%AD%A6%E8%94%B5%E9%87%8E%E5%A4%A7%E5%AD%A6'
url ='https://ja.wikipedia.org/wiki/武蔵野大学'
res = requests.get(url, headers=headers)
print(f"ステータスコード:{res.status_code}") # ステータスコードを表示
print(f"レスポンスボディ:{res.text}") # レスポンスボディを表示

## パラメータ付きのリクエスト

In [None]:
# パラメータとはURLの?以降の部分のこと
# url = "https://www.musashino-u.ac.jp/search.html?query=データサイエンス"
url = "https://www.musashino-u.ac.jp/search.html"
# パラメータの変数を辞書型にして用意
params = {
    'query': 'データサイエンス'
}
res = requests.get(url, headers=headers, params=params)
res.encoding = res.apparent_encoding # レスポンスのエンコーディングを設定
print(f"ステータスコード:{res.status_code}") # ステータスコードを表示
print(f"レスポンスボディ:{res.text}") # レスポンスボディを表示

# BeautifulSoupでHTMLソースから任意の情報を取得する

In [24]:
url = "https://www.musashino-u.ac.jp/"
res = requests.get(url, headers=headers)
res.encoding = res.apparent_encoding # レスポンスのエンコーディングを設定
print(f"ステータスコード:{res.status_code}") # ステータスコードを表示

ステータスコード:200


In [25]:
# HTMLのソースコードを解析
soup = BeautifulSoup(res.text, 'html.parser')
print(f"soupの型:{type(soup)}") # soupオブジェクトの型を表示

soupの型:<class 'bs4.BeautifulSoup'>


In [None]:
# ソースコード全体から<a>タグを抽出
soup_a = soup.a
print(f"<a>タグ:{soup_a}") # <a>タグを表示
print(f"<a>タグの型:{type(soup_a)}") # <a>タグオブジェクトの型を表示

# ソースコード全体から<p>タグを抽出
soup_p = soup.p
print(f"<p>タグ:{soup_p}") # <p>タグを表示
print(f"<p>タグの型:{type(soup_p)}") # <p>タグオブジェクトの型を表示

<a>タグ:<a href="#main">
					このページの本文へ移動
				</a>
<a>タグの型:<class 'bs4.element.Tag'>
<p>タグ:<p>
										重要なお知らせ
									</p>
<p>タグの型:<class 'bs4.element.Tag'>


In [None]:
# ソースコード全体から<div>タグを抽出
soup_div = soup.div
# print(f"<div>タグ:{soup_div}") # <div>タグを表示
# print(f"<div>タグの型:{type(soup_div)}") # <div>タグオブジェクトの型を表示

# BeautifulSoupオブジェクトとTagオブジェクトは、","でHTMLタグを連結することでより深いタグにアクセスすることができる
soup_div_div = soup_div.div
print(f"<div>タグの中の<div>タグ:{soup_div_div}") # 最初に見つかった<div>タグを表示
print(f"<div>タグの中の<div>タグの型:{type(soup_div_div)}") # <div>タグオブジェクトの型を表示

<div>タグの中の<div>タグ:<div class="c-skip">
<a href="#main">
					このページの本文へ移動
				</a>
</div>
<div>タグの中の<div>タグの型:<class 'bs4.element.Tag'>


In [None]:
# Tagオブジェクト.stringでタグ内のテキストを取得できる
print(f"<a>タグのテキスト:{soup_a.string}") # <a>タグ内のテキストだけを表示

# コンテンツがない場合はNoneが返される
print(f"<div>タグの中の<div>タグのテキスト:{soup_div_div.string}") # <div>タグ内のテキストだけを表示

<a>タグのテキスト:
					このページの本文へ移動
				
<div>タグの中の<div>タグのテキスト:None
