In [5]:
# HTTPリクエストの基本
import requests
from bs4 import BeautifulSoup

In [6]:


# アクセスしたいWebサイトのURLを指定
url = "https://www.musashino-u.ac.jp/"

# HTTPリクエストを送信
res = requests.get(url)

# 自動で文字コードを検出して設定（日本語の文字化け防止）
res.encoding = res.apparent_encoding

# レスポンスの基本情報を表示
print(f"レスポンス: {res}")
print(f"レスポンスの型: {type(res)}")
print(f"ステータスコード: {res.status_code}")
print(f"ステータスメッセージ: {res.reason}")
print(f"リクエストメソッド: {res.request.method}")
print(f"リクエストURL: {res.request.url}")
print(f"レスポンスヘッダー: {res.headers}")

# HTML本文の最初の500文字を表示
print(res.text[:500])

# BeautifulSoupを使ってHTMLを解析
soup = BeautifulSoup(res.text, "html.parser")
print("ページタイトル：", soup.title.text if soup.title else "（タイトルなし）")

レスポンス: <Response [200]>
レスポンスの型: <class 'requests.models.Response'>
ステータスコード: 200
ステータスメッセージ: OK
リクエストメソッド: GET
リクエストURL: https://www.musashino-u.ac.jp/
レスポンスヘッダー: {'Content-Type': 'text/html', 'Content-Length': '19274', 'Connection': 'keep-alive', 'Date': 'Wed, 05 Nov 2025 00:53:27 GMT', 'Server': 'Apache', 'Last-Modified': 'Wed, 05 Nov 2025 00:01:18 GMT', 'Accept-Ranges': 'none', 'Vary': 'Accept-Encoding', 'Content-Encoding': 'gzip', 'X-Frame-Options': 'SAMEORIGIN', 'X-XSS-Protection': '1; mode=block', 'X-Content-Type-Options': 'nosniff', 'X-Cache': 'Miss from cloudfront', 'Via': '1.1 7597a0a078cdd0bc0e9771892de74d14.cloudfront.net (CloudFront)', 'X-Amz-Cf-Pop': 'NRT57-P6', 'Alt-Svc': 'h3=":443"; ma=86400', 'X-Amz-Cf-Id': 'blua65R5iZ1oWQeXIMr7LIP5i3WhwIzqADTen1qC-9wwkgsgcXglFA=='}
<!doctype html>
<html lang="ja">
	<head>

		<meta charset="utf-8">
		<meta http-equiv="X-UA-Compatible" content="IE=edge">
		<meta name="viewport" id="viewport" content="width=device-width, initial-scale=1.

In [7]:
# 別のURLにアクセスしてみる（Wikipediaの例）
import requests

# Wikipediaの「人工知能」ページ
url = "https://ja.wikipedia.org/wiki/%E4%BA%BA%E5%B7%A5%E7%9F%A5%E8%83%BD"

# WebサーバーにHTTPリクエストを送信
res = requests.get(url)

# ステータスコードを表示（200ならOK、403ならアクセス拒否）
print(f"ステータスコード: {res.status_code}")

# レスポンスボディ（レスポンスの中身）を表示
print(f"レスポンスボディ: {res.text}")

ステータスコード: 403
レスポンスボディ: Please set a user-agent and respect our robot policy https://w.wiki/4wJS. See also T400119.



In [8]:
url = "https://www.musashino-u.ac.jp/serch.html?q=データサイエンス"

In [9]:
# BeautifulSoupでHTMLソースから任意の情報を取得する
# （Webページの構造を解析する）

import requests
from bs4 import BeautifulSoup

# アクセスしたいURL
url = "https://www.musashino-u.ac.jp/"

# ブラウザ情報（User-Agent）を指定することでアクセス拒否を防ぐ
headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) "
                  "AppleWebKit/537.36 (KHTML, like Gecko) "
                  "Chrome/121.0.0 Safari/537.36"
}

# サーバーにリクエストを送信
res = requests.get(url, headers=headers)

# レスポンスのエンコーディングを自動で検出して設定
res.encoding = res.apparent_encoding

# ステータスコードを表示（200ならOK）
print(f"ステータスコード: {res.status_code}")

# -------------------------
# HTMLのソースコードを解析する
# -------------------------
soup = BeautifulSoup(res.text, "html.parser")

# 整形したHTMLソースコードを表示
print(soup.prettify())

ステータスコード: 200
<!DOCTYPE html>
<html lang="ja">
 <head>
  <meta charset="utf-8"/>
  <meta content="IE=edge" http-equiv="X-UA-Compatible"/>
  <meta content="width=device-width, initial-scale=1.0, user-scalable=yes" id="viewport" name="viewport"/>
  <meta content="telephone=no" name="format-detection"/>
  <meta content="#541B86" name="theme-color"/>
  <title>
   武蔵野大学
  </title>
  <meta content="武蔵野大学の公式サイトです。武蔵野大学は、世界の幸せをカタチにするために、学生、教職員、本学に関わりのあるすべての人々が感性、知恵、響創力を高め合うことを推進します。" name="description"/>
  <meta content="武蔵野大学,Musashino University,総合大学,学部,大学院,有明キャンパス,武蔵野キャンパス" name="keywords"/>
  <!-- j-server -->
  <meta content="no-referrer-when-downgrade" name="referrer"/>
  <!-- og -->
  <meta content="ja-JP" property="og:locale:alternate"/>
  <meta content="website" property="og:type"/>
  <meta content="武蔵野大学" property="og:site_name"/>
  <meta content="武蔵野大学" property="og:title"/>
  <meta content="武蔵野大学の公式サイトです。武蔵野大学は、世界の幸せをカタチにするために、学生、教職員、本学に関わりのあるすべての人々が感性、知恵、響創力を高め合うことを推進します。" propert

In [10]:


url = "https://www.musashino-u.ac.jp/"
headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) "
                  "AppleWebKit/537.36 (KHTML, like Gecko) "
                  "Chrome/121.0.0 Safari/537.36"
}
res = requests.get(url, headers=headers)
res.encoding = res.apparent_encoding
soup = BeautifulSoup(res.text, "html.parser")

# ----------------------------------------------------
# BeautifulSoupオブジェクト（HTML全体）からdivタグを探す
# 最初に見つかった<div>タグを取得
# ----------------------------------------------------
soup_div_div = soup.div

# <div>タグをそのまま表示
print(f"<div>タグの中の<div>タグ: {soup_div_div}")

# <div>タグの型（クラス）を確認
print(f"<div>タグの中の<div>タグの型: {type(soup_div_div)}")

# ----------------------------------------------------
# Tagオブジェクト.stringでタグ内のテキストを取得する
# ----------------------------------------------------
print(f"<div>タグの中の<div>タグのテキスト: {soup_div_div.string}")

<div>タグの中の<div>タグ: <div class="l-wrapper" data-id="top">
<!-- c-skip -->
<div class="c-skip">
<a href="#main">
					このページの本文へ移動
				</a>
</div>
<!-- /c-skip -->
<!-- c-loading -->
<div class="c-loading js-loading">
<div class="c-loading__mask"></div>
<div aria-hidden="true" class="c-loading__label">
					LOADING
				</div>
<div class="c-loading__progress">
<div class="c-loading__bar">
<span></span>
</div>
<div class="c-loading__bar">
<span></span>
</div>
<div class="c-loading__bar">
<span></span>
</div>
</div>
</div>
<!-- /c-loading -->
<!-- l-header -->
<header class="l-header js-header">
<div class="l-header__logo">
<h1>
<a href="/" title="武蔵野大学">
<img alt="武蔵野大学" height="150" src="/assets/img/common/header_logo.png" width="200"/>
</a>
</h1>
</div>
<div class="l-header__menu">
<div class="c-menu js-menu">
<div class="c-menu__icon is-opan"></div>
<div class="c-menu__icon is-close"></div>
</div>
</div>
</header>
<!-- /l-header -->
<!-- l-nav -->
<nav class="l-nav js-nav">
<div class="l

In [12]:
h2_all = soup.find('h2')
print(f"<h2>タグ: {h2_all}")
print(f"<h2>タグの型: {type(h2_all)}")

<h2>タグ: <h2>
<span class="c-title__label">
										Topics
									</span>
<!--IF_TRANS_HIDE:en--><span aria-hidden="true" class="c-title__sub">
										トピックス
									</span><!--/IF_TRANS_HIDE:en-->
</h2>
<h2>タグの型: <class 'bs4.element.Tag'>


In [13]:
h2_all = soup.find_all('h2')
# print(f"<h2>タグのリスト: {h2_all}")  # 找到的所有 <h2> 标签
# print(f"型: {type(h2_all)}")           # 类型（通常是 list）

for h2 in h2_all:
    if h2.span is not None:
        print(f"{h2.span.string}")       # 输出 <h2> 标签中 <span> 的文字内容


										Topics
									
None

										Event
									

										News
									

										Admissions
									


In [15]:
h2_h3 = soup.find_all(['h2', 'h3'])
for tag in h2_h3:
    print(f"{tag}")

<h2>
<span class="c-title__label">
										Topics
									</span>
<!--IF_TRANS_HIDE:en--><span aria-hidden="true" class="c-title__sub">
										トピックス
									</span><!--/IF_TRANS_HIDE:en-->
</h2>
<h2>
<span class="c-title__label">
										Features of <br class="is-sp"/>Musashino University
									</span>
<!--IF_TRANS_HIDE:en--><span aria-hidden="true" class="c-title__sub">
										武蔵野大学の特長
									</span><!--/IF_TRANS_HIDE:en-->
</h2>
<h3 class="p-introduction__title js-fader is-fade">
<em>13</em>学部 <em>21</em>学科 の総合大学
								</h3>
<h3 class="p-numbers__title u-h3 js-fader is-fade">
											数字で見る武蔵野大学
										</h3>
<h3 class="p-seniors__title u-h3 js-fader is-fade">
										世界の課題解決に向き合う<br/>
										武蔵野大生
									</h3>
<h2 class="l-top__title js-fader is-fade">
								Musashino TIMES
							</h2>
<h2>
<span class="c-title__label">
										Event
									</span>
<!--IF_TRANS_HIDE:en--><span aria-hidden="true" class="c-title__sub">
										イベント
									</spa

In [16]:
tag_href_list = soup.find_all(attrs={'href': '/'}, limit=5)

for tag in tag_href_list:
    print(f"{tag}")  # href属性が'/'のタグを表示

<a href="/" title="武蔵野大学">
<img alt="武蔵野大学" height="150" src="/assets/img/common/header_logo.png" width="200"/>
</a>
<a href="/">
												日本語
											</a>


In [17]:
# id属性やclass属性はよく使われる属性でなので，専用の引数が用意されている．
# 例えば，id属性が'top'の要素を検索する場合は以下のようにする．

tag_id_list = soup.find_all(id='top')
for tag in tag_id_list:
    print(f"{tag}")  # id属性が'top'のタグを表示


tag_class_list = soup.find_all(class_='p-notices', limit=5)
for tag in tag_class_list:
    print(f"{tag}")  # class属性が'p-notices'のタグを表示

<div class="p-notices">
<div class="p-notices__column">
<div class="p-notices__col">
<p>
										重要なお知らせ
									</p>
</div>
<div class="p-notices__col">
<ul>
<li>
<time class="u-time" datetime="2025-10-29">
												2025年10月29日
											</time>
<span>
<a class="u-link" href="https://www.musashino-u.ac.jp/news/detail/20251029-7380.html">
												
													2026年度に通信教育部国際データサイエンス学部を開設します
												
												</a>
</span>
</li>
<li>
<time class="u-time" datetime="2025-07-01">
												2025年07月01日
											</time>
<span>
<a class="u-link" href="https://www.musashino-u.ac.jp/news/detail/20250701-6913.html">
												
													2026年度にウェルビーイング研究科を開設します
												
												</a>
</span>
</li>
<li>
<time class="u-time" datetime="2025-04-01">
												2025年04月01日
											</time>
<span>
<a href="https://www.musashino-u.ac.jp/guide/profile/message.html">                                            
												
													学長就任のご挨拶
												
											

In [18]:
import time

In [None]:
for i in range(5):
    time.sleep(1)
    print(f"待機中... {i+1}秒経過")

In [19]:
import time  # 時間制御用のモジュールを読み込む

# for文等で特定のWebサイトに連続でアクセスする場合は，
# サーバーに負荷をかけないように適切な間隔をあけることが大切．
for i in range(5):
    time.sleep(1)  # プログラムを1秒間停止
    print(f"アクセス回数：{i+1}")

アクセス回数：1
アクセス回数：2
アクセス回数：3
アクセス回数：4
アクセス回数：5


In [21]:
import requests
from bs4 import BeautifulSoup

url = "https://abehiroshi.la.coocan.jp/movie/eiga.htm"

res = requests.get(url)
res.encoding = res.apparent_encoding

soup = BeautifulSoup(res.text, "html.parser")

movie_list = soup.find_all("b")

for movie in movie_list:
    print(movie.get_text())