##個人課題##
2522091 平 偉倫
武蔵野大学のWebサイトのサイトマップを抽出する
武蔵野大学Webサイトのトップページにアクセス
同一ドメインの全てのリンク（コメントアウトされていないもの）を辿り，全ページのURLと<title>を辞書型変数に格納する
key：URL
value：<title></title>で挟まれた文字列
辞書型変数を print() で表示する

Webサイトにアクセスする際は必ず time.sleep(秒数) を使って負荷軽減をすること
課題用のipynb形式のファイルを作成し，githubフローでファイルの変更履歴を管理すること


In [2]:
# 仮想環境の作成とライブラリのインストール
!python -m venv .venv
!source .venv/bin/activate  # Windowsの場合: .venv\Scripts\activate
!pip install requests beautifulsoup4 lxml



In [3]:
# ===========================
# 1-1. ライブラリ読み込みと共通設定
# ===========================
import time
import requests
from bs4 import BeautifulSoup

# 授業で学んだ通り、403回避のために User-Agent を付与する
HEADERS = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) "
                  "AppleWebKit/537.36 (KHTML, like Gecko) "
                  "Chrome/120.0.0.0 Safari/537.36"
}

# 入口（トップページ）
BASE_URL = "https://www.musashino-u.ac.jp/"

In [4]:
# ===========================
# 1-2. リクエスト送信と基本情報表示
# ===========================
# サーバー負荷を下げるため、アクセス前に少し待つ（授業どおり）
time.sleep(1)

# Web サーバへ GET リクエストを送信（ヘッダー付き）
res = requests.get(BASE_URL, headers=HEADERS)

# 文字化けを防ぐため、推定エンコーディングを設定（授業で実施）
res.encoding = res.apparent_encoding

# レスポンスの基本情報を表示（授業と同じ確認観点）
print(f"レスポンス : {res}")                       # <Response [200]> など
print(f"レスポンスの型 : {type(res)}")             # <class 'requests.models.Response'>
print(f"ステータスコード : {res.status_code}")     # 200 なら OK
print(f"リクエストURL : {res.request.url}")        # 実際にアクセスしたURL
print(f"リクエストメソッド : {res.request.method}") # GET

レスポンス : <Response [200]>
レスポンスの型 : <class 'requests.models.Response'>
ステータスコード : 200
リクエストURL : https://www.musashino-u.ac.jp/
リクエストメソッド : GET


In [5]:
# ===========================
# 1-3. ヘッダ確認と本文の一部表示（安全のため先頭500文字だけ）
# ===========================
print("レスポンスヘッダー :", res.headers)

# HTML テキストの先頭だけをプレビュー（全部出すと長い）
print(res.text[:500])

レスポンスヘッダー : {'Content-Type': 'text/html', 'Content-Length': '19065', 'Connection': 'keep-alive', 'Date': 'Fri, 07 Nov 2025 06:50:54 GMT', 'Server': 'Apache', 'Last-Modified': 'Fri, 07 Nov 2025 05:23:01 GMT', 'Accept-Ranges': 'none', 'Vary': 'Accept-Encoding', 'Content-Encoding': 'gzip', 'X-Frame-Options': 'SAMEORIGIN', 'X-XSS-Protection': '1; mode=block', 'X-Content-Type-Options': 'nosniff', 'X-Cache': 'Miss from cloudfront', 'Via': '1.1 36a932233ac4aba7e60c5ddfe61b77c4.cloudfront.net (CloudFront)', 'X-Amz-Cf-Pop': 'NRT57-P6', 'Alt-Svc': 'h3=":443"; ma=86400', 'X-Amz-Cf-Id': 'xWq0oWq8R2_CuZyQfnAcM2Uplx6r82WCcosoJwQhkcHIbcEp2x46Eg=='}
<!doctype html>
<html lang="ja">
	<head>

		<meta charset="utf-8">
		<meta http-equiv="X-UA-Compatible" content="IE=edge">
		<meta name="viewport" id="viewport" content="width=device-width, initial-scale=1.0, user-scalable=yes">
		<meta name="format-detection" content="telephone=no">
		<meta name="theme-color" content="#541B86">

		<title>武蔵野大学</title>

		

In [6]:
# ===========================
# 1-3. ヘッダ確認と本文の一部表示（安全のため先頭500文字だけ）
# ===========================
print("レスポンスヘッダー :", res.headers)

# HTML テキストの先頭だけをプレビュー（全部出すと長い）
print(res.text[:500])

レスポンスヘッダー : {'Content-Type': 'text/html', 'Content-Length': '19065', 'Connection': 'keep-alive', 'Date': 'Fri, 07 Nov 2025 06:50:54 GMT', 'Server': 'Apache', 'Last-Modified': 'Fri, 07 Nov 2025 05:23:01 GMT', 'Accept-Ranges': 'none', 'Vary': 'Accept-Encoding', 'Content-Encoding': 'gzip', 'X-Frame-Options': 'SAMEORIGIN', 'X-XSS-Protection': '1; mode=block', 'X-Content-Type-Options': 'nosniff', 'X-Cache': 'Miss from cloudfront', 'Via': '1.1 36a932233ac4aba7e60c5ddfe61b77c4.cloudfront.net (CloudFront)', 'X-Amz-Cf-Pop': 'NRT57-P6', 'Alt-Svc': 'h3=":443"; ma=86400', 'X-Amz-Cf-Id': 'xWq0oWq8R2_CuZyQfnAcM2Uplx6r82WCcosoJwQhkcHIbcEp2x46Eg=='}
<!doctype html>
<html lang="ja">
	<head>

		<meta charset="utf-8">
		<meta http-equiv="X-UA-Compatible" content="IE=edge">
		<meta name="viewport" id="viewport" content="width=device-width, initial-scale=1.0, user-scalable=yes">
		<meta name="format-detection" content="telephone=no">
		<meta name="theme-color" content="#541B86">

		<title>武蔵野大学</title>

		

In [7]:
# ===========================
# 2-1. ユーティリティ関数
# ===========================
import re
from urllib.parse import urljoin, urlparse, urldefrag

SKIP_EXTS = (".pdf", ".png", ".jpg", ".jpeg", ".gif", ".svg", ".zip", ".mp4", ".mp3", ".xlsx", ".docx", ".pptx")

# 同一ドメインの基準（授業の課題どおり 武蔵野大学の同一ドメイン）
TARGET_NETLOC = urlparse(BASE_URL).netloc  # "www.musashino-u.ac.jp"

def normalize_url(base, href):
    """# 絶対URL化 + フラグメント除去 + 細かな正規化"""
    if not href:
        return None
    href = href.strip()
    # javascript:, mailto:, tel: を除外
    if href.startswith(("javascript:", "mailto:", "tel:")):
        return None
    # 絶対URL化
    abs_url = urljoin(base, href)
    # フラグメント(#...)を除去
    abs_url, _ = urldefrag(abs_url)
    # 末尾の無意味なスラッシュ正規化（/ と /index.html を統一したい場合は追加で調整可）
    return abs_url

def is_same_domain(url):
    """# 同一ドメイン判定"""
    try:
        return urlparse(url).netloc.endswith(TARGET_NETLOC)
    except Exception:
        return False

def is_skippable(url):
    """# バイナリ/大きいファイル拡張子などをスキップ"""
    lower = url.lower()
    return lower.endswith(SKIP_EXTS)

In [8]:
# ===========================
# 2-2. 站内クロール（BFS）＋ <title> 収集
# ===========================
from collections import deque

# クロール設定
MAX_PAGES = 300   # 安全のため上限（必要に応じて調整）
DELAY_SEC = 1.0   # サーバー負荷軽減のための待機（授業どおり）

visited = set()
queue = deque([BASE_URL])
url_title_dict = {}   # 課題の成果： {URL: <title>文字列}

while queue and len(visited) < MAX_PAGES:
    url = queue.popleft()
    if url in visited:
        continue
    if not is_same_domain(url) or is_skippable(url):
        continue

    # アクセス前の待機（授業で実施）
    time.sleep(DELAY_SEC)

    try:
        res = requests.get(url, headers=HEADERS, timeout=15)
    except requests.RequestException as e:
        # ネットワークエラー等はスキップ
        # print(f"アクセス失敗: {url} ({e})")
        continue

    # HTML以外はスキップ（Content-Typeでざっくり判定）
    ctype = res.headers.get("Content-Type", "")
    if "text/html" not in ctype:
        continue

    # エンコーディング推定（授業どおり）
    res.encoding = res.apparent_encoding
    html = res.text
    soup = BeautifulSoup(html, "lxml")

    # <title> の抽出（なければ空文字）
    title_tag = soup.find("title")
    title_text = title_tag.get_text(strip=True) if title_tag else ""

    # 成果物の辞書に保存
    url_title_dict[url] = title_text
    visited.add(url)

    # aタグから次リンクを収集
    for a in soup.find_all("a", href=True):
        nxt = normalize_url(url, a["href"])
        if not nxt:
            continue
        if not is_same_domain(nxt):
            continue
        if is_skippable(nxt):
            continue
        if nxt not in visited:
            queue.append(nxt)

    # 進捗の軽い表示（任意）
    if len(visited) % 20 == 0:
        print(f"進捗: {len(visited)}ページ収集 … 例: {url} -> {title_text[:30]}")

進捗: 20ページ収集 … 例: https://www.musashino-u.ac.jp/admission/graduate_school/ -> 大学院 入試情報 | 入試情報 | 武蔵野大学
進捗: 40ページ収集 … 例: https://www.musashino-u.ac.jp/academics/teachers_license/ -> 教職課程・国家資格 | 学部・大学院 | 武蔵野大学
進捗: 60ページ収集 … 例: https://www.musashino-u.ac.jp/student-life/campus_life/ -> キャンパスライフ | 学生生活・就職 | 武蔵野大学
進捗: 80ページ収集 … 例: https://www.musashino-u.ac.jp/happiness_creators/no027.html -> コンポストでキャンパスと地域の資源循環を実現 | 武蔵野大学
進捗: 100ページ収集 … 例: https://www.musashino-u.ac.jp/accesibility-and-copyright.html -> このサイトについて | 武蔵野大学
進捗: 120ページ収集 … 例: https://www.musashino-u.ac.jp/admission/faculty/result.html -> 入試結果 | 入試情報 | 武蔵野大学
進捗: 140ページ収集 … 例: https://www.musashino-u.ac.jp/student-life/career/qualification/qualification.html -> 目指せる資格・免許一覧 | 学生生活・就職 | 武蔵野大学
進捗: 160ページ収集 … 例: https://www.musashino-u.ac.jp/media.html -> 取材・ロケ撮影をお考えの方 | 武蔵野大学
進捗: 180ページ収集 … 例: https://www.musashino-u.ac.jp/guide/facility/physical_education_center.html -> 学院体育センター | 大学案内 | 武蔵野大学
進捗: 200ページ収集 … 例: https://www.musashino

In [None]:
# ===========================
# 2-3. 結果の確認と保存（任意）
# ===========================
print(f"収集URL数: {len(url_title_dict)}")

# 課題要件: 辞書型変数を print() で表示
# （件数が多い場合は一部サンプルも併せて表示）
sample_n = 10
i = 0
for k, v in url_title_dict.items():
    print({k: v})
    i += 1
    if i >= sample_n:
        break

# ---- もし提出用にファイル保存したい場合（任意） ----
# JSON 保存
# import json
# with open("sitemap_musashino.json", "w", encoding="utf-8") as f:
#     json.dump(url_title_dict, f, ensure_ascii=False, indent=2)

# CSV 保存
# import csv
# with open("sitemap_musashino.csv", "w", encoding="utf-8", newline="") as f:
#     w = csv.writer(f)
#     w.writerow(["URL", "TITLE"])
#     for url, title in url_title_dict.items():
#         w.writerow([url, title])