## 武蔵野大学Webサイトのトップページにアクセス
## 同一ドメインの全てのリンク（コメントアウトされていないもの）を辿り，全ペ-ジのURLと<title>を辞書型変数に格納する
## key：URL
## value：<title></title>で挟まれた文字列
## 辞書型変数を print() で表示する
https://www.musashino-u.ac.jp/

In [None]:
import requests
from bs4 import BeautifulSoup, Comment
from urllib.parse import urljoin, urlparse
import time

base_url = "https://www.musashino-u.ac.jp/"
visited = set()
pages = {}

def crawl(url):
    if url in visited:
        return
    visited.add(url)

    # 負荷を軽減
    time.sleep(0.5)

    try:
        res = requests.get(url, timeout=10)
        res.encoding = res.apparent_encoding
    except Exception as e:
        print("アクセス失敗:", url)
        return

    soup = BeautifulSoup(res.text, "html.parser")

    # タイトル取得
    title = soup.title.string.strip() if (soup.title and soup.title.string) else "No Title"
    pages[url] = title
    print(len(visited), ":", url, "→", title)

    # 同一ドメインのリンクを辿る
    domain = urlparse(base_url).netloc
    for a in soup.find_all("a", href=True):
        if any(isinstance(p, Comment) for p in a.parents):
            continue

        href = a.get("href")
        if not href:
            continue

        next_url = urljoin(url, href)
        parsed = urlparse(next_url)

        # 同一ドメインのみでPDFなどは除外
        if parsed.netloc == domain:
            if "#" in next_url or next_url.endswith((".pdf", ".jpg", ".png", ".zip")):
                continue
            crawl(next_url)

crawl(base_url)

print("\n--- サイトマップ結果 ---")
for u, t in pages.items():
    print(u, ":", t)
print("\n取得ページ数:", len(pages))



1 : https://www.musashino-u.ac.jp/ → 武蔵野大学
2 : https://www.musashino-u.ac.jp/access.html → 交通アクセス | 武蔵野大学
3 : https://www.musashino-u.ac.jp/admission/request.html → 資料請求 | 入試情報 | 武蔵野大学
4 : https://www.musashino-u.ac.jp/contact.html → お問い合わせ | 武蔵野大学
5 : https://www.musashino-u.ac.jp/prospective-students.html → 武蔵野大学で学びたい方 | 武蔵野大学
6 : https://www.musashino-u.ac.jp/students.html → 在学生の方 | 武蔵野大学
7 : https://www.musashino-u.ac.jp/alumni.html → 卒業生の方 | 武蔵野大学
8 : https://www.musashino-u.ac.jp/parents.html → 保護者の方 | 武蔵野大学
9 : https://www.musashino-u.ac.jp/business.html → 企業・研究者の方 | 武蔵野大学
10 : https://www.musashino-u.ac.jp/guide/ → 大学案内 | 武蔵野大学
11 : https://www.musashino-u.ac.jp/guide/profile/ → 大学紹介 | 大学案内 | 武蔵野大学
12 : https://www.musashino-u.ac.jp/guide/activities/ → 大学の取り組み | 大学案内 | 武蔵野大学
13 : https://www.musashino-u.ac.jp/guide/campus/ → キャンパス | 大学案内 | 武蔵野大学
14 : https://www.musashino-u.ac.jp/guide/facility/ → 附置機関・センター・附属施設 | 大学案内 | 武蔵野大学
15 : https://www.musashino-u.ac.jp/guide/informatio