In [None]:
import requests
from bs4 import BeautifulSoup
import time

# 武蔵野大学のトップページURL
base_url = 'https://www.musashino-u.ac.jp/'
domain = 'musashino-u.ac.jp'

# 訪問済みURLと未訪問URLの管理
visited_urls = set()
urls_to_visit = [base_url]

# URL:タイトルの辞書
url_title_dict = {}

# カウンター初期化
visited_count = 0
total_found = 1  # 最初のURLを含む

# サイトマップ抽出
while urls_to_visit:

    # 次に訪問するURLを取得
    current_url = urls_to_visit.pop(0)
    
    # すでに訪問済みならスキップ
    if current_url in visited_urls:
        continue
    
    # 訪問済みに追加
    visited_urls.add(current_url)
    visited_count += 1
    
    print(f"訪問中 [{visited_count}/{total_found}]: {current_url}")
    
    # サーバー負荷軽減のため待機
    time.sleep(0.25)
    
    try:
        # ページを取得
        response = requests.get(current_url, timeout=10)
        response.encoding = response.apparent_encoding
        # 成功した場合のみ処理
        if response.status_code == 200:
            # HTMLをパース
            soup = BeautifulSoup(response.text, 'html.parser')
            
            # タイトルを抽出
            title_tag = soup.find('title')
            title = title_tag.text if title_tag else "タイトルなし"
            
            # 辞書に追加
            url_title_dict[current_url] = title
            
            # すべてのリンクを取得
            links = soup.find_all('a', href=True)
            
            for link in links:
                href = link['href']
                
                # 相対URLを絶対URLに変換
                if href.startswith('/'):
                    href = base_url + href.lstrip('/')
                elif not (href.startswith('http://') or href.startswith('https://')):
                    href = base_url + href
                
                # 同一ドメインのURLのみを追加
                if domain in href and href not in visited_urls and href not in urls_to_visit:
                    # PDFや画像などのファイルは除外
                    if not href.endswith(('.pdf', '.jpg', '.jpeg', '.png', '.gif', '.zip')):
                        urls_to_visit.append(href)
                        total_found += 1
    
    except Exception as e:
        print(f"エラー: {current_url} - {e}")

訪問中 [1/1]: https://www.musashino-u.ac.jp/
訪問中 [2/109]: https://www.musashino-u.ac.jp/#main
訪問中 [3/109]: https://ef.musashino-u.ac.jp/donation/
訪問中 [4/138]: https://www.musashino-u.ac.jp/access.html
訪問中 [5/146]: https://www.musashino-u.ac.jp/admission/request.html
訪問中 [6/183]: https://www.musashino-u.ac.jp/contact.html
訪問中 [7/212]: https://www.musashino-u.ac.jp/prospective-students.html
訪問中 [8/229]: https://www.musashino-u.ac.jp/students.html
訪問中 [9/237]: https://www.musashino-u.ac.jp/alumni.html
訪問中 [10/239]: https://www.musashino-u.ac.jp/parents.html
訪問中 [11/241]: https://www.musashino-u.ac.jp/business.html
訪問中 [12/243]: https://www.musashino-u.ac.jp/guide/
訪問中 [13/270]: https://www.musashino-u.ac.jp/guide/profile/
訪問中 [14/295]: https://www.musashino-u.ac.jp/guide/activities/
訪問中 [15/297]: https://www.musashino-u.ac.jp/guide/campus/
訪問中 [16/298]: https://www.musashino-u.ac.jp/guide/facility/
訪問中 [17/331]: https://www.musashino-u.ac.jp/guide/information/
訪問中 [18/381]: https://www.musas

In [9]:
print(f"\n合計 {visited_count} ページを訪問しました。")
print(f"収集したタイトル数: {len(url_title_dict)}")
print("\n最初の10件のURL-タイトル:")
for i, (url, title) in enumerate(url_title_dict.items()):
    if i >= 10:  # 最初の10件だけ表示
        break
    print(f"{url} - {title}")


合計 19994 ページを訪問しました。
収集したタイトル数: 14760

最初の10件のURL-タイトル:
https://www.musashino-u.ac.jp/ - 武蔵野大学
https://www.musashino-u.ac.jp/#main - 武蔵野大学
https://ef.musashino-u.ac.jp/donation/ - ご寄付のお願い | 学校法人武蔵野大学
https://www.musashino-u.ac.jp/access.html - 交通アクセス | 武蔵野大学
https://www.musashino-u.ac.jp/admission/request.html - 資料請求 | 入試情報 | 武蔵野大学
https://www.musashino-u.ac.jp/contact.html - お問い合わせ | 武蔵野大学
https://www.musashino-u.ac.jp/prospective-students.html - 武蔵野大学で学びたい方 | 武蔵野大学
https://www.musashino-u.ac.jp/students.html - 在学生の方 | 武蔵野大学
https://www.musashino-u.ac.jp/alumni.html - 卒業生の方 | 武蔵野大学
https://www.musashino-u.ac.jp/parents.html - 保護者の方 | 武蔵野大学
