# 最終課題

### 課題のGithubリポジトリURLを提出してください
### 武蔵野大学Webサイトのトップページにアクセス
### 同一ドメインの全てのリンク（コメントアウトされていないもの）を辿り，全ページのURLと<title>を辞書型変数に格納する



### key：URL
### value：<title></title>で挟まれた文字列


### 辞書型変数を print() で表示する

In [25]:
# Webスクレイピングに最低限必要なライブラリをインポート
from urllib import response
import requests
from bs4 import BeautifulSoup
import time
from urllib.parse import urljoin, urlparse


In [32]:
# 初期設定
URL = "https://www.musashino-u.ac.jp/" # アクセスするURL
sleep_time = 1 # クローリングの際の負荷を削減するための待ち時間
DOMAIN = urlparse(URL).netloc # 対象とするドメイン
UNTARGET_URL = (
    '.pdf', '.png', '.jpg', '.jpeg', '.gif', '.zip', 
    '.doc', '.docx', '.xls', '.xlsx', '.ppt', '.pptx', 
    '.mp4', '.mp3', '.css', '.js', '.ico','.webp'
) # 今回の課題で対象外とする拡張子
unvisit = [URL] # 訪問予定のURLを格納するリスト
visited = set() # 訪問済みのURLを格納するセット
sitemap = {} # 出力結果を格納する辞書
count = 0 # 訪問したページ数のカウンタ


while unvisit:
    current = unvisit.pop(0) # 訪問予定のURLを取得

    if current in visited: # すでに訪問済みかをチェック
        continue

    visited.add(current) # 訪問済みリストに追加

    try:
        time.sleep(1) # 負荷削減のための待ち時間
        
        res = requests.get(current) # URLにアクセス
        res.encoding = res.apparent_encoding # レスポンスのエンコーディングを設定
        soup = BeautifulSoup(res.text, "html.parser") # HTMLのソースコードを解析

        tag = soup.find("title") # tittleタグを抽出
        title = tag.string.strip() if tag and tag.string else "（タイトルなし）" # タイトルを取得
        sitemap[current] = title # サイトマップに追加
        count += 1 # countを1増やす

        print(f"{count}.{title}\n  -- {current}")

        for link in soup.find_all('a', href=True): # linkの中にあるaタグをすべて抽出
            href = link.get('href') # href属性を取得

            absolute_url = urljoin(current, href) # URLに変換

            parsed_url = urlparse(absolute_url) # URLを解析
            clean_url = parsed_url._replace(query="", fragment="").geturl() # 正規化

            if clean_url.lower().endswith(UNTARGET_URL): # 今回の課題で不必要なものを省く
                continue 

            if clean_url not in visited and clean_url not in unvisit: # 訪問済み・訪問予定リストにない場合
                if parsed_url.netloc == DOMAIN and clean_url not in visited and clean_url not in unvisit: # 同一ドメインの場合
                    unvisit.append(clean_url) # 訪問予定リストに追加

    except Exception as e: # エラーをキャッチ
        print("エラー内容 -- {e}") # エラー内容を表示

print("\nクロール完了")

# サイトマップを表示
print("\nサイトマップ")
for url, title in sitemap.items():
    print(f"{title}: {url}")

print(f"合計ページ数: {len(sitemap)}")

1.武蔵野大学
  -- https://www.musashino-u.ac.jp/
2.交通アクセス | 武蔵野大学
  -- https://www.musashino-u.ac.jp/access.html
3.資料請求 | 入試情報 | 武蔵野大学
  -- https://www.musashino-u.ac.jp/admission/request.html
4.お問い合わせ | 武蔵野大学
  -- https://www.musashino-u.ac.jp/contact.html
5.武蔵野大学で学びたい方 | 武蔵野大学
  -- https://www.musashino-u.ac.jp/prospective-students.html
6.在学生の方 | 武蔵野大学
  -- https://www.musashino-u.ac.jp/students.html
7.卒業生の方 | 武蔵野大学
  -- https://www.musashino-u.ac.jp/alumni.html
8.保護者の方 | 武蔵野大学
  -- https://www.musashino-u.ac.jp/parents.html
9.企業・研究者の方 | 武蔵野大学
  -- https://www.musashino-u.ac.jp/business.html
10.大学案内 | 武蔵野大学
  -- https://www.musashino-u.ac.jp/guide/
11.大学紹介 | 大学案内 | 武蔵野大学
  -- https://www.musashino-u.ac.jp/guide/profile/
12.大学の取り組み | 大学案内 | 武蔵野大学
  -- https://www.musashino-u.ac.jp/guide/activities/
13.キャンパス | 大学案内 | 武蔵野大学
  -- https://www.musashino-u.ac.jp/guide/campus/
14.附置機関・センター・附属施設 | 大学案内 | 武蔵野大学
  -- https://www.musashino-u.ac.jp/guide/facility/
15.情報公開 | 大学案内 | 武蔵野大学
  -- https://w