# 最終課題

### 課題のGithubリポジトリURLを提出してください
### 武蔵野大学Webサイトのトップページにアクセス
### 同一ドメインの全てのリンク（コメントアウトされていないもの）を辿り，全ページのURLと<title>を辞書型変数に格納する



### key：URL
### value：<title></title>で挟まれた文字列


### 辞書型変数を print() で表示する

In [1]:
# Webスクレイピングに最低限必要なライブラリをインポート
from urllib import response
import requests
from bs4 import BeautifulSoup
import time
from urllib.parse import urljoin, urlparse


In [None]:
# 初期設定
URL = "https://www.musashino-u.ac.jp/" # アクセスするURL
time.sleep = 1 # クローリングの際の負荷を削減するための待ち時間
DOMAIN = urlparse(URL).netloc # 対象とするドメイン
UNTARGET_URL = (
    '.pdf', '.png', '.jpg', '.jpeg', '.gif', '.zip', 
    '.doc', '.docx', '.xls', '.xlsx', '.ppt', '.pptx', 
    '.mp4', '.mp3', '.css', '.js', '.ico','.webp'
) # 今回の課題で対象外とする拡張子

unvisit = [URL] # 訪問予定のURLを格納するリスト
visited = set() # 訪問済みのURLを格納するセット
sitemap = {} # 出力結果を格納する辞書

In [None]:
def crawl(start_url, sleep_time):
    
    print("クローリングスタート\n")

    while unvisit:
        current_url = unvisit.pop(0)

        if current_url in visited: # すでに訪問済みかをチェック
            continue

        print(f"訪問中: {current_url}")
        

        time.sleeping(time.sleep) # 負荷削減のための待ち時間


        try:
            res = requests.get(current_url) # ぺージにアクセス
            res.encoding = res.apparent_encoding

        except Exception as e:
            print(f"  -> エラーが発生しました: {e}") # エラーが発生した場合はスキップ
            continue
        visited.add(current_url) # 訪問済みリストに追加
        
        # ページ取得できた場合の処理
        response.encoding = 'utf-8'
        soup = BeautifulSoup(res.content, 'html.parser')

        # タイトルを取得し、辞書に格納
        title_tag = soup.find('title')
        page_title = title_tag.text.strip() if title_tag else "タイトルなし"
        sitemap[current_url] = page_title
        
        print(f"tittle: {page_title}")

        # リンクページ内全てのリンクを辿る
        for link in soup.find_all('a', href=True):
            href = link.get('href')
            absolute_url = urljoin(current_url, href)
            
            parsed_url = urlparse(absolute_url)
            cleaned_url = parsed_url.scheme + "://" + parsed_url.netloc + parsed_url.path # URLを正規化して作成

        # リンク先のドメインをチェック
            link_domain = urlparse(cleaned_url).netloc
            
        # 同一ドメインで未訪問のURLの場合はリストに追加
        if parsed_url.netloc == DOMAIN and cleaned_url not in visited and cleaned_url not in unvisit:
                if not any(cleaned_url.endswith(ext) for ext in UNTARGET_URL):
                    unvisit.append(cleaned_url)
                
                return sitemap


# 実行
sitemap = crawl(URL, time.sleep)

print("サイトマップ抽出結果:\n")
print(sitemap)
print(f"合計抽出ページ数: {len(sitemap)}")