In [None]:
'''
安裝 tika

參考網頁
https://pypi.org/project/tika/
'''
!pip install tika

In [14]:
'''
東吳大學 政治學報
https://web-ch.scu.edu.tw/politics/file/11106

參考連結:
[1] python selenium 對瀏覽器標籤頁進行關閉和切換
https://www.itread01.com/content/1543567328.html
'''


'''
匯入套件
'''
# 操作 browser 的 API
from selenium import webdriver

# 處理逾時例外的工具
from selenium.common.exceptions import TimeoutException

# 面對動態網頁，等待某個元素出現的工具，通常與 exptected_conditions 搭配
from selenium.webdriver.support.ui import WebDriverWait

# 搭配 WebDriverWait 使用，對元素狀態的一種期待條件，若條件發生，則等待結束，往下一行執行
from selenium.webdriver.support import expected_conditions as EC

# 期待元素出現要透過什麼方式指定，通常與 EC、WebDriverWait 一起使用
from selenium.webdriver.common.by import By

# 強制等待 (執行期間休息一下)
from time import sleep

# 整理 json 使用的工具
import json

# 執行 command 的時候用的
import os

# 正規表達式
import re

# 使用 tika 的 parser
from tika import parser

'''
Selenium with Python 中文翻譯文檔
參考網頁：https://selenium-python-zh.readthedocs.io/en/latest/index.html
selenium 啓動 Chrome 的進階配置參數
參考網址：https://stackoverflow.max-everyday.com/2019/12/selenium-chrome-options/
Mouse Hover Action in Selenium
參考網址：https://www.toolsqa.com/selenium-webdriver/mouse-hover-action/
yt-dlp 下載影音的好工具
參考網址：https://github.com/yt-dlp/yt-dlp
'''

# 啟動瀏覽器工具的選項
my_options = webdriver.ChromeOptions()
# my_options.add_argument("--headless")                #不開啟實體瀏覽器背景執行
my_options.add_argument("--start-maximized")         #最大化視窗
my_options.add_argument("--incognito")               #開啟無痕模式
my_options.add_argument("--disable-popup-blocking") #禁用彈出攔截
my_options.add_argument("--disable-notifications")  #取消通知
my_options.add_argument("--lang=zh-TW")  #設定為正體中文

# 指定 chromedriver 檔案的路徑
driver_exec_path = './chromedriver.exe'

# 使用 Chrome 的 WebDriver
driver = webdriver.Chrome( 
    options = my_options, 
    executable_path = driver_exec_path
)

# 放置爬取的資料
listData = []

# 建立資料夾
folderPath = 'parsed_files'
if not os.path.exists(folderPath):
    os.makedirs(folderPath)

# 網址
url = 'https://web-ch.scu.edu.tw/politics/file/11106'

'''
函式
'''
# 走訪頁面
def visit():
    driver.get(url);
    
# 取得主要連結
def getMainData():
    try:
        # 等待主要連結出現
        WebDriverWait(driver, 10).until(
            EC.presence_of_element_located(
                (
                    By.CSS_SELECTOR, 
                    "div#rndbox_body table.table.table-striped.table-bordered tbody td a"
                )
            )
        )
        
        # 得到所有連結的數量
        count = len(driver.find_elements(By.CSS_SELECTOR, "div#rndbox_body table.table.table-striped.table-bordered tbody td a"))
        
        # 切換到新分頁(初始分頁代號為 0，新開的為 1，所以切換到 1，代表移到分頁去操作)
        for i in range(count):
            # 開啟新分頁
            driver.execute_script(f'window.open("{url}", "_blank");')
            
            # 等待一下
            sleep(7)
            
            # 切換到分頁
            driver.switch_to.window(driver.window_handles[1])
            
            # 等元素出現
            WebDriverWait(driver, 10).until(
                EC.presence_of_element_located(
                    (
                        By.CSS_SELECTOR, 
                        "div#rndbox_body table.table.table-striped.table-bordered tbody td a")
                )
            )
            
            # 取得 a 元素集合
            a_elms = driver.find_elements(By.CSS_SELECTOR, "div#rndbox_body table.table.table-striped.table-bordered tbody td a")
            
            # 按下超連結
            a_elms[i].click()
        
            # 等 pdf 資訊出現
            WebDriverWait(driver, 10).until(
                EC.presence_of_element_located(
                    (
                        By.CSS_SELECTOR,
                        "div#article ol li h2 a"
                    )
                )
            )
            
            # 輸出所有 pdf 資訊
            a_article_elms = driver.find_elements(By.CSS_SELECTOR, "div#article ol li h2 a")
            for a_article in a_article_elms:
                print(f"文章名稱: {a_article.get_attribute('innerText')}")
                print(f"PDF連結: {a_article.get_attribute('href')}")
                
                # 簡單資料清理
                title = re.sub(r"\?|’|:| |\s", "_", a_article.get_attribute('innerText'))
                
                # 讀取兩篇 pdf 的內文，並寫入檔案
                with open(f"{folderPath}/{title}.txt", "w", encoding="utf-8") as file:
                    parsed_pdf = parser.from_file( a_article.get_attribute('href') )
                    file.write( parsed_pdf['content'] )
            
            # 關閉當前分頁
            driver.close()
            
            # 切換到初始分頁
            driver.switch_to.window(driver.window_handles[0])
            
    except TimeoutException:
        print("等不到指定元素出現…")

        
# 關閉瀏覽器
def close():
    driver.quit()
        
'''
主程式
'''
if __name__ == '__main__':
    visit()
    getMainData()
    close()

2022-03-23 21:50:03,113 [MainThread  ] [INFO ]  Retrieving https://web-ch.scu.edu.tw/storage/app/uploads/public/61f/6a2/b7c/61f6a2b7c9868093333944.pdf to C:\Users\Owner\AppData\Local\Temp/storage-app-uploads-public-61f-6a2-b7c-61f6a2b7c9868093333944.pdf.


文章名稱: 選舉干預如何影響外交政策與民主運作？以1946-2000年美蘇的選舉干預為例
PDF連結: https://web-ch.scu.edu.tw/storage/app/uploads/public/61f/6a2/b7c/61f6a2b7c9868093333944.pdf


2022-03-23 21:50:06,237 [MainThread  ] [INFO ]  Retrieving https://web-ch.scu.edu.tw/storage/app/media/2122/39-2-0130final-check202201302330.pdf to C:\Users\Owner\AppData\Local\Temp/storage-app-media-2122-39-2-0130final-check202201302330.pdf.


文章名稱: 司法鎮壓：「揣摩上意」在台灣威權時期軍事審判中的影響
PDF連結: https://web-ch.scu.edu.tw/storage/app/media/2122/39-2-0130final-check202201302330.pdf


2022-03-23 21:50:08,074 [MainThread  ] [INFO ]  Retrieving https://web-ch.scu.edu.tw/storage/app/media/2122/39-20130202201302331.pdf to C:\Users\Owner\AppData\Local\Temp/storage-app-media-2122-39-20130202201302331.pdf.


文章名稱: The Republic of China’s Statehood and Taiwan’s Legal Status: With Advocating a Common Roof Framework
PDF連結: https://web-ch.scu.edu.tw/storage/app/media/2122/39-20130202201302331.pdf


2022-03-23 21:50:18,012 [MainThread  ] [INFO ]  Retrieving http://web-ch.scu.edu.tw/storage/app/media/2100/202112130934.pdf to C:\Users\Owner\AppData\Local\Temp/storage-app-media-2100-202112130934.pdf.


文章名稱: 臺灣白色恐怖時期政治案件終審結果之解析：以死刑判決與無罪判決為例
PDF連結: http://web-ch.scu.edu.tw/storage/app/media/2100/202112130934.pdf


2022-03-23 21:50:21,104 [MainThread  ] [INFO ]  Retrieving https://web-ch.scu.edu.tw/storage/app/media/2100/202112141621.pdf to C:\Users\Owner\AppData\Local\Temp/storage-app-media-2100-202112141621.pdf.


文章名稱: 公務人員的大學畢業學校圖像
PDF連結: https://web-ch.scu.edu.tw/storage/app/media/2100/202112141621.pdf


2022-03-23 21:50:24,280 [MainThread  ] [INFO ]  Retrieving https://web-ch.scu.edu.tw/storage/app/media/2100/202112130958.pdf to C:\Users\Owner\AppData\Local\Temp/storage-app-media-2100-202112130958.pdf.


文章名稱: 外資銀行在中國： 最大熵空間推論方法的應用
PDF連結: https://web-ch.scu.edu.tw/storage/app/media/2100/202112130958.pdf


2022-03-23 21:50:35,438 [MainThread  ] [INFO ]  Retrieving https://web-ch.scu.edu.tw/storage/app/media/2100/202109021446.pdf to C:\Users\Owner\AppData\Local\Temp/storage-app-media-2100-202109021446.pdf.


文章名稱: 選擇沈默還是發聲？ 影響公務員揭弊意願因素之實證研究
PDF連結: https://web-ch.scu.edu.tw/storage/app/media/2100/202109021446.pdf


2022-03-23 21:50:36,840 [MainThread  ] [INFO ]  Retrieving https://web-ch.scu.edu.tw/storage/app/media/2100/202109021447.pdf to C:\Users\Owner\AppData\Local\Temp/storage-app-media-2100-202109021447.pdf.


文章名稱: 行為主義導向公共政策的設計與應用： 以提升大腸癌篩檢率的推力工具為例之探究
PDF連結: https://web-ch.scu.edu.tw/storage/app/media/2100/202109021447.pdf


2022-03-23 21:50:38,388 [MainThread  ] [INFO ]  Retrieving https://web-ch.scu.edu.tw/storage/app/media/2100/202109021448.pdf to C:\Users\Owner\AppData\Local\Temp/storage-app-media-2100-202109021448.pdf.


文章名稱: 當代美中衝突之溯源-探索性的結構性分析
PDF連結: https://web-ch.scu.edu.tw/storage/app/media/2100/202109021448.pdf


2022-03-23 21:50:48,549 [MainThread  ] [INFO ]  Retrieving https://web-ch.scu.edu.tw/storage/app/media/143/202105241202202105250904.pdf to C:\Users\Owner\AppData\Local\Temp/storage-app-media-143-202105241202202105250904.pdf.


文章名稱: 新問題、舊矛盾? 三級機關政務與常務雙軌制分析
PDF連結: https://web-ch.scu.edu.tw/storage/app/media/143/202105241202202105250904.pdf


2022-03-23 21:50:51,056 [MainThread  ] [INFO ]  Retrieving https://web-ch.scu.edu.tw/storage/app/media/143/202105241204202105250906.pdf to C:\Users\Owner\AppData\Local\Temp/storage-app-media-143-202105241204202105250906.pdf.


文章名稱:  半總統制下的總理任命權與政府穩定之研究
PDF連結: https://web-ch.scu.edu.tw/storage/app/media/143/202105241204202105250906.pdf


2022-03-23 21:50:52,759 [MainThread  ] [INFO ]  Retrieving https://web-ch.scu.edu.tw/storage/app/media/143/202105241205202105250907.pdf to C:\Users\Owner\AppData\Local\Temp/storage-app-media-143-202105241205202105250907.pdf.


文章名稱: 川普政府對北韓經濟制裁的政策-中國的角色與回應
PDF連結: https://web-ch.scu.edu.tw/storage/app/media/143/202105241205202105250907.pdf


2022-03-23 21:51:03,353 [MainThread  ] [INFO ]  Retrieving https://web-ch.scu.edu.tw/storage/app/media/2100/123202107060952.pdf to C:\Users\Owner\AppData\Local\Temp/storage-app-media-2100-123202107060952.pdf.


文章名稱: 戰後日本天皇論的起點：丸山真男與津田左右吉的天皇戰爭責任論
PDF連結: https://web-ch.scu.edu.tw/storage/app/media/2100/123202107060952.pdf


2022-03-23 21:51:05,627 [MainThread  ] [INFO ]  Retrieving https://web-ch.scu.edu.tw/storage/app/media/2100/2-1202107060954.pdf to C:\Users\Owner\AppData\Local\Temp/storage-app-media-2100-2-1202107060954.pdf.


文章名稱: 影響政策學習效果因素之研究：臺灣地方政府成立騎警隊之分析
PDF連結: https://web-ch.scu.edu.tw/storage/app/media/2100/2-1202107060954.pdf


2022-03-23 21:51:07,519 [MainThread  ] [INFO ]  Retrieving https://web-ch.scu.edu.tw/storage/app/media/2100/3202107060954.pdf to C:\Users\Owner\AppData\Local\Temp/storage-app-media-2100-3202107060954.pdf.


文章名稱: 政治興趣、網路政治參與以及傳統政治參與
PDF連結: https://web-ch.scu.edu.tw/storage/app/media/2100/3202107060954.pdf


2022-03-23 21:51:17,663 [MainThread  ] [INFO ]  Retrieving https://web-ch.scu.edu.tw/storage/app/media/2100/1202107061005.pdf to C:\Users\Owner\AppData\Local\Temp/storage-app-media-2100-1202107061005.pdf.


文章名稱: 日本首相解散眾議院之研究：「七條解散」慣例的形成與分析
PDF連結: https://web-ch.scu.edu.tw/storage/app/media/2100/1202107061005.pdf


2022-03-23 21:51:19,312 [MainThread  ] [INFO ]  Retrieving https://web-ch.scu.edu.tw/storage/app/media/2100/2202107061005.pdf to C:\Users\Owner\AppData\Local\Temp/storage-app-media-2100-2202107061005.pdf.


文章名稱: 從台灣看東亞：台灣民眾東亞社會評價的空間推論
PDF連結: https://web-ch.scu.edu.tw/storage/app/media/2100/2202107061005.pdf


2022-03-23 21:51:22,645 [MainThread  ] [INFO ]  Retrieving https://web-ch.scu.edu.tw/storage/app/media/2100/3202107061005.pdf to C:\Users\Owner\AppData\Local\Temp/storage-app-media-2100-3202107061005.pdf.


文章名稱: 框架公約聯盟與菸草控制框架公約：跨國倡議網絡的個案分析
PDF連結: https://web-ch.scu.edu.tw/storage/app/media/2100/3202107061005.pdf


2022-03-23 21:51:32,809 [MainThread  ] [INFO ]  Retrieving https://web-ch.scu.edu.tw/storage/app/media/2100/37-2-1202107141052.pdf to C:\Users\Owner\AppData\Local\Temp/storage-app-media-2100-37-2-1202107141052.pdf.


文章名稱: 內閣制國家總統的憲政角色：德國與義大利的個案分析
PDF連結: https://web-ch.scu.edu.tw/storage/app/media/2100/37-2-1202107141052.pdf


2022-03-23 21:51:34,727 [MainThread  ] [INFO ]  Retrieving https://web-ch.scu.edu.tw/storage/app/media/2100/2202107061010.pdf to C:\Users\Owner\AppData\Local\Temp/storage-app-media-2100-2202107061010.pdf.


文章名稱: 比利時「布魯塞爾－哈爾－維爾沃德」選區分割與權力分享
PDF連結: https://web-ch.scu.edu.tw/storage/app/media/2100/2202107061010.pdf


2022-03-23 21:51:36,857 [MainThread  ] [INFO ]  Retrieving https://web-ch.scu.edu.tw/storage/app/media/2100/37-2-3202107141052.pdf to C:\Users\Owner\AppData\Local\Temp/storage-app-media-2100-37-2-3202107141052.pdf.


文章名稱: 族群主流化的理論框架與政策意涵
PDF連結: https://web-ch.scu.edu.tw/storage/app/media/2100/37-2-3202107141052.pdf


2022-03-23 21:51:47,667 [MainThread  ] [INFO ]  Retrieving https://web-ch.scu.edu.tw/storage/app/media/2100/1202011181523202107061012.pdf to C:\Users\Owner\AppData\Local\Temp/storage-app-media-2100-1202011181523202107061012.pdf.


文章名稱: 電子化跨域治理成效指標之設計與衡量：觀性測量指標的應用與比較
PDF連結: https://web-ch.scu.edu.tw/storage/app/media/2100/1202011181523202107061012.pdf


2022-03-23 21:51:49,990 [MainThread  ] [INFO ]  Retrieving https://web-ch.scu.edu.tw/storage/app/media/2100/2-1202011181523202107061012.pdf to C:\Users\Owner\AppData\Local\Temp/storage-app-media-2100-2-1202011181523202107061012.pdf.


文章名稱: 動保文官同情疲勞現象、成因、影響及因應策略之思辨
PDF連結: https://web-ch.scu.edu.tw/storage/app/media/2100/2-1202011181523202107061012.pdf


2022-03-23 21:51:52,531 [MainThread  ] [INFO ]  Retrieving https://web-ch.scu.edu.tw/storage/app/media/2100/3202011181523202107061012.pdf to C:\Users\Owner\AppData\Local\Temp/storage-app-media-2100-3202011181523202107061012.pdf.


文章名稱: 契約課責的弔詭：政府處理履約績效不佳廠商之多重考量
PDF連結: https://web-ch.scu.edu.tw/storage/app/media/2100/3202011181523202107061012.pdf


2022-03-23 21:52:03,821 [MainThread  ] [INFO ]  Retrieving https://web-ch.scu.edu.tw/storage/app/media/2100/36-3-1202107141101.pdf to C:\Users\Owner\AppData\Local\Temp/storage-app-media-2100-36-3-1202107141101.pdf.


文章名稱: 半總統制次類型、府會關係與族群抗議
PDF連結: https://web-ch.scu.edu.tw/storage/app/media/2100/36-3-1202107141101.pdf


2022-03-23 21:52:05,408 [MainThread  ] [INFO ]  Retrieving http://web-ch.scu.edu.tw/storage/app/media/143/2202011181605.pdf to C:\Users\Owner\AppData\Local\Temp/storage-app-media-143-2202011181605.pdf.


文章名稱: 總統國會制權力行使、支持基礎與民主運作
PDF連結: http://web-ch.scu.edu.tw/storage/app/media/143/2202011181605.pdf


2022-03-23 21:52:07,689 [MainThread  ] [INFO ]  Retrieving http://web-ch.scu.edu.tw/storage/app/media/143/3202011181604.pdf to C:\Users\Owner\AppData\Local\Temp/storage-app-media-143-3202011181604.pdf.


文章名稱: 台灣城市治理的困境與出路—從Lefebvre「對於城市的權利」
PDF連結: http://web-ch.scu.edu.tw/storage/app/media/143/3202011181604.pdf


2022-03-23 21:52:09,398 [MainThread  ] [INFO ]  Retrieving https://web-ch.scu.edu.tw/storage/app/media/143/3202011181604202107051010.pdf to C:\Users\Owner\AppData\Local\Temp/storage-app-media-143-3202011181604202107051010.pdf.


文章名稱: 談起
PDF連結: https://web-ch.scu.edu.tw/storage/app/media/143/3202011181604202107051010.pdf


2022-03-23 21:52:10,904 [MainThread  ] [INFO ]  Retrieving http://web-ch.scu.edu.tw/storage/app/media/143/4202011181600.pdf to C:\Users\Owner\AppData\Local\Temp/storage-app-media-143-4202011181600.pdf.


文章名稱: 大國與區域整合集團中貿易自由化程度變化之研究
PDF連結: http://web-ch.scu.edu.tw/storage/app/media/143/4202011181600.pdf


2022-03-23 21:52:21,703 [MainThread  ] [INFO ]  Retrieving http://web-ch.scu.edu.tw/storage/app/media/143/1-1202011181614.pdf to C:\Users\Owner\AppData\Local\Temp/storage-app-media-143-1-1202011181614.pdf.


文章名稱: 政務事務互動關係：台灣文官對政治的容忍之研究
PDF連結: http://web-ch.scu.edu.tw/storage/app/media/143/1-1202011181614.pdf


2022-03-23 21:52:24,881 [MainThread  ] [INFO ]  Retrieving http://web-ch.scu.edu.tw/storage/app/media/143/2-1202011181615.pdf to C:\Users\Owner\AppData\Local\Temp/storage-app-media-143-2-1202011181615.pdf.


文章名稱: 土地政治下的偏離者－政策遺緒與天津市政府行為研究（1982-2018）
PDF連結: http://web-ch.scu.edu.tw/storage/app/media/143/2-1202011181615.pdf


2022-03-23 21:52:27,312 [MainThread  ] [INFO ]  Retrieving http://web-ch.scu.edu.tw/storage/app/media/143/3-1202011181616.pdf to C:\Users\Owner\AppData\Local\Temp/storage-app-media-143-3-1202011181616.pdf.


文章名稱: The Extent of Policy Integration and the Formation of Urban Regimes in the U.S.: An Exploratory Theoretical Structure
PDF連結: http://web-ch.scu.edu.tw/storage/app/media/143/3-1202011181616.pdf


2022-03-23 21:52:28,842 [MainThread  ] [INFO ]  Retrieving http://web-ch.scu.edu.tw/storage/app/media/143/4-1202011181617.pdf to C:\Users\Owner\AppData\Local\Temp/storage-app-media-143-4-1202011181617.pdf.


文章名稱: 憑據猜答或盲目猜答？以政治知識測量為例
PDF連結: http://web-ch.scu.edu.tw/storage/app/media/143/4-1202011181617.pdf
