In [5]:
import datetime
from selenium.webdriver.edge.options import Options
from selenium import webdriver
from selenium.webdriver.common.by import By
import time

def find_PNN_news(n_hours_ago):

    options = Options()
    driver = webdriver.Edge(options=options)

    # 新聞網站 URL
    url = "https://news.pts.org.tw/dailynews"
    driver.get(url)
    

    # 初始化一個空字典來存放時間
    news = {}

    index = 1

    # 用於存儲已找到的新聞標題
    finded_news_titles = set()

    # 持續滾動頁面,直到找不到符合時間範圍的新聞為止
    while True:

        # 找到所有新聞項目
        news_items = driver.find_elements(By.CSS_SELECTOR, "li.d-flex")

        # 如果沒有新的新聞項目,退出循環
        if not news_items:
            break
        
        # 標記本次循環是否找到了符合時間範圍的新聞
        found_new_news = False

        # 遍歷每個新聞項目
        for item in news_items:
            
            # 獲取標題
            title_element = item.find_element(By.CSS_SELECTOR, "h2")
            news_title = title_element.get_attribute('title') if title_element else ""
            
            # 如果標題已經被處理過,跳過
            if news_title in finded_news_titles:
                continue
            
            # 獲取時間
            time_element = item.find_element(By.CSS_SELECTOR, "time")
            news_time_str = time_element.text if time_element else ""
            # 判斷時間字串的格式是否與當前時間格式一致
            try:
                news_time = datetime.datetime.strptime(news_time_str, "%Y-%m-%d %H:%M")
            except ValueError:
                news_time = datetime.datetime.strptime(news_time_str, "%m/%d %H:%M")
                news_time = news_time.replace(year=now.year)
                
            # 如果新聞時間在n小時範圍內
            if n_hours_ago <= news_time:
                found_new_news = True
                finded_news_titles.add(news_title)  # 將標題加入已處理集合

                link_element = item.find_element(By.CSS_SELECTOR, "h2 > a")
                news_link = link_element.get_attribute('href') if link_element else ""

                category_element = item.find_element(By.CSS_SELECTOR, "div.news-info > a")
                news_category = category_element.text if category_element else ""

                
                # print(f"標題: {news_title}")
                # print(f"連結: {news_link}")
                # print(f"時間: {news_time_str}")
                # print(f"分類: {news_category}")
                # print("-------------------")

                news[index] = [news_title, news_link, news_time, news_category]
                index += 1

                driver.execute_script("window.scrollBy(0, 1000);")
                time.sleep(1)  # 等待頁面響應
                
        # 如果本次循環中沒有找到符合時間範圍的新聞,就退出
        if not found_new_news:
            break
        else:
            target_element = driver.find_element(By.CSS_SELECTOR, 'a[class="cursor-default"]')
            next_element = target_element.find_element(By.XPATH, './following::li[1]/a')
            link_href = next_element.get_attribute("href")
            driver.get(link_href)


    # 訪問每個新聞詳情頁,爬取內文
    for index in news:

        driver.get(news[index][1])
        content_elements = driver.find_elements(By.CSS_SELECTOR, "p")
        news_content = "\n".join([p.text for p in content_elements])

        news[index].append(news_content)
        # print(f"標題: {news[index][0]}")
        # print(f"內文: {news[index][-1]}")

    return news

    #關閉瀏覽器
    # driver.quit()

In [6]:
# find_PNN_news(6)

Current date and time: 2024-03-16 23:08:09.651340
Current time: 23:08:09.651340
6 hours ago:2024-03-16 17:08:09.651340
標題: 音樂會追思遭割頸國中生 受害家屬籲修法讓家長負刑責
連結: https://news.pts.org.tw/article/685709
時間: 2024-03-16 18:56
分類: 社福人權
-------------------
標題: 屏東車城公共女湯曾遭男誤闖 公所加強巡視並張貼公告
連結: https://news.pts.org.tw/article/685708
時間: 2024-03-16 18:53
分類: 地方
-------------------
標題: 以哈戰爭／2百噸物資船運抵加薩 盼海上救援公路從此開通
連結: https://news.pts.org.tw/article/685707
時間: 2024-03-16 18:47
分類: 全球
-------------------
標題: 中職熱身賽大巨蛋開打 龍象戰逾1.9萬人觀賽
連結: https://news.pts.org.tw/article/685706
時間: 2024-03-16 18:41
分類: 文教科技
-------------------
標題: 泰國1至3月空污嚴重 清邁一度達非常不健康等級
連結: https://news.pts.org.tw/article/685705
時間: 2024-03-16 18:37
分類: 全球
-------------------
標題: 新生代總鋪師林祺銘掌鼎 內門宋江大宴席開50桌
連結: https://news.pts.org.tw/article/685704
時間: 2024-03-16 18:32
分類: 地方
-------------------
no
標題: 音樂會追思遭割頸國中生 受害家屬籲修法讓家長負刑責
內文: 向去（2023）年底、在新北校園割頸案中喪生的楊姓學生，獻上一朵朵蒲公英悼念，民團「孩想陪你長大」16日舉行追思音樂會，不少父母帶著小孩一起參加。
楊爸爸、楊媽媽也親自出席，談起懂事的兒子依然滿是思念，更忍不住落淚。
楊爸爸說：「他真的都

In [56]:
# import datetime
# from selenium.webdriver.edge.options import Options
# from selenium.common.exceptions import NoSuchElementException
# from selenium import webdriver
# from selenium.webdriver.common.by import By
# import time
# import csv
# options = Options()
# driver = webdriver.Edge(options=options)
# url = "https://news.pts.org.tw/dailynews?page=2"
# driver.get(url)

# target_element = driver.find_element(By.CSS_SELECTOR, 'a[class="cursor-default"]')
# next_element = target_element.find_element(By.XPATH, './following::li[1]/a')
# link_href = next_element.get_attribute("href")
# driver.get(link_href)
