In [3]:
from abc import ABC, abstractmethod
import requests
from bs4 import BeautifulSoup

# 基礎爬蟲類
class Scraper(ABC):
    def __init__(self, url):
        self.url = url

    @abstractmethod
    def scrape(self):
        pass

# 台科大公佈欄爬蟲
class NTUSTBulletinScraper(Scraper):
    def scrape(self):
        response = requests.get(self.url)
        soup = BeautifulSoup(response.content, 'html.parser')
        table = soup.find("table")# 找table 標籤 
        thead = table.find("thead")# 從table 找第一個匹配的
        tbody = table.find("tbody")# 從table找第一個匹配的

        # # Process the table one row at a time
        i = 1
        data = [] 
        for row in tbody.find_all("tr"):
            data_row = [] 
            date = row.find("td",{"data-th":"日期"}).get_text(strip=True)            
            publisher = row.find("td",{"data-th":"發佈單位"}).get_text(strip=True)
            title = row.find("td",{"data-th":"標題"}).get_text(strip=True)
            a_tag = row.find("a")
            url = a_tag['href'] if a_tag and 'href' in a_tag.attrs else None
            content = "" # 從url去爬連結內文
            if url != None:
                webpage = requests.get(url)
                soup = BeautifulSoup(webpage.content, 'html.parser')
                paragraphs = soup.find_all("p")
                for p in paragraphs:
                    content += p.get_text(strip=True)
            data.append({'date':date,'publisher':publisher,'title':title,'url':url,'content':content})
        return data

        

# 台科大語言中心爬蟲
class NTUSTLanguageCenterScraper(Scraper):
    def scrape(self):
        response = requests.get(self.url)
        soup = BeautifulSoup(response.content, 'html.parser')
        # 添加針對台科大語言中心的爬蟲邏輯
        print("Scraping NTUST Language Center...")
    
# 台科大校網公布欄爬蟲
class NTUSTMajorAnnouncementScraper(Scraper):
    def scrape(self):
        response = requests.get(self.url)
        soup = BeautifulSoup(response.content, 'html.parser')
        # 添加針對台科大校網公布欄的爬蟲邏輯
        print("Scraping NTUST Major Announcements...")




In [4]:
# 使用示例
bulletin_scraper = NTUSTBulletinScraper("https://bulletin.ntust.edu.tw/p/403-1045-1391-1.php?Lang=zh-tw")
bulletin_scraper.scrape()


[{'date': '2024-01-11',
  'publisher': '研究發展處計畫業務服務中心',
  'title': '【訊息轉知】教育部檢送「國家科學及技術委員會補助具政策應用參考價值之研究成果清冊」，請查照。',
  'url': 'https://bulletin.ntust.edu.tw/p/406-1045-121156,r1391.php?Lang=zh-tw',
  'content': '教育部檢送「國家科學及技術委員會補助具政策應用參考價值之研究成果清冊」，請查照。說明：一、依據國科會113年1月4日科會自字第1130001242號函辦理。二、國家科學及技術委員會為加強該會補助計畫研究成果之政 策應用，以增進公共利益，爰造冊提供參採。三、成果報告可至該會網站「學術補助獎勵查詢」平臺瀏覽， 網址:https://wsts.nstc.gov.tw/STSWeb/Award /AwardMultiQuery.aspx。四、倘欲索取尚未公開之完整成果報告，請逕洽計畫主持人或 其任職單位。相關附件：來文電子檔研究發展處計畫業務服務中心吳哲賢 (校內分機：6997；chwu6997@mail.ntust.edu.tw)'},
 {'date': '2024-01-11',
  'publisher': '國際事務處',
  'title': '【轉知】國合會《國際開發援助現場季刊》線上資源，歡迎參用',
  'url': 'https://bulletin.ntust.edu.tw/p/406-1045-121153,r1391.php?Lang=zh-tw',
  'content': ''},
 {'date': '2024-01-11',
  'publisher': '教務處註冊組',
  'title': '【公告】112學年度第2學期本校學生修讀輔系、雙主修名額、相關規定、應修科目表及申請日期',
  'url': 'https://www.academic.ntust.edu.tw/p/406-1048-120155,r1986.php?Lang=zh-tw',
  'content': '112學年度第2學期輔系、雙主修申請'},
 {'date': '2024-01-10',
  'publisher': '教務處教學發展中心

In [None]:
language_center_scraper = NTUSTLanguageCenterScraper("https://lc.ntust.edu.tw/")
language_center_scraper.scrape()



In [None]:
major_announcement_scraper = NTUSTMajorAnnouncementScraper("https://www.ntust.edu.tw/p/403-1000-168-1.php?Lang=zh-tw")
major_announcement_scraper.scrape()