# 東森新聞雲爬蟲練習
## 練習從東森新聞雲網站中，爬取新聞摘要及詳細內容。
## 學習利用Selenium模擬人為操作，更新動態網頁後爬取新聞內容。

In [2]:
import requests
import time
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.keys import Keys

### 以財經新聞為例，先連結到財經新聞網頁，複製其URL。

In [3]:
ETtoday_url = "https://www.ettoday.net/news/focus/%E8%B2%A1%E7%B6%93/"  #財經新聞

### 用Selenium打開一個瀏覽器，連結到網站。然後模擬下拉網頁的動作，讓網頁完成更新，再處理後續動作。

In [4]:
browser = webdriver.Chrome()
browser.get(ETtoday_url)  # 打開瀏覽器並連到東森新聞雲網頁

SCROLL_PAUSE_TIME = 1

#
# 以下是用Selenium模擬下拉網頁動作，讓網頁更新
#
last_height = browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")
while True:
    # 模擬網頁下拉
    browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    
    # 等待一段時間讓網頁更新
    time.sleep(SCROLL_PAUSE_TIME)

    # 檢視目前網頁底端
    new_height = browser.execute_script("return document.body.scrollHeight")
    if new_height == last_height:
        break
    print("new_height:",new_height)
    last_height = new_height
print("last_height:",last_height)

new_height: 11542
new_height: 14025
new_height: 16365
new_height: 18690
new_height: 20938
new_height: 23391
new_height: 24717
new_height: 24767
last_height: 24767


### 到這裡網頁已經更新完畢，所有的新聞都已經出現在網頁上。接下來做爬取收集新聞的動作。

In [6]:
#
# 這裡先建立一個函數，其功能是連到外部連結，並爬取新聞內容。
#
def getNewsDetailContent(link_url):
    resp = requests.get(link_url)
    resp.encoding = 'utf-8'
    #print(resp.text)

    soup = BeautifulSoup(resp.text, 'lxml')
    news_content = soup.find("div", attrs={'class':'story'}).find_all("p")
    for p in news_content:
        """
        .string屬性說明：
        (1) 若當前tag節點底下沒有其他tag子節點，會直接抓取內容(返回"NavigableString")
        (2) 若當前tag節點底下只有唯一的一個tag子節點，也會直接抓取tag子節點的內容(返回"NavigableString")
        (3) 但若當前tag節點底下還有很多個tag子節點，.string就無法判斷，(返回"None")
        """
        if ((p.string) is not None):
            print(p.string)

### 解析HTML並萃取新聞摘要，若有外部的連結，再連到外部連結並把詳細新聞內容抓取下來。

In [7]:
# 爬取網頁內容，解析後萃取新聞摘要
html = browser.page_source
soup = BeautifulSoup(html, "lxml")
all_news = soup.find("div", attrs={'class':'block block_1 infinite_scroll'})

news_block = all_news.find_all('div', attrs={'class':'piece clearfix'})

for i, news_item in enumerate(news_block):
    print("----------------------------------------------------------------------")
    news_body = news_item.find('h3')
    print("\n[%d] %s\n" % (i, news_body.a.string))
    
    # 
    # 連到外部連結，擷取詳細新聞內容
    #
    externalLink = "https://www.ettoday.net" + news_body.a["href"]
    getNewsDetailContent(externalLink)


出，這項協議擴展CSA監理沙盒與台灣金融監理沙盒的功能，協議內容包括雙方監理機關轉介機制及資訊分享等，且簽署後雙方可據此轉介新創企業給對方，提供協助以了解雙方的監管制度，並分享各自市場與金融服務創新相關訊息。
金管會官員表示，該協議可促進雙方於金融科技的監理合作，並為台灣及加拿大雙方的金融科技業者創造更多機會，因此先建立好管道，未來能促成雙方業者交流，開拓金融創新的國際市場。
金管會也提及，CSA監理沙盒的目的在協助加拿大的新創企業發展創新產品及服務，提供業者更快、更靈活的註冊，並享有暫時的法規豁免，業者可在實驗期間於加拿大市場測試其產品及服務。
金管會表示，加拿大共有10省、3個地區，這次簽署合作協議共有8省，包括亞伯達省、卑詩省、緬尼托巴省、紐布朗斯維克省、諾瓦斯科西省、安大略省、魁北克省及沙士卡其灣省，涵蓋加拿大最重要的經濟地區。
金管會強調，未來將持續在雙邊和多邊層面上積極與其他國家建立聯繫網絡及金融科技交流合作，迄今除已與波蘭、美國亞歷桑那州、法國及加拿大簽署雙邊金融科技合作協議外，並於去年5月正式加入全球金融創新聯盟（GFIN），積極促進全球金融科技合作。
►過期票券別浪費！簡單3步驟　教你搶救妙招
----------------------------------------------------------------------

[83] 歐美疫情「客戶拉貨疲軟」！橙的5月雙減…累計營收轉衰　力攻TPMS需求復商機

▲橙的電子股份有限公司。（圖／翻攝自橙的官網）
記者楊絡懸／台北報導
胎壓偵測器（TPMS）大廠「橙的」（4554）公布5月合併營收為2325萬元，受歐美地區以封城政策防控疫情擴大，影響公司銷往歐美AM市場的出貨表現減緩，月減7.2%，年減26.7%；累計前5月合併營收為1.27億元，年減0.81%。
橙的表示，歐美主要AM市場客戶雖在4月底至5月中旬逐步復工，業務團隊開始進行活動並展開進一步的布局，但仍有部分歐洲客戶訂單有遞延出貨的情況，致使5月份營收下滑。
不過，受惠於台灣及中國包括重型機車、大型卡客車及輕型客車等OEM市場客戶出貨挹注，橙的也持續針對旗下TPMS系統客製化產品發揮強勁的備貨力道，拉升5月營收來自OEM市場客戶的比重自去年同期的23.8%、上升到40.4%，有效中和歐洲地區因疫情影響AM營收下滑的衝擊。
根據