# 東森新聞雲爬蟲練習
## 練習從東森新聞雲網站中，爬取新聞摘要及詳細內容。
## 學習利用Selenium模擬人為操作，更新動態網頁後爬取新聞內容。

In [2]:
import requests
import time
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.keys import Keys

### 以財經新聞為例，先連結到財經新聞網頁，複製其URL。

In [3]:
ETtoday_url = "https://www.ettoday.net/news/focus/%E8%B2%A1%E7%B6%93/"  #財經新聞

### 用Selenium打開一個瀏覽器，連結到網站。然後模擬下拉網頁的動作，讓網頁完成更新，再處理後續動作。

In [7]:
browser = webdriver.Chrome()
browser.get(ETtoday_url)  # 打開瀏覽器並連到東森新聞雲網頁

SCROLL_PAUSE_TIME = 1

#
# 以下是用Selenium模擬下拉網頁動作，讓網頁更新
#
last_height = browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")
while True:
   # Scroll down to the bottom.
        self.driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

        # Wait to load the page.
        time.sleep(2)

        # Calculate new scroll height and compare with last scroll height.
        new_height = self.driver.execute_script("return document.body.scrollHeight")

        if new_height == last_height:

            break

        last_height = new_height

NameError: name 'self' is not defined

### 到這裡網頁已經更新完畢，所有的新聞都已經出現在網頁上。接下來做爬取收集新聞的動作。

In [5]:
#
# 這裡先建立一個函數，其功能是連到外部連結，並爬取新聞內容。
#
def getNewsDetailContent(link_url):
    resp = requests.get(link_url)
    resp.encoding = 'utf-8'
    #print(resp.text)

    soup = BeautifulSoup(resp.text, 'lxml')
    news_content = soup.find("div", attrs={'class':'story'}).find_all("p")
    for p in news_content:
        """
        .string屬性說明：
        (1) 若當前tag節點底下沒有其他tag子節點，會直接抓取內容(返回"NavigableString")
        (2) 若當前tag節點底下只有唯一的一個tag子節點，也會直接抓取tag子節點的內容(返回"NavigableString")
        (3) 但若當前tag節點底下還有很多個tag子節點，.string就無法判斷，(返回"None")
        """
        if ((p.string) is not None):
            print(p.string)

### 解析HTML並萃取新聞摘要，若有外部的連結，再連到外部連結並把詳細新聞內容抓取下來。

In [6]:
# 爬取網頁內容，解析後萃取新聞摘要
html = browser.page_source
soup = BeautifulSoup(html, "lxml")
all_news = soup.find("div", attrs={'class':'block block_1 infinite_scroll'})

news_block = all_news.find_all('div', attrs={'class':'piece clearfix'})

for i, news_item in enumerate(news_block):
    print("----------------------------------------------------------------------")
    news_body = news_item.find('h3')
    print("\n[%d] %s\n" % (i, news_body.a.string))
    
    # 
    # 連到外部連結，擷取詳細新聞內容
    #
    externalLink = "https://www.ettoday.net" + news_body.a["href"]
    getNewsDetailContent(externalLink)


----------------------------------------------------------------------

[0] 51勞動節愛自己　小資族、頂客族、三明治族勞工投保規劃一次看

▲51勞動節將至，小資族、頂客族、三明治族勞工投保規劃大不同。（示意圖／記者季相儒攝）
記者紀佳妘／台北報導
一年一度的51勞動節即將到來，受到新冠肺炎（COVID-19）疫情衝擊，企業放無薪假的人數已創下近10年來新高，加上勞保基金恐於2026年破產，勞工朋友無不對自己的退休生活感到憂慮。元大人壽表示，無論勞保制度如何變革，民眾可利用商業保險來補足保障缺口及準備退休金，提早為退休生活規劃免憂心。
元大人壽指出，為自己創造足夠的被動收入及充足保障才是退休準備之不二法門，建議勞工朋友們可依不同的人生階段，規劃專屬的保險組合。
首先以單身的「小資族勞工」為例，由於初入社會薪水不高，定期型保險商品為首選，由定期壽險入手，即可擁有最基本的保障；若有較多的預算，再額外添購意外險與醫療險附約，建構更全方位的保障，而當未來薪資增加、預算足夠後，也可評估額外規劃終身型商品，讓退休後的期間也享有保障。
第二，針對已婚的「頂客族勞工」，元大人壽提醒，雖無須考量孩子生養、教育費等問題，但也要注意不要因突如其來的意外，造成另一半在經濟上的沉重負擔。
在保險規劃時應將彼此的需求和保障缺口一起看，除了規劃壽險可照顧另一半未來的生活外，兼具日額給付、實支實付的醫療險與失能扶助險都可填補醫療支出及家庭經濟的缺口，享受高品質之醫療資源。由於沒有養育孩子的壓力，更可趁早規劃退休準備，選擇利率變動型之壽險商品，為自己打造退休後穩定現金流。
最後為上有父母、下有子女的「三明治族勞工」，自己既是家中收入的主要來源，且需照顧家人，這階段的家庭責任最重，保障需全面檢視調整。
元大人壽建議，可先評估提高壽險保額，補足意外身故對家庭造成的風險缺口，同時考慮加購重大傷病險，轉嫁因疾病對家庭帶來之經濟衝擊。此外，可為子女規劃基本的醫療與意外保障，至於自身退休準備則可透過利率變動型商品來規劃，也可作為子女教育基金之用。
----------------------------------------------------------------------

[1] 高通估本季手機出貨降3成　但5G設備發表

▲ 新台幣兌美元今天開盤升值0.1分。（圖／記者湯興漢攝）
記者李瑞瑾／台北報導
台北外匯市場新台幣兌美元匯率今（30）日開盤升值0.1分，以29.95元兌1美元開出；早盤強勢升值逾1角，最高一度來到29.82元兌1美元、升1.31角。
新台幣匯率昨（29）日收在29.951元兌1美元，今天開盤以29.95元兌1美元開出、升值0.1分。
截至上午9點10分，新台幣匯率來到29.84元兌1美元，升值1.11角。
----------------------------------------------------------------------

[14] 台股早盤狂漲134點！美股大漲逾2%　台股成功站上10900點

▲ 台股。（資料照／記者湯興漢攝）
記者李瑞瑾／台北報導
美國聯準會決議政策利率按兵不動，加上抗疫藥瑞德西韋試驗傳出喜訊，帶動華爾街信心回溫，美股四大指數收盤漲幅全在2%以上。台股今（30）日亦受激勵，開盤上漲54點、以10826點開出。
截至上午9點02分，加權指數來到10906點、上漲134點。
蘋概三王中，台積電（2330）以302元開出、上漲1%；股王大立光（3008）以4000元開出、上漲1.53%；鴻海（2317）開在76.2元、上漲0.79%。
儘管美國今年首季GDP季增年率萎縮4.8%、創金融海嘯以來最大跌幅，但因瑞德西韋（Remdesivir）試驗結果傳出好消息，加上盤中時段聯準會宣布維持接近零利率的政策，亦提振華爾街信心。能源股震盪走高，Alphabet領科技股上漲，美股四大指數終場全面收高。
美股道瓊指數上漲532.31點，或2.21%，收24,633.86點；標普500指數上漲76.12點，或2.66%，收2,939.51點；那斯達克指數上漲306.98點，或3.57%，收8,914.71點；費城半導體指數上漲84.55點，或4.94%，收1,797.76點。
----------------------------------------------------------------------

[15] 台中北區地王守護幸福！新婚購屋贈6萬6現金　入主「活氧抗震宅」跟空汙說掰

▲不少新婚夫妻希望擁有一間屬於兩人的房子，能在溫馨的家中展開新生活。（建築外觀3D與周遭環境示意圖／翻攝自皇普莊園官網）
帶著滿心喜悅完

記者鄒鎮宇／綜合報導
台灣彩券的大樂透第109000042期頭獎槓龜，累積獎金上看8.3億元，讓許多民眾躍躍欲試，想買張彩券試試手氣。台彩表示，如果一注獨得，將是今年最高的單注獎金。
大樂透下期開獎時間為5月1日（五），據《三立新聞》報導，中華民國星相學會副理事長小孟老師透露，27日至5月2日運氣最好的4個星座。
其中，射手座偏財運高，買樂透中獎率提升；處女座口福運上漲，容易被請客；雙魚座則是工作運佳，業績會逆勢上漲；雙子座可入手便宜好物，套牢的資金也可解套。
►母親節送起來！氣炸鍋「大全配」　特價只要2,788元～
----------------------------------------------------------------------

[25] 勞斯萊斯、賓士供應商加碼投資台灣　巧新斥資92億打造智慧化產線

▲經濟部投資台灣事務所今（29）日通過巧新科技等五大投資案。（圖／巧新科技提供）
記者林淑慧／台北報導
經濟部投資台灣事務所今（29）日表示，勞斯萊斯、寶馬、賓士等豪華車廠供應商巧新科技，為因應主要客戶訂單之需求，將斥資92億元於雲林及屏東建置智慧化產線，推升鍛造輪圈與懸吊系統品質與產值，以期在疫情結束後快速迎接復甦榮景。
投資臺灣事務所今(29)日召開第61次臺商回臺、第31次根留臺灣投資審查，再添5生力軍加碼112億元投資臺灣，包括尚芳國際、紅隼科技2家臺商，及巧新科技工業、福和生鮮、台星科3家根留企業。
新冠肺炎疫情延燒，全球汽車產業從製造至消費端皆陷入空前危機，巧新科技依然看好汽車產業在節能減碳主流趨勢下，對於輕量化零件的高度需求。旗下鍛造鋁合金輪圈產品具有高度客製化能力，目前供應Jaguar、Ferrari、Porsche等多款式電動車用輪圈，是汽車產業朝智慧電動車發展進程上不可或缺的關鍵零件。
▲巧新科技董事長黃聰榮。（圖／巧新科技提供）
為了因應全球布局與市場與客戶需求變化，巧新科技此次投入自動化軟硬體加速升級轉型，將為南部地區帶來560個本國就業機會，有助於分散疫情造成的風險，維持MIT主力輪圈產品高度競爭優勢。
依據經濟部統計，「投資臺灣三大方案」已帶動459家企業投資，金額達9,810億元，預估創造8萬812個本國就業機會。其中183家臺商回流約7,520億元，帶來61,543個就業機會；63家根留臺灣企業投資約1,