# 東森新聞雲爬蟲練習
## 練習從東森新聞雲網站中，爬取新聞摘要及詳細內容。
## 學習利用Selenium模擬人為操作，更新動態網頁後爬取新聞內容。

In [7]:
import requests
import time
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.keys import Keys

### 以財經新聞為例，先連結到財經新聞網頁，複製其URL。

In [8]:
ETtoday_url = "https://www.ettoday.net/news/focus/%E8%B2%A1%E7%B6%93/"  #財經新聞

### 用Selenium打開一個瀏覽器，連結到網站。然後模擬下拉網頁的動作，讓網頁完成更新，再處理後續動作。

In [9]:
browser = webdriver.Chrome()
browser.get(ETtoday_url)  # 打開瀏覽器並連到東森新聞雲網頁

SCROLL_PAUSE_TIME = 1

def scroll_down(self):
    """A method for scrolling the page."""

    # Get scroll height.
    last_height = self.driver.execute_script("return document.body.scrollHeight")

    while True:

        # Scroll down to the bottom.
        self.driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

        # Wait to load the page.
        time.sleep(2)

        # Calculate new scroll height and compare with last scroll height.
        new_height = self.driver.execute_script("return document.body.scrollHeight")

        if new_height == last_height:

            break

        last_height = new_height

### 到這裡網頁已經更新完畢，所有的新聞都已經出現在網頁上。接下來做爬取收集新聞的動作。

In [10]:
#
# 這裡先建立一個函數，其功能是連到外部連結，並爬取新聞內容。
#
def getNewsDetailContent(link_url):
    resp = requests.get(link_url)
    resp.encoding = 'utf-8'
    #print(resp.text)

    soup = BeautifulSoup(resp.text, 'lxml')
    news_content = soup.find("div", attrs={'class':'story'}).find_all("p")
    for p in news_content:
        """
        .string屬性說明：
        (1) 若當前tag節點底下沒有其他tag子節點，會直接抓取內容(返回"NavigableString")
        (2) 若當前tag節點底下只有唯一的一個tag子節點，也會直接抓取tag子節點的內容(返回"NavigableString")
        (3) 但若當前tag節點底下還有很多個tag子節點，.string就無法判斷，(返回"None")
        """
        if ((p.string) is not None):
            print(p.string)

### 解析HTML並萃取新聞摘要，若有外部的連結，再連到外部連結並把詳細新聞內容抓取下來。

In [11]:
# 爬取網頁內容，解析後萃取新聞摘要
html = browser.page_source
soup = BeautifulSoup(html, "lxml")
all_news = soup.find("div", attrs={'class':'block block_1 infinite_scroll'})

news_block = all_news.find_all('div', attrs={'class':'piece clearfix'})

for i, news_item in enumerate(news_block):
    print("----------------------------------------------------------------------")
    news_body = news_item.find('h3')
    print("\n[%d] %s\n" % (i, news_body.a.string))
    
    # 
    # 連到外部連結，擷取詳細新聞內容
    #
    externalLink = "https://www.ettoday.net" + news_body.a["href"]
    getNewsDetailContent(externalLink)


----------------------------------------------------------------------

[0] 美國救市手段盡出　謝金河：川普守得住馬其諾防線嗎？

● 謝金河／《財訊》社長兼發行人、財信傳媒董事長
歐美疫情持續擴散升溫，已撞倒了全球金融市場，全世界政府奮力救市，除了央行降息，放錢買債，重要行QE以外，還有空中灑錢，美國每一個國民直接給1000美元⋯⋯
這是巨大危機襲來，政府國家隊必須扮演的角色。就像武漢封城後，全中國幾乎全面封城，現在歐美很多重災區國家紛紛鎖國，例如，法國總統馬克宏說：這是一場戰爭，我們的敵人是來自四面八方的病毒。川普現在也稱自己是戰爭的總統。
這次疫情擴散，大家終於感受到國家的重要，就像戰爭來了，國家必須保護人民，現在國家隊抗疫，這是對病毒的宣戰。
但另一個戰場在金融市場，除了防疫要成功，金融市場也要能守得住，假如金融市場崩盤，那也是國家的災難。
▲當金融市場崩盤，將是國家災難。（圖／路透社）
歷史上的「川普防線」
現在川普就面臨這樣的挑戰。先前我說過，美國股市漲也千點，跌也千點起跳，這是市場人心的高度不安，絕非底部現象。
一個是川普打敗希拉蕊的那一天，2016年11月8日，指數在18322.76。
另一個點是2017年1月17日，川普就職典禮這一天，指數在19826.79。
這兩天道瓊指數最低跌到18917.46，正好落在這個區間範圍內，這正是川普防缐，也代表川普揚揚得意的美國經濟表現的指標，現在打回原形。
▲川普若要守住馬其諾防線，謝金河認為VIX恐慌指數不能越過84.83的高點。（圖／路透社）
川普護盤四指標
疫情仍然在延燒，川普救市手段也盡出，如果美國擋不住疫情壓力，這形同在生化戰中趴下來，美國如何領導世界，川普連任之路也可能滿布荊棘。而川普如何守護他的馬其諾防線？現在有幾個指標：
1. VIX恐慌指數不能再越過84.83的高點。
2. 油價以WTI計，必須守住20美元，不能持續破底。
3. 美元指數不能狂升，這次美元指數到102.992，美元衝高，新興國家的滙市會崩潰。
4. 美股漲跌要收斂，價穩量縮是必要的過程！
美國道瓊成份股都蹲下了，像波音從460跌到89美元，Exxon石油從101跌31.23美元，Disney從153.41跌到79.97美元，IBM從158.95跌到95美

▲永豐金控。（圖／記者湯興漢攝）
記者吳靜君／台北報導
永豐金今年將董監改選，為了因應金管會要求，希望可以降低家族色彩，永豐金今年董事提名名單，何家人全數退出，包含何壽川之子何奕達、前財政部長邱正雄與現任董事長翁文祺等，至於新任董事名單由身為女性的陳思寬呼聲高，可望成為首位金控女董座。
永豐金預計在5月召開董事會，為了防止寶佳進入董事會，永豐金決議將這一屆的董事席次從原本的9席縮減為7席。
永豐金今日也公告新的董事候選人名單上誼文化陳思寬、朱士廷、行遠投資的曹為實、葉奇鑫；獨立董事則是證交所前董事長薛琦、中信金風控長許建基、東吳大學潘維大。
值得注意的是，何家人何奕達以及被視為何家陣營的邱正雄與翁文祺等都不在名單之內。
若從名單來看，必須從四位一般董事選出董事長，據瞭解，陳思寬以女性董事及專精總體經濟、貨幣政策出任，非常有機會出任董事長。但永豐金強調，結果還必須通過股東會選舉及董事會最後決定。
----------------------------------------------------------------------

[12] 經長糾永豐餘、正隆拍片喊話「囤貨潮」　衛生紙足夠「七卡臣300年」

▲經濟部長沈榮津今拍影片指出，包括衛生紙、泡麵、罐頭廠商都已全力製造加大產能。（圖／經濟部提供）
記者林淑慧／台北報導
新冠肺炎（COVID-19）疫情延燒，全台掀起囤貨潮亂象，經濟部長沈榮津今（20）日糾衛生紙大廠永豐餘、正隆春風等業者拍片，親自走訪衛生紙廠，帶國人一探衛生紙產線，「存量足夠七卡臣300年」，向國人喊話貨源供應無虞、不必搶購。
經濟部長沈榮津今拍影片指出，包括衛生紙、泡麵、罐頭廠商都已全力製造加大產能。沈榮津說，實地參訪永豐餘及正隆春風等廠商，衛生紙原料、供貨無虞，也已24小時生產；泡麵廠維力、味王產能「已拉高到中元普渡時的水準」，罐頭廠商也全力生產，目前已有三個月存量。
新冠肺炎疫情升溫，民眾因預期心理爆發囤貨潮，造成全台賣場通路排隊結帳等亂象，經濟部長沈榮津今拍影片親自走訪衛生紙廠；另外行政院長蘇貞昌鼓勵民眾「儘量買」，強調貨源充足，但希望民眾多買MIT產品，也不要忘了買新鮮農產品。
----------------------------------------------------------------------

[13]

###### 