# 東森新聞雲爬蟲練習
## 練習從東森新聞雲網站中，爬取新聞摘要及詳細內容。
## 學習利用Selenium模擬人為操作，更新動態網頁後爬取新聞內容。

In [1]:
import requests
import time
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.keys import Keys

### 以財經新聞為例，先連結到財經新聞網頁，複製其URL。

In [2]:
ETtoday_url = "https://www.ettoday.net/news/focus/%E8%B2%A1%E7%B6%93/"  #財經新聞

### 用Selenium打開一個瀏覽器，連結到網站。然後模擬下拉網頁的動作，讓網頁完成更新，再處理後續動作。

In [33]:
#browser = webdriver.Chrome()

browser = webdriver.Chrome('../chromedriver')
browser.get(ETtoday_url)  # 打開瀏覽器並連到東森新聞雲網頁

SCROLL_PAUSE_TIME = 1
#
# 以下是用Selenium模擬下拉網頁動作，讓網頁更新
#
last_height = browser.execute_script("return document.body.scrollHeight")
print(last_height)
while True:
    '''
    提示：可參考以下的Stack Overflow: 
    https://stackoverflow.com/questions/48850974/selenium-scroll-to-end-of-page-indynamically-loading-webpage/48851166
    '''
    browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")

    # Wait to load the page.
    time.sleep(2)

    # Calculate new scroll height and compare with last scroll height.
    new_height = browser.execute_script("return document.body.scrollHeight")

    print('update...',new_height,last_height)
    if new_height == last_height:
        break

    last_height = new_height
    
print('scroll end')

14313
update... 16572 14313
update... 18886 16572
update... 21134 18886
update... 23462 21134
update... 24866 23462
update... 24916 24866
update... 24866 24916
update... 24866 24866
scroll end


### 到這裡網頁已經更新完畢，所有的新聞都已經出現在網頁上。接下來做爬取收集新聞的動作。

In [34]:
#
# 這裡先建立一個函數，其功能是連到外部連結，並爬取新聞內容。
#
def getNewsDetailContent(link_url):
    resp = requests.get(link_url)
    resp.encoding = 'utf-8'
    #print(resp.text)

    soup = BeautifulSoup(resp.text, 'lxml')
    news_content = soup.find("div", attrs={'class':'story'}).find_all("p")
    for p in news_content:
        """
        .string屬性說明：
        (1) 若當前tag節點底下沒有其他tag子節點，會直接抓取內容(返回"NavigableString")
        (2) 若當前tag節點底下只有唯一的一個tag子節點，也會直接抓取tag子節點的內容(返回"NavigableString")
        (3) 但若當前tag節點底下還有很多個tag子節點，.string就無法判斷，(返回"None")
        """
        if ((p.string) is not None):
            print(p.string)

### 解析HTML並萃取新聞摘要，若有外部的連結，再連到外部連結並把詳細新聞內容抓取下來。

In [35]:
# 爬取網頁內容，解析後萃取新聞摘要
html = browser.page_source
soup = BeautifulSoup(html, "lxml")
all_news = soup.find("div", attrs={'class':'block block_1 infinite_scroll'})

news_block = all_news.find_all('div', attrs={'class':'piece clearfix'})

for i, news_item in enumerate(news_block):
    print("----------------------------------------------------------------------")
    news_body = news_item.find('h3')
    print("\n[%d] %s\n" % (i, news_body.a.string))
    
    # 
    # 連到外部連結，擷取詳細新聞內容
    #
    externalLink = "https://www.ettoday.net" + news_body.a["href"]
    getNewsDetailContent(externalLink)


----------------------------------------------------------------------

[0] 疫情衝擊全球金融市場　國銀急提海外據點呆帳準備金

▲根據統計，今年前2月國銀稅前盈餘627.5億元，較去年同期減少3.4%。（示意圖／pixabay）
記者紀佳妘／台北報導
金管會今（7）日公布本國銀行獲利情形，今年前2月國銀稅前盈餘627.5億元，其中海外分行、大陸分行稅前獲利67.8億元，較去年同期衰退，金管會銀行局表示，主要是增提呆帳準備金所致。
根據金管會統計，今年前2月本國銀行稅前盈餘達627.5億元，年減3.4%，其中國內總體分行達372.1億元，年減6.8%；國際金融分行（OBU）獲利為187.6億元，則年增10.8%；海外分行則達58.9億元，年減17.8%；大陸分行達8.9億元，年減0.3%。
今年1至2月全行稅前盈餘衰退，金管會銀行局副局長黃光熙表示，受到新冠肺炎疫情影響，國內外市場劇烈震盪，國銀投資金融資產評價淨利縮減，進而拉低獲利表現，屬於整體性的狀況。
至於國內總分行前2月稅前盈餘較去年同期減少27.3億元，黃光熙指出，主要是疫情衝擊，投資與其他淨收益較去年同期減少128億元，不過放款利息收益、手續費收益分別較去年同期增加32億元、28億元。
觀察今年前2月國銀海外分行與大陸分行稅前獲利67.8億元，皆較去年同期衰退，黃光熙分析，主要是海外分行與大陸分行增提呆帳準備金，其中海外分行較去年同期多提11.1億元，大陸分行則2月增提3億元。
不過，國銀國內總分行增提呆帳準備金則較去年同期減少63億元，意味著銀行衡量後海外授信風險提高，但國內授信品質較佳，因此海外分行增提呆帳準備金較多。
----------------------------------------------------------------------

[1] 金管會同意開發金併中壽時程延長　延至2022年6月

▲開發金（圖／資料照）
記者吳靜君／台北報導
開發金公告，該公司向金管會延長轉投資中壽，經金管會今（7）日回函，同意延期到這屆開發金董事會屆期，根據了解，預定的時間為2022年6月。
開發金在2017年正式入主中壽，根據了解，開發金當時是以每股35元購買中壽的股權，但隨著國內壽險要因應IFRS17，所需要的資金

▲經濟部水利署今（7）日表示，將全面展開防洪設施水利建造物的安全檢查，預計於四月底前完成。（圖／記者林淑慧攝）
記者林淑慧／台北報導
另外針對各地方政府所轄管的抽水站、滯洪池及各項水利設施亦同時進行核查，經濟部已排定五至六月份進行督導，督導結果並將作為後續水利署核列補助治水經費的重要參考依據。
----------------------------------------------------------------------

[13] 分析師：現在是買特斯拉的時候了！預估今年股價再漲35%

▲華爾街券商Jefferies上調特斯拉股票評級。（圖／翻攝自Tesla）
記者陳心怡／外電報導
新冠肺炎（COVID-19）衝擊全球經濟及各產業，電動車大廠特斯拉（Tesla）的生產線也受到影響。不過，華爾街券商 Jefferies 日前卻上調特斯拉股票評級，從「持有」（Hold）調升至「買進」（Buy），並稱特斯拉低檔買點已經浮現，今年股價還有 35% 的上漲空間。
根據《Business Insider》報導，Jefferies分析師 Philippe Houchois  在研究報告中指出，特斯拉是唯一一家沒有傳統包袱的汽車製造商，在電動車發展方面相當積極， Model Y 市占率也提高了一倍，並引領同業技術轉型。
Houchois 也將特斯拉目標價從每股 800 美元下調至 650 美元，這意味著該股較上週五收盤價 480.01 美元高出 35% 的成長空間。
Jefferies表示，儘管發生不利的季節性因素（unfavorable seasonality），但在危機期間，特斯拉第一季交車量仍優於預期，因此有望繳出穩健的第一季財報。Jefferies預計特斯拉第一季營收為 61 億美元，毛利率為 17%，並實現EBIT（息稅前利潤）收支平衡。
儘管受到疫情攪局，Jefferies降低了對特斯拉2020年全年估計，但預計該公司還是會增長27％。Houchois表示，進一步來看，隨著產業轉型壓力加快，特斯拉吸引資本的能力非常積極。
----------------------------------------------------------------------

[14] 歐股早盤漲翻！　德股一口氣衝破4％、法西漲幅皆逾3％

▲歐股早盤漲幅皆逾3%。（

ConnectionError: HTTPSConnectionPool(host='www.ettoday.net', port=443): Max retries exceeded with url: /news/20200407/1685884.htm (Caused by NewConnectionError('<urllib3.connection.VerifiedHTTPSConnection object at 0x111aa1c90>: Failed to establish a new connection: [Errno 60] Operation timed out'))