# 東森新聞雲爬蟲練習
## 練習從東森新聞雲網站中，爬取新聞摘要及詳細內容。
## 學習利用Selenium模擬人為操作，更新動態網頁後爬取新聞內容。

In [3]:
import requests
import time
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.keys import Keys

### 以財經新聞為例，先連結到財經新聞網頁，複製其URL。

In [4]:
ETtoday_url = "https://www.ettoday.net/news/focus/%E8%B2%A1%E7%B6%93/"  #財經新聞

### 用Selenium打開一個瀏覽器，連結到網站。然後模擬下拉網頁的動作，讓網頁完成更新，再處理後續動作。

In [7]:
browser = webdriver.Chrome(executable_path='./chromedriver')
browser.get(ETtoday_url)  # 打開瀏覽器並連到東森新聞雲網頁

SCROLL_PAUSE_TIME = 1

#
# 以下是用Selenium模擬下拉網頁動作，讓網頁更新
#
last_height = browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")
while True:
    browser.execute_script("window.scrollTo(0,document.body.scrollHeight);")
    # Wait to load the page.
    time.sleep(2)
    # Calculate new scroll height and compare with last scroll height.
    new_height = browser.execute_script("return document.body.scrollHeight")
    if new_height == last_height:
        break
    last_height = new_height

### 到這裡網頁已經更新完畢，所有的新聞都已經出現在網頁上。接下來做爬取收集新聞的動作。

In [8]:
#
# 這裡先建立一個函數，其功能是連到外部連結，並爬取新聞內容。
#
def getNewsDetailContent(link_url):
    resp = requests.get(link_url)
    resp.encoding = 'utf-8'
    #print(resp.text)

    soup = BeautifulSoup(resp.text, 'lxml')
    news_content = soup.find("div", attrs={'class':'story'}).find_all("p")
    for p in news_content:
        """
        .string屬性說明：
        (1) 若當前tag節點底下沒有其他tag子節點，會直接抓取內容(返回"NavigableString")
        (2) 若當前tag節點底下只有唯一的一個tag子節點，也會直接抓取tag子節點的內容(返回"NavigableString")
        (3) 但若當前tag節點底下還有很多個tag子節點，.string就無法判斷，(返回"None")
        """
        if ((p.string) is not None):
            print(p.string)

### 解析HTML並萃取新聞摘要，若有外部的連結，再連到外部連結並把詳細新聞內容抓取下來。

In [9]:
# 爬取網頁內容，解析後萃取新聞摘要
html = browser.page_source
soup = BeautifulSoup(html, "lxml")
all_news = soup.find("div", attrs={'class':'block block_1 infinite_scroll'})

news_block = all_news.find_all('div', attrs={'class':'piece clearfix'})

for i, news_item in enumerate(news_block):
    print("----------------------------------------------------------------------")
    news_body = news_item.find('h3')
    print("\n[%d] %s\n" % (i, news_body.a.string))
    
    # 
    # 連到外部連結，擷取詳細新聞內容
    #
    externalLink = "https://www.ettoday.net" + news_body.a["href"]
    getNewsDetailContent(externalLink)


，也是我給自己最好的生日禮物，在每份職務工作上，我向來秉持的是不忮不求，盡每份心力，做最好的事，能夠順利完成台水階段性任務，我要再次感謝所有台水員工的一起打拼，也要感謝各界好友支持，謝謝大家！
也再次提醒好友們，中國武漢肺炎疫情，宛如第三次世界大戰，是一場疫情大戰，各國紛紛鎖國，所有的經濟、生活各層面，迎接而來的可能都是我們不曾遇過的衝擊，因此面對疫情，千萬不可掉以輕心，日常生活也務必記得勤洗手！！！
----------------------------------------------------------------------

[68] 阿宅崩潰！任天堂Switch Online一度中斷近9小時

▲任天堂Switch昨一度傳出網路中斷近9小時。（圖／THE VERGE）
記者謝仁傑／綜合報導
任天堂官方主頁顯示，在線服務中斷了將近9個小時，美東時間上午4:56至下午1:45，Switch Online的所有網路服務均受影響。
不過，任天堂並不是本週遇到中斷問題的唯一服務，Xbox Live上週日也傳出延宕了兩個多小時，而多用於遊戲的社群聊天服務「Discord」也出現問題。
對於目前正在家中落實自主隔離以抵抗新冠病毒傳播的人而言，這些宅經濟的失靈絕對是個壞消息。
除此之外，非遊戲服務Microsoft Teams，昨天也傳出發生停運問題，這對於開始落實遠程工作的歐洲大部分地區而言，若這樣的問題持續勢必會造成很大的困擾。
美東時間3月17日下午3:37 － 服務重新上線。
▼任天堂在線服務中斷9小時 。（圖／取自任天堂官方推特）
----------------------------------------------------------------------

[69] 「經濟弱勢前所未見」！　瑞銀下修大陸今年經濟成長率至1.5%

▲新冠肺炎疫情衝擊經濟表現，瑞銀下修大陸今年經濟成長率至1.5%。（圖／達志影像／美聯社）
記者紀佳妘／台北報導
新冠肺炎（COVID-19）疫情衝擊，今年前2月大陸停工大幅衝擊經濟表現，3月經濟活動仍未完全恢復常態。瑞銀今（18）日表示，大陸「經濟弱勢前所未見」，並大幅下修今年經濟成長率至1.5%，恐難以「保2」，預估美元兌人民幣匯率保持在7上下。
瑞銀亞洲經濟研究主管與首席中國經濟學家汪濤表示，新冠肺炎疫情