# 東森新聞雲爬蟲練習
## 練習從東森新聞雲網站中，爬取新聞摘要及詳細內容。
## 學習利用Selenium模擬人為操作，更新動態網頁後爬取新聞內容。

In [1]:
import requests
import time
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.keys import Keys

### 以財經新聞為例，先連結到財經新聞網頁，複製其URL。

In [2]:
ETtoday_url = "https://www.ettoday.net/news/focus/%E8%B2%A1%E7%B6%93/"  #財經新聞

### 用Selenium打開一個瀏覽器，連結到網站。然後模擬下拉網頁的動作，讓網頁完成更新，再處理後續動作。

In [4]:
browser = webdriver.Chrome(executable_path='/Users/moira/PyCrawlerMarathon-/Day021/chromedriver')
browser.get(ETtoday_url)  # 打開瀏覽器並連到東森新聞雲網頁

SCROLL_PAUSE_TIME = 1

#
# 以下是用Selenium模擬下拉網頁動作，讓網頁更新
#
last_height = browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")
while True:
    browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    time.sleep(2)
    new_height = browser.execute_script("return document.body.scrollHeight")
    if new_height == last_height:
        print('到達頁面底端')
        break
    else:
        print('網頁更新中...')
    last_height = new_height

網頁更新中...
網頁更新中...
網頁更新中...
網頁更新中...
網頁更新中...
網頁更新中...
到達頁面底端


### 到這裡網頁已經更新完畢，所有的新聞都已經出現在網頁上。接下來做爬取收集新聞的動作。

In [5]:
#
# 這裡先建立一個函數，其功能是連到外部連結，並爬取新聞內容。
#
def getNewsDetailContent(link_url):
    resp = requests.get(link_url)
    resp.encoding = 'utf-8'
    #print(resp.text)

    soup = BeautifulSoup(resp.text, 'lxml')
    news_content = soup.find("div", attrs={'class':'story'}).find_all("p")
    for p in news_content:
        """
        .string屬性說明：
        (1) 若當前tag節點底下沒有其他tag子節點，會直接抓取內容(返回"NavigableString")
        (2) 若當前tag節點底下只有唯一的一個tag子節點，也會直接抓取tag子節點的內容(返回"NavigableString")
        (3) 但若當前tag節點底下還有很多個tag子節點，.string就無法判斷，(返回"None")
        """
        if ((p.string) is not None):
            print(p.string)

### 解析HTML並萃取新聞摘要，若有外部的連結，再連到外部連結並把詳細新聞內容抓取下來。

In [None]:
# 爬取網頁內容，解析後萃取新聞摘要
html = browser.page_source
soup = BeautifulSoup(html, "lxml")
all_news = soup.find("div", attrs={'class':'block block_1 infinite_scroll'})

news_block = all_news.find_all('div', attrs={'class':'piece clearfix'})

for i, news_item in enumerate(news_block):
    print("----------------------------------------------------------------------")
    news_body = news_item.find('h3')
    print("\n[%d] %s\n" % (i, news_body.a.string))
    
    # 
    # 連到外部連結，擷取詳細新聞內容
    #
    externalLink = "https://www.ettoday.net" + news_body.a["href"]
    getNewsDetailContent(externalLink)


----------------------------------------------------------------------

[0] 微風集團強打「超零售」發威　董座廖鎮漢：年終最高七個月

▲微風集團今（7）日舉行集團尾牙，董事長廖鎮漢（圖中）表示，2020年將會是市場變化多端的一年，機會是留給準備好的人。（圖／記者湯興漢攝）
記者林淑慧／台北報導
微風集團今（7）日舉行集團尾牙，董事長廖鎮漢表示，去年是集團的「超零售元年」，開出微風南山商場締造市場的五個第一，挹注集團營運表現，去年整體業績逾305億元，也大方宣佈年終獎金自2.5個月起跳，績優員工最高可拿七個月，大方犒賞辛勞的員工。
微風集團尾牙照例在文華東方酒店登場，董事長廖鎮漢、夫人孫芸芸作東，席開數十桌宴請員工，尾牙以Breeze Ball為主題，微風策略長廖曉喬與首度公開露面的廖鎮漢千金廖思惟均盛裝出席。
▲微風集團董事長廖鎮漢（圖右）與首度公開露面的女兒廖思惟，一同出席2020微風集團尾牙。（圖／記者湯興漢攝）
廖鎮漢致詞時表示，今年是微風第19年尾牙，2020年將會是市場變化多端的一年，機會是留給準備好的人，而微風面對市場的變化，將備足各式不同的生態圈來應對，針對集團未來營運展望，也喊出今年全年業績上看310億元的目標。
微風南山廣場開幕時，外界相當關注集團對零售業下一步的看法，廖鎮漢認為，微風集團的下一步不是傳統百貨，也不是新零售，而是超零售，並定調2019年是微風超零售元年，是希望能超越傳統零售和新零售的新思維與新概念。
▲微風集團董事長廖鎮漢表示，2020年將會是市場變化多端的一年，機會是留給準備好的人。（圖／記者湯興漢攝）
何謂「超零售」？廖鎮漢認為，超零售兼具四個「S」， 包括「super fast（快速）、super price competitive（價格競爭力）、super pricey（具產品獨特性）、super connect（數位連結）」；微風數位發展至今已累計50萬會員，就是「超零售」服務最大的資源。
----------------------------------------------------------------------

[1] 街口「託付寶」買基金惹議！胡亦嘉現身金管會說明　違法最重可撤照

▲街口集團執行長胡亦嘉。（圖／記者湯興漢攝）