# 東森新聞雲爬蟲練習
## 練習從東森新聞雲網站中，爬取新聞摘要及詳細內容。
## 學習利用Selenium模擬人為操作，更新動態網頁後爬取新聞內容。

In [1]:
import requests
import time
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.keys import Keys

### 以財經新聞為例，先連結到財經新聞網頁，複製其URL。

In [2]:
ETtoday_url = "https://www.ettoday.net/news/focus/%E8%B2%A1%E7%B6%93/"  #財經新聞

### 用Selenium打開一個瀏覽器，連結到網站。然後模擬下拉網頁的動作，讓網頁完成更新，再處理後續動作。

In [3]:
browser = webdriver.Chrome()
browser.get(ETtoday_url)  # 打開瀏覽器並連到東森新聞雲網頁

SCROLL_PAUSE_TIME = 1

#
# 以下是用Selenium模擬下拉網頁動作，讓網頁更新
#
last_height = browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")
while True:
    
    
    # Scroll down to the bottom.
    browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")

    # Wait to load the page.
    time.sleep(SCROLL_PAUSE_TIME)

    # Calculate new scroll height and compare with last scroll height.
    new_height = browser.execute_script("return document.body.scrollHeight")
    
    if new_height == last_height:
        print('到達頁面底端')
        break
    else:
        print('網頁更新中...')
        last_height = new_height
        continue
    

網頁更新中...
網頁更新中...
到達頁面底端


### 到這裡網頁已經更新完畢，所有的新聞都已經出現在網頁上。接下來做爬取收集新聞的動作。

In [4]:
#
# 這裡先建立一個函數，其功能是連到外部連結，並爬取新聞內容。
#
def getNewsDetailContent(link_url):
    resp = requests.get(link_url)
    resp.encoding = 'utf-8'
    #print(resp.text)

    soup = BeautifulSoup(resp.text, 'lxml')
    news_content = soup.find("div", attrs={'class':'story'}).find_all("p")
    for p in news_content:
        """
        .string屬性說明：
        (1) 若當前tag節點底下沒有其他tag子節點，會直接抓取內容(返回"NavigableString")
        (2) 若當前tag節點底下只有唯一的一個tag子節點，也會直接抓取tag子節點的內容(返回"NavigableString")
        (3) 但若當前tag節點底下還有很多個tag子節點，.string就無法判斷，(返回"None")
        """
        if ((p.string) is not None):
            print(p.string)

### 解析HTML並萃取新聞摘要，若有外部的連結，再連到外部連結並把詳細新聞內容抓取下來。

In [5]:
# 爬取網頁內容，解析後萃取新聞摘要
html = browser.page_source
soup = BeautifulSoup(html, "lxml")
all_news = soup.find("div", attrs={'class':'block block_1 infinite_scroll'})

news_block = all_news.find_all('div', attrs={'class':'piece clearfix'})

for i, news_item in enumerate(news_block):
    print("----------------------------------------------------------------------")
    news_body = news_item.find('h3')
    print("\n[%d] %s\n" % (i, news_body.a.string))
    
    # 
    # 連到外部連結，擷取詳細新聞內容
    #
    externalLink = "https://www.ettoday.net" + news_body.a["href"]
    getNewsDetailContent(externalLink)


----------------------------------------------------------------------

[0] 台塑路州石化開發案遭提告　將局部停工至明年1月底

▲先前台灣的環保團體也曾抗議台塑在路易斯安那州設廠計劃。（資料照／記者許展溢攝）
記者余弦妙／綜合報導
台塑集團在美國路易斯安納州的94億美元石化園區發案，先前遭到反對「陽光計畫」的環保人士反對，並要求聯邦法官勒令建廠計畫停工，今（26）日最新消息指出，台塑已同意部分停工，並再2021年2月1日前暫緩部分施工作業。
根據彭博資訊報導指出，美國哥倫比亞特區地方法院法官摩斯（Randolph D. Moss）上周五（24日）簽署的一項協議中，台塑同意在明年2月前停止密西西比河碼頭、濕地附近和五處無名墓地的施工作業，換取原告撤銷已聲請的預防性禁制令。
據了解，台塑化美國路州投資案在今年1月6日就取得環評許可，年初時原先表示，石化行情不佳，考量環境與當時評估投資時差異相當大，將審慎評估，再決定何時啟動，在今年股東會年報上也說，投資案已經開始動工。
----------------------------------------------------------------------

[1] 買台積電「現買現套」損失2萬元！他煩惱到吃不下飯　網：週一賺爆

▲台積電位於新竹科學園區的晶圓五廠（圖／Peellden @wikipedia CC BY-SA 3.0）
記者施怡妏／綜合報導
近幾個月來，台股出現強勁反彈，生技股更因為防疫之助獲得高評價，後來又有新藥股行情銜接。一名網友於禮拜五，將原本要買房的頭期款，購買台積電股票，結果買完後「現買現套」，帳面損失兩萬多，心情跌落谷底。網友鼓勵他，「怕屁，我同事卡在合一到現在都還沒畢業，撐下去就對了！」
▲台積電下週一開盤上漲機率非常大。（圖／達志影像／美聯社）
許多網友安慰他，「還好你買台GG（台積電）還有機會漲回來甚至會賺，你買合一可能沒心情發文了」、「怕啥拉，你就直接把股票APP刪掉 然後都不看股票新聞」、「急什…放著就對了」、「急什麼？Intel這半年放棄競爭，你就放個半年就好」、「十年後你會感謝自己今天買了台GG」。
也有不少網友認為這是反串文，台積電美國存託憑證（ADR）大漲9.69%，下週一開盤上漲機率非常大，若台

▲隨著生活型態的改變，民眾飼養寵物比例逐年提高。（圖／取自免費圖庫Pixabay）
記者施怡妏／綜合報導
許多人把寵物當自己的小孩，毛小孩的數量逐年攀升，有些人覺得養寵物比養小孩還要省錢， 但牠們也有食衣住行的需求，在生活上也會有許多的狀況。一名網友家中養了可愛虎斑貓，帶出去溜貓時，被路人閒話「養貓這麼貴哦」，聽完後他抱怨，「關你屁事！」底下許多養貓的飼主也表示，「我養貓我驕傲」。
▲許多人認為，「只要貓咪不生病，基本上花費不會太昂貴。」（示意圖／取自免費圖庫Pixabay）
也有許多網友分享養貓的花費，「貓罐頭從一罐15到一罐100都有，零食從一包50到一包150都有貓吃，飼料1公斤100跟1公斤500也一樣」、「平價貓罐貓飼料加貓砂貓草，差不多一個月1千初吧」、「一包$1350飼料吃四個半月，一次買貓砂$900用半年，剩餘每個月花個$2～300買罐頭零食，排毛粉、離胺酸，半年多一罐300多」、「如果貓咪沒有生病，其實花費不會很高」。
大部分的網友也都認為，「小孩每個月的安親班費用，用來買罐頭，貓咪吃到吐」、「養貓一點都不花錢，養小孩才花錢誒」、「養什麼都花錢，就像賺錢都是辛苦的」、「養什麼都很花錢」、「尊重每個人的興趣，至少不是賭博吸毒」、「花錢是其次，對一個生命負責到底才是最重要的」、「貴不貴是相對於個人收入狀況及價值觀」。
----------------------------------------------------------------------

[14] 退休後想環遊世界！即刻掌握5數字　訂定「財務計畫」減煩惱

▲許多人都十分嚮往不愁吃穿的退休生活。（示意圖／取自Pixabay）
記者曾筠淇／綜合報導
G理小姐&山姆先生整理出5個重點：
G理小姐&山姆先生認為，如果能夠及早規畫退休的財務計畫，並立刻著手進行，就比較能夠讓退休沒煩惱。
----------------------------------------------------------------------

[15] 「板橋vs永和」爭奪新北一哥！房價數據出爐秒分高下…公寓、大樓價格全完勝

記者黃可昀／綜合報導
買不起北市可以轉戰新北，但新北市各區的房價也落差很大，有網友就好奇「新北市的一哥是哪一區？」雖然市政府坐落於板橋，但中永和、新店這些地區討論度反而更高，甚至房

In [6]:
browser.quit()