# 東森新聞雲爬蟲練習
## 練習從東森新聞雲網站中，爬取新聞摘要及詳細內容。
## 學習利用Selenium模擬人為操作，更新動態網頁後爬取新聞內容。

In [1]:
import requests
import time
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.keys import Keys

### 以財經新聞為例，先連結到財經新聞網頁，複製其URL。

In [2]:
ETtoday_url = "https://www.ettoday.net/news/focus/%E8%B2%A1%E7%B6%93/"  #財經新聞

### 用Selenium打開一個瀏覽器，連結到網站。然後模擬下拉網頁的動作，讓網頁完成更新，再處理後續動作。

In [7]:
browser = webdriver.Chrome(executable_path='chromedriver')
browser.get(ETtoday_url)  # 打開瀏覽器並連到東森新聞雲網頁

SCROLL_PAUSE_TIME = 1

#
# 以下是用Selenium模擬下拉網頁動作，讓網頁更新
#
last_height = browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")
while True:

    # Scroll down to the bottom.
    browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")

    # Wait to load the page.
    time.sleep(2)

    # Calculate new scroll height and compare with last scroll height.
    new_height = browser.execute_script("return document.body.scrollHeight")

    if new_height == last_height:

        break

    last_height = new_height
    print("網頁更新中...")
    
print("到達頁面底端")
"""
Your code here 

提示：可參考以下的Stack Overflow:
https://stackoverflow.com/questions/48850974/selenium-scroll-to-end-of-page-indynamically-loading-webpage/48851166
"""

網頁更新中...
網頁更新中...
網頁更新中...
網頁更新中...
網頁更新中...
網頁更新中...
網頁更新中...
網頁更新中...
網頁更新中...
到達頁面底端


'\nYour code here \n\n提示：可參考以下的Stack Overflow:\nhttps://stackoverflow.com/questions/48850974/selenium-scroll-to-end-of-page-indynamically-loading-webpage/48851166\n'

### 到這裡網頁已經更新完畢，所有的新聞都已經出現在網頁上。接下來做爬取收集新聞的動作。

In [8]:
#
# 這裡先建立一個函數，其功能是連到外部連結，並爬取新聞內容。
#
def getNewsDetailContent(link_url):
    resp = requests.get(link_url)
    resp.encoding = 'utf-8'
    #print(resp.text)

    soup = BeautifulSoup(resp.text, 'lxml')
    news_content = soup.find("div", attrs={'class':'story'}).find_all("p")
    for p in news_content:
        """
        .string屬性說明：
        (1) 若當前tag節點底下沒有其他tag子節點，會直接抓取內容(返回"NavigableString")
        (2) 若當前tag節點底下只有唯一的一個tag子節點，也會直接抓取tag子節點的內容(返回"NavigableString")
        (3) 但若當前tag節點底下還有很多個tag子節點，.string就無法判斷，(返回"None")
        """
        if ((p.string) is not None):
            print(p.string)

### 解析HTML並萃取新聞摘要，若有外部的連結，再連到外部連結並把詳細新聞內容抓取下來。

In [9]:
# 爬取網頁內容，解析後萃取新聞摘要
html = browser.page_source
soup = BeautifulSoup(html, "lxml")
all_news = soup.find("div", attrs={'class':'block block_1 infinite_scroll'})

news_block = all_news.find_all('div', attrs={'class':'piece clearfix'})

for i, news_item in enumerate(news_block):
    print("----------------------------------------------------------------------")
    news_body = news_item.find('h3')
    print("\n[%d] %s\n" % (i, news_body.a.string))
    
    # 
    # 連到外部連結，擷取詳細新聞內容
    #
    externalLink = "https://www.ettoday.net" + news_body.a["href"]
    getNewsDetailContent(externalLink)


----------------------------------------------------------------------

[0] 崇越電6月營收6.26億元　下半年擴大東南亞布局

▲崇越電董事長潘振成。（圖／記者姚惠茹攝）
記者姚惠茹／台北報導
專業特用化學材料通路商崇越電通（3388）今（6）日公告6月合併營收6.26億元，較上月營收成長5.97%，較去年同期減少9.53%。崇越電指出，主要是受到全球疫情再度升高影響；累計今年上半年合併營收36.45億元，年減3.29%。
崇越電表示，近兩年來產業變化較為劇烈，從前年以來的美中貿易戰到今年的新冠疫情，造成供應鏈及消費端的改變，為因應市場的調整，崇越電持續擴大銷售及開發新客戶及新材料，以消費性電子、醫療、車用、運動休閒與化妝品五大產業為主軸，拓展產品開發做為因應外，同時深耕東南亞市場，在印尼雅加達、越南胡志明及河內設立的據點營運已逐步穩定成長。
展望下半年，崇越電指出，新冠疫情仍是影響市場的不確定因素，崇越電持審慎態度掌握市場動態及商機，以Silicone應用於各行業的關鍵材料利基及整體解決方案深度服務客戶，並擴大東南亞布局以平衡及降低經營的風險，期望在不確定的經濟環境中仍能達成全年營運向上成長的目標。
►過期票券別浪費！簡單3步驟　教你換1.5倍東森幣
----------------------------------------------------------------------

[1] 受惠新品連發拉抬　宏達電6月營收月增63％創今年新高

▲宏達電新店總部。（圖／記者湯興漢攝）
記者姚惠茹／台北報導
宏達電（2498）今（6）日公布6月營收6.49億元，月增63.55%，年減55.57%，創今年新高；累計今年上半年營收26.73億元，年減53.52%，主要受惠6月份新品連發，而且HTC Desire 20 pro已經搶先在6月開賣搶攻市佔。
回顧營運，宏達電6月16日發表宏達電全球首款5G智慧型手機HTC U20 5G，採用高通驍龍765G處理器，支援SA與NSA雙模確保5G建設過渡期間使用無虞，並採用完整ENDC技術允許設備在同一頻譜帶上同時接入LTE和5G，展現持續擘劃5G新世代萬物聯網願景的強烈企圖心。
宏達電同日也推出Desire家族最新成員HTC Desire 2