# Ettoday 網路爬蟲實作練習


* 能夠利用 Request + BeatifulSour 撰寫爬蟲，並存放到合適的資料結構


## 作業目標

根據範例：

1. 取出今天所有的新聞
2. 取出現在時間兩小時內的新聞
3. 根據範例，取出三天前下午三點到五點的新聞

## 參考資料:
* date 模組:https://docs.python.org/3/library/datetime.html
* selenium 模組:https://www.yangyanxing.com/article/1085.html
* 模擬滾輪下滑:https://www.youtube.com/watch?v=aqXkKgkyk2I

In [35]:
from selenium import webdriver
from selenium.webdriver.support.ui import Select
from bs4 import BeautifulSoup
import time
from datetime import datetime 
from datetime import timedelta 

In [2]:
# 打開瀏覽器

browser = webdriver.Chrome(executable_path='chromedriver')

browser.get("https://www.ettoday.net/news/news-list.htm")


In [3]:
# 每個兩秒鐘自動往下滑
for i in range(10):
    time.sleep(2)
    browser.execute_script("window.scrollTo(0, 10000);")


## 1. 取出今天所有的新聞

In [10]:
# 取得資料，丟到 BeautifulSoup 解析

html_source = browser.page_source
soup = BeautifulSoup(html_source, "html5lib")

fmt = "%Y/%m/%d  %H:%M"

for d in soup.find(class_="part_list_2").find_all('h3'):
    if datetime.strptime(d.find(class_="date").text, fmt).date() == datetime.today().date():
        print(d.find(class_="date").text, d.find_all('a')[-1].text)

2020/01/31 18:37 中職／傳聞中信想挖角　羅力：一直想回富邦
2020/01/31 18:33 誰殺死陳韻如？《想見你》關鍵廢墟戲超毛　柯佳嬿躺泥濘雨打臉
2020/01/31 18:32 多維TW／選後展望：避險和互信　還有機會談嗎？
2020/01/31 18:30 3大症狀疑患「菜瓜布肺」！　醫曝：久咳不止比肺癌更棘手
2020/01/31 18:27 「蓋大型收容所」是怕疫情爆發　韓國瑜信心滿滿：經費場地有預備
2020/01/31 18:26 白嘉莉婚後偕夫婿返台被鎂光燈包圍　老公驚曝「早知就不敢娶妳了！」
2020/01/31 18:24 麻吉女兒「鑰匙不見」懷疑被捉弄　狂男持刀砍傷17歲少年
2020/01/31 18:20 黃偉哲視察大賣場口罩供貨情形　籲請市民朋友勿搶購囤積口罩
2020/01/31 18:20 中國境外未有死亡病例　WHO秘書長讚賞習近平：世界應感謝中國
2020/01/31 18:20 不斷更新／泰國武漢肺炎確診累計19例！泰籍小黃司機中招　首起「人傳人」病例
2020/01/31 18:19 澳網／大滿貫決賽勝率100%破功　謝淑薇仍創最佳成績
2020/01/31 18:18 中職／轉戰富邦重逢羅力　洪總問：何時要歸化？
2020/01/31 18:17 「去死吧」！9歲童持刀狂刺5歲妹　遭逮稱：腦中不斷浮現殺她念頭
2020/01/31 18:16 口罩戴好戴滿！　EXO伯賢「機場防疫步驟」網友讚爆
2020/01/31 18:13 童心汪迷上衝刺感！插隊玩滑梯「英姿溜下」　小孩看呆拍手歡呼
2020/01/31 18:13 去年訂好澳門行程疫情卻爆發！她假早請好...想「戴口罩勉強玩」　結局被推爆
2020/01/31 18:11 垃圾袋剪洞當防護衣　武漢醫療人員克難抗疫...網罵資源分配不均
2020/01/31 18:11 爸媽帶孩退房「如綁架現場」　民宿氣公審爆論戰！網酸：不是含清潔費了嗎
2020/01/31 18:10 加強防疫！台北小巨蛋看表演需量體溫、籲觀眾戴口罩入場
2020/01/31 18:10 把妹告白必去！特搜三間台北特色酒吧　調酒師還會「神助功」
2020/01/31 18:09 華聞快遞／支援武漢肺炎疫情！　大陸央企向湖北捐款近18億元人民幣
2020/01/31 18:06 快

## 2. 取出現在時間兩小時內的新聞

In [20]:
for d in soup.find(class_="part_list_2").find_all('h3'):
    if (datetime.now() - datetime.strptime(d.find(class_="date").text, fmt)) <= timedelta(hours=2):
        print(d.find(class_="date").text, d.find_all('a')[-1].text)

2020/01/31 18:37 中職／傳聞中信想挖角　羅力：一直想回富邦
2020/01/31 18:33 誰殺死陳韻如？《想見你》關鍵廢墟戲超毛　柯佳嬿躺泥濘雨打臉
2020/01/31 18:32 多維TW／選後展望：避險和互信　還有機會談嗎？
2020/01/31 18:30 3大症狀疑患「菜瓜布肺」！　醫曝：久咳不止比肺癌更棘手
2020/01/31 18:27 「蓋大型收容所」是怕疫情爆發　韓國瑜信心滿滿：經費場地有預備
2020/01/31 18:26 白嘉莉婚後偕夫婿返台被鎂光燈包圍　老公驚曝「早知就不敢娶妳了！」
2020/01/31 18:24 麻吉女兒「鑰匙不見」懷疑被捉弄　狂男持刀砍傷17歲少年
2020/01/31 18:20 黃偉哲視察大賣場口罩供貨情形　籲請市民朋友勿搶購囤積口罩
2020/01/31 18:20 中國境外未有死亡病例　WHO秘書長讚賞習近平：世界應感謝中國
2020/01/31 18:20 不斷更新／泰國武漢肺炎確診累計19例！泰籍小黃司機中招　首起「人傳人」病例
2020/01/31 18:19 澳網／大滿貫決賽勝率100%破功　謝淑薇仍創最佳成績
2020/01/31 18:18 中職／轉戰富邦重逢羅力　洪總問：何時要歸化？
2020/01/31 18:17 「去死吧」！9歲童持刀狂刺5歲妹　遭逮稱：腦中不斷浮現殺她念頭
2020/01/31 18:16 口罩戴好戴滿！　EXO伯賢「機場防疫步驟」網友讚爆
2020/01/31 18:13 童心汪迷上衝刺感！插隊玩滑梯「英姿溜下」　小孩看呆拍手歡呼
2020/01/31 18:13 去年訂好澳門行程疫情卻爆發！她假早請好...想「戴口罩勉強玩」　結局被推爆
2020/01/31 18:11 垃圾袋剪洞當防護衣　武漢醫療人員克難抗疫...網罵資源分配不均
2020/01/31 18:11 爸媽帶孩退房「如綁架現場」　民宿氣公審爆論戰！網酸：不是含清潔費了嗎
2020/01/31 18:10 加強防疫！台北小巨蛋看表演需量體溫、籲觀眾戴口罩入場
2020/01/31 18:10 把妹告白必去！特搜三間台北特色酒吧　調酒師還會「神助功」
2020/01/31 18:09 華聞快遞／支援武漢肺炎疫情！　大陸央企向湖北捐款近18億元人民幣
2020/01/31 18:06 快

## 3. 根據範例，取出三天前下午三點到五點的新聞

In [67]:
browser = webdriver.Chrome(executable_path='chromedriver')

browser.get("https://www.ettoday.net/news/news-list.htm")

target = datetime.now().day - 3
Select(browser.find_element_by_id('selD')).select_by_value(str(target))
browser.find_element_by_id('button').click()

In [68]:
# 每個兩秒鐘自動往下滑
for i in range(40):
    time.sleep(2)
    browser.execute_script("window.scrollTo(0, 25000);")


In [69]:
html_source = browser.page_source
soup = BeautifulSoup(html_source, "html5lib")

for d in soup.find(class_="part_list_2").find_all('h3'):
    target_time = datetime.strptime(d.find(class_="date").text, fmt)
    if target_time.date().day == target:
        if 15 <= target_time.hour <= 17:
            print(d.find(class_="date").text, d.find_all('a')[-1].text)

2020/01/28 17:55 他想引酒醉女友注意「假裝上吊」　隔天女友睜眼驚見吊屍…淚崩：我真的睡著
2020/01/28 17:51 15年來首見！寒流發威讓屏東北大武山下雪了
2020/01/28 17:45 世界最長！平潭公鐵兩用跨海大橋　今年加入「京台高鐵」路線
2020/01/28 17:45 中信金插旗百貨影城　台中北屯洲際棒球場房市再起高峰
2020/01/28 17:45 玩家用積木造「樂高太空梭」！掛氣球衝上35000公尺高空　拍下大氣層美景
2020/01/28 17:44 「環保春聯」一眼看出貼4年！「5個大X」網笑噴：集滿十二生肖送禮物？
2020/01/28 17:43 澳網／女雙、混雙皆告捷　詹詠然一日兩勝
2020/01/28 17:41 出國生病別硬撐！「檢附單據」健保可退　門診單次可拿971元
2020/01/28 17:36 除夕爆血休克度過危險期！Keanna貼狂野工作照大解放...越暗的地方我越亮
2020/01/28 17:35 初四返工車潮現！國5北上一早開塞　北上多路段車速30公里↓
2020/01/28 17:33 嘉義嘉樂福觀光夜市佔地6千坪　美食吃飽飽還可運動競技
2020/01/28 17:32 墨鏡戴起來！超帥強大氣場草泥馬　親自示範原來牠們也會做這件事...
2020/01/28 17:31 川普與土耳其總統通電話　討論「敘利亞、利比亞」情勢
2020/01/28 17:30 唐田英里佳「清純心機片」瘋傳！　踩到裙子驚呼往前撲…胸口貼上東出昌大
2020/01/28 17:30 2019必追陸劇盤點！　林依晨「睽違5年回歸古裝」挑戰乞丐
2020/01/28 17:25 汽機車對撞騎士被壓在車底下　救出已無呼吸心跳
2020/01/28 17:25 美阿拉巴馬州湖濱碼頭大火　「烈焰燒整晚」35船燒剩骨架…釀8死
2020/01/28 17:24 民進黨嘉義感恩餐會　蔡英文：民進黨執政逾20年陳明文貢獻最多
2020/01/28 17:19 外交部：ICAO迎合對岸蠻橫作風　喪失應有專業中立
2020/01/28 17:12 更新／武漢肺炎全球疫情一次看！日本增至6例　「載過武漢團司機」本地感染
2020/01/28 17:10 武漢肺炎確診增至8例！香港啟動對湖北防疫管制　一天禁510陸人入境
2020/