# Ettoday 網路爬蟲實作練習


* 能夠利用 Request + BeatifulSour 撰寫爬蟲，並存放到合適的資料結構


## 作業目標

根據範例：

1. 取出今天所有的新聞
2. 取出現在時間兩小時內的新聞
3. 根據範例，取出三天前下午三點到五點的新聞

## 1. 取出今天所有的新聞

In [1]:
import requests
import time
from bs4 import BeautifulSoup
from selenium import webdriver

In [2]:
browser = webdriver.Chrome(executable_path="./Data/chromedriver")
browser.get("https://www.ettoday.net/news/news-list-2021-12-24-0.htm")

In [3]:
# https://developer.mozilla.org/zh-CN/docs/Web/API/Window/scrollTo
# window.scrollTo(x-coord,y-coord)
# window.scrollTo(options)
# x-coord 橫軸座標。
# y-coord 縱軸座標。
# options 包含三個屬性:
#   top: 等同於  y-coord
#   left: 等同於  x-coord
#   behavior:
#       類型String，表示滾動行為
#       支援參數: smooth(平滑滾動), instant(瞬間滾動), 預設值auto
for i in range(50):
    time.sleep(1.5)
    browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")

In [4]:
html = browser.page_source
soup = BeautifulSoup(html, "html5lib")

In [5]:
import re
# \s: 符合任何空白字元
# \d: 符合一個數字字元
# +: 符合前面的子表達式一次或多次

regex = "2021/12/24\s\d+:\d+"
pattern = re.compile(regex)

for i in soup.find(class_="part_list_2").find_all("h3"):
    string = i.find(class_="date").text +" "+ i.a.text
    if re.match(pattern, string):
        print(string)

2021/12/24 15:24 明天開吃！「大師兄銷魂麵舖9號店」插旗新莊了　連7天優惠一次看
2021/12/24 15:23 快訊／BTS成員SUGA確診新冠肺炎！　美國開唱「返韓隔離中」
2021/12/24 15:23 12星座男「想娶你」的舉動！牡羊霸氣宣示主權、水瓶真心掏給你
2021/12/24 15:19 王雪紅喊「加薪是必然的」　威盛宏達電員工敲碗等
2021/12/24 15:19 科技大廠高管秘戀已婚女！被分手苦求復合　竟拿性愛照學林秉樞
2021/12/24 15:17 大人氣奶茶色就是信仰！仙氣系春妝降臨　當眼影、頰彩都可以的多功能彩棒
2021/12/24 15:14 抽中一張賺7萬！洋基工程申購共湧近逾37萬筆　中籤率僅0.39％
2021/12/24 15:14 盧彥勳退休轉幕後　網球學校再+1最快明年6月啟動
2021/12/24 15:13 新冠搶藥大作戰！南韓搶買輝瑞「口服藥」30萬份　拼明年1月底引進
2021/12/24 15:12 台北五星飯店祭「平日出遊」好價　晶華、喜來登新招吸客
2021/12/24 15:06 平安夜刷一波好感！　建商、房仲辦活動找住戶敘舊
2021/12/24 15:05 韓國王牌左投梁玹種旅美不順　4年2.4億回前東家起亞虎
2021/12/24 15:05 繽紛聖誕點亮林內　鄉長張維崢邀鄉親羅漢松光廊秘境探索
2021/12/24 15:05 小學生彎腰洗300雙舊鞋捐助非洲童　他樂喊：希望喜歡我的鞋
2021/12/24 15:05 數十年磨一劍　NASA韋伯太空望遠鏡預計耶誕升空
2021/12/24 15:04 瑪莎惡少囂張詭辯「隨便亂打」　目擊者還原現場：倒地還猛踹頭
2021/12/24 15:04 關山警察分局歡樂耶誕　 「馬力歐兄弟」帶小天使報佳音
2021/12/24 15:02 劉櫂豪聯手莊瑞雄台東屏東農特產推廣  行銷鳳梨釋迦及蓮霧
2021/12/24 15:01 爆乳鋼琴女神「YouTube頻道保住了」！　粉絲激動：世界和平
2021/12/24 15:00 陳美鳳香奈兒帽子一戴30年！　女星大讚「太懂得收藏了」
2021/12/24 15:00 爽吃和牛、北海道干貝！東區頂級「免動手燒烤」　肉質滑嫩太邪惡
2021/12/24 14:59 嚴防「7+7居檢」破口！三

## 2. 取出現在時間兩小時內的新聞

In [6]:
# 以2021/12/24 14:XX 為時間
regex_2h = "2021/12/24\s1[2-4]:\d+"
pattern = re.compile(regex_2h)

for i in soup.find(class_="part_list_2").find_all("h3"):
    string = i.find(class_="date").text +" "+ i.a.text
    if re.match(pattern, string):
        print(string)

browser.close()

2021/12/24 14:59 嚴防「7+7居檢」破口！三大注意事項曝光　防疫醫師：比照防疫旅宿
2021/12/24 14:58 2021年無印良品「保養品熱賣TOP 5」　4款單價不到百元，好用入手又輕鬆
2021/12/24 14:58 楓之谷韓版推「NEXON NOW」　即時公開轉蛋內容機率
2021/12/24 14:57 豐田國中打造台東第1座黑盒子劇場今啟用
2021/12/24 14:57 拜登簽署法案禁新疆產品　陸外交部：美國才是強迫勞動重災區
2021/12/24 14:56 揭新北環保局惡霸行徑　資深媒體人怒tag侯友宜：無法無天了！
2021/12/24 14:56 斗六虎年燈會擴大燈區　太平老街8米燈籠海超美
2021/12/24 14:55 勞動基金前10月收益創新高　2022年擴大投資ESG、巴黎協定指數
2021/12/24 14:55 沈富雄指疫情將流感化　陳時中：列為參考、現嚴陣以待
2021/12/24 14:54 基隆漁會正濱大樓修復完工　夜間點燈璀璨亮相超亮麗療癒
2021/12/24 14:54 牛津發表打3劑AZ可抗Omicron　陳時中：下周由專家小組討論
2021/12/24 14:53 元旦領唱國歌挨批洗白！陳時中3點回應「我認為這是個人的榮譽」
2021/12/24 14:52 饒河夜市「店家緊急關閉清消」！指揮中心：可能是境外案例足跡
2021/12/24 14:51 池錫辰奔跑11年「落馬大獎」表情難掩苦澀　「動圖曝光」韓網心疼
2021/12/24 14:48 白髮阿伯推寵物車偷學童書包　辯以為沒人要」…還拿去送朋友
2021/12/24 14:48 直擊／尷尬！時力寫布條抗議多數暴力　手寫錯字「多一橫」
2021/12/24 14:47 黃金店面掛滿求售廣告！德國記者好奇求解...內行曝背後真相
2021/12/24 14:46 專賣夜店學生族！天道盟成員隱身新北　鐵工廠掩護製毒咖啡包
2021/12/24 14:46 積極推動地方有線廣播電視發展　基隆市府獲NCC考核「優等」肯定
2021/12/24 14:45 2歲半萌妹「嘴咬睡衣腳輕踩」　媽一看笑：幹麻學貓哥哥！
2021/12/24 14:45 時力批民進黨「修法當兒戲」　轟挾人數優勢輾壓異見強推竹竹合
2021/12/24 14:45 補教狼

## 3. 根據範例，取出三天前下午三點到五點的新聞

In [7]:
# 2021/12/24 三天前 = 2021/12/21
browser = webdriver.Chrome(executable_path="./Data/chromedriver")
browser.get("https://www.ettoday.net/news/news-list-2021-12-21-0.htm")

In [8]:
for i in range(50):
    time.sleep(1.5)
    browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")

In [9]:
html = browser.page_source
soup = BeautifulSoup(html, "html5lib")

In [10]:
regex_1221 = "2021/12/21\s1[5-7]:\d+"
pattern = re.compile(regex_1221)

for i in soup.find(class_="part_list_2").find_all("h3"):
    string = i.find(class_="date").text +" "+ i.a.text
    if re.match(pattern, string):
        print(string)


browser.close()

2021/12/21 17:58 王力宏《康熙》示範「搭訕招數」！　蔡康永一看：他不是很陽光
2021/12/21 17:57 張娜拉視訊一半「驚喜嘉賓」吃鳳梨酥入鏡！曝鄭容和私下互動
2021/12/21 17:55 中華女足明年1月出發印度申請專案打第3劑　移地訓練仍待敲定
2021/12/21 17:54 下課怎麼沒回家？公雞「穿毛衣」守在門口緊盯　走路背影超像老人
2021/12/21 17:53 未達規定打席！松田宣浩減薪68 ％　軟銀隊史降薪最多
2021/12/21 17:53 朴槿惠胞妹宣布參選南韓總統！誓言推修憲「兩韓統一」　曾涉詐欺
2021/12/21 17:52 愛犬疼如孫女卻遭撞死　僅判賠3萬！美語老師要釋憲「寵物非物」
2021/12/21 17:51 排隊買人氣章魚燒！他PO網炫耀...下秒路人竟「插1顆吃掉」原因扯爆
2021/12/21 17:50 蔡正元稱受邀演說被取消　文總聲明打臉：從未邀他演講
2021/12/21 17:49 北市議會明表決覆議！國民黨團要「錄影防跑票」　柯文哲：帶頭違法
2021/12/21 17:49 唐肇廷複數年約卻在60人之外 　統一獅可拒絕他隊網羅
2021/12/21 17:48 影／台61線聯結車自撞護欄車頭掉落　疑天雨濕滑釀禍駕駛僅擦傷
2021/12/21 17:47 松田聖子雙眼哭腫現身！淚崩捧愛女牌位「一家三口合照」全場哭了
2021/12/21 17:46 「含羞草」草爺被疑「交往男友人」　他衝上台強吻：老婆每晚查勤
2021/12/21 17:46 口袋不深想裝潢「找統包還設計師？」　神人1比喻秒解
2021/12/21 17:43 日本7100萬片「安倍布口罩」發不出去！倉庫囤1年　15%都是不良品
2021/12/21 17:40 北市議會明表決重發敬老金　藍綠黨團祭甲動防跑票
2021/12/21 17:40 女星遭罵「露胸癖」氣炸回嗆怒告！　法院判決網傻眼：不能罵回去？
2021/12/21 17:40 不滿遭電擊還逼下跪　高雄男「為了3千元」砍死債主遭重判
2021/12/21 17:40 免費開放37天！屏東「迪士尼彩繪稻田」1／22登場　看得到超Q三眼怪
2021/12/21 17:38 推動優質長照服務　嘉義縣洪文芳獲金點獎肯定
2021/12/21 17:38 純網