# Ettoday 網路爬蟲實作練習


* 能夠利用 Request + BeatifulSour 撰寫爬蟲，並存放到合適的資料結構


## 作業目標

根據範例：

1. 取出今天所有的新聞
2. 取出現在時間兩小時內的新聞
3. 根據範例，取出三天前下午三點到五點的新聞

In [1]:
import time
from pprint import pprint
from bs4 import BeautifulSoup
from selenium import webdriver
from datetime import datetime, timedelta

## 1. 取出今天所有的新聞

In [2]:
browser = webdriver.Chrome(executable_path='../chromedriver')
browser.get("https://www.ettoday.net/news/news-list.htm")

# 滾動到座標點
browser.execute_script("window.scrollTo(0, 10000);")
time.sleep(3)

is_continue = True
while is_continue:
    # 滾動的量
    browser.execute_script("window.scrollBy(0, 1000);")
    time.sleep(1)
    
    html_source = browser.page_source
    soup = BeautifulSoup(html_source, features='lxml')
    
    # 取得目前最後一則新聞的時間，判斷是否該結束
    last_news = soup.find(class_="part_list_2").find_all('h3')[-1]
    last_news_time = last_news.find(class_="date").text
    last_news_time = datetime.strptime(last_news_time, '%Y/%m/%d %H:%M')
    print(last_news_time)
    if last_news_time.date() != datetime.now().date():
        is_continue = False

all_news = []
for d in soup.find(class_="part_list_2").find_all('h3'):
    news_time = d.find(class_="date").text
    news_time = datetime.strptime(news_time, '%Y/%m/%d %H:%M')
    if news_time.date() == datetime.now().date():
        all_news.append(
            {
                'date': news_time,
                'title': d.find_all('a')[-1].text,
                'url': 'https://www.ettoday.net' + d.find_all('a')[-1].get('href')
            }
        )
    else:
        break

# 關閉瀏覽器
browser.quit()

2020-06-25 11:59:00
2020-06-25 11:46:00
2020-06-25 11:25:00
2020-06-25 11:14:00
2020-06-25 11:04:00
2020-06-25 11:00:00
2020-06-25 10:43:00
2020-06-25 10:30:00
2020-06-25 10:22:00
2020-06-25 10:15:00
2020-06-25 10:01:00
2020-06-25 09:37:00
2020-06-25 09:10:00
2020-06-25 08:48:00
2020-06-25 08:19:00
2020-06-25 07:49:00
2020-06-25 07:00:00
2020-06-25 06:28:00
2020-06-25 02:17:00
2020-06-25 01:21:00
2020-06-25 00:36:00
2020-06-24 23:32:00


In [3]:
print(f'到目前為止，今日的新聞共有 {len(all_news)} 則')
print('\n————— 最新的前三則 —————')
pprint(all_news[:3])
print('\n————— 最舊的後三則 —————')
pprint(all_news[-3:])

到目前為止，今日的新聞共有 325 則

————— 最新的前三則 —————
[{'date': datetime.datetime(2020, 6, 25, 14, 41),
  'title': '麥當勞衛生紙長短不一樣\u3000她困擾10多年「實驗破解了」！網笑翻...員工解答',
  'url': 'https://www.ettoday.net/news/20200625/1746276.htm'},
 {'date': datetime.datetime(2020, 6, 25, 14, 40),
  'title': '雲南「27人船隻」深夜翻沉！10人被吞沒失蹤...河灘驚現死屍',
  'url': 'https://www.ettoday.net/news/20200625/1746334.htm'},
 {'date': datetime.datetime(2020, 6, 25, 14, 40),
  'title': '全美單日暴增4.5萬例創新高！西南各州疫情慘烈\u3000專家點破關鍵',
  'url': 'https://www.ettoday.net/news/20200625/1746318.htm'}]

————— 最舊的後三則 —————
[{'date': datetime.datetime(2020, 6, 25, 0, 3),
  'title': '退伍軍人皮膚僵硬、嘴巴萎縮\u3000竟是「硬皮症」上身需換肺',
  'url': 'https://www.ettoday.net/news/20200625/1744355.htm'},
 {'date': datetime.datetime(2020, 6, 25, 0, 2),
  'title': '經常覺得疲勞要小心！錯誤減肥5大徵兆\u3000難怪瘦沒多久又復胖',
  'url': 'https://www.ettoday.net/news/20200625/1737365.htm'},
 {'date': datetime.datetime(2020, 6, 25, 0, 0),
  'title': '815決勝高雄！「藍綠白」完成登記\u3000三腳督激戰50天',
  'url': 'https://www.ettoday.net/news

## 2. 取出現在時間兩小時內的新聞

In [4]:
browser = webdriver.Chrome(executable_path='../chromedriver')
browser.get("https://www.ettoday.net/news/news-list.htm")

# 設定擷取時間
capture_time = datetime.now() - timedelta(hours=2)

# 滾動到座標點
browser.execute_script("window.scrollTo(0, 10000);")
time.sleep(3)

is_continue = True
while is_continue:
    # 滾動的量
    browser.execute_script("window.scrollBy(0, 1000);")
    time.sleep(1)
    
    html_source = browser.page_source
    soup = BeautifulSoup(html_source, features='lxml')
    
    # 取得目前最後一則新聞的時間，判斷是否該結束
    last_news = soup.find(class_="part_list_2").find_all('h3')[-1]
    last_news_time = last_news.find(class_="date").text
    last_news_time = datetime.strptime(last_news_time, '%Y/%m/%d %H:%M')
    print(last_news_time)
    if last_news_time < capture_time:
        is_continue = False

all_news = []
for d in soup.find(class_="part_list_2").find_all('h3'):
    news_time = d.find(class_="date").text
    news_time = datetime.strptime(news_time, '%Y/%m/%d %H:%M')
    if news_time >= capture_time:
        all_news.append(
            {
                'date': news_time,
                'title': d.find_all('a')[-1].text,
                'url': 'https://www.ettoday.net' + d.find_all('a')[-1].get('href')
            }
        )
    else:
        break

# 關閉瀏覽器
browser.quit()

print(f'到現在時間兩小時內的新聞共有 {len(all_news)} 則')
print('\n————— 最新的前三則 —————')
pprint(all_news[:3])
print('\n————— 最舊的後三則 —————')
pprint(all_news[-3:])

2020-06-25 11:59:00
到現在時間兩小時內的新聞共有 81 則

————— 最新的前三則 —————
[{'date': datetime.datetime(2020, 6, 25, 14, 41),
  'title': '麥當勞衛生紙長短不一樣\u3000她困擾10多年「實驗破解了」！網笑翻...員工解答',
  'url': 'https://www.ettoday.net/news/20200625/1746276.htm'},
 {'date': datetime.datetime(2020, 6, 25, 14, 40),
  'title': '雲南「27人船隻」深夜翻沉！10人被吞沒失蹤...河灘驚現死屍',
  'url': 'https://www.ettoday.net/news/20200625/1746334.htm'},
 {'date': datetime.datetime(2020, 6, 25, 14, 40),
  'title': '全美單日暴增4.5萬例創新高！西南各州疫情慘烈\u3000專家點破關鍵',
  'url': 'https://www.ettoday.net/news/20200625/1746318.htm'}]

————— 最舊的後三則 —————
[{'date': datetime.datetime(2020, 6, 25, 12, 49),
  'title': '桃園某國中色教練叫女學生進房\u3000「舒服嗎？」吮胸又指侵！多人受害',
  'url': 'https://www.ettoday.net/news/20200625/1746265.htm'},
 {'date': datetime.datetime(2020, 6, 25, 12, 48),
  'title': '黃珊珊曬合照力挺吳益政：他已準備了20年\u3000是最好的市長人選',
  'url': 'https://www.ettoday.net/news/20200625/1746280.htm'},
 {'date': datetime.datetime(2020, 6, 25, 12, 47),
  'title': '夏天就大露特露吧！「6大身型」超實用背心挑選技巧\u3000無袖也可以很顯瘦',

## 3. 根據範例，取出三天前下午三點到五點的新聞

改變上方查詢時間後，可以看到跳到以下網址，直接透過此網址來爬取。  
"https://www.ettoday.net/news/news-list-2020-6-16-0.htm"
![改變日期](change_date.png)

In [5]:
# 設定擷取時間(三天前下午三點到五點)
_time = datetime.now() - timedelta(days=3)
start_time = datetime(_time.year, _time.month, _time.day, 15, 0, 0)
end_time = datetime(_time.year, _time.month, _time.day, 17, 0, 0)
time_text = start_time.strftime("%Y-%m-%d")
url = f'https://www.ettoday.net/news/news-list-{time_text}-0.htm'

browser = webdriver.Chrome(executable_path='../chromedriver')
browser.get(url)

# 擷取時間
capture_time = datetime.now() - timedelta(hours=2)

# 滾動到座標點
browser.execute_script("window.scrollTo(0, 10000);")
time.sleep(3)

is_continue = True
while is_continue:
    # 滾動的量
    browser.execute_script("window.scrollBy(0, 1000);")
    time.sleep(1)
    
    html_source = browser.page_source
    soup = BeautifulSoup(html_source, features='lxml')
    
    # 取得目前最後一則新聞的時間，判斷是否該結束
    last_news = soup.find(class_="part_list_2").find_all('h3')[-1]
    last_news_time = last_news.find(class_="date").text
    last_news_time = datetime.strptime(last_news_time, '%Y/%m/%d %H:%M')
    print(last_news_time)
    if last_news_time < start_time:
        is_continue = False

all_news = []
for d in soup.find(class_="part_list_2").find_all('h3'):
    news_time = d.find(class_="date").text
    news_time = datetime.strptime(news_time, '%Y/%m/%d %H:%M')
    if (news_time >= start_time) and (news_time <= end_time):
        all_news.append(
            {
                'date': news_time,
                'title': d.find_all('a')[-1].text,
                'url': 'https://www.ettoday.net' + d.find_all('a')[-1].get('href')
            }
        )

# 關閉瀏覽器
browser.quit()

2020-06-22 18:39:00
2020-06-22 18:27:00
2020-06-22 18:20:00
2020-06-22 18:06:00
2020-06-22 17:55:00
2020-06-22 17:42:00
2020-06-22 17:38:00
2020-06-22 17:30:00
2020-06-22 17:14:00
2020-06-22 17:14:00
2020-06-22 17:00:00
2020-06-22 16:42:00
2020-06-22 16:31:00
2020-06-22 16:23:00
2020-06-22 16:23:00
2020-06-22 16:16:00
2020-06-22 16:07:00
2020-06-22 16:01:00
2020-06-22 15:54:00
2020-06-22 15:44:00
2020-06-22 15:36:00
2020-06-22 15:26:00
2020-06-22 15:13:00
2020-06-22 15:00:00
2020-06-22 14:51:00


In [6]:
print(f'三天前下午三點到五點的新聞共有 {len(all_news)} 則')
print('\n————— 最新的前三則 —————')
pprint(all_news[:3])
print('\n————— 最舊的後三則 —————')
pprint(all_news[-3:])

三天前下午三點到五點的新聞共有 125 則

————— 最新的前三則 —————
[{'date': datetime.datetime(2020, 6, 22, 17, 0),
  'title': '英國將取消「社交距離」限制！\u3000酒吧、餐廳「第三階段」恢復營業',
  'url': 'https://www.ettoday.net/news/20200622/1743547.htm'},
 {'date': datetime.datetime(2020, 6, 22, 17, 0),
  'title': '炭火烤香甜多汁！台中超夯百元烤肉飯\u3000料多熱湯免費喝到飽',
  'url': 'https://www.ettoday.net/news/20200622/1741091.htm'},
 {'date': datetime.datetime(2020, 6, 22, 16, 59),
  'title': '5月失業率4.07％\u3000創8年以來同期新高',
  'url': 'https://www.ettoday.net/news/20200622/1743917.htm'}]

————— 最舊的後三則 —————
[{'date': datetime.datetime(2020, 6, 22, 15, 0),
  'title': 'LINE社群上線二／最高支援達5000人\u3000管理員、共同管理員權限看這裡',
  'url': 'https://www.ettoday.net/news/20200622/1743754.htm'},
 {'date': datetime.datetime(2020, 6, 22, 15, 0),
  'title': 'LINE社群上線ㄧ／最快明日上線試營運\u3000用戶首次使用指南跟著做',
  'url': 'https://www.ettoday.net/news/20200622/1743751.htm'},
 {'date': datetime.datetime(2020, 6, 22, 15, 0),
  'title': '抹茶千層濃郁綿密！貓空純白景觀咖啡廳\u3000戶外位眺望山景超療癒',
  'url': 'https://www.ettoday.net/ne