# Ettoday 網路爬蟲實作練習


* 能夠利用 Request + BeatifulSour 撰寫爬蟲，並存放到合適的資料結構


## 作業目標

根據範例 ，完成以下問題：

* ① 取出今天所有的發文
* ② 如果想要依照類別分類，怎麼儲存會比較好？
* ③ 哪一個類別的文章最多




### ① 取出今天所有的發文

In [1]:
import requests
from bs4 import BeautifulSoup

url = 'https://www.ettoday.net/news/news-list.htm'
try:
    resp = requests.get(url, 'html5lib')
    
    if resp.status_code != 200:
        print('Failed to load website.')
    
except Exception as e:
    print(e)
    
soup = BeautifulSoup(resp.text)


In [2]:
from datetime import datetime

today = datetime.strftime(datetime.now(), '%Y/%m/%d')
print(today)

2020/05/21


In [3]:
lists = soup.find('div', 'part_list_2').find_all('h3')

for h3 in lists:
    time = h3.find(class_='date').text
    
    if today not in time:
        continue
    
    print(h3.find(class_="date").text, h3.find_all('a')[-1].text)
    #print(h3.find('em').text)
    

2020/05/21 15:47 美國主辦「印太陸軍視訊會議」邀26國與會　我國陸軍少將謝宗保出席
2020/05/21 15:44 防疫五月天赴墾丁遇大雨恐生變？陳時中：下雨還是要過日子
2020/05/21 15:43 人類首次抓到行星誕生剎那「黃色扭曲點」　成果來自中研院3年前發現
2020/05/21 15:43 「一國兩制」行穩致遠！　汪洋 ：深化和台灣各界人士交流交往
2020/05/21 15:42 周揚青PO影片「10字正面回應」　網分析：背景歌是復合關鍵！
2020/05/21 15:41 台南虐殺女童案薛姓主謀「思覺失調」求減刑　二審駁回仍判無期
2020/05/21 15:40 警所設置緊急救護站　新化警獲贈AED心臟電擊器
2020/05/21 15:39 韋禮安淚斷11年情...收「飛機杯」助宣洩！嗨喊：這禮物不錯
2020/05/21 15:39 獼猴破四弟懷中小橘貓健康長大　溫柔的牠卻背負「變態罵名」消失
2020/05/21 15:38 放生後「才知男友30間房收租」　女友求復合！友一看地點嗆：貧民窟
2020/05/21 15:37 Facebook「抗疫」再一發　攜台北市美國商會共辦企業對策講座
2020/05/21 15:37 澳洲申辦2032年奧運　議員痛批「疫情爆發還砸數十億美金超蠢」
2020/05/21 15:35 基隆老屋再發現！澡堂老屋「貴賔池」、仙洞民房神秘面貌曝光
2020/05/21 15:35 通通喝得到爆量芒果丁！大苑子、鮮茶道超邪惡「芒果聖品」消暑登場
2020/05/21 15:34 《正義聯盟》導演剪輯版發行！　砸6億「4小時一刀不剪」…網敲碗2年瘋了
2020/05/21 15:33 《航海王》影集開拍時間確定！　製作人透露「選角進度」取景地曝光
2020/05/21 15:32 Gary兒害怕就喊「黃賢鎮」　電到Stray Kids鉉辰⋯成粉了！
2020/05/21 15:31 環團批蔡英文承諾修《礦業法》跳票　跨黨派立委憂心籲速送案
2020/05/21 15:30 獨／雲林洗門風媳婦大起底　夫入獄…19歲的她守不住「棄豪門」愛上臨時工
2020/05/21 15:28 慈濟辦「我願蔬食為災疫祈福」餐會　慰勉南警防疫辛勞
2020/05/21 15:27 租學生宿舍製防塵口罩宣稱「醫療級」　雲

### ② 如果想要依照類別分類，怎麼儲存會比較好？

In [4]:
categories = dict()

for h3 in lists:
    
    tag = h3.find('em').text
    #tag = h3.select('.tag')[0].text
    title = h3.find_all('a')[-1].text
    date = h3.find(class_="date").text
    categories.setdefault(tag, [])
    categories[tag].append({'title' : title,
                          'date' : date})
    

categories

{'政治': [{'title': '美國主辦「印太陸軍視訊會議」邀26國與會\u3000我國陸軍少將謝宗保出席',
   'date': '2020/05/21 15:47'},
  {'title': '罷韓門檻數字曝！韓國瑜真的該擔心了\u3000罷免活動22日起跑...倒數15天\u3000',
   'date': '2020/05/21 15:16'},
  {'title': '蘇貞昌續任閣揆\u3000今晚先宴請第一批民進黨立委', 'date': '2020/05/21 15:13'},
  {'title': '被騙婚？陳佩琪：婚後才知道柯文哲有亞斯伯格症', 'date': '2020/05/21 15:08'},
  {'title': '新冠肺炎衝擊\u3000台北清真寺開齋禮拜節60年來首度停辦', 'date': '2020/05/21 15:04'},
  {'title': '疫情趨緩畢業季到！北市畢典辦理指引\u3000最快明宣布詳細規劃', 'date': '2020/05/21 14:53'},
  {'title': '罷韓開跑...高鐵推大學生快閃優惠\u3000國民黨怒批政治介入要董座出面說明',
   'date': '2020/05/21 14:33'},
  {'title': '總統府遭駭案報告流會\u3000葉毓蘭批：連任後就不把人民放眼裡', 'date': '2020/05/21 14:30'},
  {'title': '甩開宮鬥傳聞\u3000蔡英文首PO同框照合體賴清德、蘇嘉全', 'date': '2020/05/21 14:29'}],
 '生活': [{'title': '防疫五月天赴墾丁遇大雨恐生變？陳時中：下雨還是要過日子', 'date': '2020/05/21 15:44'},
  {'title': '人類首次抓到行星誕生剎那「黃色扭曲點」\u3000成果來自中研院3年前發現',
   'date': '2020/05/21 15:43'},
  {'title': '環團批蔡英文承諾修《礦業法》跳票\u3000跨黨派立委憂心籲速送案', 'date': '2020/05/21 15:31'},
  {'title': '電動滑板車將「有條件」開放上路\u3000地方可公告使用路段、

### ③ 哪一個類別的文章最多

In [15]:
max_category = ''
max_count = 0


for key in categories.keys():
    count = len(categories[key])

    if count > max_count:
        max_count = count
        max_category = key
    
    print(key, count)

print('***************************************')
print(f'最多文章的類別: {max_category}')
print(f'文章數量: {max_count}')


政治 9
生活 22
大陸 3
影劇 16
社會 7
地方 4
寵物動物 5
房產雲 6
財經 6
體育 4
旅遊 5
3C家電 2
時尚 1
ET車雲 1
消費 2
保險 1
國際 5
健康 1
***************************************
最多文章的類別: 生活
文章數量: 22
