# Ettoday 網路爬蟲實作練習


* 能夠利用 Request + BeatifulSour 撰寫爬蟲，並存放到合適的資料結構


## 作業目標

根據範例 ，完成以下問題：

* ① 取出今天所有的發文
* ② 如果想要依照類別分類，怎麼儲存會比較好？
* ③ 哪一個類別的文章最多




### ① 取出今天所有的發文

In [1]:
import requests
from bs4 import BeautifulSoup

url = 'https://www.ettoday.net/news/news-list.htm'
try:
    resp = requests.get(url, 'html5lib')
    
    if resp.status_code != 200:
        print('Failed to load website.')
    
except Exception as e:
    print(e)
    
soup = BeautifulSoup(resp.text)


In [2]:
from datetime import datetime

today = datetime.strftime(datetime.now(), '%Y/%m/%d')
print(today)

2020/05/21


In [3]:
lists = soup.find('div', 'part_list_2').find_all('h3')

for h3 in lists:
    time = h3.find(class_='date').text
    
    if today not in time:
        continue
    
    print(h3.find(class_="date").text, h3.find_all('a')[-1].text)
    #print(h3.find('em').text)
    

2020/05/21 16:06 民進黨兩岸論述反覆？高虹安：破壞政黨與人民間互信
2020/05/21 16:06 高鐵推大學生快閃優惠遇罷韓投票日　溫玉霞嗆：防疫新生活？騙誰啊？
2020/05/21 16:05 組裝過程LIVE實境秀　保時捷讓買家參與自家愛車誕生過程
2020/05/21 16:05 抱怨總交不到女友　5件讓女人討厭的約會地雷，是否都踩完了？
2020/05/21 16:04 陳佩琪曝柯文哲婚前瞞亞斯伯格症　楊月娥：是騙婚嗎
2020/05/21 16:04 內政部修法！用人更彈性　放寬議員助理人數、刪除月領8萬上限
2020/05/21 16:03 何妤玟離婚5個多月前夫戒指仍戴手中　曝靠諮詢療傷中
2020/05/21 16:03 海象不佳　台東22日往返蘭嶼航線航班全取消
2020/05/21 16:03 桃市新任副市長、教育局長布達　鄭文燦：發揮所長、無縫接軌各項政策
2020/05/21 16:01 「寧願跳樓也不要住負壓」　男持滅火器要砸醫護！檢請求從重量刑
2020/05/21 16:00 永昕生醫接韓國大單　掮客偷跑搶買股票大賺210萬元…涉內線交易遭搜索
2020/05/21 15:59 「不排斥併購其他壽險」中壽總座黃淑芬提4大條件！
2020/05/21 15:59 【廣編】Henry Jacques精品香水　豐富多彩的傳奇
2020/05/21 15:57 《傳說對決》2020APL超級職業聯賽線上開打　14隊爭奪首屆冠軍殊榮
2020/05/21 15:57 吃魯肉飯、走訪墾丁？　沈富雄批陳時中「半吊子解封」
2020/05/21 15:55 賊闖空門盜4百萬木雕藝術品　調出監視器…前同居人幹的！
2020/05/21 15:54 鍋吃一半「老闆假牙」浮出來！神偽裝真相曝　萬人看傻：真的會嚇到
2020/05/21 15:53 曾之喬爆懷孕！辰亦儒謹遵習俗「未滿3個月」不能說…鬆口回應了
2020/05/21 15:53 白天開車載汪一起送貨賺錢　晚間「太累了」忘了牠…自己上樓睡
2020/05/21 15:52 哈日族報復性跨境下單掃日貨　3大卡通動漫搶入「最愛買」Top5排行
2020/05/21 15:51 川普為何憎恨世界衛生組織？
2020/05/21 15:50 快訊／大規模「劇烈豪雨彈」來了！屏東縣宣布

### ② 如果想要依照類別分類，怎麼儲存會比較好？

In [4]:
categories = dict()

for h3 in lists:
    
    tag = h3.find('em').text
    #tag = h3.select('.tag')[0].text
    title = h3.find_all('a')[-1].text
    date = h3.find(class_="date").text
    categories.setdefault(tag, [])
    categories[tag].append({'title' : title,
                          'date' : date})
    

categories

{'政治': [{'title': '民進黨兩岸論述反覆？高虹安：破壞政黨與人民間互信', 'date': '2020/05/21 16:06'},
  {'title': '高鐵推大學生快閃優惠遇罷韓投票日\u3000溫玉霞嗆：防疫新生活？騙誰啊？',
   'date': '2020/05/21 16:06'},
  {'title': '內政部修法！用人更彈性\u3000放寬議員助理人數、刪除月領8萬上限', 'date': '2020/05/21 16:04'},
  {'title': '吃魯肉飯、走訪墾丁？\u3000沈富雄批陳時中「半吊子解封」', 'date': '2020/05/21 15:57'},
  {'title': '美國主辦「印太陸軍視訊會議」邀26國與會\u3000我國陸軍少將謝宗保出席',
   'date': '2020/05/21 15:47'},
  {'title': '罷韓門檻數字曝！韓國瑜真的該擔心了\u3000罷免活動22日起跑...倒數15天\u3000',
   'date': '2020/05/21 15:16'},
  {'title': '蘇貞昌續任閣揆\u3000今晚先宴請第一批民進黨立委', 'date': '2020/05/21 15:13'},
  {'title': '被騙婚？陳佩琪：婚後才知道柯文哲有亞斯伯格症', 'date': '2020/05/21 15:08'},
  {'title': '新冠肺炎衝擊\u3000台北清真寺開齋禮拜節60年來首度停辦', 'date': '2020/05/21 15:04'},
  {'title': '疫情趨緩畢業季到！北市畢典辦理指引\u3000最快明宣布詳細規劃', 'date': '2020/05/21 14:53'}],
 'ET車雲': [{'title': '組裝過程LIVE實境秀\u3000保時捷讓買家參與自家愛車誕生過程',
   'date': '2020/05/21 16:05'},
  {'title': '超越R的R！HONDA CBR250RR仿賽重機開啟「RR」之名', 'date': '2020/05/21 15:05'}],
 '時尚': [{'title': '抱怨總交不到女友\u30005件讓女人討厭的約會地雷，是否都

### ③ 哪一個類別的文章最多

In [12]:
data = []

for k, v in categories.items():
    count = len(v)
    d = dict()
    d['tag'] = k
    d['count'] = count
    
    print(k, count)

print('***************************************')
print(data)
for d in sorted(data, key=lambda d: d['count'])[::-1]:
    print(d)

#print(f'最多文章的類別: {max_category}')
#print(f'文章數量: {max_count}')


政治 10
ET車雲 2
時尚 2
影劇 17
地方 6
社會 9
保險 2
消費 3
電競 1
生活 19
寵物動物 4
國際 5
大陸 2
房產雲 4
財經 5
體育 3
旅遊 5
3C家電 1
***************************************
[]
