# Ettoday 網路爬蟲實作練習


* 能夠利用 Request + BeatifulSour 撰寫爬蟲，並存放到合適的資料結構


## 作業目標

根據範例 ，完成以下問題：

* ① 取出今天所有的發文
* ② 如果想要依照類別分類，怎麼儲存會比較好？
* ③ 哪一個類別的文章最多




### ① 取出今天所有的發文

In [1]:
import requests
from bs4 import BeautifulSoup
from datetime import datetime

today = datetime.strftime(datetime.now(), "%Y/%m/%d")

url = "https://www.ettoday.net/news/news-list.htm"

rfg = requests.get(url)

rfg.encoding = "utf-8"

soup = BeautifulSoup(rfg.text, "html5lib")

for post in soup.find(class_= "part_list_2").find_all('h3'):
    post_time = datetime.strptime(post.span.string, "%Y/%m/%d %H:%M")
    
    if (datetime.strftime(post_time, "%Y/%m/%d") == today):
        print(post.span.string, post.em.string, post.a.string)

2020/03/09 03:19 國際 防堵惡意囤積口罩！日商「機靈措施」讓萬人讚爆　他一看笑了：還是有破綻
2020/03/09 02:32 體育 HBL／冠軍隊風光　能仁個人獎大贏家
2020/03/09 02:22 地方 就是今晚「停水9小時」！員林斷管改接施工　1.3萬戶夜間用水停止
2020/03/09 02:21 政治 無薪假改名「減班休息」　勞動部拍板定調了
2020/03/09 02:07 體育 黃筱雯9日晚間11點出賽　獲勝就前進東奧
2020/03/09 01:42 生活 「GQ 國際紳仕月」首移台南　黃偉哲一身俐落西裝出席紳仕學堂
2020/03/09 01:40 社會 三峽陣頭不爽開打互尻！　砸中警察頭「縫5針」血濺超商
2020/03/09 01:39 大陸 WHO專家感動喊話：全世界都欠了武漢人民一份情
2020/03/09 01:33 體育 9日迎戰最強對手尹軍花　林郁婷獲勝就拿奧運門票
2020/03/09 01:06 國際 不斷更新／義大利陸軍參謀長感染　紐約一夜新增16例確診破百
2020/03/09 01:01 國際 搶不到衛生紙！3澳洲女超市開打…攔都攔不住
2020/03/09 01:00 體育 None
2020/03/09 00:52 大陸 女富豪家族確診+1！「5人染疫1犬弱陽性」　她一出院...女傭人被通知中鏢
2020/03/09 00:46 國際 台灣人在菲律賓確診！曾和感染台男接觸…3天後檢驗呈陽性
2020/03/09 00:44 國際 中鏢韓男自我隔離「每天寫日記」！25天超強自制力　連媽媽都沒事
2020/03/09 00:37 大陸 上海研發新冠人源細胞疫苗　科學家親自試驗第一針
2020/03/09 00:32 體育 獲奧運門票吃定心丸　陳念琴拚冠軍搶奧運種子序
2020/03/09 00:30 影劇 張藝興光上身打拳擊「驚人背肌」炸出！女粉暴動：口水直流
2020/03/09 00:27 影劇 None
2020/03/09 00:18 體育 HBL／無觀眾的加油聲　罐頭音效有球迷的祝福
2020/03/09 00:12 體育 None
2020/03/09 00:12 軍武 美國硬核大戰北極硬殼　2核潛艦「破冰」上浮展現軍事肌肉
2020/03/09 00:03 時尚 38歲宋慧喬肌膚好到炸　整形

### ② 如果想要依照類別分類，怎麼儲存會比較好？

In [2]:
post_dict = dict()

for post in soup.find(class_ = "part_list_2").find_all("h3"):
    post_time = datetime.strptime(post.span.string, "%Y/%m/%d %H:%M")
    
    if (datetime.strftime(post_time, "%Y/%m/%d") == today):
        try:
            post_dict[post.em.string].append({"日期" : post.span.string, "標題" : post.a.string})     
        except KeyError:
            post_dict[post.em.string] = [{"日期" : post.span.string, "標題" : post.a.string}]

post_dict

{'國際': [{'日期': '2020/03/09 03:19',
   '標題': '防堵惡意囤積口罩！日商「機靈措施」讓萬人讚爆\u3000他一看笑了：還是有破綻'},
  {'日期': '2020/03/09 01:06', '標題': '不斷更新／義大利陸軍參謀長感染\u3000紐約一夜新增16例確診破百'},
  {'日期': '2020/03/09 01:01', '標題': '搶不到衛生紙！3澳洲女超市開打…攔都攔不住'},
  {'日期': '2020/03/09 00:46', '標題': '台灣人在菲律賓確診！曾和感染台男接觸…3天後檢驗呈陽性'},
  {'日期': '2020/03/09 00:44', '標題': '中鏢韓男自我隔離「每天寫日記」！25天超強自制力\u3000連媽媽都沒事'}],
 '體育': [{'日期': '2020/03/09 02:32', '標題': 'HBL／冠軍隊風光\u3000能仁個人獎大贏家'},
  {'日期': '2020/03/09 02:07', '標題': '黃筱雯9日晚間11點出賽\u3000獲勝就前進東奧'},
  {'日期': '2020/03/09 01:33', '標題': '9日迎戰最強對手尹軍花\u3000林郁婷獲勝就拿奧運門票'},
  {'日期': '2020/03/09 01:00', '標題': None},
  {'日期': '2020/03/09 00:32', '標題': '獲奧運門票吃定心丸\u3000陳念琴拚冠軍搶奧運種子序'},
  {'日期': '2020/03/09 00:18', '標題': 'HBL／無觀眾的加油聲\u3000罐頭音效有球迷的祝福'},
  {'日期': '2020/03/09 00:12', '標題': None},
  {'日期': '2020/03/09 00:00', '標題': 'HBL／無緣冠軍彭柏樺飆淚\u3000自信學弟下屆奪冠'}],
 '地方': [{'日期': '2020/03/09 02:22',
   '標題': '就是今晚「停水9小時」！員林斷管改接施工\u30001.3萬戶夜間用水停止'}],
 '政治': [{'日期': '2020/03/09 02:21', '標題': '無薪假改名「減班休息」\u300

### ③ 哪一個類別的文章最多

In [3]:
max_post_type = ""
max_post_count = 0

for key, value in post_dict.items():
    print(f"{key}類型的文章共有 {len(value)} 筆")
    
    if (len(value) > max_post_count):
        max_post_type = key
        max_post_count = len(value)

print()
        
if (max_post_type != ""):
    print(f"{max_post_type}類型的文章筆數最多")

國際類型的文章共有 5 筆
體育類型的文章共有 8 筆
地方類型的文章共有 1 筆
政治類型的文章共有 1 筆
生活類型的文章共有 1 筆
社會類型的文章共有 1 筆
大陸類型的文章共有 3 筆
影劇類型的文章共有 2 筆
軍武類型的文章共有 1 筆
時尚類型的文章共有 1 筆
新奇類型的文章共有 1 筆

體育類型的文章筆數最多
