# Ettoday 網路爬蟲實作練習


* 能夠利用 Request + BeatifulSour 撰寫爬蟲，並存放到合適的資料結構


## 作業目標

根據範例 ，完成以下問題：

* ① 取出今天所有的發文
* ② 如果想要依照類別分類，怎麼儲存會比較好？
* ③ 哪一個類別的文章最多




### ① 取出今天所有的發文

In [1]:
import requests
from bs4 import BeautifulSoup

In [2]:
#新聞總覽，按照時間DESC
#實際上發現這樣抓不到今天全部的，因為頁面沒有往下滑會抓不到
#查了一下發現可以用Selenium達成爬取局部動態更新，但這裡先以第一頁為主
url = "https://www.ettoday.net/news/news-list-2021-12-13-0.htm"
response = requests.get(url=url)
result = BeautifulSoup(response.text)

In [3]:
#時間、分類、標題位在<div class="part_list_2"><h3>
#時間：<span class="date">
#分類：
for title_info in result.find(class_="part_list_2").find_all("h3"):
    print(title_info.find(class_="date").text)
    print(title_info.find(class_="tag").text)
    print(title_info.a.text)
    print()
    

2021/12/13 14:16
寵物動物
以前不敢主動接近　虎斑來家8個月躺媽腿「抱臉入睡」…新成就get

2021/12/13 14:14
大陸
澳門增設「國安事務、技術顧問」　明起生效

2021/12/13 14:11
生活
中研院女確診「居家隔離增為106人」！最新採檢結果出爐

2021/12/13 14:07
生活
快訊／指揮中心宣布：二級警戒延長到12／27

2021/12/13 14:07
生活
快訊／今再增5例境外移入「全突破性感染」！　3廠牌曝

2021/12/13 14:07
房產雲
哥哥婚後住家裡！兩寶「跳壞沙發」自私嫂不負責：我們搬家要錢

2021/12/13 14:06
社會
獨／開拍！鄧佳華喊「想趕快體驗」　女主角苡若嘆：愧對家人

2021/12/13 14:05
生活
第18輪有「BNT第一劑、AZ混打BNT」　12／14開放預約！

2021/12/13 14:05
ET車雲
首度用911 GT當特仕車　保時捷25輛「澳洲70週年紀念版」逼近千萬

2021/12/13 14:05
生活
30歲開始走大運！4生肖「財運飆升+桃花旺」　屬虎能賺到第1桶金

2021/12/13 14:03
地方
台電台南區處娃娃撲滿回娘家　二手義賣相助家扶中心

2021/12/13 14:01
社會
騎腳踏車「轉彎前沒示意」　男被撞成植物人再遭起訴

2021/12/13 14:01
生活
快訊／今本土+0！增5例境外移入

2021/12/13 14:00
財經
鴻海加入Netflix合作計畫！　旗下工業富聯OTT產品全球出貨量逾6000萬

2021/12/13 13:54
生活
前台大醫點名「這族群快打第3劑」：開始面臨Delta和Omicron攻擊！

2021/12/13 13:51
生活
電鍋旁神秘「鐵鉤」用途曝　網驚呆：活了40年才知道！

2021/12/13 13:49
財經
換裝置怕LINE紀錄刪除　官方給解答：「最多登入四裝置」

2021/12/13 13:49
社會
高醫大港生發信嫌老師英文差　遭求償50萬結果出爐

2021/12/13 13:49
寵物動物
公廁驚見「尖嘴長脖客」準備蹲馬桶　他一開門傳巨響...結局超暖

2021/12/13 13:43
社會
影／租瑪莎拉蒂慘失控自撞！修保險桿就要40萬　

### ② 如果想要依照類別分類，怎麼儲存會比較好？

In [4]:
#使用dictionary最直觀，以類別作為KEY來儲存
#dict.setdefault(key, default=None)

news_dict = {}
for title_info in result.find(class_="part_list_2").find_all("h3"):
    date = title_info.find(class_="date").text
    tag = title_info.find(class_="tag").text
    title = title_info.a.text

    #以tag作為key，將日期與標題append進去
    news_dict.setdefault(tag, [])
    news_dict[tag].append({"date":date, "title":title})

In [5]:
news_dict

{'寵物動物': [{'date': '2021/12/13 14:16',
   'title': '以前不敢主動接近\u3000虎斑來家8個月躺媽腿「抱臉入睡」…新成就get'},
  {'date': '2021/12/13 13:49',
   'title': '公廁驚見「尖嘴長脖客」準備蹲馬桶\u3000他一開門傳巨響...結局超暖'},
  {'date': '2021/12/13 13:22', 'title': '激萌「水豚」一屁股坐進泡澡桶直接滿出來\u3000萌翻網友：只能泡半身'},
  {'date': '2021/12/13 12:19', 'title': '黃金倉鼠被「睡神附身」\u3000窩馬麻手上睡到倒頭栽變永澤頭'},
  {'date': '2021/12/13 12:17', 'title': '哈士奇頭擠出車窗「啃擋雨板」路人圍觀\u3000網笑：奴才回來剩輪胎'}],
 '大陸': [{'date': '2021/12/13 14:14', 'title': '澳門增設「國安事務、技術顧問」\u3000明起生效'},
  {'date': '2021/12/13 13:02', 'title': 'IPO到一半被制裁！商湯科技「緊急喊卡」退回申請股款'},
  {'date': '2021/12/13 12:14',
   'title': '足展11公分「捕鳥蛛」闖關被攔\u3000同海關11月還查到4公尺眼鏡王蛇'}],
 '生活': [{'date': '2021/12/13 14:11', 'title': '中研院女確診「居家隔離增為106人」！最新採檢結果出爐'},
  {'date': '2021/12/13 14:07', 'title': '快訊／指揮中心宣布：二級警戒延長到12／27'},
  {'date': '2021/12/13 14:07', 'title': '快訊／今再增5例境外移入「全突破性感染」！\u30003廠牌曝'},
  {'date': '2021/12/13 14:05',
   'title': '第18輪有「BNT第一劑、AZ混打BNT」\u300012／14開放預約！'},
  {'date': '2021/12/13 14:05',
   'title': '30歲開

### ③ 哪一個類別的文章最多

In [6]:
#指定長度的位置
def sort_by_num(arr):
    return arr[1]

tag_num = []
for tag in news_dict:
    tag_num.append([tag, len(news_dict[tag])])

tag_num.sort(key=sort_by_num, reverse=True)
for tag in tag_num:
    print(tag)

['社會', 16]
['生活', 15]
['財經', 13]
['影劇', 10]
['國際', 7]
['房產雲', 6]
['寵物動物', 5]
['政治', 5]
['地方', 4]
['大陸', 3]
['時尚', 3]
['ET車雲', 2]
['體育', 2]
['新奇', 2]
['消費', 2]
['旅遊', 2]
['遊戲', 1]
['論壇', 1]
['開箱雲', 1]
