# Ettoday 網路爬蟲實作練習


* 能夠利用 Request + BeatifulSour 撰寫爬蟲，並存放到合適的資料結構


## 作業目標

根據範例 ，完成以下問題：

* ① 取出今天所有的發文
* ② 如果想要依照類別分類，怎麼儲存會比較好？
* ③ 哪一個類別的文章最多




### ① 取出今天所有的發文

In [1]:
import requests
from bs4 import BeautifulSoup

url = 'https://www.ettoday.net/news/news-list.htm'
r = requests.get(url)

soup = BeautifulSoup(r.text)

for d in soup.find(class_='part_list_2').find_all('h3'):
    print(d.find(class_='date').text, d.find('a').text)

2024/06/05 13:27 AI大爆發！台灣要思考「能否環保發電」　童子賢：電力需求要重估
2024/06/05 13:27 Tank消失歌壇十年認離罕病　「暴瘦剩57kg」近照曝光了！
2024/06/05 13:27 高雄也要搶輝達！陳其邁招手「已做好準備」　曝3優勢再送3帆船席
2024/06/05 13:20 南韓國情院：發現北韓拆除兩韓跨境鐵路跡象　密切關注中
2024/06/05 13:20 于北辰沒收到黃埔百年校慶邀請函　嘆：我有背叛中華民國？
2024/06/05 13:19 彰化再伸援手！副議長率隊傳愛　親送2萬顆當地粽挺花蓮
2024/06/05 13:18 花蓮推動綠色辦公　2天3場說明會宣示5大指標
2024/06/05 13:16 參加兒畢典！撞斷消防栓水柱狂噴　高雄老實男報警：抱歉浪費水
2024/06/05 13:15 全聯「雞腿排肉切片」年銷316萬盒！AI產線曝光　年中慶下殺優惠
2024/06/05 13:15 曝朱立倫喊「花東三法已被黑」　李彥秀：尚未有共識不硬推
2024/06/05 13:13 離譜畫面！韓小3男童「甩副校長5巴掌」　恐龍媽趕來跟著打班導
2024/06/05 13:12 長效鮮乳是什麼？「乳製品差異」一次看　專家：保久乳沒有防腐劑
2024/06/05 13:09 AI題材旺　股王信驊漲335元刷4095新天價
2024/06/05 13:07 受反核人士指教與建議　童子賢：正視「能源政策議題」是好事
2024/06/05 13:06 街頭遭青少年圍毆暴打！　孕婦懷胎2周「肚被猛踹」孩子沒了
2024/06/05 13:05 「非常泰」青蔥、「祥和蔬食」九層塔農藥超標！北市揪13件蔬果違規
2024/06/05 13:04 郵輪靠港旅客上看80萬　航港局放寬規定找人上船工作
2024/06/05 13:04 還沒在一起「沒幹嘛就噴3000元」　單身男崩潰：交女友這麼貴
2024/06/05 13:02 史丹佛AI團隊抄襲中國清華系大模型！　作者道歉：撤下Llama3-V
2024/06/05 13:01 舒華見面會遭公開詛咒「跳樓」！　粉絲見影片氣到哭…主辦回應了
2024/06/05 13:01 飯店洗澡一半「房務帶1男闖入」　女客氣索賠2萬…業者拒絕：太貴
2024/06/05 12:57 烏克蘭

### ② 如果想要依照類別分類，怎麼儲存會比較好？

In [2]:
# 儲存為JSON格式
import json

res = {}
for d in soup.find(class_='part_list_2').find_all('h3'):
    date = d.find(class_="date").text
    title = d.find('a').text
#     tag = d.find(class_='tag').text
    tag = d.select('.tag')[0].text
    res.setdefault(tag, [])
    res[tag].append({
        'title': title,
        'date': date
    })
json_data = json.dumps(res, ensure_ascii=False, indent=2)
print(json_data)

{
  "財經": [
    {
      "title": "AI大爆發！台灣要思考「能否環保發電」　童子賢：電力需求要重估",
      "date": "2024/06/05 13:27"
    },
    {
      "title": "高雄也要搶輝達！陳其邁招手「已做好準備」　曝3優勢再送3帆船席",
      "date": "2024/06/05 13:27"
    },
    {
      "title": "AI題材旺　股王信驊漲335元刷4095新天價",
      "date": "2024/06/05 13:09"
    },
    {
      "title": "受反核人士指教與建議　童子賢：正視「能源政策議題」是好事",
      "date": "2024/06/05 13:07"
    },
    {
      "title": "IEAT與紐西蘭貿易發展中心攜手　探索台紐未來新商機",
      "date": "2024/06/05 12:34"
    },
    {
      "title": "AI弄太強要控制人類？　黃仁勳大喊「當然不會」",
      "date": "2024/06/05 12:21"
    },
    {
      "title": "00918配息0.8元！年化配息率衝12%　投資人可在6／18前買入參與",
      "date": "2024/06/05 12:03"
    }
  ],
  "影劇": [
    {
      "title": "Tank消失歌壇十年認離罕病　「暴瘦剩57kg」近照曝光了！",
      "date": "2024/06/05 13:27"
    },
    {
      "title": "舒華見面會遭公開詛咒「跳樓」！　粉絲見影片氣到哭…主辦回應了",
      "date": "2024/06/05 13:01"
    },
    {
      "title": "84歲陳淑芳說英文也通！從影一甲子開金口：我OK啦！　赴日為台爭光",
      "date": "2024/06/05 12:57"
    },
    {
      "title": "王一博「慘變視帝遺珠」

### ③ 哪一個類別的文章最多

In [3]:
data = []
for k, v in res.items():
    data.append((k, len(v)))

for d in sorted(data, key=lambda x: x[1], reverse=True):
    print(d[0], d[1])

生活 17
社會 15
政治 12
國際 11
影劇 8
財經 7
大陸 6
體育 5
寵物動物 4
地方 3
消費 2
軍武 2
時尚 2
健康 1
遊戲 1
房產雲 1
新奇 1
旅遊 1
論壇 1
