# Ettoday 網路爬蟲實作練習


* 能夠利用 Request + BeatifulSour 撰寫爬蟲，並存放到合適的資料結構


## 作業目標

根據範例 ，完成以下問題：

* ① 取出今天所有的發文
* ② 如果想要依照類別分類，怎麼儲存會比較好？
* ③ 哪一個類別的文章最多




### ① 取出今天所有的發文

In [1]:
import requests
from bs4 import BeautifulSoup

url = 'https://www.ettoday.net/news/news-list-2020-11-27-0.htm'
r = requests.get(url)
soup = BeautifulSoup(r.text, 'html5lib')

#print(soup)

### ② 如果想要依照類別分類，怎麼儲存會比較好？

In [2]:
news = {}

for d in soup.find(class_="part_list_2").find_all('h3'):
    date = d.find(class_='date').text
    tag = d.find(class_='tag').text
    title = d.find_all('a')[-1].text
    #print(date, tag, title)
    
    # setdefault() 函数和 get()方法 类似, 如果键不存在于字典中，将会添加键并将值设为默认值
    news.setdefault(tag, [])
    news[tag].append({
        'date' : date,
        'title' : title
    })
    
print(news)


{'社會': [{'date': '2020/11/27 13:42', 'title': '不爽分手…新北男傳肉照：忘了我「天蠍座」？前女友崩潰：他在報復'}, {'date': '2020/11/27 13:06', 'title': '房產網紅「鎖單百戶」海撈782萬\u3000竹縣開出首張預售屋罰單\u3000'}, {'date': '2020/11/27 12:57', 'title': '快訊／涉吞善款2100萬妻招認！殯葬天王病後首現身...移送北檢！'}, {'date': '2020/11/27 12:48', 'title': '紓困男拒戴口罩硬闖區公所\u3000嗆完8字警秒冒出！下場曝光'}, {'date': '2020/11/27 12:46', 'title': '噁揪3P逼錄實況重判5年9月\u3000反年改大將喊冤：幕後必有黑手介入'}, {'date': '2020/11/27 12:33', 'title': '直擊「殺人式超車」擊落重機！騎士慘摔險死\u3000惡駕駛喊：趕時間'}, {'date': '2020/11/27 12:32', 'title': '風向逆轉？單親媽勒斃兒女判死\u3000友揭內幕：她整天睡覺不工作'}, {'date': '2020/11/27 12:29', 'title': '快訊／16歲少女失聯2天…母心焦：被網友帶走\u3000手機定位在淡水學區'}, {'date': '2020/11/27 11:50', 'title': '快訊／高雄仁武分局勤指中心主任猝逝！\u3000心肌梗塞搶救1hr不治'}, {'date': '2020/11/27 11:48', 'title': '快訊／高雄艦指部「海軍中士溺水」！水下訓練釀意外\u3000救起無心跳'}, {'date': '2020/11/27 11:48', 'title': '無照男車禍只顧自己！棄傷友肇逃\u3000「躲草叢1.5hrs」喊：剛去拉屎\u3000'}, {'date': '2020/11/27 11:44', 'title': '快訊／宜蘭某國中女學生從4F墜下！急救2hrs「頭部重創」宣告不治'}, {'date': '2020/11/27 11:39', 'title': '「愛的禮物」被海關扣留\u300

### ③ 哪一個類別的文章最多

In [3]:
data = []

for tag in news:
    category = {}
    category['name'] = tag
    category['count'] = len(news[tag])
    data.append(category)
    
print(data)

[{'name': '社會', 'count': 14}, {'name': '體育', 'count': 11}, {'name': '時尚', 'count': 5}, {'name': '消費', 'count': 1}, {'name': '財經', 'count': 5}, {'name': '影劇', 'count': 12}, {'name': '房產雲', 'count': 2}, {'name': '國際', 'count': 7}, {'name': '寵物動物', 'count': 4}, {'name': '生活', 'count': 13}, {'name': '旅遊', 'count': 6}, {'name': '政治', 'count': 7}, {'name': '論壇', 'count': 3}, {'name': '健康', 'count': 3}, {'name': '大陸', 'count': 2}, {'name': '地方', 'count': 2}, {'name': 'ET車雲', 'count': 1}, {'name': '新連鎖', 'count': 1}, {'name': '軍武', 'count': 1}]


In [4]:
for d in sorted(data, key=lambda d: d['count'])[::-1]:
    print(d)

{'name': '社會', 'count': 14}
{'name': '生活', 'count': 13}
{'name': '影劇', 'count': 12}
{'name': '體育', 'count': 11}
{'name': '政治', 'count': 7}
{'name': '國際', 'count': 7}
{'name': '旅遊', 'count': 6}
{'name': '財經', 'count': 5}
{'name': '時尚', 'count': 5}
{'name': '寵物動物', 'count': 4}
{'name': '健康', 'count': 3}
{'name': '論壇', 'count': 3}
{'name': '地方', 'count': 2}
{'name': '大陸', 'count': 2}
{'name': '房產雲', 'count': 2}
{'name': '軍武', 'count': 1}
{'name': '新連鎖', 'count': 1}
{'name': 'ET車雲', 'count': 1}
{'name': '消費', 'count': 1}


In [5]:
# list 的 sort 方法: https://officeguide.cc/python-sort-sorted-tutorial-examples/

data_sort = sorted(data, key=lambda d: d['count'], reverse=True)
data_sort

[{'name': '社會', 'count': 14},
 {'name': '生活', 'count': 13},
 {'name': '影劇', 'count': 12},
 {'name': '體育', 'count': 11},
 {'name': '國際', 'count': 7},
 {'name': '政治', 'count': 7},
 {'name': '旅遊', 'count': 6},
 {'name': '時尚', 'count': 5},
 {'name': '財經', 'count': 5},
 {'name': '寵物動物', 'count': 4},
 {'name': '論壇', 'count': 3},
 {'name': '健康', 'count': 3},
 {'name': '房產雲', 'count': 2},
 {'name': '大陸', 'count': 2},
 {'name': '地方', 'count': 2},
 {'name': '消費', 'count': 1},
 {'name': 'ET車雲', 'count': 1},
 {'name': '新連鎖', 'count': 1},
 {'name': '軍武', 'count': 1}]