# Ettoday 網路爬蟲實作練習


* 能夠利用 Request + BeatifulSour 撰寫爬蟲，並存放到合適的資料結構


## 作業目標

根據範例 ，完成以下問題：

* ① 取出今天所有的發文
* ② 如果想要依照類別分類，怎麼儲存會比較好？
* ③ 哪一個類別的文章最多




In [27]:
import requests
from bs4 import BeautifulSoup

url = 'https://www.ettoday.net/news/news-list.htm'
r = requests.get(url)

soup = BeautifulSoup(r.text, "html5lib")

### ① 取出今天所有的發文

In [28]:
posts = []
for d in soup.find(class_="part_list_2").find_all('h3'):
    posts.append(f"{d.find(class_='date').text} {d.find_all('a')[-1].text}")

### ② 如果想要依照類別分類，怎麼儲存會比較好？

In [29]:
from collections import defaultdict

categories = defaultdict(list)

for d in soup.find(class_="part_list_2").find_all('h3'):
    categories[d.find('em').text].append(f"{d.find(class_='date').text} {d.find_all('a')[-1].text}")

In [30]:
# 範例解法
url = 'https://www.ettoday.net/news/news-list.htm'
r = requests.get(url)

soup = BeautifulSoup(r.text, "html5lib")

res = {}

for d in soup.find(class_="part_list_2").find_all('h3'):
    date = d.find(class_="date").text
    title = d.find_all('a')[-1].text
#     tag = d.find(class_='tag').text
    tag = d.select('.tag')[0].text
    res.setdefault(tag, [])
    res[tag].append({
        'title': title,
        'date': date
    })

### ③ 哪一個類別的文章最多

In [31]:
category_count = defaultdict(int)

for k in categories.keys():
    category_count[k] = len(categories[k])
    
max(zip(category_count.values(), category_count.keys()))

(13, '社會')

In [32]:
# 範例解法
data = []
for i in res:
    print(i, len(res[i]))
    d = {}
    d['tag'] = i
    d['count'] = len(res[i])
    data.append(d)

for d in sorted(data, key=lambda d: d['count'])[::-1]:
    print(d)

影劇 12
房產雲 3
生活 13
政治 6
體育 10
財經 7
社會 13
國際 7
地方 4
新奇 1
時尚 6
消費 2
大陸 2
寵物動物 3
健康 1
旅遊 4
遊戲 2
法律 1
ET車雲 2
網搜 1
{'tag': '社會', 'count': 13}
{'tag': '生活', 'count': 13}
{'tag': '影劇', 'count': 12}
{'tag': '體育', 'count': 10}
{'tag': '國際', 'count': 7}
{'tag': '財經', 'count': 7}
{'tag': '時尚', 'count': 6}
{'tag': '政治', 'count': 6}
{'tag': '旅遊', 'count': 4}
{'tag': '地方', 'count': 4}
{'tag': '寵物動物', 'count': 3}
{'tag': '房產雲', 'count': 3}
{'tag': 'ET車雲', 'count': 2}
{'tag': '遊戲', 'count': 2}
{'tag': '大陸', 'count': 2}
{'tag': '消費', 'count': 2}
{'tag': '網搜', 'count': 1}
{'tag': '法律', 'count': 1}
{'tag': '健康', 'count': 1}
{'tag': '新奇', 'count': 1}
