# Ettoday 網路爬蟲實作練習


* 能夠利用 Request + BeatifulSour 撰寫爬蟲，並存放到合適的資料結構


## 作業目標

根據範例 ，完成以下問題：

* ① 取出今天所有的發文
* ② 如果想要依照類別分類，怎麼儲存會比較好？
* ③ 哪一個類別的文章最多




### ① 取出今天所有的發文

In [1]:
import requests
from bs4 import BeautifulSoup
import re
from datetime import datetime

url = 'https://www.ettoday.net/news/news-list.htm'
r = requests.get(url)

soup = BeautifulSoup(r.text, "html5lib")

In [2]:
today = datetime.now().strftime("%Y/%m/%d")
today

'2019/12/12'

In [3]:
regex = '\d{4}(\/\d{2}){2}'
pattern = re.compile(regex)

`match`: 從頭找  
`search`: 遍歷

In [4]:
re.match(pattern, '0002019/12/13')

In [5]:
re.search(pattern, '0002019/12/13')

<re.Match object; span=(3, 13), match='2019/12/13'>

In [6]:
ls = []
for d in soup.find(class_="part_list_2").find_all('h3'):
    date = d.find(class_="date").text
    if re.search(pattern, date)[0] != today:
        continue
    tag = d.find(class_="tag").text
    title = d.find_all('a')[-1].text
    ls.append([date, tag, title])

### ② 如果想要依照類別分類，怎麼儲存會比較好？

In [7]:
import pandas as pd

In [8]:
df = pd.DataFrame(ls, columns = ['date', 'tag', 'title'])
df

Unnamed: 0,date,tag,title
0,2019/12/12 18:12,影劇,「怪胎新人」揪屁孩合作新歌...慘被狂吐口水傻眼喊：真的很屁！
1,2019/12/12 18:12,大陸,上海首創台青公租房　精華地段300套「有居住證者」可申請
2,2019/12/12 18:10,社會,高中出納組長偽造假戳章…10月內狂撈公款107萬「還卡債+養女友」
3,2019/12/12 18:09,保險,代理董座尹崇堯遭金管會駁回！南山人壽：虛心接受　儘速召開董事會再推新人選
4,2019/12/12 18:08,論壇,雁默／選前撒錢救農民之急，不如說是救執政黨連任之急
...,...,...,...
95,2019/12/12 16:51,大陸,回應「中國威脅論」　華春瑩：貓熊塊頭大但會比禿鷹危險？
96,2019/12/12 16:51,國際,共諜案再曝6合夥人　澳智庫報告：向心與中國首位女中將有關係
97,2019/12/12 16:50,生活,遠航停飛所有員工突失業！內部公告流出：最後在職日是12月13日
98,2019/12/12 16:49,旅遊,胖死也甘願！韓國8大必吃烤肉　超狂吃到飽5百有找、爽喝大醬湯


### ③ 哪一個類別的文章最多

In [9]:
count = df.groupby('tag')['tag'].count()
pd.DataFrame(count.sort_values(ascending = False))

Unnamed: 0_level_0,tag
tag,Unnamed: 1_level_1
生活,13
影劇,13
政治,12
社會,9
國際,9
體育,6
大陸,6
旅遊,5
財經,5
寵物動物,5
