# Ettoday 網路爬蟲實作練習


* 能夠利用 Request + BeatifulSour 撰寫爬蟲，並存放到合適的資料結構


## 作業目標

根據範例 ，完成以下問題：

* ① 取出今天所有的發文
* ② 如果想要依照類別分類，怎麼儲存會比較好？
* ③ 哪一個類別的文章最多




In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import re
from datetime import datetime

### ① 取出今天所有的發文

In [2]:
url = 'https://www.ettoday.net/news/news-list.htm'
r = requests.get(url)

soup = BeautifulSoup(r.text)

### 設定如何判斷當天
為什麼需要用regex?  
ans: d.find(class_ = 'date').text print出來的結果會包含發新聞的時間，我們僅需要擷取日期的部分出來，和今天的日期比較就好。
print(d.find(class_ = 'date').text → 2019/12/14 02:42

In [4]:
# 設定當天，格式與find的結果相同yyyy/mm/dd
today = datetime.today().strftime('%Y/%m/%d')
regex = '\d+/\d+/\d+'
pattern = re.compile(regex)

In [5]:
# test
re.search(pattern, today).group()

'2019/12/14'

In [6]:
newsList = []
for d in soup.find(class_ = 'part_list_2').find_all('h3'):
    date = d.find(class_ = 'date').text
    if re.search(pattern, date).group() == today:
        tag = d.find(class_ = 'tag').text
        title = d.find('a').text
        newsList.append({
            'time' : date,
            'tag' : tag,
            'title' : title
        })
newsDataFrame = pd.DataFrame.from_dict(newsList)

In [7]:
newsDataFrame

Unnamed: 0,time,tag,title
0,2019/12/14 12:06,國際,他親眼見寶寶「被關洗衣機翻攪」　詭譎笑臉發毛…走近看才知自己腦補糗炸！
1,2019/12/14 12:06,房產雲,課本誤丟洗衣機！見「繽紛濕爛碎紙」母女吵翻：誰洗誰清　網中肯突破盲點
2,2019/12/14 12:05,社會,彰化賣場老闆命案！爸自曝「我殺了你媽」　母進賣場後失蹤48天
3,2019/12/14 12:05,ET車雲,一桶油跑937km！美EPA環保局測試：福特Kuga油電休旅同級最省
4,2019/12/14 12:05,時尚,LIFE・經典／開幕3個月破百萬人次　北歐最美圖書館像靜靜停留的大船
...,...,...,...
95,2019/12/14 09:52,社會,六親不認、想殺爸媽！玉井「真理佛堂」火警7死　負責人曝縱火嫌偏差行徑
96,2019/12/14 09:52,房產雲,友人曝：室內門號早停掉！他好奇「家裡還有室內電話嗎」　沒在用竟佔約4成
97,2019/12/14 09:46,旅遊,睡進星際大戰、復仇者聯盟電影場景！全球迪士尼樂園將開幕的3大主題飯店
98,2019/12/14 09:44,時尚,迎接春節用這顆最喜氣！倩碧2020黃金小老鼠打亮盤　打造新年開運妝


### ② 如果想要依照類別分類，怎麼儲存會比較好？

In [8]:
newsDataFrame.sort_values(by = 'tag')

Unnamed: 0,time,tag,title
3,2019/12/14 12:05,ET車雲,一桶油跑937km！美EPA環保局測試：福特Kuga油電休旅同級最省
87,2019/12/14 10:05,ET車雲,「老司機」為何這麼痛恨扭力樑？操駕安定感及舒適度是一大考驗
51,2019/12/14 11:04,健康,39歲女「卵巢早衰」停經3個月　醫曝「致病危機」：壓力影響暴增
35,2019/12/14 11:26,健康,洗米水沖菜更髒！專家曝常見「5大NG洗法」...浸泡＝營養全失
90,2019/12/14 10:00,健康,打了流感疫苗怎麼還感冒？藥師3面向分析：一般感冒≠流感
...,...,...,...
60,2019/12/14 10:54,體育,CBA／廣廈找到新外援！　簽下上季老鷹普朗李攜手劉錚
56,2019/12/14 10:59,體育,24小時東吳超馬考驗意志力　王威晨：想知道他們跑步在想什麼
37,2019/12/14 11:22,體育,ABL／林志傑壓力性骨折　許晉哲：沒有任何人能替代他
8,2019/12/14 12:00,體育,與大都會簽4年1.1億傷了3年　塞佩達斯同意減薪1000萬美元


### ③ 哪一個類別的文章最多

In [26]:
newsDataFrame['tag'].value_counts()

社會      17
國際      12
體育      11
政治      10
旅遊       8
生活       7
影劇       7
房產雲      5
大陸       4
時尚       4
寵物動物     3
地方       3
健康       3
財經       2
ET車雲     2
網搜       1
論壇       1
Name: tag, dtype: int64

In [33]:
newsDataFrame.groupby('tag')['tag'].count().sort_values(ascending = False)

tag
社會      17
國際      12
體育      11
政治      10
旅遊       8
生活       7
影劇       7
房產雲      5
時尚       4
大陸       4
寵物動物     3
地方       3
健康       3
財經       2
ET車雲     2
網搜       1
論壇       1
Name: tag, dtype: int64