# Ettoday 網路爬蟲實作練習


* 能夠利用 Request + BeatifulSour 撰寫爬蟲，並存放到合適的資料結構


## 作業目標

根據範例 ，完成以下問題：

* ① 取出今天所有的發文
* ② 如果想要依照類別分類，怎麼儲存會比較好？
* ③ 哪一個類別的文章最多




### ① 取出今天所有的發文

In [1]:
import requests
from bs4 import BeautifulSoup

response = requests.get("https://www.ettoday.net/news/news-list.htm")
soup = BeautifulSoup(response.text)
daily_news = soup.find(class_="part_list_2").find_all('h3')
for new in daily_news:
    print(new.span.text, new.em.text, new.a.text)

2020/03/05 22:00 生活 LIVE／新冠肺炎疫情又有變數？指揮中心晚間22:10加開記者會
2020/03/05 22:00 國際 衛生官員「食指入嘴」舔一下！　上秒才剛宣導「勿碰口鼻」...觀眾全傻了
2020/03/05 22:00 寵物動物 歡慶森寵動物醫院開幕！　前100隻看診毛孩終生不收掛號費
2020/03/05 21:56 財經 企業疫情紓困貸款被要求「授信回存」　金管會緊盯銀行雨天收傘
2020/03/05 21:56 大陸 返西安復工！他扛「母親備的」60幾個白饅頭...暖哭網友：真偉大
2020/03/05 21:56 影劇 林口直擊《多情》二代攝影棚曝光！防新冠肺炎「直接搭病床」拍攝
2020/03/05 21:55 國際 南韓跟了口罩實名制！每人每周限購2片　價格是台7倍
2020/03/05 21:54 時尚 LEVI'S超高腰新褲款「遮屁」效果一極棒　還能瞬間長高10公分
2020/03/05 21:51 地方 5月報稅尚有月餘防疫情攪局　北區國稅局力推網路申報
2020/03/05 21:49 體育 中職／加練外野爭取機會　潘志芳夜訓很充實
2020/03/05 21:48 地方 防疫優先　大溪區生命紀念園區3/28春祭停辦
2020/03/05 21:44 國際 南非也有了！通報首例新冠病毒確診　同行10人剛從義大利回家
2020/03/05 21:40 社會 積怨半年鐵鎚怒敲蔡阿嘎！「2嫌」竟是林口修車廠老闆與員工
2020/03/05 21:37 影劇 《金師傅2》首集手術超困難！台灣醫解析劇情被讚爆：看得很過癮
2020/03/05 21:34 體育 中職／單場5轟壓過曾陶鎔雙響砲　統一熱身賽就贏味全
2020/03/05 21:33 房產雲 2020普立茲克獎公布！愛爾蘭女建築師雙搭擋獲獎
2020/03/05 21:26 體育 UBA／佛光退台師搶四強最後席次　與世新、北市、文化爭后冠　
2020/03/05 21:26 健康 小胸有救了！　專家4招吃出「尖挺美胸」...維持彈性超重要
2020/03/05 21:24 社會 狠持鐵鎚怒敲蔡阿嘎！黑衣男事後狂跑4公里...中途脫口罩抽菸被拍下
2020/03/05 21:23 政治 和唐鳳討論口罩實名制2.0　陳其邁：我們一定能共度難關
2020/03/05 2

### ② 如果想要依照類別分類，怎麼儲存會比較好？

In [2]:
import pandas as pd

columns = ['date', 'class', 'title']
df = pd.DataFrame(columns=columns)

for news in daily_news:
    df = df.append({'date': news.span.text, 'class': news.em.text, 'title': news.a.text}, ignore_index=True)
    
group = df.groupby('class')
group.groups

{'ET車雲': Int64Index([84], dtype='int64'),
 '健康': Int64Index([17, 54, 69, 85], dtype='int64'),
 '國際': Int64Index([1, 6, 11, 39, 44, 52, 55], dtype='int64'),
 '地方': Int64Index([8, 10, 53, 87], dtype='int64'),
 '大陸': Int64Index([4, 79, 80], dtype='int64'),
 '寵物動物': Int64Index([2, 32, 38, 45, 83], dtype='int64'),
 '影劇': Int64Index([5, 13, 22, 26, 27, 30, 35, 37, 58, 68, 88, 89, 96, 97, 98, 99], dtype='int64'),
 '房產雲': Int64Index([15, 78], dtype='int64'),
 '政治': Int64Index([19, 43, 91], dtype='int64'),
 '時尚': Int64Index([7, 25, 57, 86], dtype='int64'),
 '生活': Int64Index([ 0, 20, 24, 28, 31, 34, 36, 40, 48, 51, 56, 60, 64, 65, 70, 72, 73,
             74, 76, 77, 82, 94],
            dtype='int64'),
 '社會': Int64Index([12, 18, 23, 46, 47, 50, 59, 61, 75, 81], dtype='int64'),
 '財經': Int64Index([3, 21, 42, 63, 67, 90, 92, 95], dtype='int64'),
 '體育': Int64Index([9, 14, 16, 29, 33, 41, 49, 62, 66, 71, 93], dtype='int64')}

### ③ 哪一個類別的文章最多

In [3]:
df2 = pd.DataFrame(df.groupby('class').size(), columns=['count'])
df2['rank'] = df2.rank(ascending=False)
df2.sort_values(by=['rank'])

Unnamed: 0_level_0,count,rank
class,Unnamed: 1_level_1,Unnamed: 2_level_1
生活,22,1.0
影劇,16,2.0
體育,11,3.0
社會,10,4.0
財經,8,5.0
國際,7,6.0
寵物動物,5,7.0
健康,4,9.0
地方,4,9.0
時尚,4,9.0
