# Ettoday 網路爬蟲實作練習


* 能夠利用 Request + BeatifulSour 撰寫爬蟲，並存放到合適的資料結構


## 作業目標

根據範例 ，完成以下問題：

* ① 取出今天所有的發文
* ② 如果想要依照類別分類，怎麼儲存會比較好？
* ③ 哪一個類別的文章最多




In [1]:
import requests
import datetime
import re
import pandas as pd
from bs4 import BeautifulSoup

columns = ['日期', '類別', '標題']

url = 'https://www.ettoday.net/news/news-list.htm'
r = requests.get(url)

soup = BeautifulSoup(r.text, "html5lib")

### ① 取出今天所有的發文

In [2]:
pattern ='[0-9]{4}(?:/[0-9]{2}){2}'
today = datetime.date.today().strftime("%Y/%m/%d")

articles = []

for d in soup.find(class_="part_list_2").find_all('h3'):
    if re.match(pattern, d.find(class_="date").text)[0] == today:
        print(d.find(class_="date").text, d.find_all('a')[-1].text)
        articles.append([d.find(class_="date").text, d.find('em').text, d.find_all('a')[-1].text])

2019/12/09 02:10 華研代理聲林之王上架業務挹注　11月營收達1.27億元表現持平
2019/12/09 01:34 南方澳「米糕名店」半夜偷倒廚餘！超噁畫面曝光…海面漂散臭穢物
2019/12/09 01:20 蔡健雅罕見公開談感情低潮　「希望好好前進」語帶玄機
2019/12/09 00:49 影／棒球聯賽1分險勝大連大學　中原大學總教練嘆：非常吃驚！
2019/12/09 00:47 影／北工大拼三連霸！　江仲豪嘆「壓力非常大」：沒有進步空間
2019/12/09 00:40 豆漿店打烊部長來了！店員驚見「國軍大咖」買走最後1顆水煎包：100分
2019/12/09 00:32 世正被偶像IU翻牌！　演唱獲讚「像畫一樣」…追星成功：我上輩子救了國家？
2019/12/09 00:26 杜娃黎波新造型被嫌醜！　褲子衣服「妹妹那邊」緊勒相連…網：要怎麼上廁所
2019/12/09 00:25 高雄人為何討厭民進黨　宋楚瑜分析：蔡英文沒管好部屬
2019/12/09 00:22 女生會心動！票選暖男包包必備TOP5物品　衛生紙是必須、第一名卻是巧克力？
2019/12/09 00:21 快訊／今年才和BTS合作！Juice Wrld「癲癇發作」過世　得年21歲
2019/12/09 00:17 《蒙面》女歌手爆：憲哥說過要娶我！　吳宗憲嚇呆…她一揭面「原來是台灣天后」
2019/12/09 00:14 迷戀正妹直播主！打工仔斗內40萬「見面遭冷落」…氣炸持鐵鎚爆敲她頭
2019/12/09 00:06 企排／中纖女排外援Matea穩坐得分后　極速超跑攻勢未發揮
2019/12/09 00:05 ABL／25歲的元老成員　「初代夢想家」吳松蔚、陳昱翰驚奇之旅
2019/12/09 00:05 綠色威權時代來臨　議員痛批「網軍不倒，台灣不會好」
2019/12/09 00:01 韓、張、朱「鑽石鐵三角」成軍！藍軍新戰袍曝光8萬人爭睹


### ② 如果想要依照類別分類，怎麼儲存會比較好？

In [3]:
# '''
# 取出所有分類 (目前用不到)
# '''
# menus = []

# for li in soup.find(class_="part_menu_2").find_all('li'):
#     for menu in li.findAll('a'):
#         menus.append(menu.string)
# menus = menus[1:] # 去掉總覽

df = pd.DataFrame(articles, columns=columns)
df

Unnamed: 0,日期,類別,標題
0,2019/12/09 02:10,財經,華研代理聲林之王上架業務挹注　11月營收達1.27億元表現持平
1,2019/12/09 01:34,生活,南方澳「米糕名店」半夜偷倒廚餘！超噁畫面曝光…海面漂散臭穢物
2,2019/12/09 01:20,影劇,蔡健雅罕見公開談感情低潮　「希望好好前進」語帶玄機
3,2019/12/09 00:49,大陸,影／棒球聯賽1分險勝大連大學　中原大學總教練嘆：非常吃驚！
4,2019/12/09 00:47,大陸,影／北工大拼三連霸！　江仲豪嘆「壓力非常大」：沒有進步空間
5,2019/12/09 00:40,網搜,豆漿店打烊部長來了！店員驚見「國軍大咖」買走最後1顆水煎包：100分
6,2019/12/09 00:32,影劇,世正被偶像IU翻牌！　演唱獲讚「像畫一樣」…追星成功：我上輩子救了國家？
7,2019/12/09 00:26,影劇,杜娃黎波新造型被嫌醜！　褲子衣服「妹妹那邊」緊勒相連…網：要怎麼上廁所
8,2019/12/09 00:25,政治,高雄人為何討厭民進黨　宋楚瑜分析：蔡英文沒管好部屬
9,2019/12/09 00:22,時尚,女生會心動！票選暖男包包必備TOP5物品　衛生紙是必須、第一名卻是巧克力？


In [4]:
grouped = df.groupby('類別')
grouped.groups

{'大陸': Int64Index([3, 4, 12], dtype='int64'),
 '影劇': Int64Index([2, 6, 7, 10, 11], dtype='int64'),
 '政治': Int64Index([8, 15, 16], dtype='int64'),
 '時尚': Int64Index([9], dtype='int64'),
 '生活': Int64Index([1], dtype='int64'),
 '網搜': Int64Index([5], dtype='int64'),
 '財經': Int64Index([0], dtype='int64'),
 '體育': Int64Index([13, 14], dtype='int64')}

### ③ 哪一個類別的文章最多

In [5]:
df2 = pd.DataFrame(df.groupby('類別').size(), columns=['文章數量'])
df2['排名'] = df2.rank(method='min', ascending=False)
df2.sort_values(by=['排名'])

Unnamed: 0_level_0,文章數量,排名
類別,Unnamed: 1_level_1,Unnamed: 2_level_1
影劇,5,1.0
大陸,3,2.0
政治,3,2.0
體育,2,4.0
時尚,1,5.0
生活,1,5.0
網搜,1,5.0
財經,1,5.0
