# Ettoday 網路爬蟲實作練習


* 能夠利用 Request + BeatifulSour 撰寫爬蟲，並存放到合適的資料結構


## 作業目標

根據範例 ，完成以下問題：

* ① 取出今天所有的發文
* ② 如果想要依照類別分類，怎麼儲存會比較好？
* ③ 哪一個類別的文章最多




### ① 取出今天所有的發文

In [1]:
import requests
from bs4 import BeautifulSoup

url = 'https://www.ettoday.net/news/news-list.htm'
r = requests.get(url)

soup = BeautifulSoup(r.text, "html5lib")

In [2]:
print(type(soup))

<class 'bs4.BeautifulSoup'>


In [3]:
result = soup.prettify().splitlines()
result[1280:1310]

['          <!--part_menu_2 結束-->',
 '          <!--part_list_2 文字列表 開始-->',
 '          <div class="part_list_2">',
 '           <h3>',
 '            <span class="date">',
 '             2020/06/10 01:38',
 '            </span>',
 '            <em class="tag c_society">',
 '             社會',
 '            </em>',
 '            <a href="/news/20200610/1733925.htm" target="_blank">',
 '             嗆哭被害人！「機械系法官」嘲諷律師：你哪個學校畢業？',
 '            </a>',
 '           </h3>',
 '           <h3>',
 '            <span class="date">',
 '             2020/06/10 01:37',
 '            </span>',
 '            <em class="tag c_society">',
 '             社會',
 '            </em>',
 '            <a href="/news/20200610/1734109.htm" target="_blank">',
 '             警疑詐1140萬保金控「我報警被吃案」\u3000板橋分局打臉：同事不會因車禍吃案',
 '            </a>',
 '           </h3>',
 '           <h3>',
 '            <span class="date">',
 '             2020/06/10 01:23',
 '            </span>',
 '            <em class="tag c_lifestyle">']

In [4]:
for d in soup.find(class_="part_list_2").find_all('h3'):
    print(d.find(class_="date").text, d.find_all('a')[-1].text)

2020/06/10 01:38 嗆哭被害人！「機械系法官」嘲諷律師：你哪個學校畢業？
2020/06/10 01:37 警疑詐1140萬保金控「我報警被吃案」　板橋分局打臉：同事不會因車禍吃案
2020/06/10 01:23 阿中部長神話殞落？他目睹「台灣1景象」...揭露防疫成功真相　酸爆陳時中
2020/06/10 01:21 這邊我最有錢！28歲豪宅住戶羞辱保全　「吐水噴臉」還罵：你是奴才
2020/06/10 01:11 重殘警「神復原」健步如飛！基隆地檢署不信是裝的　胞妹愧認
2020/06/10 01:05 名嘴預測韓國瑜2024「還會選總統」　劉寶傑大驚：你不要嚇我！
2020/06/10 01:01 瀕植物人還能抓壞人！騙倒7保險公司　北市「警界影帝」：年薪94萬不會貪
2020/06/10 00:55 民眾黨內亂不斷　黃瀞瑩看不下去說話了！喊話：走的遠要一群人走
2020/06/10 00:54 太前衛只有GD能駕馭！Nike「未來感科技鞋」碟照曝光　比Dior聯名還限量
2020/06/10 00:43 三倍券可「直領2000現金」！網看完辦法愣住…無奈回應：好複雜
2020/06/10 00:38 中職／樂天桃猿保王位　尼寇力出馬對決施子謙
2020/06/10 00:33 王嘉爾又變更瘦！　「狠甩16公斤」4年對比照曝光…網嘆：絕了
2020/06/10 00:33 林志穎帶Kimi路邊賞車「6000萬頂級超跑」　車主戴墨鏡…Tag露餡天王級人物
2020/06/10 00:28 12星座未來3個月危機公開！　風象星座「遠離水邊」游泳要小心
2020/06/10 00:26 台灣被害最慘的公眾人物是誰？網友答案超一致：要問幾遍啦「就是她」
2020/06/10 00:19 盤點9款「無毒護唇膏」　親民百元價，幼童孕婦也能安心用
2020/06/10 00:13 6月同志驕傲月！New Balance、Nike、adidas都有彩虹限定鞋
2020/06/10 00:06 要價390億福特號航艦又故障？　無法連續彈射戰機5天
2020/06/10 00:04 美國頁岩油先驅將聲請破產保護　「切薩皮克能源公司」負債2600億
2020/06/10 00:04 偷玩筆被戳頭訓話！　牠伸肥手狂揮反擊…意外曝「短處」
2020/06/10 00:0

### ② 如果想要依照類別分類，怎麼儲存會比較好？

In [5]:
url = 'https://www.ettoday.net/news/news-list.htm'
r = requests.get(url)

soup = BeautifulSoup(r.text, "html5lib")

res = {}

for d in soup.find(class_="part_list_2").find_all('h3'):
    date = d.find(class_="date").text
    title = d.find_all('a')[-1].text
#     tag = d.find(class_='tag').text
    tag = d.select('.tag')[0].text
    res.setdefault(tag, [])
    res[tag].append({
        'title': title,
        'date': date
    })
    
print(res)

{'社會': [{'title': '嗆哭被害人！「機械系法官」嘲諷律師：你哪個學校畢業？', 'date': '2020/06/10 01:38'}, {'title': '警疑詐1140萬保金控「我報警被吃案」\u3000板橋分局打臉：同事不會因車禍吃案', 'date': '2020/06/10 01:37'}, {'title': '這邊我最有錢！28歲豪宅住戶羞辱保全\u3000「吐水噴臉」還罵：你是奴才', 'date': '2020/06/10 01:21'}, {'title': '重殘警「神復原」健步如飛！基隆地檢署不信是裝的\u3000胞妹愧認', 'date': '2020/06/10 01:11'}, {'title': '瀕植物人還能抓壞人！騙倒7保險公司\u3000北市「警界影帝」：年薪94萬不會貪', 'date': '2020/06/10 01:01'}, {'title': '警副所長是賊！A走同事300塊肉排\u3000餐廳廚師一句話讓他吞不下去', 'date': '2020/06/09 23:07'}, {'title': '快訊／彰化偷車北上找女網友\u3000永和市區遇警亡命逃竄…警開7槍制伏\u3000', 'date': '2020/06/09 22:31'}, {'title': '快訊／哥倫比亞「神偷三人組」內湖豪宅竊700萬\u3000檢方聲請羈押', 'date': '2020/06/09 21:11'}, {'title': '遺書內容曝光！基隆夫妻「擁抱姿勢」亡…家屬見長蟲屍崩潰', 'date': '2020/06/09 21:07'}, {'title': '高雄警執勤又受傷！駕駛車上睡覺遭盤查…拒檢開車逃逸\u3000員警衰扭傷', 'date': '2020/06/09 20:52'}, {'title': '夫妻相擁陳屍基隆套房！遺體黑到長蟲飄惡臭\u3000爸爸認屍才發現女兒結婚了', 'date': '2020/06/09 20:44'}], '生活': [{'title': '阿中部長神話殞落？他目睹「台灣1景象」...揭露防疫成功真相\u3000酸爆陳時中', 'date': '2020/06/10 01:23'}, {'title': '最特別的姓是什麼？網友好奇發問\u3000意外釣出

### ③ 哪一個類別的文章最多

In [6]:
# ③ 哪一個類別的文章最多
data = []
for i in res:
    print(i, len(res[i]))
    d = {}
    d['tag'] = i
    d['count'] = len(res[i])
    data.append(d)

社會 11
生活 5
政治 11
時尚 8
網搜 3
體育 11
影劇 18
消費 1
軍武 2
國際 6
寵物動物 3
健康 6
大陸 2
新奇 1
財經 4
地方 6
旅遊 1
房產雲 1


In [7]:
import pandas as pd

df = []
for d in sorted(data, key=lambda d: d['count'])[::-1]:
    df.append(d)
    
df = pd.DataFrame(df)
df.head()

Unnamed: 0,tag,count
0,影劇,18
1,體育,11
2,政治,11
3,社會,11
4,時尚,8
