# Ettoday 網路爬蟲實作練習


* 能夠利用 Request + BeatifulSour 撰寫爬蟲，並存放到合適的資料結構


## 作業目標

根據範例 ，完成以下問題：

* ① 取出今天所有的發文
* ② 如果想要依照類別分類，怎麼儲存會比較好？
* ③ 哪一個類別的文章最多




### ① 取出今天所有的發文

In [1]:
import requests
from bs4 import BeautifulSoup

In [4]:
url = "https://www.ettoday.net/news/news-list.htm"
r = requests.get(url)
resp = r.text

soup = BeautifulSoup(resp, "html5lib")
print(soup.prettify())

<!DOCTYPE html>
<html itemscope="" itemtype="http://schema.org/WebSite" lang="zh-Hant" prefix="og:http://ogp.me/ns#" xmlns:wb="http://open.weibo.com/wb">
 <head>
  <meta charset="utf-8"/>
  <!-- ★★★以下非共用★★★ 開始 -->
  <meta content="noarchive" name="robots"/>
  <title>
   新聞總覽 | ETtoday新聞雲
  </title>
  <link href="https://www.ettoday.net/news/news-list-2020-02-19-0.htm" rel="canonical"/>
  <!-- 網頁社群分享meta 開始 -->
  <meta content="https://www.ettoday.net/news/news-list-2020-02-19-0.htm" itemprop="url" property="og:url"/>
  <meta content="新聞總覽 | ETtoday新聞雲" itemprop="name" property="og:title"/>
  <meta content="https://cdn2.ettoday.net/style/ettoday2017/images/push.jpg" itemprop="image" property="og:image"/>
  <meta content="1200" property="og:image:width"/>
  <meta content="628" property="og:image:height"/>
  <meta content="article" property="og:type"/>
  <meta content="ETtoday.net線上提供即時新聞，包括政治、財經、社會及國際要聞，以及生活、消費、寵物、新奇、娛樂、運動、旅遊資訊和相關新聞報導。" name="description"/>
  <meta content="ETtoday.net線上

In [10]:
news_list = soup.find(class_ = "part_list_2").find_all("h3")

for news in news_list:
    date = news.find(class_ = "date").text
    tag = news.find("em").text
    title = news.find("a").text
    
    print(date, tag, title)

2020/02/19 22:02 旅遊 台中人專屬優惠！台中亞緻28樓餐廳平日2人同行第2位10元
2020/02/19 22:02 親子 隔離是什麼感覺？　得大葉肺炎的她：為健康做的美好防護
2020/02/19 22:01 影劇 河正宇新片狂嗑鎮定劑　人生第一次挑戰「自爆最可怕瞬間」　
2020/02/19 21:56 影劇 《怪奇物語》小男孩「二戰電影抗德軍」　揭猶太血統：對我意義重大
2020/02/19 21:56 生活 一家7口全上武漢包機！范世平稱「台商真夠大尾」：根本在搬家
2020/02/19 21:55 社會 老翁失蹤近3天　「警消+3地空拍機」萬大大橋草叢找到了
2020/02/19 21:51 地方 全國最大許厝港濕地復育有成　觀測到鳥種紀錄累計228種
2020/02/19 21:44 時尚 韓妞都瘋搶「九宮格眼影」！裸膚色、酒紅色都美翻　3格輕鬆打造放電眼神
2020/02/19 21:42 國際 快訊／名古屋也通報1例！當地女性確診新冠病毒　愛知縣增至8人
2020/02/19 21:33 影劇 本土劇彩蛋！霍正奇隔17年回歸　53歲凍齡沒變
2020/02/19 21:32 旅遊 麵包界的LV！大阪必朝聖高級吐司「嵜」進軍台灣　第2季開幕
2020/02/19 21:30 影劇 泰勒絲1.2億豪華公寓「遭竊賊闖空門」　父親當場發現…擊退歹徒！
2020/02/19 21:30 影劇 《木曜4》緊急直播！5周年將近...宣布一日系列「重大決定」　製作人說話了
2020/02/19 21:29 健康 免疫力太高危險！醫憶SARS…「無差別攻擊」青壯年死更多　關鍵點曝光
2020/02/19 21:28 影劇 混血小孩在韓生活要更有禮儀！《超人》威廉爸育兒法被讚爆
2020/02/19 21:26 影劇 機艙內沒人戴口罩！　謝忻消毒餐盤「被歐美乘客好奇圍觀」…一群人拿起手機拍
2020/02/19 21:25 健康 劉真裝葉克膜搶救！危急時刻他們也用過　醫：幫患者爭取時間
2020/02/19 21:23 健康 不只胸悶！醫曝主動脈瓣膜狹窄「嚴重定義」：開口<1cm須動刀
2020/02/19 21:22 國際 星、日境內感染數並列「世界第2多」！新加坡又添3例　總計84人確診
2020/02/19 21:20 房產雲 三房兩廳全拆解「工業

### ② 如果想要依照類別分類，怎麼儲存會比較好？

In [23]:
news_categorized = dict()
date_title = []
n_news_in_category = 0

for news in news_list:
    date = news.find(class_ = "date").text
    tag = news.find("em").text
    title = news.find("a").text
    
    if tag not in news_categorized:
        news_categorized[tag] = []
    
    news_categorized[tag].append( list((date, title)) )
    
print(news_categorized)

{'旅遊': [['2020/02/19 22:02', '台中人專屬優惠！台中亞緻28樓餐廳平日2人同行第2位10元'], ['2020/02/19 21:32', '麵包界的LV！大阪必朝聖高級吐司「嵜」進軍台灣\u3000第2季開幕'], ['2020/02/19 19:04', '宜蘭必去4大賞櫻景點懶人包\u30001公里櫻花大道還有最美櫻花公路']], '親子': [['2020/02/19 22:02', '隔離是什麼感覺？\u3000得大葉肺炎的她：為健康做的美好防護']], '影劇': [['2020/02/19 22:01', '河正宇新片狂嗑鎮定劑\u3000人生第一次挑戰「自爆最可怕瞬間」\u3000'], ['2020/02/19 21:56', '《怪奇物語》小男孩「二戰電影抗德軍」\u3000揭猶太血統：對我意義重大'], ['2020/02/19 21:33', '本土劇彩蛋！霍正奇隔17年回歸\u300053歲凍齡沒變'], ['2020/02/19 21:30', '泰勒絲1.2億豪華公寓「遭竊賊闖空門」\u3000父親當場發現…擊退歹徒！'], ['2020/02/19 21:30', '《木曜4》緊急直播！5周年將近...宣布一日系列「重大決定」\u3000製作人說話了'], ['2020/02/19 21:28', '混血小孩在韓生活要更有禮儀！《超人》威廉爸育兒法被讚爆'], ['2020/02/19 21:26', '機艙內沒人戴口罩！\u3000謝忻消毒餐盤「被歐美乘客好奇圍觀」…一群人拿起手機拍'], ['2020/02/19 21:14', '洛伊安德森《千日千夜》耗時5年！「等比例縮小手繪場景」每一幀都像油畫'], ['2020/02/19 21:09', '9億辣媽讓2歲女戴耳環遭批！\u3000超齡大金圈「像脫衣舞孃」網：讓她當個小女孩'], ['2020/02/19 21:01', '「標題殺人」英雄變公敵！男星嘆：挺身而出被陷害，誰還見義勇為？'], ['2020/02/19 20:49', 'Lulu「許光漢在我家」\u3000宣示主權「我是第一代許太太」：妹妹請在我後面排隊！'], ['2020/02/19 20:48', '木偶奇遇記真人版！《皮諾丘》橫掃義奧斯卡15項提名\u3000票房大賣5億'

### ③ 哪一個類別的文章最多

In [26]:
max_n = 0

for categories in iter(news_categorized):
    n_news_in_category = len(news_categorized[categories])
    if n_news_in_category > max_n:
        max_n = n_news_in_category
        max_n_categories = categories
        
print("Tag:{} has the most articles in Ettoday today.".format(categories))

Tag:政治 has the most articles in Ettoday today.
