# Ettoday 網路爬蟲實作練習


* 能夠利用 Request + BeatifulSour 撰寫爬蟲，並存放到合適的資料結構


## 作業目標

根據範例 ，完成以下問題：

* ① 取出今天所有的發文
* ② 如果想要依照類別分類，怎麼儲存會比較好？
* ③ 哪一個類別的文章最多




### ① 取出今天所有的發文

In [1]:
import requests
from bs4 import BeautifulSoup

In [2]:
r = requests.get('https://www.ettoday.net/news/news-list.htm')
r.text
soup = BeautifulSoup(r.text,'lxml')
print(soup.prettify())

<!DOCTYPE html>
<html itemscope="" itemtype="http://schema.org/WebSite" lang="zh-Hant" prefix="og:http://ogp.me/ns#" xmlns:wb="http://open.weibo.com/wb">
 <head>
  <meta charset="utf-8"/>
  <!-- ★★★以下非共用★★★ 開始 -->
  <meta content="noarchive" name="robots"/>
  <title>
   新聞總覽 | ETtoday新聞雲
  </title>
  <link href="https://www.ettoday.net/news/news-list-2020-03-09-0.htm" rel="canonical"/>
  <!-- 網頁社群分享meta 開始 -->
  <meta content="https://www.ettoday.net/news/news-list-2020-03-09-0.htm" itemprop="url" property="og:url"/>
  <meta content="新聞總覽 | ETtoday新聞雲" itemprop="name" property="og:title"/>
  <meta content="https://cdn2.ettoday.net/style/ettoday2017/images/push.jpg" itemprop="image" property="og:image"/>
  <meta content="1200" property="og:image:width"/>
  <meta content="628" property="og:image:height"/>
  <meta content="article" property="og:type"/>
  <meta content="ETtoday.net線上提供即時新聞，包括政治、財經、社會及國際要聞，以及生活、消費、寵物、新奇、娛樂、運動、旅遊資訊和相關新聞報導。" name="description"/>
  <meta content="ETtoday.net線上

In [3]:
#個人備註
#soup.find('div', class_='part_list_2')
#soup.find(class_='part_list_2')
#以上這2個方法都可以

#3/8的文章不止這麼少，到底要如何讓他「自動」繼續爬取?
#===============================================

empty=[]

for i in soup.find('div', class_='part_list_2').find_all('h3'):
    date=i.find('span',class_="date").text
    type_=i.find('em').text
    title=i.find('a').text
    empty.append([date,type_,title])

In [4]:
import pandas

pandas.set_option('display.max_columns', None)
pandas.set_option('display.max_rows', None)

#顯示所有行,列，如果沒有這兩句他，他會縮起來，不顯示全部

columns=['日期','類別','標題']
data = pandas.DataFrame(empty,columns=columns)#設定他的columns名稱
                     #之前上面開的空LIST，把他丟進去
data

Unnamed: 0,日期,類別,標題
0,2020/03/09 02:32,體育,HBL／冠軍隊風光　能仁個人獎大贏家
1,2020/03/09 02:22,地方,就是今晚「停水9小時」！員林斷管改接施工　1.3萬戶夜間用水停止
2,2020/03/09 02:21,政治,無薪假改名「減班休息」　勞動部拍板定調了
3,2020/03/09 02:07,體育,黃筱雯9日晚間11點出賽　獲勝就前進東奧
4,2020/03/09 01:42,生活,「GQ 國際紳仕月」首移台南　黃偉哲一身俐落西裝出席紳仕學堂
5,2020/03/09 01:40,社會,三峽陣頭不爽開打互尻！　砸中警察頭「縫5針」血濺超商
6,2020/03/09 01:39,大陸,WHO專家感動喊話：全世界都欠了武漢人民一份情
7,2020/03/09 01:33,體育,9日迎戰最強對手尹軍花　林郁婷獲勝就拿奧運門票
8,2020/03/09 01:06,國際,不斷更新／義大利陸軍參謀長感染　紐約一夜新增16例確診破百
9,2020/03/09 01:01,國際,搶不到衛生紙！3澳洲女超市開打…攔都攔不住


### ② 如果想要依照類別分類，怎麼儲存會比較好？

In [5]:
#個人備註
#看到別人有一種做法是這樣:
#開空字典
#這方法有點難
#===============================================


#res={}  #空字典

#for i in soup.find('div', class_='part_list_2').find_all('h3'):
#    date=i.find('span',class_="date").text
#    type_=i.find('em').text
#    title=i.find('a').text
#上面就是把要的東西取出來
#下面就是
#key為type_
#values為title,data
#然後把他們分類為不同type_底下的values
#這還是在一個for迴圈下進行，好猛，到底為什麼可以這樣寫?
#res.setdefault(type_, [])
#res[type_].append({
#    'title': title,
#    'date': date
#})
    
#print(res)    

In [6]:
#個人備註
#還可以用pandas的方法
#裡面有些語法可以自動排序
#參考:https://zhuanlan.zhihu.com/p/35013079
#===============================================================

sorteddata=data.sort_values(by='類別')
#以'類別'為排序優先，且好像優先顯示數字、英文、再來才是中文字

sorteddata #最後分類完的變數名稱

Unnamed: 0,日期,類別,標題
25,2020/03/08 23:56,ET車雲,MotoGP／少了GP刺激度一樣破表！卡達開幕站最速報
74,2020/03/08 20:28,健康,沖水不蓋馬桶蓋…細菌噴滿！醫揭「2物品最髒」：下一位狂吸大腸桿菌
88,2020/03/08 19:28,健康,那邊癢猛抓！20歲女大生「短褲紅疹」飄臭魚味…醫驚：已經蔓延出來
41,2020/03/08 22:28,健康,越做越上火！教練激推…5組超害羞「情侶健身術」　操出最邪惡線條
57,2020/03/08 21:30,國際,不斷更新／伊朗病毒爆發一天增743例49死！德國也暴增突破800人感染
89,2020/03/08 19:24,國際,新冠肺炎結合「2特性」！經歷過MERS、SARS　他研發疫苗直呼：職涯中最可怕
30,2020/03/08 23:26,國際,24小時內第二例　義大利大區首長感染新冠肺炎
38,2020/03/08 22:42,國際,南韓最年少感染者「僅4周大」！　一家5口住首爾東大門全中鏢
8,2020/03/09 01:06,國際,不斷更新／義大利陸軍參謀長感染　紐約一夜新增16例確診破百
9,2020/03/09 01:01,國際,搶不到衛生紙！3澳洲女超市開打…攔都攔不住


### ③ 哪一個類別的文章最多

In [7]:
#個人備註
# groupby 通過分组
#=====================================

#之前的data，拿來再抽取他的局部看他的類別總數 ,重新命名
data2=pandas.DataFrame(data.groupby('類別').size(),columns=['總數'])

dflast=data2.sort_values(by='總數',ascending=False)
#繼續排序，讓他的數字顯示具有排序性
#ascending預設為True，數字的話即從小到大，改成False時他就會從大到小
dflast

Unnamed: 0_level_0,總數
類別,Unnamed: 1_level_1
體育,26
影劇,22
國際,14
生活,8
時尚,6
大陸,5
社會,3
地方,3
健康,3
房產雲,2


In [8]:
#個人備註
#如何抽取指定數據?
#https://blog.csdn.net/d1240673769/article/details/79858434
#==========================================================

print('類別的文章最多:{} {}'.format(dflast.index[0],dflast.loc['體育','總數']))

類別的文章最多:體育 26
