# 2020 網研社 - Python Week 7

[上週教材 - 2020 網研社 - Python Week6](https://github.com/MingLunWu/2020_python_course/blob/master/Week6/Week6.ipynb)

# 本週主題 ： 爬蟲入門

>網路爬蟲（英語：web crawler），也叫網路蜘蛛（spider），是一種用來自動瀏覽全球資訊網的網路機器人。其目的一般為編纂網路索引。
> [維基百科<網路爬蟲>](https://zh.wikipedia.org/wiki/網路爬蟲)

簡單的來說：
> 網路爬蟲是可以自動化替你蒐集網頁上資訊的程式

可能的使用場景：
+ 你在一間行銷公司上班，老闆希望你到購物網站上把競爭商品的資訊都記錄下來。
+ 你是政治所的學生，需要探討在大選前各大報章雜誌的政黨色彩。
+ 你要升上大三了，準備要到外面找房子...

本週我們將會介紹基本的爬蟲知識，讓大家試著做出第一支爬蟲程式！**爬取中山大學周邊有關的租屋貼文**

我們會使用到的套件有兩項：
1. **requests**
2. **BeautifulSoup**

In [44]:
import requests
from bs4 import BeautifulSoup

## 認識網路基礎 - Request 
![img](https://miro.medium.com/max/633/1*VGO2Stzs2rzpEDX7aHlkrQ.png)

你實際上看到的網頁、動畫，都是由**Server**回傳的資料，經過**瀏覽器**解析後呈現出來的！

你可以透過「右鍵」-> 「檢視網頁原始碼」得到原始資料。

## HTML 快速入門 

使用「檢視網頁原始碼」所取得的程式碼，大部分都是屬於HTML(HyperText Markup Language)，建立網頁的標準標記語言

HTML的大原則 : **各司其職，有始有終**

請參閱: [[網頁設計]教學: HTML入門教學 | Michael Chen 的技術文件](https://michaelchen.tech/web-programming/html-primer/)

---
# 使用 requests 套件模擬 Request

使用 `requests` 套件模擬 Request 造訪網站，並且取得伺服器端的回應

In [15]:
url = "https://www.ptt.cc/bbs/NSYSU/index1117.html" # 以PTT的中山大學版作為試驗
r = requests.get(url) # 使用 request.get(<網址>) 來造訪網站

In [None]:
print(r.text) # 使用r.text可以印出取得的原始碼

取得html後，為了更快速的篩選出我們要的資訊，我們要使用第二個套件: `BeautifulSoup`

In [16]:
soup = BeautifulSoup(r.text, "html.parser") # 將剛剛的原始碼送入BeautifulSoup

In [None]:
print(soup.prettify) # 透過soup.prettify 可以印出有結構、可讀性較高的html

## Beautifulsoup 基本使用: 
```python
soup.find(<標籤>, <特定class屬性>) # 尋找第一個擁有特定Class屬性的標籤
soup.find("div", "title") # 尋找第一個class為title的div標籤

soup.find_all(<標籤>, <特定class屬性>) # 尋找所有擁有特定Class屬性的標籤 (以List的形式回傳)
soup.find_all("div", "title") # 尋找所有class為title的div標籤

soup.<標籤> #取得特定標籤
soup.<標籤>.text #取得特定標籤內的文字
soup.<標籤>[<屬性名稱>] # 取得特定標籤內的屬性
```

In [49]:
soup.find("div", "title")

<div class="title">
<a href="/bbs/NSYSU/M.1595402685.A.AC3.html">[租屋] 鼓山近渡船頭 (套)雅房出租</a>
</div>

In [50]:
soup.find_all("div","title")

[<div class="title">
 <a href="/bbs/NSYSU/M.1595402685.A.AC3.html">[租屋] 鼓山近渡船頭 (套)雅房出租</a>
 </div>,
 <div class="title">
 <a href="/bbs/NSYSU/M.1595427948.A.DEB.html">[新聞] 李眉蓁風波 校友號召連署籲校方撤銷學位</a>
 </div>,
 <div class="title">
 <a href="/bbs/NSYSU/M.1595581369.A.E39.html">[新聞] 中山大學首次決議出爐：確定論文高度相似</a>
 </div>,
 <div class="title">
 <a href="/bbs/NSYSU/M.1595658965.A.AE8.html">[新聞] 遭控影武者 中山大學校長嘆：太有想像力</a>
 </div>,
 <div class="title">
 <a href="/bbs/NSYSU/M.1595723870.A.7CA.html">[新聞] 李德維酸「焦糖條款」 中山大學校方回應</a>
 </div>,
 <div class="title">
 			
 				(本文已被刪除) [FaySan7]
 			
 			</div>,
 <div class="title">
 <a href="/bbs/NSYSU/M.1596884809.A.E5A.html">[徵屋] 近捷運站套房</a>
 </div>,
 <div class="title">
 <a href="/bbs/NSYSU/M.1597936362.A.6D7.html">[新聞] 李眉蓁遭撤銷學位後 中山大學校長首度回應</a>
 </div>,
 <div class="title">
 <a href="/bbs/NSYSU/M.1598453841.A.A41.html">[租屋] 近隧道口3500元優質小套房（含水電）</a>
 </div>,
 <div class="title">
 <a href="/bbs/NSYSU/M.1598514020.A.F2C.html">[租屋] 鼓山近愛河畔【全新”電梯”套房出租】</a>
 </div>,
 <div 

In [57]:
soup.find("div","r-ent")

<div class="r-ent">
<div class="nrec"></div>
<div class="title">
<a href="/bbs/NSYSU/M.1595402685.A.AC3.html">[租屋] 鼓山近渡船頭 (套)雅房出租</a>
</div>
<div class="meta">
<div class="author">mime</div>
<div class="article-menu">
<div class="trigger">⋯</div>
<div class="dropdown">
<div class="item"><a href="/bbs/NSYSU/search?q=thread%3A%5B%E7%A7%9F%E5%B1%8B%5D+%E9%BC%93%E5%B1%B1%E8%BF%91%E6%B8%A1%E8%88%B9%E9%A0%AD+%28%E5%A5%97%29%E9%9B%85%E6%88%BF%E5%87%BA%E7%A7%9F">搜尋同標題文章</a></div>
<div class="item"><a href="/bbs/NSYSU/search?q=author%3Amime">搜尋看板內 mime 的文章</a></div>
</div>
</div>
<div class="date"> 7/22</div>
<div class="mark"></div>
</div>
</div>

In [59]:
soup.find("div","r-ent").find("div","title")

<div class="title">
<a href="/bbs/NSYSU/M.1595402685.A.AC3.html">[租屋] 鼓山近渡船頭 (套)雅房出租</a>
</div>

In [60]:
soup.find("div","r-ent").find("div","title").a

<a href="/bbs/NSYSU/M.1595402685.A.AC3.html">[租屋] 鼓山近渡船頭 (套)雅房出租</a>

In [61]:
soup.find("div","r-ent").find("div","title").a.text

'[租屋] 鼓山近渡船頭 (套)雅房出租'

In [56]:
for i in soup.find_all("div","r-ent"):
    # 印出標題
    if i.find("div","title").a is None:
        print("文章已被刪除")
    else:
        print(i.find("div","title").a.text)
        # 印出連結
        print(i.find("div","title").a['href'])
    # 印出日期
    print(i.find("div","date").text)

[租屋] 鼓山近渡船頭 (套)雅房出租
/bbs/NSYSU/M.1595402685.A.AC3.html
 7/22
[新聞] 李眉蓁風波 校友號召連署籲校方撤銷學位
/bbs/NSYSU/M.1595427948.A.DEB.html
 7/22
[新聞] 中山大學首次決議出爐：確定論文高度相似
/bbs/NSYSU/M.1595581369.A.E39.html
 7/24
[新聞] 遭控影武者 中山大學校長嘆：太有想像力
/bbs/NSYSU/M.1595658965.A.AE8.html
 7/25
[新聞] 李德維酸「焦糖條款」 中山大學校方回應
/bbs/NSYSU/M.1595723870.A.7CA.html
 7/26
文章已被刪除
 7/31
[徵屋] 近捷運站套房
/bbs/NSYSU/M.1596884809.A.E5A.html
 8/08
[新聞] 李眉蓁遭撤銷學位後 中山大學校長首度回應
/bbs/NSYSU/M.1597936362.A.6D7.html
 8/20
[租屋] 近隧道口3500元優質小套房（含水電）
/bbs/NSYSU/M.1598453841.A.A41.html
 8/26
[租屋] 鼓山近愛河畔【全新”電梯”套房出租】
/bbs/NSYSU/M.1598514020.A.F2C.html
 8/27
[廣告] 著作權100問線上答題抽獎活動
/bbs/NSYSU/M.1598950885.A.705.html
 9/01
[租屋] 【鼓山近渡船頭 (套)雅房出租】
/bbs/NSYSU/M.1599642241.A.B97.html
 9/09
[租屋] 近火車站愛河【豪華”電梯”套房出租】
/bbs/NSYSU/M.1600229104.A.714.html
 9/16
[租屋] 近火車站愛河【豪華”電梯”套房出租】
/bbs/NSYSU/M.1601016495.A.B1A.html
 9/25
[租屋] 鼓山近愛河畔【全新”電梯”套房出租】
/bbs/NSYSU/M.1601881805.A.3ED.html
10/05
[租屋] 【鼓山近渡船頭 (套)雅房出租】
/bbs/NSYSU/M.1602473837.A.3D0.html
10/12
[廣告] 國家早鳥月
/bbs/NSYSU/M.1604

## 可以尋訪時加入條件

我們在閱讀標題時，加入條件: `需要包含[租屋]`

In [63]:
for i in soup.find_all("div","r-ent"):
    # 印出標題
    if i.find("div","title").a is None:
        print("文章已被刪除")
    elif "[租屋]" in i.find("div","title").a.text:
        print(i.find("div","title").a.text)
        # 印出連結
        print(i.find("div","title").a['href'])
        # 印出日期
        print(i.find("div","date").text)

[租屋] 鼓山近渡船頭 (套)雅房出租
/bbs/NSYSU/M.1595402685.A.AC3.html
 7/22
文章已被刪除
[租屋] 近隧道口3500元優質小套房（含水電）
/bbs/NSYSU/M.1598453841.A.A41.html
 8/26
[租屋] 鼓山近愛河畔【全新”電梯”套房出租】
/bbs/NSYSU/M.1598514020.A.F2C.html
 8/27
[租屋] 【鼓山近渡船頭 (套)雅房出租】
/bbs/NSYSU/M.1599642241.A.B97.html
 9/09
[租屋] 近火車站愛河【豪華”電梯”套房出租】
/bbs/NSYSU/M.1600229104.A.714.html
 9/16
[租屋] 近火車站愛河【豪華”電梯”套房出租】
/bbs/NSYSU/M.1601016495.A.B1A.html
 9/25
[租屋] 鼓山近愛河畔【全新”電梯”套房出租】
/bbs/NSYSU/M.1601881805.A.3ED.html
10/05
[租屋] 【鼓山近渡船頭 (套)雅房出租】
/bbs/NSYSU/M.1602473837.A.3D0.html
10/12
[租屋] 鼓山近愛河畔【全新”電梯”套房出租】
/bbs/NSYSU/M.1605684857.A.EBF.html
11/18
[租屋] 鼓山三路公寓四樓出租 可短租
/bbs/NSYSU/M.1605786329.A.1F0.html
11/19
[租屋] 出租: 全新獨立套房近 中山大學
/bbs/NSYSU/M.1605802236.A.383.html
11/20


# 將資料寫為csv

In [64]:
import pandas as pd

In [65]:
title = list()
url = list()
date = list()

In [66]:
for i in soup.find_all("div","r-ent"):
    # 印出標題
    if i.find("div","title").a is None:
        print("文章已被刪除")
    elif "[租屋]" in i.find("div","title").a.text:
        # 儲存標題
        title.append(i.find("div","title").a.text)
        # 儲存連結
        url.append(i.find("div","title").a['href'])
        # 儲存日期
        date.append(i.find("div","date").text)

文章已被刪除


In [72]:
from pprint import pprint
pprint(title[:5])
pprint(url[:5])
pprint(date[:5])

['[租屋] 鼓山近渡船頭 (套)雅房出租',
 '[租屋] 近隧道口3500元優質小套房（含水電）',
 '[租屋] 鼓山近愛河畔【全新”電梯”套房出租】',
 '[租屋] 【鼓山近渡船頭 (套)雅房出租】',
 '[租屋] 近火車站愛河【豪華”電梯”套房出租】']
['/bbs/NSYSU/M.1595402685.A.AC3.html',
 '/bbs/NSYSU/M.1598453841.A.A41.html',
 '/bbs/NSYSU/M.1598514020.A.F2C.html',
 '/bbs/NSYSU/M.1599642241.A.B97.html',
 '/bbs/NSYSU/M.1600229104.A.714.html']
[' 7/22', ' 8/26', ' 8/27', ' 9/09', ' 9/16']


In [75]:
pd.DataFrame({"title":title, "date":date, "url":url})

Unnamed: 0,title,date,url
0,[租屋] 鼓山近渡船頭 (套)雅房出租,7/22,/bbs/NSYSU/M.1595402685.A.AC3.html
1,[租屋] 近隧道口3500元優質小套房（含水電）,8/26,/bbs/NSYSU/M.1598453841.A.A41.html
2,[租屋] 鼓山近愛河畔【全新”電梯”套房出租】,8/27,/bbs/NSYSU/M.1598514020.A.F2C.html
3,[租屋] 【鼓山近渡船頭 (套)雅房出租】,9/09,/bbs/NSYSU/M.1599642241.A.B97.html
4,[租屋] 近火車站愛河【豪華”電梯”套房出租】,9/16,/bbs/NSYSU/M.1600229104.A.714.html
5,[租屋] 近火車站愛河【豪華”電梯”套房出租】,9/25,/bbs/NSYSU/M.1601016495.A.B1A.html
6,[租屋] 鼓山近愛河畔【全新”電梯”套房出租】,10/05,/bbs/NSYSU/M.1601881805.A.3ED.html
7,[租屋] 【鼓山近渡船頭 (套)雅房出租】,10/12,/bbs/NSYSU/M.1602473837.A.3D0.html
8,[租屋] 鼓山近愛河畔【全新”電梯”套房出租】,11/18,/bbs/NSYSU/M.1605684857.A.EBF.html
9,[租屋] 鼓山三路公寓四樓出租 可短租,11/19,/bbs/NSYSU/M.1605786329.A.1F0.html


# 小練習

請大家試著去中山大學版 (https://www.ptt.cc/bbs/NSYSU/index1113.html)

嘗試抓取標題包含「徵才」及「廣告」的文章

In [77]:
# Your Code Here!
#
#
#

## 進階小練習

其實ptt的網址相當單純(https://www.ptt.cc/bbs/NSYSU/index_編號_.html)

請試著用迴圈的方式，爬不止一個頁面的文章呢？

In [78]:
# Your Code Here!
#
#
#