# 實際的例子 -- 爬蟲

`hanklu`  `臺科大程式設計社`

## 快速複習

我們前幾週的課程裡面介紹了，並寫了一些不太有趣的練習題

- variable and its type
- if/else
- loop
    - while
    - for
- define function
- import

`int`, `float`, `str`, `list`, `dict`
![](https://i.imgur.com/FstpeaU.png)

## `if statement`

- `if` （如果）：第一個條件
- `elif` （否則如果）：其他條件，可以有 0~多個
- `else` （否則）：沒有符合前述 condition 的其他狀況，可以不使用
- 每一組只會有一個（或沒有）條件成立
- 記得在屁股加上 `:` (冒號)
- 需要以一個縮排`indent`（實際上為四個空白），做「排版」

```python
if <condition>:
    <statement>
    <statement>
elif <condition>:
    <statement>
else:
    <statement>
```

## While Loop

- 當條件成立，就執行 block 裡面的程式碼，之後再回到while開頭再問一次條件是否成立
- 條件不成立，就不執行 block 裡面的程式碼
- while 的屁股要加上 `:` （冒號）
- 記得用縮排 `indent` 當作 block

```python
while <condition>:
    <statement>
    <statement>
```

# for loop

- 遍歷整個 sequence ，每次 loop 拿出一個東西
- 也一樣要用 `indent` 排版出 `block`
- 後面要加上 `:`(冒號)
- 和 `while` 一樣可以 `break` 和 `continue`

```python
for <variable> in <sequence>:
    <statement>
    <statement>
```

## define function
- `def` (define) 開頭
- `function_name` ：自己命名的，和之前變數一樣，最好是個有意義的字
- `()` 括號中放入參數，未來使用的時候傳入的值，就是一種變數啦
- `return` 可有可無，但 function 只要遇到 `return` 就會結束，預設是 return `None`
- call function 的時候的寫法就是 `function_name(x,y)`
- 一樣要使用 `indent` 來排版 code block

```python
def function_name(x,y):
    <statement>
    <statement>
    return <something>

function_name(1,2)
```

## Class 類別

(補充一個不需要實際寫，但要會用的概念)

我們之前學過的 `int`, `float`, `str`, `list`, `dict` 是 python 內建的型別

當然也可以自己設計其他東西

<img src="https://i.imgur.com/bllLm8h.png" width="800px">

In [4]:
x = 1
print(type(x))

y = "hello world"
print(type(y))

<class 'int'>
<class 'str'>


In [11]:
import datetime
today = datetime.datetime.today()
print(today)
print(type(today)) # today 是一個 datetime 的 object

2019-04-08 21:02:59.920589
<class 'datetime.datetime'>


In [26]:
x = "hello world"
print(x.replace("hello", "hi~"))
print(x.split())

hi~ world
['hello', 'world']


In [27]:
import datetime
today = datetime.datetime.today()

print(type(today))
print(today.strftime("%Y / %m / %d")) # method
print(today.day) # attribute

<class 'datetime.datetime'>
2019 / 04 / 08
8


## 網頁爬蟲

一言以敝之：用 python 把從網路上抓取資料的動作自動化。

- 資料是一種資產
- 搜集資料很麻煩，只有少部分的資料被打包好了（政府 PM2.5 歷史資料...）

一個一般的網頁，裡面包含了我想要取得的資料，但是沒人幫我整理好QQ

![](https://i.imgur.com/Zq92L0t.png)


[pokemon](https://bulbapedia.bulbagarden.net/wiki/List_of_Pok%C3%A9mon_by_base_stats_(Generation_VII-present))
![](https://i.imgur.com/oc0SEkG.png)

## 基礎觀念

簡單的爬蟲程式分成兩個部分

- 抓取網頁內容
- 分析

## 抓取網頁內容

`F12` or `⌘+⌥+i` 可以在 chorme 上看到網頁原始碼

![](https://i.imgur.com/AkgHXm0.png)

![](https://i.imgur.com/0omTufK.png)

## 先安裝一下需要的套件：

In [1]:
# install package
!pip install requests
!pip install bs4

# or run command in terminal

[33mYou are using pip version 10.0.0, however version 19.0.3 is available.
You should consider upgrading via the 'pip install --upgrade pip' command.[0m
[33mYou are using pip version 10.0.0, however version 19.0.3 is available.
You should consider upgrading via the 'pip install --upgrade pip' command.[0m


In [35]:
import requests

resp = requests.get("https://hanklu.tw/python/example")
print(resp)

<Response [200]>


In [36]:
print(resp.text)

<h2> hello world </h2>
<p> here is some HTML code</p>
<div>
  <h3> have a nice day </h3>
</div>


## 分析網頁內容(萃取)

使用 BeautifulSoup

## 補充資料：
[HTML x CSS 超☆入門](https://docs.google.com/presentation/d/1Yn1rXAKOwj_VUDmnL8Mvhnj6hU0KCSoZW-D_aLHYizA)

[HTML Tree](https://docs.google.com/presentation/d/1OJL6nstGJuCHPw0fIED3y-biRu63qt_6qcSpXYjK3ys)

<img src="https://i.imgur.com/WuU4SCk.png" width="400px">

In [38]:
import requests
from bs4 import BeautifulSoup

# 抓取網頁內容
resp = requests.get("https://coodle.hanklu.tw/problem/")
html = resp.text
print(html)


<!DOCTYPE html>
<html lang="zh-tw">

<head>
  <meta charset="UTF-8">
  <meta name="viewport" content="width=device-width, initial-scale=1.0">
  <title>Coodle</title>
  <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/bulma/0.7.2/css/bulma.min.css">
  <script defer src="https://use.fontawesome.com/releases/v5.3.1/js/all.js"></script>
  <link rel="stylesheet" href="//cdnjs.cloudflare.com/ajax/libs/highlight.js/9.15.6/styles/tomorrow.min.css">
  <script src="//cdnjs.cloudflare.com/ajax/libs/highlight.js/9.15.6/highlight.min.js"></script>
  <link rel="stylesheet" href="/static/css/style.css">
  
  
</head>


<body>
  
<nav class="navbar" role="navigation" aria-label="main navigation">
  <div class="container">
    <div class="navbar-brand">
      <a class="navbar-item" href="/">
        Coodle
      </a>

      <a role="button" class="navbar-burger burger" aria-label="menu" aria-expanded="false" data-target="navbarBasicExample">
        <span aria-hidden="true"></span>


In [40]:
bs = BeautifulSoup(html,'html.parser')
print(type(bs))

<class 'bs4.BeautifulSoup'>


In [49]:
print(bs.title) # tag
print(bs.title.text) # tag中的純文字

<title>Coodle</title>
Coodle


In [50]:
print(bs.table)

<table class="table is-fullwidth">
<thead>
<th>標題</th>
<th>描述</th>
<th>出題者</th>
<th>最後修改</th>
</thead>
<tbody>
<tr>
<td><a href="/problem/16">L5 平均</a></td>
<td>mean</td>
<td>匿名小飛象章魚</td>
<td>March 26, 2019, 7:48 a.m.</td>
</tr>
<tr>
<td><a href="/problem/15">L5 扇形面積</a></td>
<td>算一下面積</td>
<td>匿名小飛象章魚</td>
<td>March 26, 2019, 7:47 a.m.</td>
</tr>
<tr>
<td><a href="/problem/14">L5 快放暑假了！</a></td>
<td>還有多久放暑假呢</td>
<td>匿名小飛象章魚</td>
<td>March 26, 2019, 7:46 a.m.</td>
</tr>
<tr>
<td><a href="/problem/13">L4 有趣的質數</a></td>
<td>找一下質數</td>
<td>匿名小飛象章魚</td>
<td>March 19, 2019, 9:20 a.m.</td>
</tr>
<tr>
<td><a href="/problem/12">L4 阿姆斯壯數</a></td>
<td>Armstrong</td>
<td>匿名小飛象章魚</td>
<td>March 19, 2019, 9:22 a.m.</td>
</tr>
<tr>
<td><a href="/problem/11">L4 很多信箱</a></td>
<td>處理一下資料吧</td>
<td>匿名小飛象章魚</td>
<td>March 19, 2019, 9:17 a.m.</td>
</tr>
<tr>
<td><a href="/problem/10">L4 99 乘法表</a></td>
<td>印出一個九九乘法表吧</td>
<td>匿名小飛象章魚</td>
<td>March 19, 2019, 9:15 a.m.</td>
</tr>
<tr>
<td><a href="/proble

### `find()` `find_all()`

In [46]:
print(bs.find("a"))

<a class="navbar-item" href="/">
        Coodle
      </a>

In [47]:
print(bs.find_all("a"))

[<a class="navbar-item" href="/">
        Coodle
      </a>, <a aria-expanded="false" aria-label="menu" class="navbar-burger burger" data-target="navbarBasicExample" role="button">
<span aria-hidden="true"></span>
<span aria-hidden="true"></span>
<span aria-hidden="true"></span>
</a>, <a class="navbar-item" href="/problem">
          練習題
        </a>, <a class="navbar-item" href="/discuss">
          討論區
        </a>, <a class="bd-tw-button button" href="/accounts/login">
            登入
          </a>, <a class="bd-tw-button button" href="https://github.com/kehanlu/python">
<span class="icon">
<i class="fab fa-github"></i>
</span>
<span>
              課程資訊
            </span>
</a>, <a href="/problem/16">L5 平均</a>, <a href="/problem/15">L5 扇形面積</a>, <a href="/problem/14">L5 快放暑假了！</a>, <a href="/problem/13">L4 有趣的質數</a>, <a href="/problem/12">L4 阿姆斯壯數</a>, <a href="/problem/11">L4 很多信箱</a>, <a href="/problem/10">L4 99 乘法表</a>, <a href="/problem/9">L4 fizz buzz</a>, <a href="/problem/8">

### 取出每個問題的標題

In [52]:
a_tags = bs.table.find_all("a")
print(a_tags)

[<a href="/problem/16">L5 平均</a>, <a href="/problem/15">L5 扇形面積</a>, <a href="/problem/14">L5 快放暑假了！</a>, <a href="/problem/13">L4 有趣的質數</a>, <a href="/problem/12">L4 阿姆斯壯數</a>, <a href="/problem/11">L4 很多信箱</a>, <a href="/problem/10">L4 99 乘法表</a>, <a href="/problem/9">L4 fizz buzz</a>, <a href="/problem/8">L4 GPA 計算機</a>, <a href="/problem/7">L4 1~10000的和</a>, <a href="/problem/6">L4 成績等第制</a>, <a href="/problem/5">L3 閏年</a>, <a href="/problem/4">L3 期末考</a>, <a href="/problem/3">L3 剪刀石頭布</a>, <a href="/problem/2">L3 找大的2</a>, <a href="/problem/1">HW1 奇數偶數</a>]


In [53]:
for a_tag in a_tags:
    print(a_tag.text)

L5 平均
L5 扇形面積
L5 快放暑假了！
L4 有趣的質數
L4 阿姆斯壯數
L4 很多信箱
L4 99 乘法表
L4 fizz buzz
L4 GPA 計算機
L4 1~10000的和
L4 成績等第制
L3 閏年
L3 期末考
L3 剪刀石頭布
L3 找大的2
HW1 奇數偶數


## PTT

把 soft job 最新的幾個貼文標題抓出來！

In [70]:
import requests
from bs4 import BeautifulSoup

resp = requests.get("https://www.ptt.cc/bbs/Soft_Job/index.html")
bs = BeautifulSoup(resp.text,'html.parser')
bs.find_all("div","title")

[<div class="title">
 <a href="/bbs/Soft_Job/M.1554787792.A.EA4.html">Re: [討論] 認真問~寫程式的時候吃什麼比較ok?</a>
 </div>, <div class="title">
 			
 				(本文已被刪除) [sandyangel]
 			
 			</div>, <div class="title">
 <a href="/bbs/Soft_Job/M.1554788901.A.D58.html">[請益] 愛奇藝台北研發中心請教</a>
 </div>, <div class="title">
 <a href="/bbs/Soft_Job/M.1501827536.A.DF2.html">[公告] 本板板規  2017/4/10更新</a>
 </div>, <div class="title">
 <a href="/bbs/Soft_Job/M.1501827692.A.18D.html">[公告] 徵才不符板規或徵才自刪公司</a>
 </div>, <div class="title">
 <a href="/bbs/Soft_Job/M.1501847358.A.F41.html">[情報] 訓練課程與付費APP與網站分享</a>
 </div>, <div class="title">
 <a href="/bbs/Soft_Job/M.1501847445.A.045.html">[情報] 社群活動與免費APP與網站分享</a>
 </div>, <div class="title">
 <a href="/bbs/Soft_Job/M.1498710085.A.78A.html">[板務] 請板友提供板務建議</a>
 </div>]

In [71]:
posts_title = []
for title in bs.find_all("div","title"):
    print(title.text.strip())
    posts_title.append(title.text.strip())

print(posts_title)

Re: [討論] 認真問~寫程式的時候吃什麼比較ok?
(本文已被刪除) [sandyangel]
[請益] 愛奇藝台北研發中心請教
[公告] 本板板規  2017/4/10更新
[公告] 徵才不符板規或徵才自刪公司
[情報] 訓練課程與付費APP與網站分享
[情報] 社群活動與免費APP與網站分享
[板務] 請板友提供板務建議
['Re: [討論] 認真問~寫程式的時候吃什麼比較ok?', '(本文已被刪除) [sandyangel]', '[請益] 愛奇藝台北研發中心請教', '[公告] 本板板規  2017/4/10更新', '[公告] 徵才不符板規或徵才自刪公司', '[情報] 訓練課程與付費APP與網站分享', '[情報] 社群活動與免費APP與網站分享', '[板務] 請板友提供板務建議']


In [61]:
# 數一下有幾個請益
count = 0
for title in posts_title:
    if "[請益]" in title:
        count += 1
print(count)

5


## 大的爬蟲

![](https://upload.wikimedia.org/wikipedia/commons/thumb/d/df/WebCrawlerArchitecture.svg/440px-WebCrawlerArchitecture.svg.png)

## 大致可以分成三個部分

- 取得網址
- 抓取網頁內容
- 分析萃取出有價值的資料

## 案例：

每一篇文章的推噓文數

In [78]:
import requests
from bs4 import BeautifulSoup

resp = requests.get("https://www.ptt.cc/bbs/Soft_Job/index1464.html")
bs = BeautifulSoup(resp.text, 'html.parser')
bs

<!DOCTYPE html>

<html>
<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<title>看板 Soft_Job 文章列表 - 批踢踢實業坊</title>
<link href="//images.ptt.cc/bbs/v2.25/bbs-common.css" rel="stylesheet" type="text/css"/>
<link href="//images.ptt.cc/bbs/v2.25/bbs-base.css" media="screen" rel="stylesheet" type="text/css"/>
<link href="//images.ptt.cc/bbs/v2.25/bbs-custom.css" rel="stylesheet" type="text/css"/>
<link href="//images.ptt.cc/bbs/v2.25/pushstream.css" media="screen" rel="stylesheet" type="text/css"/>
<link href="//images.ptt.cc/bbs/v2.25/bbs-print.css" media="print" rel="stylesheet" type="text/css"/>
</head>
<body>
<div id="topbar-container">
<div class="bbs-content" id="topbar">
<a href="/bbs/" id="logo">批踢踢實業坊</a>
<span>›</span>
<a class="board" href="/bbs/Soft_Job/index.html"><span class="board-label">看板 </span>Soft_Job</a>
<a class="right small" href="/about.html">關於我們</a>
<a class="right small" href="/contact.html">聯絡資訊</a>
</div>
</div>

In [79]:
bs.find_all("a")

[<a href="/bbs/" id="logo">批踢踢實業坊</a>,
 <a class="board" href="/bbs/Soft_Job/index.html"><span class="board-label">看板 </span>Soft_Job</a>,
 <a class="right small" href="/about.html">關於我們</a>,
 <a class="right small" href="/contact.html">聯絡資訊</a>,
 <a class="btn selected" href="/bbs/Soft_Job/index.html">看板</a>,
 <a class="btn" href="/man/Soft_Job/index.html">精華區</a>,
 <a class="btn wide" href="/bbs/Soft_Job/index1.html">最舊</a>,
 <a class="btn wide" href="/bbs/Soft_Job/index1463.html">‹ 上頁</a>,
 <a class="btn wide" href="/bbs/Soft_Job/index1465.html">下頁 ›</a>,
 <a class="btn wide" href="/bbs/Soft_Job/index.html">最新</a>,
 <a href="/bbs/Soft_Job/M.1554497629.A.BC9.html">Re: [心得] 非本科轉職經驗談</a>,
 <a href="/bbs/Soft_Job/search?q=thread%3A%5B%E5%BF%83%E5%BE%97%5D+%E9%9D%9E%E6%9C%AC%E7%A7%91%E8%BD%89%E8%81%B7%E7%B6%93%E9%A9%97%E8%AB%87">搜尋同標題文章</a>,
 <a href="/bbs/Soft_Job/search?q=author%3Aripple0129">搜尋看板內 ripple0129 的文章</a>,
 <a href="/bbs/Soft_Job/M.1554515452.A.E69.html">[請益] 九章算法</a>,
 <a 

In [89]:
# 所有的標題超連結
posts_title = bs.find_all("div","title")
for post in posts_title:

    # 有些文章被刪除了，只拜訪沒有被刪除的
    if post.a:    
        print(post.text.strip())
        
        # 文章標題
        post_url = post.a['href'].strip()
        print(post_url)
        
        # 拜訪該文章頁面
        post_resp = requests.get("https://www.ptt.cc/" + post_url)
        post_bs = BeautifulSoup(post_resp.text, 'html.parser')
        
        # 抓出推噓箭頭
        push = post_bs.find_all("div","push")
        print("推噓箭頭：", len(push))
        print()
        
        

Re: [心得] 非本科轉職經驗談
/bbs/Soft_Job/M.1554497629.A.BC9.html
推噓箭頭： 51

[請益] 九章算法
/bbs/Soft_Job/M.1554515452.A.E69.html
推噓箭頭： 17

[分享] 龜找殼 LINE買房機器人
/bbs/Soft_Job/M.1554522627.A.C93.html
推噓箭頭： 22

Re: [心得] 非本科轉職經驗談
/bbs/Soft_Job/M.1554547280.A.486.html
推噓箭頭： 20

[請益] 想往這行走 大學該讀哪？
/bbs/Soft_Job/M.1554568574.A.7AB.html
推噓箭頭： 104

Re: [徵才] Flo 誠徵 Embedded Software Engineer
/bbs/Soft_Job/M.1554573254.A.5A8.html
推噓箭頭： 77

[請益] 設備轉職Java Web 行情請益
/bbs/Soft_Job/M.1554613251.A.89E.html
推噓箭頭： 49

[請益] 轉職ML請教
/bbs/Soft_Job/M.1554628577.A.ADC.html
推噓箭頭： 43

[討論] 團報：第二屆《機器學習百日馬拉松》
/bbs/Soft_Job/M.1554634119.A.B54.html
推噓箭頭： 6

[請益] 轉職offer請益
/bbs/Soft_Job/M.1554647372.A.ADC.html
推噓箭頭： 23

[新聞] 街口收購愛評網後轉移現金資產並解雇員工
/bbs/Soft_Job/M.1554717492.A.3FD.html
推噓箭頭： 59

[徵才] LyncusTek誠徵Junior Frontend Engineer
/bbs/Soft_Job/M.1554720729.A.493.html
推噓箭頭： 13

[討論] Wix and WordPress
/bbs/Soft_Job/M.1554727074.A.422.html
推噓箭頭： 16

Fw: [請益] 實習offer請益(微軟/Google)
/bbs/Soft_Job/M.1554733003.A.586.html
推噓箭頭： 38

[請益] 新鮮人離職