## 創建 HTML
我們先自己寫好 HTML，把它當成網站上爬回來的內容，再透過 BeautifulSoup 取出裡面的資料

[HTML 教學](https://www.w3school.com.cn/html/index.asp)

In [3]:
html_doc = """
<html>
  <head>
    <title>網頁標題</title>
  </head>
  <body>
    <div id="header">
      <a class="logo" href="https://test.com.tw/logo-link">
        PTT
      </a>
    </div>
    <div class="images">
      <img src="0.png" />
      <img src="01.png" />
      <img src="02.png" />
      <img src="03.png" />
      <img src="11.png" />
      <img src="12.png" />
      <img src="13.png" />
      <img src="01111.png" />
    </div>
    <div id="container">
      <h2 id="title">八卦版</h2>
      <div class="article a1">
        <h3 class="title t1">文章標題1</h3>
        <div class="author">作者1</div>
        <div class="date">11/01</div>
      </div>
      <div class="article a2">
        <h3 class="title t2">文章標題2</h3>
        <div class="author">作者2</div>
        <div class="date">11/02</div>
      </div>
      <div class="article a3">
        <h3 class="title t3">文章標題3</h3>
        <div class="author">作者3</div>
        <div class="date">11/03</div>
      </div>
    </div>
    <div id="footer">
      <p class="address">臺北市信義區</p>
      <p class="copyright">&copy; Copyright 2019</p>
    </div>
  </body>
</html>
"""

## Beautiful Soup

我們從網站上面爬取下來的資料其實只是一個字串，程式並不知道這些 HTML 代表什麼意思，所以我們透過 Beautiful Soup 幫我們解析頁面，可以方便地取出我們要的資訊。

[Beautiful Soup 官方文檔](https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/)

[parsers 介紹](https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/#id12)

[parsers 之間的差別](https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/#id53)

官方推薦使用 lxml 解析器，速度較快，所以接下來的範例都是使用 lxml。

## 使用 BeautifulSoup 解析我們創建的 html

In [4]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(html_doc, 'lxml')

In [5]:
soup

<html>
<head>
<title>網頁標題</title>
</head>
<body>
<div id="header">
<a class="logo" href="https://test.com.tw/logo-link">
        PTT
      </a>
</div>
<div class="images">
<img src="0.png"/>
<img src="01.png"/>
<img src="02.png"/>
<img src="03.png"/>
<img src="11.png"/>
<img src="12.png"/>
<img src="13.png"/>
<img src="01111.png"/>
</div>
<div id="container">
<h2 id="title">八卦版</h2>
<div class="article a1">
<h3 class="title t1">文章標題1</h3>
<div class="author">作者1</div>
<div class="date">11/01</div>
</div>
<div class="article a2">
<h3 class="title t2">文章標題2</h3>
<div class="author">作者2</div>
<div class="date">11/02</div>
</div>
<div class="article a3">
<h3 class="title t3">文章標題3</h3>
<div class="author">作者3</div>
<div class="date">11/03</div>
</div>
</div>
<div id="footer">
<p class="address">臺北市信義區</p>
<p class="copyright">© Copyright 2019</p>
</div>
</body>
</html>

## 取得網頁標籤
BeautifulSoup 已經幫我們解析好頁面，接下來我們使用 BeautifulSoup 提供的方法來取得頁面資訊。

In [6]:
# 抓取 title 資訊
# 注意: 這裡的 title 指的是 <head></head> 裡面的 <title>網頁標題</title>
# 並不是 <h2 id="title">八卦版</h2> 與 <h3 class="title t1">文章標題1</h3>
print(soup.title)

# 抓取所有 <a></a> 內容
print(soup.a)

<title>網頁標題</title>
<a class="logo" href="https://test.com.tw/logo-link">
        PTT
      </a>


## 取得標籤內的資訊
上面的方式會取得整個標籤，可是我們通常只會需要取裡面的文字，或者標籤上的連結
- 如果要取得標籤裡面的文字，可以使用 .text
- 如果要取得標籤上的參數可以使用 .get['參數名稱'] 或者 ['參數名稱']

In [7]:
# 取得標籤內的文字
print(soup.title.text)

# 取得標籤上的參數
# 以下程式取得 a 標籤的 href 資料
# <a href="https://test.com.tw/logo-link">PTT</a>
print(soup.a.get("href"))
print(soup.a["href"])

網頁標題
https://test.com.tw/logo-link
https://test.com.tw/logo-link


## 使用 find 取得單筆內容
我們可以用不同方式來選取內容
- 標籤 -> div, a, h2, h3
- id
- class

取得 id, class 不只有一種寫法，可以挑選一個自己喜歡的語法就好

In [8]:
# 以下指令都可以取得 <h2 id="title">八卦版</h2>
print(soup.find("h2"))
print(soup.find(id="title"))
print(soup.find("h2", id="title"))
print(soup.find("h2", {"id": "title"}))

print('--------')

# 以下指令都可以取得 <h3 class="title t1">文章標題1</h3>
print(soup.find("h3"))
print(soup.find(class_="title"))
print(soup.find("h3", class_= "title"))
print(soup.find("h3", {"class": "title"}))
print(soup.find("h3", "title")) # 沒有特別指定使用 id 或 class，預設就是使用 class

<h2 id="title">八卦版</h2>
<h2 id="title">八卦版</h2>
<h2 id="title">八卦版</h2>
<h2 id="title">八卦版</h2>
--------
<h3 class="title t1">文章標題1</h3>
<h3 class="title t1">文章標題1</h3>
<h3 class="title t1">文章標題1</h3>
<h3 class="title t1">文章標題1</h3>
<h3 class="title t1">文章標題1</h3>


## 使用 find_all 取得多筆內容
```
使用 find 只能取得一個元素，如果有多個相同的條件元素，只會取第一個
可是大多數的情況我們都會一次取多個元素(如: 文章列表)，這時候就可以用 find_all 來達成
```

In [9]:
# 可將上面任一項目從 find 改成 find_all

# id, class 在 html 的使用上其實有不同的含義
# id 代表唯一的，所以只會出現一次
# class 則是會有多個，就像這邊每篇文章的標題都會有 class="title"

print(soup.find_all(class_="title"))

[<h3 class="title t1">文章標題1</h3>, <h3 class="title t2">文章標題2</h3>, <h3 class="title t3">文章標題3</h3>]


In [10]:
# 在一個標籤上通常會有多個 class
# 我們可以取得同時擁有 title 與 t1 兩個 class 的元素
print(soup.find_all(class_="title t1"))

# 如果設定的 class 順序與 html 上不同就抓不到值
# html 上的 class 順序是 title t1，所以我們設定 t1 title 會抓不到這個元素
print(soup.find_all(class_="t1 title"))

[<h3 class="title t1">文章標題1</h3>]
[]


## 透過 select 使用 css 選擇器的方式做篩選

```
其實撰寫 css 的概念跟和上面範例選取元素很像
只是 css 是附加樣式上去改變網頁外觀
詳情可以參考 CSS 教程(https://www.w3school.com.cn/css/index.asp)

在 css 要選取 id 時，開頭為 #
如: #header

在 css 要選取 class 時，開頭為 .
如: .title

在 css 要選取標籤時，可直接使用標籤名稱
如: div, h1, a
```

In [11]:
print(soup.select(".title"))

[<h3 class="title t1">文章標題1</h3>, <h3 class="title t2">文章標題2</h3>, <h3 class="title t3">文章標題3</h3>]


In [12]:
# 可以不用管 html 上的 class 順序
print(soup.select(".t1.title"))
print(soup.select(".a1.article .t1"))

[<h3 class="title t1">文章標題1</h3>]
[<h3 class="title t1">文章標題1</h3>]


## 將所有選到的項目一個個取出來
當取多個項目時，項目會被放在陣列裡面，我們透過迴圈把一個個的項目取出來

In [13]:
# soup.select(".title") 可以取到三個包含 .title 的元素
# 透過迴圈將一個個元素取出來

# 第一個迴圈，item 這個變數會被放入第一個元素
# 第二個迴圈，item 這個變數會被放入第二個元素
#  以此類推...
for item in soup.select(".title"):
    print(item.text)

文章標題1
文章標題2
文章標題3


## 使用 re
這個套件讓我們可以使用 [Regex (正規表示式)](https://docs.python.org/zh-cn/3/library/re.html)

我們會透過正規表示式來取出與我們設定條件相匹配的內容(如: 結尾為.png)

一般在填表單時，也會用它來驗證使用者的輸入資訊是否符合格式(身分證字號、信箱)

In [15]:
import re

# 找出名稱包含 tle 的 class
print(soup.find_all(class_=re.compile("tle")))

# ^ 代表比對開頭，也就是找出開頭為 tle 的 class (這邊沒有這樣的項目)
print(soup.find_all(class_=re.compile("^tle")))

[<h3 class="title t1">文章標題1</h3>, <h3 class="title t2">文章標題2</h3>, <h3 class="title t3">文章標題3</h3>]
[]


In [16]:
# $ 代表比對結尾，也就是找出所有 .png 結尾的圖片
# . 在正規表示式中也是一個語法，可是在這個範例中他只是 .png 的字串而已
# 在 . 前面加上 \ 代表不啟用原本正規表示式的功能，它只是個普通字串
for img in soup.find_all('img', {'src': re.compile('\.png$')}):
    print(img['src'])

0.png
01.png
02.png
03.png
11.png
12.png
13.png
01111.png


In [17]:
# 找出包含 '0' 且結尾為 .png 的圖片
# . 代表任意字符
# * 代表前面的字符可以出現 0 次或多次
# .* 代表可以隨意放入多個任何字符
# 所以在 0 與 .png 中間加入任意的內容也都可以被選取出來(不包含 0 的內容就沒有被取到)
for img in soup.find_all('img', {'src': re.compile('0.*\.png$')}):
    print(img['src'])

0.png
01.png
02.png
03.png
01111.png


## Flask
Flask 是很輕量的網頁框架，只要短短幾後行指令就可以寫出網頁。

上面我們是直接寫好 HTML 的內容，再透過 Beautiful Soup 解析，可是真實情況下我們必須從網頁上把這些 HTML 取下來，因此，我們使用 Flask 實際架起網頁，再透過套件 requests 取得 HTML，模擬真實爬蟲的情境。

#### 架個 hello world 頁面

In [15]:
# 執行後，會開啟伺服器
# 接著到瀏覽器開啟 http://127.0.0.1:5000/ 就可以看到網頁
# 執行伺服器後，會持續運行著
# 要關掉伺服器可以點擊 jupyter 選單，Run 右邊的方框

from flask import Flask

app = Flask(__name__)

@app.route("/")
def hello():
    return "Hello World!"

if __name__ == "__main__":
    app.run()

 * Serving Flask app "__main__" (lazy loading)
 * Environment: production
   Use a production WSGI server instead.
 * Debug mode: off


 * Running on http://127.0.0.1:5000/ (Press CTRL+C to quit)
127.0.0.1 - - [22/Nov/2019 14:15:03] "GET / HTTP/1.1" 200 -


#### 透過 Flask 將前面的 HTML 範例變成真正的網頁

執行伺服器後，會持續運行著

這樣在 jupyter 上就無法運行其他的區塊

所以建議把以下程式放到 .py 上執行

再到瀏覽器開啟 http://127.0.0.1:5000/ 就可以看到網頁

```
以下的程式已有放在 01_flask_web/app.py 裡
使用 vs code 開啟課程資料 crawler_20191122 (將資料夾拖拉進去就可以)
按 ctrl + ` 開啟終端機
執行 python 01_flask_web/app.py 就可以啟動伺服器
```

In [1]:
from flask import Flask

app = Flask(__name__)

@app.route("/")
def hello():
    return """
    <html>
      <head>
        <title>網頁標題</title>
      </head>
      <body>
        <div id="header">
          <a class="logo" href="https://test.com.tw/logo-link">
            PTT
          </a>
        </div>
        <div class="images">
          <img src="0.png" />
          <img src="01.png" />
          <img src="02.png" />
          <img src="03.png" />
          <img src="11.png" />
          <img src="12.png" />
          <img src="13.png" />
          <img src="01111.png" />
        </div>
        <div id="container">
          <h2 id="title">八卦版</h2>
          <div class="article a1">
            <h3 class="title t1">文章標題1</h3>
            <div class="author">作者1</div>
            <div class="date">11/01</div>
          </div>
          <div class="article a2">
            <h3 class="title t2">文章標題2</h3>
            <div class="author">作者2</div>
            <div class="date">11/02</div>
          </div>
          <div class="article a3">
            <h3 class="title t3">文章標題3</h3>
            <div class="author">作者3</div>
            <div class="date">11/03</div>
          </div>
        </div>
        <div id="footer">
          <p class="address">臺北市信義區</p>
          <p class="copyright">&copy; Copyright 2019</p>
        </div>
      </body>
    </html>
"""

if __name__ == "__main__":
    app.run()

 * Serving Flask app "__main__" (lazy loading)
 * Environment: production
   Use a production WSGI server instead.
 * Debug mode: off


 * Running on http://127.0.0.1:5000/ (Press CTRL+C to quit)
127.0.0.1 - - [19/Nov/2019 14:51:27] "GET / HTTP/1.1" 200 -


## 使用 requests 取得網頁上的資訊

我們已經了把網頁架起來了，接下來就是要把資料抓下來

我們伺服器的位址是在 http://127.0.0.1:5000/
        
所以執行 requests.get('http://127.0.0.1:5000/') 就可以抓到內容

當你想要抓其他網頁的資料，只要更換網址就好了

In [16]:
import requests
from bs4 import BeautifulSoup

resp = requests.get('http://127.0.0.1:5000/')

# status_code == 200 代表成功從伺服器接收資料
# https://zh.wikipedia.org/wiki/HTTP%E7%8A%B6%E6%80%81%E7%A0%81
if resp.status_code == 200:
    print(resp.text) # 也可以在 http://127.0.0.1:5000/ 按右鍵『檢視網頁原始碼』看到以下的內容


    <html>
      <head>
        <title>網頁標題</title>
      </head>
      <body>
        <div id="header">
          <a class="logo" href="https://test.com.tw/logo-link">
            PTT
          </a>
        </div>
        <div class="images">
          <img src="0.png" />
          <img src="01.png" />
          <img src="02.png" />
          <img src="03.png" />
          <img src="11.png" />
          <img src="12.png" />
          <img src="13.png" />
          <img src="01111.png" />
        </div>
        <div id="container">
          <h2 id="title">八卦版</h2>
          <div class="article a1">
            <h3 class="title t1">文章標題1</h3>
            <div class="author">作者1</div>
            <div class="date">11/01</div>
          </div>
          <div class="article a2">
            <h3 class="title t2">文章標題2</h3>
            <div class="author">作者2</div>
            <div class="date">11/02</div>
          </div>
          <div class="article a3">
            <h3 class="title t3"

#### 使用 BeautifulSoup 解析內容，取出資料

In [17]:
soup = BeautifulSoup(resp.text, 'lxml')

In [18]:
print(soup.title)
print(soup.a)
print(soup.select(".title"))

<title>網頁標題</title>
<a class="logo" href="https://test.com.tw/logo-link">
            PTT
          </a>
[<h3 class="title t1">文章標題1</h3>, <h3 class="title t2">文章標題2</h3>, <h3 class="title t3">文章標題3</h3>]


# 作業
- 可以試著使用 requests 去爬取其他網頁看看
- 再使用 BeautifulSoup 取得想要的資訊