# 靜態網頁擷取

## 郭耀仁

## 先安裝 chrome 外掛

- [SelectorGadget](https://chrome.google.com/webstore/detail/selectorgadget/mhjhnkcfbdhnjickkkdbjoemdmbfginb?hl=zh-TW): 幫助 CSS 選擇

## CSS 選擇

- 利用文件物件模型（Document Object Model, DOM）選擇網頁元素的技巧

## CSS 選擇（2）

- 以 [IMDB: La La Land](http://www.imdb.com/title/tt3783958/) 為例
- 選出評等（Rating）

## CSS 選擇（3）

- 點選 SelectorGadget 的外掛圖示
- 先點選評等（Rating）

![](img/ch0701.png)

## CSS 選擇（4）

- 會有多個元素被選出（標註黃色），因為這頁有很多 `<span></span>`

![](img/ch0702.png)

## CSS 選擇（5）

- 接著點選不要的元素（標註紅色）

![](img/ch0703.png)

## CSS 選擇（6）

- 這時我們就得到正確的 CSS 選擇：`strong span`

![](img/ch0704.png)

## CSS 選擇（7）

- 再練習一次，這次我們要將這頁的演員名單（Cast）擷取出來：

![](img/ch0705.png)

## CSS 選擇（8）

- 先點選男主角 Ryan Gosling
- 乍看之下好像 `.itemprop` 這個類別就對了

![](img/ch0706.png)

## CSS 選擇（9）

- 但是其實其他的元素也有使用 `.itemprop` 這個類別

![](img/ch0707.png)

![](img/ch0708.png)

## CSS 選擇（10）

- 於是點選不要的元素（標註紅色）

![](img/ch0709.png)

## CSS 選擇（11）

- 這時我們就得到正確的 CSS 選擇：`.itemprop .itemprop`

![](img/ch0710.png)

## Pyquery

- 用來解析 HTML 與 XML 檔案的 Python 模組
- 先在終端機安裝模組

```
# Local
pip install pyquery # terminal
# Google Colab
!pip install pyquery # cell
```

In [1]:
from pyquery import PyQuery as pq

lalaland_url = "http://www.imdb.com/title/tt3783958/"
html_doc = pq(lalaland_url)
html_doc.contents()

['\n    ', <Element head at 0x109ed3778>, '\n    ', <Element body at 0x109ed3818>, '\n']

In [2]:
rating_css = "strong span"
print(html_doc(rating_css))
print(html_doc(rating_css).text())

<span itemprop="ratingValue">8.1</span>
8.1


In [3]:
lalaland_rating = html_doc(rating_css).text()
type(lalaland_rating)

str

## 隨堂練習：從網頁中擷取出電影類型

http://www.imdb.com/title/tt3783958/

In [4]:
def get_genre():
    """
    擷取 La La Land 的劇情類型
    """
    genre_css = ".subtext .itemprop"
    genre = html_doc(genre_css).text()
    genre_lst = genre.split()
    return genre_lst

In [5]:
get_genre()

['Comedy', 'Drama', 'Music']

## 隨堂練習：從網頁中擷取出演員名單

http://www.imdb.com/title/tt3783958/

In [6]:
def get_cast():
    """
    擷取 La La Land 的演員名單
    """
    cast_lst = []
    for i, j in zip(range(2, 17, 2), range(3, 16, 2)):
        odd_cast_css = ".odd:nth-child({}) .itemprop .itemprop".format(i)
        even_cast_css = ".even:nth-child({}) .itemprop .itemprop".format(j)
        odd_cast = html_doc(odd_cast_css).text()
        even_cast = html_doc(even_cast_css).text()
        cast_lst.append(odd_cast)
        cast_lst.append(even_cast)
    return cast_lst

In [7]:
get_cast()

['Ryan Gosling',
 'Emma Stone',
 'Amiée Conn',
 'Terry Walters',
 'Thom Shelton',
 'Cinda Adams',
 'Callie Hernandez',
 'Jessica Rothe',
 'Sonoya Mizuno',
 'Rosemarie DeWitt',
 'J.K. Simmons',
 'Claudine Claudio',
 'Jason Fuchs',
 'D.A. Wallach']