Objective
===
不使用瀏覽器開啟網頁

## Resources

**圖片顯示**
1. [OpenCV basic techniques of read and show images](https://blog.gtwang.org/programming/opencv-basic-image-read-and-write-tutorial/)

**Scrapy爬蟲和資料處理**
1. [IT邦 - 鐵人30天](https://ithelp.ithome.com.tw/users/20107514/ironman/1919?page=1)

2. [httpbin](https://httpbin.org/#/Images/get_image_jpeg) 

**SyntaxError: EOL...**

[Solution - stackoverflow](https://stackoverflow.com/questions/3561691/python-syntaxerror-eol-while-scanning-string-literal)

**Webtachniques**

[爬蟲常用技巧](https://titangene.github.io/article/python-crawler-note.html)


## Problem 
14 放圖片 5-13


---
## 1. 解析網站使用 BeautifulSoup 模組

前述章節講述如何**下載 HTML 原始檔案**<br>
這裡要**利用 Beautifulsoup 解析 HTML 文件**<br>

```python
# 導入 beautifulsoup 模組
import bs4 
```

## 建立 Beautifulsoup 物件
> objSoup = bs4.BeautifulSoup(htmlFile.text, 'lxml')


將網頁內容的 Response 物件傳給 bs4.BeautifulSoup() 的方法，就可以建立 bs4 物件<br>
而 'lxml' 速度快，相容性佳，這是本書採用的方法

In [None]:
# ch5_1.py
import requests, bs4
# 或 from bs4 import BeautifulSoup

# 請求下載 url 內容
htmlFile = requests.get('http://www.deepmind.com.tw')
# 1. 建立 Beautifulsoup 物件 - (objSoup)
# 2. 解讀 HTML 文件(text)方式，並利用 "lxml" 的方法解析 HTML 文件
objSoup = bs4.BeautifulSoup(htmlFile.text, 'lxml')
print("列印BeautifulSoup物件資料型態 ", type(objSoup))
print(objSoup)

## 2. 基本 HTML 文件解析 (myhtml.html)

html.text 是網頁內容的 Response 物件，先利用 BeautifulSoup 解析此文件。<br>
可以從 print(objSoup) 中，了解到整個**節點樹**<br>

```python
mthtml.html = 
<!doctype html>
<html>
<head>
   <meta charset="utf-8">
   <title>洪錦魁著作</title>
   <style>
      h1#author { width:400px; height:50px; text-align:center;
	     background:linear-gradient(to right,yellow,green);
      }
	  h1#content { width:400px; height:50px;
		 background:linear-gradient(to right,yellow,red); 
      }
      section { background:linear-gradient(to right bottom,yellow,gray); }
   </style>
</head>
<body>
<h1 id="author">洪錦魁</h1>
<img src="hung.jpg" width="100">
<section>
   <h1 id="content">一個人的極境旅行 - 南極大陸北極海</h1>
   <p>2015/2016年<strong>洪錦魁</strong>一個人到南極</p>
   <img src="travel.jpg" width="300">
</section>
<section>
   <h1 id="content">HTML5+CSS3王者歸來</h1>
   <p>本書講解網頁設計使用HTML5+CSS3</p>
   <img src="html5.jpg" width="300">
</section>
</body>
</html>
```

In [None]:
# ch5_2.py
import bs4

# 將 myhtml.html 打開，並以 utf-8 方法解譯，放入 htmlFile 內
htmlFile = open('myhtml.html', encoding = 'utf-8')
# 將 htmlFile 利用 "lxml" 的方法解析 HTML 文件，並存入 objSoup 物件
objSoup = bs4.BeautifulSoup(htmlFile, 'lxml')
print("列印BeautifulSoup物件資料型態: ", type(objSoup))
# 輸出 objSoup 內的資料
print('\n',objSoup)

## 3. 網頁標題 title 屬性 (objSoup.title())

BeautifulSoup 物件的 title 屬性可以傳回網頁標題的 "title" 標籤內容<br>

In [None]:
# ch5_3.py
import bs4

# 將 myhtml.html 打開，並以 utf-8 方法解譯，放入 htmlFile 內
htmlFile = open('myhtml.html', encoding = 'utf-8')
# 將 htmlFile 利用 "lxml" 的方法解析 HTML 文件，並存入 objSoup 物件
objSoup = bs4.BeautifulSoup(htmlFile, 'lxml')
print("物件類型 =  ", type(objSoup))
# 列印 title
print('列印 title = ', objSoup.title)

## 4. 去除標籤傳回文字 text 屬性

解析了 HTML 文件，但傳回解晰的結果是一個 HTML 的標籤，不過我們可以使用 text 屬性獲得此標籤的內容。

In [None]:
# ch5_4.py
import bs4

# 打開 myhtml.html file，並以 utf-8 方法解譯
htmlFile = open('myhtml.html', encoding='utf-8')
# 將 htmlFile 利用 'lxml' 的方法解析 HTML 解析文件，並存入 bs4 物件(objSoup)
objSoup = bs4.BeautifulSoup(htmlFile, 'lxml')
print("列印title = ", objSoup.title)
# 去除 HTML tag 的內容，只保留 tag 內 text 的內容
print("title內容 = ", objSoup.title.text)

## 5. 傳回所找尋第一個符合的標籤 find()

此函數可以搜尋 HTML 文件內第一個符合的標籤內容<br>
EX: ObjSoup.find('h1') 是要找第一個 h1 的標籤<br>

我們可以利用 text/string 屬性傳回內容<br>
EX: objTag.text, objTag.string

In [None]:
# ch5_5.py
import bs4
# 打開 myhtml.html，並且利用 utf-8 方法解析
htmlFile = open('myhtml.html', encoding = 'utf-8')
# 利用 bs4 的 lxml 方法解析網頁內容，並存入 bs4 物件
objSoup = bs4.BeautifulSoup(htmlFile, 'lxml')
# 找尋 objSoup 中的"第一個" h1，並存入 objTag
objTag = objSoup.find('h1')
print('資料型態: ', type(objTag))
print('列印 Tag: ', objTag)
# 找尋 objTag.text 和 objTag.string 的不同
print('Text 屬性內容: ', objTag.text)
print('String 屬性內容: ', objTag.string)

# 6. 傳回掃找尋都符號內容 find_all()

此函數可以找尋 HTML 文件內符合的標籤內容<br>
如果找到了就傳回**標籤內容**，沒有找到就傳回**空串列**<br>

In [None]:
# ch5_6.py
import bs4

# 打開 myhtml.html，並利用 utf-8 方法解析 HTML 文件
htmlFile = open('myhtml.html', encoding='utf-8')
# 利用 bs4 內 lxml 方法解析 HTML 文件，並存入 bs4 物件
objSoup = bs4.BeautifulSoup(htmlFile, 'lxml')
# 找尋 objSoup 內的 Tag ("h1")，並存入 ObjTag中
objTag = objSoup.find_all('h1')
print("資料型態    = ", type(objTag))     # 列印資料型態
print("列印Tag串列 = ", objTag)           # 列印串列
print("\n以下是列印串列元素 : ")

# 將 ObjTag中的
for data in objTag:                       # 列印串列元素內容
    print(data.text)

## find_all(), Limit 節點數量
限制找尋最多 n 個標籤節點: limit = n <br>
限制找尋次一層次的節點: recursive = False<br>

In [None]:
# ch5_6_1.py
import bs4

# 打開 myhttml.html 並利用 utf-8 解析文件
htmlFile = open('myhtml.html', encoding = 'utf-8')
# 使用 bs4 lxml方法解析文件，並將之存為 bs4 obj
objSoup = bs4.BeautifulSoup(htmlFile, 'lxml')
# 找尋 obj 內的 tag 'h1'，並限制只能找 2 層
objTag = objSoup.find_all('h1', limit = 2, recursive = True)
# 列印串列元素內容
for data in objTag:                       
    print(data.text)

## 7. 認識 HTML 元素內容屬性與 getText()

HTML 有3種元素:
1. textContent: 內容，不含任何標籤碼
2. innerHTML: 元素內容，含子標籤碼，但是不含本身標籤碼
3. outerHTML: 元素內容，含子標籤碼，也含本身標籤碼


In [None]:
# ch5_7.py
# 目標>> 資料型態、列印 Tag 串列，使用 text 屬性列印內容，使用gettext()方法列印串列元素
import bs4

# 打開 myhttml.html 並利用 utf-8 解析文件
htmlFile = open('myhtml.html', encoding = 'utf-8')
# 使用 bs4 lxml方法解析文件，並將之存為 bs4 obj
objSoup = bs4.BeautifulSoup(htmlFile, 'lxml')
# print(objSoup)
# 找尋 obj 內的 tag 'h1'
objTag = objSoup.find_all('h1')
print('資料型態: ', type(objTag))
print('列印 Tag 串列: ', objTag)
print('\n使用 text 屬性列印標籤文字: ')
for data in objTag:
    print(data.text)
print('\n使用 gettext()方法列印串列元素: ')
for data in objTag:
    print(data.getText())

In [None]:
# ch5_7_1.py
# 目標找尋 id = 'author'
import bs4

# 打開 nyheml.html 並利用 utf-8 方法解析
htmlFile = open('myhtml.html', encoding = 'utf-8')
# 利用 bs4 lxml 方法解析，並存入 bs4 物件
objSoup = bs4.BeautifulSoup(htmlFile, 'lxml')
# 在 bs4 物件中找 id = 'author' 的 Tag
objTag = objSoup.find(id = 'author')
print(objTag)
print(objTag.getText())
print(objTag.text)

---
## 8. 搜尋函數有 id = 'content' 的節點<br>
會發現
```python
objTag = objSoup.find_all(id = 'content')
# 由於 len(id = 'content') > 1，所以不能列印出全部
print(objTag.getText())
```

In [None]:
import bs4 
# ch5_7_2.py

# 打開 nyheml.html 並利用 utf-8 方法解析
htmlFile = open('myhtml.html', encoding = 'utf-8')
# 利用 bs4 lxml 方法解析，並存入 bs4 物件
objSoup = bs4.BeautifulSoup(htmlFile, 'lxml')
# 在 bs4 物件中找所有 id = 'content' 的 Tag
objTag = objSoup.find_all(id = 'content')
# 由於 len(id = 'content') > 1，所以不能列印，程式會 broken
try: 
    print(objTag.text)
    print(objTag.geText())
except Exception:
    print("we can't utilize the text&getText() method")

print('\n這是利用 for-loop\n' + '-' * 70)
for data in objTag:
    print(data)
    print(data.getText())

## 9. 搜索標籤內有 '-'，利用 attrs 參數處理
有些網站設計屬性會有 'data-*' 含有 '-' 之類的屬性。

In [None]:
# ch5_7_3.py
import bs4

# htmlFile = open('myhtml.html', encoding = 'utf-8')
htmlFile = "<div book-info='deepmind'>深智數位</div>"
# 利用 bs4 lxml 解析 htmlFile
objSoup = bs4.BeautifulSoup(htmlFile, 'lxml')
# 找尋 bs4 物件內 'book-info' = 'deepmind'
tag = objSoup.find(attrs = {'book-info': 'deepmind'})
print(tag)
print(tag.text)

## 10. 使用 find() 或 find_all() 執行 CSS 的搜尋 (註1)
class 由於是 python 的保留字，我們可以再用 find() 和 find_all()時，使用 **class_ **代表或者是直接不用 **class_** <br>

我們定義了
```python
htmlFile = "<h1 class = 'boldtext'>深智數位</h1>"
``` 
```python
# 2 種找尋 Tag 方法都可行
tag = objSoup.find('h1', class_ = 'boldtext')
tag = objSoup.find('h1', 'boldtext')
```

In [None]:
# ch5_7_4.py
import bs4

htmlFile = """<h1 class = 'boldtext'>深智數位</h1><h1 class = 'text'>洪錦魁</h1>
"""
# 利用 bs4 lxml 方法解析，並存入 bs4 物件
objSoup = bs4.BeautifulSoup(htmlFile, 'lxml')
# 找尋 bs4 物件內 Tag = 'h1' 且 class_ = 'boldtext'
tag = objSoup.find_all('h1', class_ = 'boldtext')
try:
    print(tag)
    # 因為 len(tag) > 1，所以無法列印出 
    print(tag.text)
    
except AttributeError:
    print('Fail')
    
    for data in tag:
        print(data.getText())
    
print('-'*70)
# 找尋 bs4 物件內 Tag = 'h1' 且 class_ = 'boldtext'
tag = objSoup.find_all('h1', 'boldtext')
try:
    print(tag)        
    # 因為 len(tag) > 1，所以無法列印出 
    print(tag.text)
    
except AttributeError:
    print('Fail')

    for data in tag:
        print(data.getText())

## 12. 搜尋部分字串符合的節點 re.compile('text') 

我們定義了
```python
htmlFile = """<h1 class = 'boldtext'>深智數位</h1>, <h1 class = 'text'>洪錦魁</h1>
"""
```
```python
# 利用此方法找所有 Tag 有符合 class 內的字串有 text
tag = objSoup.find_all('h1', class_ = re.compile('text'))
tag = objSoup.find_all('h1', re.compile('text'))

```


In [None]:
# ch5_7_4.py
import bs4
import re

htmlFile = """<h1 class = 'boldtext'>深智數位</h1>\
                <h1 class = 'text'>洪錦魁</h1>
"""
# 利用 bs4 lxml 方法解析，並存入 bs4 物件
objSoup = bs4.BeautifulSoup(htmlFile, 'lxml')
# 找尋 bs4 物件內 Tag = 'h1' 且 class_ = 'boldtext'
tag = objSoup.find_all('h1', class_ = re.compile('text'))
for data in tag:
    print(data)
    print(data.text)

print('-'*70)
# 找尋 bs4 物件內 Tag = 'h1' 且 class_ = 'boldtext'
tag = objSoup.find_all('h1', re.compile('text'))

try:
    print(tag)
    # 因為 len(tag) > 1，所以無法列印出 
    print(tag.text)
    
except AttributeError:
    print('Fail')
    for data in tag:
        print(data)

## 13. 比對 CSS 內多種屬性

CSS 屬性應用中，有些是多個屬性
```python
# 屬性間有空格，代表有多個屬性(bold, italic)
class = "bold italic"
```

只要有一個屬性比對成功就算成功!!!

In [None]:
# ch5_7_6.py
import bs4
import re

htmlFile = "<h1 class='bold italic'>深智數位</h1>"
# 利用 bs4 lxml 方法解析，並存入 bs4 物件
objSoup = bs4.BeautifulSoup(htmlFile, 'lxml')
# 找尋 bs4 物件內 Tag = 'h1' 且 class_ = 'bold'
tag = objSoup.find('h1', class_='bold')
print(tag)
print(tag.text)
print('-'*70)
# 找尋 bs4 物件內 Tag = 'h1' 且 class_ = 'italic'
tag = objSoup.find('h1', class_='italic')
print(tag)
print(tag.text)

## 14. Select() CSS選擇器(selector)的觀念找尋元素

如果從 bs4 物件中，找到回傳的是串列(list)，select()特色是可以一次找尋**所有**相符的元素。<br>

EX: bs4 物件內有2個東西
```python
htmlFile = """<h1 class = 'boldtext'>深智數位</h1>, <h1 class = 'text'>洪錦魁</h1>
"""
```
有圖片


In [81]:
# ch5_8.py
import bs4

# 打開 myhtml.html 並利用 utf-8 解析
htmlFile = open('myhtml.html', encoding='utf-8')
# 利用 bs4 lxml 方法解析，並存入 bs4 物件
objSoup = bs4.BeautifulSoup(htmlFile, 'lxml')
print(objSoup)
# 找尋 bs4 物件內 id = 'author' 的資料
objTag = objSoup.select('#author')

print("\n資料型態     = ", type(objTag))          # 列印資料型態
print("串列長度     = ", len(objTag))           # 列印串列長度
print("元素資料型態 = ", type(objTag[0]))       # 列印元素資料型態
print("元素內容     = ", objTag[0].getText())   # 列印元素內容

<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8"/>
<title>洪錦魁著作</title>
<style>
      h1#author { width:400px; height:50px; text-align:center;
	     background:linear-gradient(to right,yellow,green);
      }
	  h1#content { width:400px; height:50px;
		 background:linear-gradient(to right,yellow,red); 
      }
      section { background:linear-gradient(to right bottom,yellow,gray); }
   </style>
</head>
<body>
<h1 id="author">洪錦魁</h1>
<img src="hung.jpg" width="100"/>
<section>
<h1 id="content">一個人的極境旅行 - 南極大陸北極海</h1>
<p>2015/2016年<strong>洪錦魁</strong>一個人到南極</p>
<img src="travel.jpg" width="300"/>
</section>
<section>
<h1 id="content">HTML5+CSS3王者歸來</h1>
<p>本書講解網頁設計使用HTML5+CSS3</p>
<img src="html5.jpg" width="300"/>
</section>
</body>
</html>

資料型態     =  <class 'bs4.element.ResultSet'>
串列長度     =  1
元素資料型態 =  <class 'bs4.element.Tag'>
元素內容     =  洪錦魁


## 13. 將解析的串列元素傳給 str()，並查看元素 type

```python
# 標籤字串
print('列出串列元素的資料型態: ', type(objTag[0]))
#純字串
print('列出 str()轉換後的串列元素型態: ', type(str(objTag[0])))
```

In [90]:
# ch5_9.py
import bs4

# 打開 myhtml.html 並利用 utf-8 解析
htmlFile = open('myhtml.html', encoding='utf-8')
# 利用 bs4 lxml 方法解析，並存入 bs4 物件
objSoup = bs4.BeautifulSoup(htmlFile, 'lxml')
# 找尋 bs4 物件內 id = 'author' 的資料
objTag = objSoup.select('#author')
# 標籤字串
print('列出串列元素的資料型態: ', type(objTag[0]))
print(objTag[0])
# 純字串
print('列出 str()轉換後的串列元素型態: ', type(str(objTag[0])))
print(str(objTag[0]))

列出串列元素的資料型態:  <class 'bs4.element.Tag'>
<h1 id="author">洪錦魁</h1>
列出 str()轉換後的串列元素型態:  <class 'str'>
<h1 id="author">洪錦魁</h1>


## 14. 將 attrs 屬性應用在串列元素，列出字典結果

In [94]:
# ch5_10.py
import bs4

# 打開 myhtml.html 並利用 utf-8 解析
htmlFile = open('myhtml.html', encoding='utf-8')
# 利用 bs4 lxml 方法解析，並存入 bs4 物件
objSoup = bs4.BeautifulSoup(htmlFile, 'lxml')
# 找尋 bs4 物件內 id = 'author' 的資料
objTag = objSoup.select('#author')
# 列出 str()轉換後的串列元素型態，並顯示字典元素
print(str(objTag[0].attrs))

{'id': 'author'}


# 15. 子標籤

目的: 搜尋 Tag: p，最後列出串列內容，而不包含子標籤 second-Tag: strong 
```python
<p>2015/2016年<strong>洪錦魁</strong>一個人到南極</p>
<p>本書講解網頁設計使用HTML5+CSS3</p>
```

In [96]:
# ch5_11.py
import bs4

# 打開 myhtml.html 並利用 utf-8 解析
htmlFile = open('myhtml.html', encoding='utf-8')
# 利用 bs4 lxml 方法解析，並存入 bs4 物件
objSoup = bs4.BeautifulSoup(htmlFile, 'lxml')
# 找尋 bs4 物件內 Tag <p> 的資料
pObjTag = objSoup.select('p')
print("含<p>標籤的串列長度 = ", len(pObjTag))
for pObj in pObjTag:
    print(str(pObj))              # 內部有子標籤<strong>字串
    print(pObj.getText())         # 沒有子標籤
    print(pObj.text, '\n')              # 沒有子標籤

含<p>標籤的串列長度 =  2
<p>2015/2016年<strong>洪錦魁</strong>一個人到南極</p>
2015/2016年洪錦魁一個人到南極
2015/2016年洪錦魁一個人到南極 

<p>本書講解網頁設計使用HTML5+CSS3</p>
本書講解網頁設計使用HTML5+CSS3
本書講解網頁設計使用HTML5+CSS3 



## 16. 標籤字串的 get()

搜尋 img 內部的標籤

In [99]:
# ch5_12.py
import bs4

# 打開 myhtml.html 並利用 utf-8 解析
htmlFile = open('myhtml.html', encoding='utf-8')
# 利用 bs4 lxml 方法解析，並存入 bs4 物件
objSoup = bs4.BeautifulSoup(htmlFile, 'lxml')
# 找尋 bs4 物件內 Tag <img> 的資料
imgTag = objSoup.select('img')
print("含<img>標籤的串列長度 = ", len(imgTag))
print('-' * 70)
# 了解有哪一些 <img> Tag 在這之中 
for img in imgTag:              
    print(img)
    # 會發現 img 內不會有 text
    print(img.text)

含<img>標籤的串列長度 =  3
----------------------------------------------------------------------
<img src="hung.jpg" width="100"/>

<img src="travel.jpg" width="300"/>

<img src="html5.jpg" width="300"/>



## 17. 擴充取得 myhtml.html 的所有圖檔

```python
<img src="hung.jpg" width="100"/>
hung.jpg
<img src="travel.jpg" width="300"/>
travel.jpg
<img src="html5.jpg" width="300"/>
html5.jpg
```

In [103]:
import bs4

htmlFile = open('myhtml.html', encoding = 'utf-8')
objSoup = bs4.BeautifulSoup(htmlFile, 'lxml')
objTag = objSoup.select('img')
print('含<img>標籤的串列長度 = ', len(imgTag))
for data in objTag: 
    print(data)
    # 有兩種不同方法可以取得
    print(data.get('src'))
    print(data['src'])

含<img>標籤的串列長度 =  3
<img src="hung.jpg" width="100"/>
hung.jpg
hung.jpg
<img src="travel.jpg" width="300"/>
travel.jpg
travel.jpg
<img src="html5.jpg" width="300"/>
html5.jpg
html5.jpg


---
## 18. 其他 HTML 檔案解析: 爬蟲台灣最健康大學排名

EX: ch5_2_1.html 檔案
```python
<!doctype html>
<html>
<head>
   <meta charset="utf-8">
   <title>ch5_2_1.html</title> 
</head>
<body>
<h1>台灣旅遊景點排名</h1>
<ol type="a">
   <li>故宮博物院</li><li>日月潭</li><li>阿里山</li>
</ol>
<h2>台灣夜市排名</h2>
<ol type="A">
   <li>士林夜市</li><li>永康夜市</li><li>逢甲夜市</li>
</ol>
<h2>台灣人口排名</h2>
<ol type="i">
   <li>新北市</li><li>台北市</li><li>桃園市</li>
</ol>
<h2>台灣最健康大學排名</h2>
<ol type="I">
   <li>明志科大</li><li>台灣體院</li><li>台北體院</li>
</ol>
</body>
</html>
```

In [128]:
import bs4, requests

url = 'ch5_2_1.html'
# 打開 myhtml.html 並利用 utf-8 解析
htmlFile = open(url, encoding = 'utf-8')
# 利用 bs4 lxml 方法解析，並存入 bs4 物件
objSoup = bs4.BeautifulSoup(htmlFile, 'lxml')
# print(objSoup)
# 找尋 bs4 物件內全部 Tag <h2> 的資料
titleTag = objSoup.find_all('h2')
print(titleTag[2].text)
# 找尋 objSoup 中 Tag <ol> type = 'I'
itemobj = objSoup.find('ol', type = 'I')
# 找 itemobj 內 Tag <li> 的物件 
items = itemobj.find_all('li')
# items = itemobj.find('li')

for item in items:
    print(item.getText())

台灣最健康大學排名
明志科大
台灣體院
台北體院


## 19. 爬取自定義的 HTML 資料: 爬取國家首都資料，並以字典列出(國家:首都)，認識 zip() 方法

In [138]:
import bs4, requests

url = 'ch5_2_2.html'
# 打開 myhtml.html 並利用 utf-8 解析
htmlFile = open(url, encoding = 'utf-8')
# 利用 bs4 lxml 方法解析，並存入 bs4 物件
objSoup = bs4.BeautifulSoup(htmlFile, 'lxml')
# print(objSoup)

# 先找國家首都
mycountry = []
capobj = objSoup.find('dl')
captag = capobj.find_all('dd')
# print(captag)
for cap in captag:
    mycountry.append(cap.getText())
print('Country = ', mycountry)

# 再找城市
mycity = []
cityobj = objSoup.find('dl')
citytag = cityobj.find_all('dt')
for city in citytag:
    mycity.append(city.getText())
print('City = ', mycity)

# 合併成字典 zip()
data = dict(zip(mycountry, mycity))
print(data)

Country =  ['美國首都', '日本首都', '法國首都']
City =  ['Washington', 'Tokyo', 'Paris']
{'美國首都': 'Washington', '日本首都': 'Tokyo', '法國首都': 'Paris'}


## 20. 爬取表格文件(國家: 河流)

In [163]:
import bs4, requests

url = 'ch5_2_3.html'
htmlFile = open(url, encoding = 'utf-8')
objSoup = bs4.BeautifulSoup(htmlFile, 'lxml')

# 1. 河流名稱

# 創造一個 list 
myriver = []
# 在 html 內找元素(table) & 次元素 (tbody)
tableobj = objSoup.find('table').find('tbody')
# 在向下一層找 全部次元素 (tr)
tabletag = riverobj.find_all('tr')
# 再將每一 row 區分，找出全部的 Tag <td>，並找出河流td[0]
for river in tabletag:
    river = river.find_all('td')
    myriver.append(river[0].getText())

# 2. 國家
mycountry = []
tableobj = objSoup.find('table').find('tbody')
tabletag = countryobj.find_all('tr')
for country in tabletag:
    country = country.find_all('td')
    mycountry.append(country[1].getText())

# 3. 合併成字典(國家:河流)
print('Country: ', mycountry)
print('River: ', myriver)
print('-' * 70)
data = dict(zip(mycountry, myriver))
print(data)

<tr><td>長江</td><td>中國</td><td>亞洲</td></tr>
<tr><td>尼羅河</td><td>埃及</td><td>非洲</td></tr>
<tr><td>亞馬遜河</td><td>巴西</td><td>南美洲</td></tr>
Country:  ['中國', '埃及', '巴西']
River:  ['長江', '尼羅河', '亞馬遜河']
----------------------------------------------------------------------
{'中國': '長江', '埃及': '尼羅河', '巴西': '亞馬遜河'}


In [166]:
import bs4, requests

url = 'ch5_2_3.html'
htmlFile = open(url, encoding = 'utf-8')
objSoup = bs4.BeautifulSoup(htmlFile, 'lxml')

# 1. 河流名稱/ 國家名稱

# 創造一個 list 
myriver = []
mycountry = []
# 在 html 內找元素(table) & 次元素 (tbody)
tableobj = objSoup.find('table').find('tbody')
# 在向下一層找 全部次元素 (tr)
tabletag = riverobj.find_all('tr')
# 再將每一 row 區分，找出全部的 Tag <td>，並找出河流td[0]
for river in tabletag:
    river = river.find_all('td')
    myriver.append(river[0].getText())
    mycountry.append(river[1].getText())

# 3. 合併成字典(國家:河流)
print('Country: ', mycountry)
print('River: ', myriver)
print('-' * 70)
data = dict(zip(mycountry, myriver))
print(data)

Country:  ['中國', '埃及', '巴西']
River:  ['長江', '尼羅河', '亞馬遜河']
----------------------------------------------------------------------
{'中國': '長江', '埃及': '尼羅河', '巴西': '亞馬遜河'}
