有時候我們爬的網頁可能不是使用UTF-8編碼的, 這時候就需要在程式裡面處理編碼的問題.<br>
那要怎麼看目標網頁的編碼呢? 其實只要透過developer tool觀看網頁的head部分即可, 在head區塊裡, 找到meta標籤, 其中的charset就是該網頁的編碼了, 譬如說以下就是用UTF-8編碼的網頁:

In [None]:
<meta charset="UTF-8">

若你要爬的網頁, 其編碼不是UTF-8, 就必須在程式裡面處理了, 接下來的範例會示範怎麼做這件事.<br>
至於不同的文件類型, 除了html外, 也許你有一天也會碰上xml, 那這時候就可以選用可處理xml的library去處理其內容.

### 非UTF-8編碼的文件
這邊的範例會去爬兩張非UTF-8編碼的網頁, 其中, 在取得response的時候, 就可以先指定原文件的編碼, 方式如下:

In [None]:
# 表示爬回來的網頁內容是以BIG-5編碼為基礎的
resp.encoding = 'big5'

最後, 在處理完資料然後要儲存成檔案時, 再轉換成UTF-8編碼:<br>
這樣最後儲存的結果就會是UTF-8編碼了.

In [None]:
with open('xxx.txt', 'w', encoding='UTF-8') as file:

In [None]:
import requests
from bs4 import BeautifulSoup


def baidu_encoding():
    resp = requests.get('https://zhidao.baidu.com/question/48795122.html')
    resp.encoding = 'gbk'
    soup = BeautifulSoup(resp.text, 'html.parser')
    title = soup.find('span', 'ask-title').text.strip()
    content = soup.find('span', 'con').text.strip().replace('\n', '')
    print('title', title)
    print('content', content)
    try:
        with open(title + '.txt', 'w', encoding='UTF-8') as file:
            file.write(content)
    except Exception as e:
        print(e)


def gold_66_encoding():
    resp = requests.get('http://www.books.com.tw/activity/gold66_day/')
    resp.encoding = 'big5'
    soup = BeautifulSoup(resp.text, 'html.parser')
    books = list()
    for div in soup.find_all('div', 'sec_day'):
        books.append(div.h1.a.text + div.find_all('h2')[1].text + div.find_all('h2')[2].text)
    print('\n'.join(books))
    try:
        with open('66.txt', 'w', encoding='UTF-8') as file:
            file.write('\n'.join(books))
    except Exception as e:
        print(e)


if __name__ == '__main__':
    baidu_encoding()
    gold_66_encoding()

### XML文件
這邊用的是ElementTree.XML套件:

In [None]:
import xml.etree.ElementTree as ET


if __name__ == '__main__':
    tree = ET.parse('example.xml')
    root = tree.getroot()
    print(root.attrib)
    total = root.attrib['totalResults']
    movies = list()
    for tag in root.findall('result'):
        print(tag.attrib)
        movies.append(tag.attrib['title'])
    print('-----')
    print('There are', total, 'results in the xml file.')
    print('Top 10 record:')
    print('\n'.join(movies))