# 编码

## 任何的HTML或XML文档都有自己的编码方式，比如ASCII或UTF-8，但是使用BeautifulSoup解析之后文档都被转成了Unicode

In [1]:
from bs4 import BeautifulSoup, UnicodeDammit
markup = "<h1>Sacr\xc3\xa9 bleu!</h1>"
soup = BeautifulSoup(markup, 'lxml')
soup.h1

<h1>SacrÃ© bleu!</h1>

In [2]:
soup.h1.string

'SacrÃ© bleu!'

BeautifulSoup使用了编码自动检测子库来识别当前文档编码并转换成Unicode编码。

BeautifulSoup对象的.original_encoding属性记录了自动识别编码的结果

In [3]:
print(soup.original_encoding)

None


版本问题输出结果是none

## 输出编码

通过Beautiful Soup输出文档时，不管输入文档是什么编码方式，输出编码均为UTF-8编码，下面例子的输入文档是Latin-1编码

In [4]:
markup = b'''
<html>
  <head>
    <meta content="text/html; charset=ISO-Latin-1" http-equiv="Content-type" />
  </head>
  <body>
    <p>Sacr\xe9 bleu!</p>
  </body>
</html>
'''

In [5]:
soup = BeautifulSoup(markup, 'lxml')
print(soup.prettify())

<html>
 <head>
  <meta content="text/html; charset=utf-8" http-equiv="Content-type"/>
 </head>
 <body>
  <p>
   Sacré bleu!
  </p>
 </body>
</html>



**文档中的```<meta>```标签的编码设置已经修改成了与输出编码一致的UTF-8**

如果不想用UTF-8编码输出，可以将编码方式传入prettify()方法：

In [6]:
print(soup.prettify("latin-1"))

b'<html>\n <head>\n  <meta content="text/html; charset=latin-1" http-equiv="Content-type"/>\n </head>\n <body>\n  <p>\n   Sacr\xe9 bleu!\n  </p>\n </body>\n</html>\n'


还可以调用BeautifulSoup对象或任意节点的encode()方法，就像Python的字符串调用的encode()方法一样

In [7]:
soup.p.encode("latin-1")

b'<p>Sacr\xe9 bleu!</p>'

In [8]:
soup.p.encode("utf-8")

b'<p>Sacr\xc3\xa9 bleu!</p>'

## 智能引号

使用Unicode时，BeautifulSoup还会智能地把引号转换成HTML或XML中的特殊字符

In [9]:
markup = b"<p>I just \x93love\x94 Microsoft Word\x92s smart quotes</p>"
UnicodeDammit(markup, ["windows-1252"], smart_quotes_to="html").unicode_markup

'<p>I just &ldquo;love&rdquo; Microsoft Word&rsquo;s smart quotes</p>'

In [10]:
UnicodeDammit(markup, ["windows-1252"], smart_quotes_to="xml").unicode_markup

'<p>I just &#x201C;love&#x201D; Microsoft Word&#x2019;s smart quotes</p>'

也可以把引号转换成ASCII码

In [11]:
UnicodeDammit(markup, ["windows-1252"], smart_quotes_to="ascii").unicode_markup

'<p>I just "love" Microsoft Word\'s smart quotes</p>'

默认情况下，BeautifulSoup把引号转换成Unicode

In [12]:
UnicodeDammit(markup, ["windows-1252"]).unicode_markup

'<p>I just “love” Microsoft Word’s smart quotes</p>'