# 输出

## 格式化输出

prettify()方法将Beautiful Soup的文档树格式化后以Unicode编码输出，每个XML/HTML标签都独占一行

In [1]:
from bs4 import BeautifulSoup
markup = '<a href="http://example.com/">I linked to <i>example.com</i></a>'
soup = BeautifulSoup(markup, 'lxml')
soup.prettify()

'<html>\n <body>\n  <a href="http://example.com/">\n   I linked to\n   <i>\n    example.com\n   </i>\n  </a>\n </body>\n</html>'

In [2]:
print(soup.prettify())

<html>
 <body>
  <a href="http://example.com/">
   I linked to
   <i>
    example.com
   </i>
  </a>
 </body>
</html>


BeautifulSoup对象和它的tag节点都可以调用prettify()方法：

In [3]:
print(soup.a.prettify())

<a href="http://example.com/">
 I linked to
 <i>
  example.com
 </i>
</a>


## 压缩输出

如果只想得到结果字符串，不重视格式，那么可以对一个BeautifulSoup对象或tag对象使用python的unicode或str()方法

In [4]:
str(soup)

'<html><body><a href="http://example.com/">I linked to <i>example.com</i></a></body></html>'

str()方法返回UTF-8编码的字符串，可以指定编码的设置

还可以调用encode()方法获得字节码或调用decode()方法获得unicode

In [5]:
str(soup).encode()

b'<html><body><a href="http://example.com/">I linked to <i>example.com</i></a></body></html>'

## 输出格式

BeautifulSoup输出是会将HTML中的特殊字符转换成Unicode，比如"&lquot;"

In [6]:
soup = BeautifulSoup("&ldquo;Dammit!&rdquo; he said.", 'lxml')
str(soup)

'<html><body><p>“Dammit!” he said.</p></body></html>'

<span class="mark">如果编码成utf-8就无法正确显示HTML的特殊字符了</span>

In [7]:
str(soup).encode('utf-8')

b'<html><body><p>\xe2\x80\x9cDammit!\xe2\x80\x9d he said.</p></body></html>'

## get_text()

如果只想得到tag中包含的文本内容，那么可以使用这个方法获取到tag中包含的所有文版内容<span class="mark">包括子孙</span>tag中的内容，并将结果作为Unicode字符串返回：

In [9]:
markup = '<a href="http://example.com/">\nI linked to <i>example.com</i>\n</a>'
soup = BeautifulSoup(markup, 'lxml')
soup.get_text()</div><i class="fa fa-lightbulb-o "></i>

SyntaxError: invalid syntax (<ipython-input-9-d438d4563ed6>, line 3)

<span class="mark">可以通过参数指定tag的文本内容的分隔符</span>

In [10]:
soup.get_text("|")

'“Dammit!” he said.'

<span class="mark">去除获得文本内容的前后空白：</span>

In [11]:
soup.get_text("|", strip=True)

'“Dammit!” he said.'

使用.stripped_strings生成器，获得文本列表后手动处理列表

In [12]:
[text for text in soup.stripped_strings]

['“Dammit!” he said.']