# 读取文档

互联网并不是一个 HTML 页面的集合。它是一个信息集合，而 HTML 文件只是展示信息的一个框架而已。如果我们的爬虫不能读取其他类型的文件，包括纯文本、
PDF、图像、视频、邮件等，我们将会失去很大一部分数据。

本章重点介绍文档处理的相关内容，包括把文件下载到文件夹里，以及读取文档并提取数据。我们还会介绍文档的不同编码类型，让程序可以读取非英文的 HTML 页面。

### 1　文档编码

文档编码是一种告诉程序——无论是计算机的操作系统还是 Python 代码——读取文档的规则。文档编码的方式通常可以根据文件的扩展名进行判断，虽然文件扩展名并不是由编码确定的，而是由开发者确定的。

几种常用的文档格式：纯文本、PDF、PNG 和 GIF.

### 2　纯文本

虽然把文件存储为在线的纯文本格式并不常见，但是一些简易网站，或者拥有大量纯文本文件的“旧式学术”（old-school）网站经常会这么做。


In [1]:
from urllib.request import urlopen
textPage = urlopen('http://www.pythonscraping.com/pages/warandpeace/chapter1.txt')
print(textPage.read())

b'CHAPTER I\n\n"Well, Prince, so Genoa and Lucca are now just family estates of theBuonapartes. But I warn you, if you don\'t tell me that this means war,if you still try to defend the infamies and horrors perpetrated bythat Antichrist- I really believe he is Antichrist- I will havenothing more to do with you and you are no longer my friend, no longermy \'faithful slave,\' as you call yourself! But how do you do? I seeI have frightened you- sit down and tell me all the news."\n\nIt was in July, 1805, and the speaker was the well-known AnnaPavlovna Scherer, maid of honor and favorite of the Empress MaryaFedorovna. With these words she greeted Prince Vasili Kuragin, a manof high rank and importance, who was the first to arrive at herreception. Anna Pavlovna had had a cough for some days. She was, asshe said, suffering from la grippe; grippe being then a new word inSt. Petersburg, used only by the elite.\n\nAll her invitations without exception, written in French, anddelivered by a scarle

通常，当用 urlopen 获取了网页之后，我们会把它转变成 BeautifulSoup 对象，方便后面
对 HTML 进行分析。在这段代码中，我们直接读取页面内容。你可能觉得，如果把它转变
成 BeautifulSoup 对象应该也不错，但那样做其实适得其反——这个页面不是 HTML，所以
BeautifulSoup 库就没用了。

In [6]:
from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen('http://www.pythonscraping.com/pages/warandpeace/chapter1.txt')
htmlObj = BeautifulSoup(html, "html.parser")
print(htmlObj)


CHAPTER I

"Well, Prince, so Genoa and Lucca are now just family estates of theBuonapartes. But I warn you, if you don't tell me that this means war,if you still try to defend the infamies and horrors perpetrated bythat Antichrist- I really believe he is Antichrist- I will havenothing more to do with you and you are no longer my friend, no longermy 'faithful slave,' as you call yourself! But how do you do? I seeI have frightened you- sit down and tell me all the news."

It was in July, 1805, and the speaker was the well-known AnnaPavlovna Scherer, maid of honor and favorite of the Empress MaryaFedorovna. With these words she greeted Prince Vasili Kuragin, a manof high rank and importance, who was the first to arrive at herreception. Anna Pavlovna had had a cough for some days. She was, asshe said, suffering from la grippe; grippe being then a new word inSt. Petersburg, used only by the elite.

All her invitations without exception, written in French, anddelivered by a scarlet-liveried 

你可能觉得，如果把它转变成 BeautifulSoup 对象应该也不错，但那样做其实适得其反——这个页面不是 HTML，所以BeautifulSoup 库就没用了。一旦纯文本文件被读成字符串，你就只能用普通 Python 字符串的方法分析它了。当然，这么做有个缺点，就是你不能对字符串使用 HTML 标签，去定位那些你真正需要的文字，避开那些你不需要的文字。如果现在你想从纯文本文件中抽取某些信息，还是有些难度的。

##### 文本编码和全球互联网

In [7]:
from urllib.request import urlopen
textPage = urlopen(
             'http://www.pythonscraping.com/pages/warandpeace/chapter1-ru.txt')
print(textPage.read())

b"\xd0\xa7\xd0\x90\xd0\xa1\xd0\xa2\xd0\xac \xd0\x9f\xd0\x95\xd0\xa0\xd0\x92\xd0\x90\xd0\xaf\n\nI\n\n\xe2\x80\x94 Eh bien, mon prince. G\xc3\xaanes et Lucques ne sont plus que des apanages, des \xd0\xbf\xd0\xbe\xd0\xbc\xd0\xb5\xd1\x81\xd1\x82\xd1\x8c\xd1\x8f, de la famille Buonaparte. Non, je vous pr\xc3\xa9viens que si vous ne me dites pas que nous avons la guerre, si vous vous permettez encore de pallier toutes les infamies, toutes les atrocit\xc3\xa9s de cet Antichrist (ma parole, j'y crois) \xe2\x80\x94 je ne vous connais plus, vous n'\xc3\xaates plus mon ami, vous n'\xc3\xaates plus \xd0\xbc\xd0\xbe\xd0\xb9 \xd0\xb2\xd0\xb5\xd1\x80\xd0\xbd\xd1\x8b\xd0\xb9 \xd1\x80\xd0\xb0\xd0\xb1, comme vous dites. \xd0\x9d\xd1\x83, \xd0\xb7\xd0\xb4\xd1\x80\xd0\xb0\xd0\xb2\xd1\x81\xd1\x82\xd0\xb2\xd1\x83\xd0\xb9\xd1\x82\xd0\xb5, \xd0\xb7\xd0\xb4\xd1\x80\xd0\xb0\xd0\xb2\xd1\x81\xd1\x82\xd0\xb2\xd1\x83\xd0\xb9\xd1\x82\xd0\xb5. Je vois que je vous fais peur, \xd1\x81\xd0\xb0\xd0\xb4\xd0\xb8\xd1\x82\xd

这些乱码也难以辨认。这个问题是因为 Python 默认把文本读成ASCII 编码格式，而浏览器把文本读成 ISO-8859-1 编码格式。其实都不对，应该用 UTF-8
编码格式。

In [17]:
from urllib.request import urlopen

textPage = urlopen(
             'http://www.pythonscraping.com/pages/warandpeace/chapter1-ru.txt')
print(str(textPage.read(), 'utf-8'))

ЧАСТЬ ПЕРВАЯ

I

— Eh bien, mon prince. Gênes et Lucques ne sont plus que des apanages, des поместья, de la famille Buonaparte. Non, je vous préviens que si vous ne me dites pas que nous avons la guerre, si vous vous permettez encore de pallier toutes les infamies, toutes les atrocités de cet Antichrist (ma parole, j'y crois) — je ne vous connais plus, vous n'êtes plus mon ami, vous n'êtes plus мой верный раб, comme vous dites. Ну, здравствуйте, здравствуйте. Je vois que je vous fais peur, садитесь и рассказывайте.
Так говорила в июле 1805 года известная Анна Павловна Шерер, фрейлина и приближенная императрицы Марии Феодоровны, встречая важного и чиновного князя Василия, первого приехавшего на ее вечер. Анна Павловна кашляла несколько дней, у нее был грипп, как она говорила (грипп был тогда новое слово, употреблявшееся только редкими). В записочках, разосланных утром с красным лакеем, было написано без различия во всех:
«Si vous n'avez rien de mieux à faire, Monsieur le comte (или mon 

我们可以把字符串显示转换成 UTF-8 格式，这样就可以正确显示斯拉夫文字了：

用 BeautifulSoup 和 Python 3.x 对文档进行 UTF-8 编码，如下所示：

In [19]:
html = urlopen("http://en.wikipedia.org/wiki/Python_(programming_language)")
bs = BeautifulSoup(html, "html.parser")
content = bs.find("div", {"id":"mw-content-text"}).get_text()
content = bytes(content, "UTF-8")
content = content.decode("UTF-8")
print(content)


Python




Paradigm
Object-oriented, imperative, functional, procedural, reflective


Designed by
Guido van Rossum


Developer
Python Software Foundation


First appeared
20 February 1991; 27 years ago (1991-02-20)[1]





Stable release

3.6.4 / 19 December 2017; 3 months ago (2017-12-19)[2]
2.7.14 / 16 September 2017; 6 months ago (2017-09-16)[3]



Preview release

3.6.5rc1[4] and 3.7.0b1 / 2018






Typing discipline
Duck, dynamic, strong


License
Python Software Foundation License


Filename extensions
.py, .pyc, .pyd, .pyo (prior to 3.5),[5] .pyw, .pyz (since 3.5)[6]


Website
python.org


Major implementations


CPython, IronPython, Jython, MicroPython, Numba, PyPy, Stackless Python


Dialects


Cython, RPython


Influenced by


ABC,[7] ALGOL 68,[8] C,[9] C++,[10] CLU,[11] Dylan,[12] Haskell,[13] Icon,[14] Java,[15] Lisp,[16] Modula-3,[10] Perl


Influenced


Boo, Cobra, Coconut,[17] CoffeeScript,[18] D, F#, Falcon, Genie,[19] Go, Groovy, JavaScript,[20][21] Julia,[22] Nim, R

如果你要做很多网络数据采集工作，尤其是面对国际网站时，建议你先看看 meta 标签的内
容，用网站推荐的编码方式读取页面内容。

### 3. CSV

进行网页采集的时候，你可能会遇到 CSV 文件，也可能有同事希望将数据保存为 CSV格式。Python 有一个超赞的标准库（https://docs.python.org/3.4/library/csv.html） 可以读写CSV 文件。虽然这个库可以处理各种 CSV 文件，但是这里我重点介绍标准 CSV 格式。如果你在处理 CSV 时有特殊需求，请查看文档！

#### 读取CSV文件

Python 的 csv 库主要是面向本地文件，就是说你的 CSV 文件得存储在你的电脑上。而进
行网络数据采集的时候，很多文件都是在线的。不过有一些方法可以解决这个问题：
- 手动把 CSV 文件下载到本机，然后用 Python 定位文件位置；
- 写 Python 程序下载文件，读取之后再把源文件删除；
- 从网上直接把文件读成一个字符串，然后转换成一个 StringIO 对象，使它具有文件的属性


下面的程序就是从网上获取一个CSV 文件（这里用的是 http://pythonscraping.com/files/MontyPythonAlbums.csv 里的 MontyPython 乐团的专辑列表），然后把每一行都打印到命令行里：
```python
from urllib.request import urlopen
from io import StringIO
import csv

data = urlopen('http://pythonscraping.com/files/MontyPythonAlbums.csv').read().decode('ascii', 'ignore')
dataFile = StringIO(data)
csvReader = csv.reader(dataFile)

for row in csvReader:
    print(row)
    print("The album \""+row[0]+"\" was released in "+str(row[1]))
```

In [23]:
from urllib.request import urlopen
from io import StringIO
import csv

data = urlopen('http://pythonscraping.com/files/MontyPythonAlbums.csv').read().decode('ascii', 'ignore')
dataFile = StringIO(data)
csvReader = csv.reader(dataFile)

for row in csvReader:
    print(row)
    print("The album\" "+ row[0]+"\"was released in "+str(row[1]))

['Name', 'Year']
The album" Name"was released in Year
["Monty Python's Flying Circus", '1970']
The album" Monty Python's Flying Circus"was released in 1970
['Another Monty Python Record', '1971']
The album" Another Monty Python Record"was released in 1971
["Monty Python's Previous Record", '1972']
The album" Monty Python's Previous Record"was released in 1972
['The Monty Python Matching Tie and Handkerchief', '1973']
The album" The Monty Python Matching Tie and Handkerchief"was released in 1973
['Monty Python Live at Drury Lane', '1974']
The album" Monty Python Live at Drury Lane"was released in 1974
['An Album of the Soundtrack of the Trailer of the Film of Monty Python and the Holy Grail', '1975']
The album" An Album of the Soundtrack of the Trailer of the Film of Monty Python and the Holy Grail"was released in 1975
['Monty Python Live at City Center', '1977']
The album" Monty Python Live at City Center"was released in 1977
['The Monty Python Instant Record Collection', '1977']
The a

从代码中你会发现 csv.reader 返回的 csvReader 对象是可迭代的，而且由 Python 的列表对象构成。

In [24]:
for row in csvReader:
    print("The album \""+row[0]+"\" was released in "+str(row[1]))

注意看第一行的内容，The album "Name" was released in Year。虽然写示例代码的时候，这行内容是否显示都无所谓，但是工作中你肯定不希望将这行信息保留在数据里。有些程序员可能会简单地跳过 csvReader 对象的第一行，或者写一个简单的条件把第一行处理掉。不过，还有一个函数可以很好地处理这个问题，那就是** csv.DictReader**：

In [25]:
from urllib.request import urlopen
from io import StringIO
import csv

data = urlopen("http://pythonscraping.com/files/MontyPythonAlbums.csv").read().decode('ascii', 'ignore')
dataFile = StringIO(data)
dictReader = csv.DictReader(dataFile)

print(dictReader.fieldnames)

for row in dictReader:
    print(row)

['Name', 'Year']
OrderedDict([('Name', "Monty Python's Flying Circus"), ('Year', '1970')])
OrderedDict([('Name', 'Another Monty Python Record'), ('Year', '1971')])
OrderedDict([('Name', "Monty Python's Previous Record"), ('Year', '1972')])
OrderedDict([('Name', 'The Monty Python Matching Tie and Handkerchief'), ('Year', '1973')])
OrderedDict([('Name', 'Monty Python Live at Drury Lane'), ('Year', '1974')])
OrderedDict([('Name', 'An Album of the Soundtrack of the Trailer of the Film of Monty Python and the Holy Grail'), ('Year', '1975')])
OrderedDict([('Name', 'Monty Python Live at City Center'), ('Year', '1977')])
OrderedDict([('Name', 'The Monty Python Instant Record Collection'), ('Year', '1977')])
OrderedDict([('Name', "Monty Python's Life of Brian"), ('Year', '1979')])
OrderedDict([('Name', "Monty Python's Cotractual Obligation Album"), ('Year', '1980')])
OrderedDict([('Name', "Monty Python's The Meaning of Life"), ('Year', '1983')])
OrderedDict([('Name', 'The Final Rip Off'), ('Yea

虽然用 DictReaders 创建、处理和打印 CSV 信息，比 csvReaders 要多写一点儿代码，但是考虑到它的便利性和实用性，多写那点儿代码还是值得的。

### 4 PDF