# Python第六章学习

- [x] 模块和包

    - [x] 模块
    - [x] 包
    
- [x] Python标准库概览

## 模块和包
- 虽然通过函数可以将很对代码块包装在一起，以便其在一个程序中重用，但是通过模块，可以将多个函数收集在一起，以便其被任意数量的程序使用。Pyhton还提供了创建包的工具——包实际上是多个模块聚集在一起形成的。

- 不是所有的程序都有相关联的.py文件——比如说，sys模块就内置于python中，还有些模块是使用其他语言实现的，不过Python的大多说库文件都是使用Python实现的，因此，比如说，我们使用了语句`import collections`，之后可以通过调用`collections.namedtuple()`创建命名的元组，而我们存取的功能则实现于`collections.py`模块文件中。


在进行导入时，有几种语法格式如下：
```
import importable
import importable1,importable2,...,importableN
import importable as preferred_name
```

这里，`importable`通常是一个模块，比如`collections`，但也可以是一个包或包中的模块，如果是这种情况，九江每一部分用（.）进行分割，如os.path，前两种语法格式是本书中最常用的，这两种语法最简单，也最安全，因为语法中避免了名称冲突；第三种语法格式允许我们队导入的包或者模块赋予一个新的名称。

- 下面给出一些import语句实例

In [6]:
#import os
#print(os.path.basename(filename))

In [None]:
#import os.path as path
#print(path.basename(filename))

In [None]:
#from os import path
#print(path.basename(filename))

In [None]:
#from os.path import basename
#print(basename(filename))

In [None]:
#from os.path import *
#print(basename(filename))

- `from os.path import *`这种语法格式将从模块中导入所有对象，这种语法格式潜在的导致名称冲突的可能性，有些程序设计团体在其指南中规定只能使用`import importable`这种语法格式

- 初次导入一个模块时，如果该模块不是内置模块，那么Python会依次在`sys.path`列出的每个路径搜索该模块.这种做法的后果是，如果我们创建的程序或模块与Python的某个库模块具有相同的名称，就会先找到我们自己定义的的程序或模块，从而不可避免地会导致问题。为避免这种问题，就要求我们在创建函数或模块时，其名称绝不要与某个Python库中顶级目录或模块的名称相同，除非你正在为模块提供自己的实现方案，并故意的对其重写

In [8]:
import sys
sys.path

['',
 'C:\\Users\\lovelive\\Anaconda3\\python35.zip',
 'C:\\Users\\lovelive\\Anaconda3\\DLLs',
 'C:\\Users\\lovelive\\Anaconda3\\lib',
 'C:\\Users\\lovelive\\Anaconda3',
 'c:\\users\\lovelive\\anaconda3\\lib\\site-packages\\setuptools-20.3-py3.5.egg',
 'C:\\Users\\lovelive\\Anaconda3\\lib\\site-packages',
 'C:\\Users\\lovelive\\Anaconda3\\lib\\site-packages\\Sphinx-1.3.5-py3.5.egg',
 'C:\\Users\\lovelive\\Anaconda3\\lib\\site-packages\\win32',
 'C:\\Users\\lovelive\\Anaconda3\\lib\\site-packages\\win32\\lib',
 'C:\\Users\\lovelive\\Anaconda3\\lib\\site-packages\\Pythonwin',
 'C:\\Users\\lovelive\\Anaconda3\\lib\\site-packages\\IPython\\extensions',
 'C:\\Users\\lovelive\\.ipython']

### 模块
- 模块是python组织代码的基本形式
- Pyhton的脚本都是用扩展名为py的文本文件保存的，一个脚本单独运行，也可以导入另一个脚本中运行，当脚本被导入运行时，我们将其称为模块（module）
- 模块名与脚本的文件名相同
    - 例如我们编写了一个名为Items.py的脚本，则可以在另外一个脚本中用import Items的语句来导入它

In [3]:
#下面我们导入一个模块string
import string

### 包
- Python的模块可以按目录组织为包
- 创建一个包的步骤是：
    - 建立一个名字为包名字的文件夹，
    - 在该文件夹下创建一个`__init__.py`文件
    - 根据需要在该文件夹下存放脚本文件、已编译扩展及子包。
    - import pack.m1, pack.m2, pack.m3

举个例子：      

- 首先我们创建一个文件夹Graphics，里面有不同类型的模块文件，比如Bmp.py、Jpeg.py、Png.py、Tiff.py与Xpm.py
-  然后创建一个空的`__init__.py`文件该目录就变成了一个包
```
Graphics/
    __init__.py
    Bmp.py
    Jpeg.py
    Png.py
    Tiff.py
    Xpm.py
```

只要Graphics目录是我们程序目录的子目录或存在于Python路径中，我们就可以导入这些模块中的任意模块并使用，我们要确保顶级模块名Graphics不与标准库中的任何顶级名相同，以避免冲突。



下面展示如何导入并使用自己的模块： 
```
import Graphic.Bmp
image = Graphics.Bmp.load("bashful.bmp")
```

对于小程序，有些程序员愿意使用更短的名称，Python使用了两种略有不同的方法来满足这一需求。
```
import Graphics.Jpeg as Jpeg
image = Jpeg.load("doc.jpeg")
```
上面的代码中我们从Graphics包中导入了Jpeg模块，并使得Python获知，我们只用Jpeg来对其进行引用，而不用使用其完全限定名称Graphics.Jpeg。

```
from Graphics import Png
image = Png.load("dopey.png")
```
这一段代码直接从Graphics包中导入Png模块，这种语法格式（from...import）使得Png模块时直接可访问的。

我们并不是必须在代码中使用原始的包名称，比如：
```
from Graphics import Tiff as picture
image = picture.load("grumpy.tiff")
```
这里我们使用过了Tiff模块，但实际上我们的程序中已经将其重命名为picture模块


有些情况下，使用单独的一条语句导入某个包的所有模块会带来很多方便，为此，我们必须编辑该包的`__init__.py`文件，使其包含一条语句，并使用该语句指定要加载某些模块，为此，这一语句必须将模块名列表赋值给特殊变量`__all__.`比如：下面就是`Graphics/__init__.py`文件中添加的必要的语句：

```
__all__ = ["Bmp","Jpeg","Png","Tiff","Xpm"]
```     
这是未完成上述要求必须添加的唯一一条语句，尽管我们可以在里面添加任何代码，完成这一工作后，我们可以使用一种不同的导入语句：

```
from Graphics import *
image = Xpm.load("sleep.xpm")
```

`from Graphics import \*`这一语法格式直接导入了在`__all__`列表中指定的所有模块。

包也可以嵌套，下面我们展示一个一层嵌套，但Python允许我们对包进行任意层次的嵌套，因此我们可以在Graphics目录中设置一个子目录，比如Vector，并在其中放置相关文件，比如Eps.py与Svg.py：

```
Graphics/
    __init__.py
    Bmp.py
    Jpeg.py
    Png.py
    Tiff.py
    Xpm.py
    Vector/
        __init__.py
        Eps.py
        Svg.py
```

要使Vector目录也是一个包，就必须在目录下添加一个`__init__.py`的文件。

要访问一个嵌套的包，只需要在前面已经使用的语法格式上进行增强：

```
import Graphics.Vector.Eps
image = Graphics.Vector.Eps.("sneezy.eps")
```
只要加上顶级目录的名称,简化的如下：

```
import Graphics.Vector.Svg as Svg
image = Svg.load("snow.svg")
```

- 总结
    - 模块是一个可以导入的Python脚本文件；
    - 包是一堆按目录组织的模块和子包，目录下的`__init__.py`文件存放了包的信息；
    - 可以用import,import as,from import等语句导入模块和包

## Python标准库概览
- python标准库通常被描述为“自带的电池”，自然地提供了广泛的功能，涵盖了大概200多个左右的包和模块。
- 标准库中的那些模块在更多的意义上是对python历史及其核心开发人员兴趣的一种折射。而不是表示要系统化地去创建一个均衡的标准库

- [x] 字符串处理
- [x] io.StringIO类
- [x] 命令行程序设计（没搞明白）
- [x] 数学与数字
- [x] 时间与日期
- [x] 算法与组合数据类型
- [x] 文本格式、编码与数据持久性
- [x] 文件、目录与进程处理
- [x] 网络与Internet程序设计 
- [x] XML

### 字符串处理
- String模块提供了一些有用的常量，比如：
    - string.ascii_letters
    - string_hexdigits。
    >该模块还提供了string.Formatter类，我们可以实现该类的子类，以便提供自定义的字符串格式化器。 
    
- Struct模块提供了一些函数，可用于将数字、布尔型变量以及字符串打包为字节对象（以其二进制表示形式），或从字节对象中拆分为适当的类型。
- difflib模块提供了用于对序列（比如字符串进行比较的类与方法），并可以产生以标准的“diff”格式与HTML格式表示的输出信息。
- Python中功能最强大的字符串处理模块时re（正则表达式）模块

### io.StringIO类
- Python提供两种将文本写入到文件的不同方法，一种是使用文件对象的write()方法，另一种是使用print()函数，并将其关键字参数file设置为打开并等待写入的文件对象，比如：

In [23]:
import sys
print("An error message:", file = sys.stdout)
sys.stdout.write("Another error message\n")

An error message:
Another error message


- 上面两行文本都将被打印到sys.stdout，这是一个文件对象，表示“标准输出流”——这通常是控制台，不同于sys.stderr(“错误输出流”)，区别在于后者是非缓冲的。


- 有些情况下，将本来要写入到文件中去的输出信息捕获到字符串中是有用的，这可以使用io.StringIO类实现，该类提供的对象可以向文件对象一样使用，但其中以字符串来存放写入其中的任何数据。如果对io.StringIO对象赋予一个初始字符串，就可以像对文件一样进行读取。


- 如果已经执行`import io`，就可以存取io.StringIO，并用其捕获本来要输入到文件对象（比如sys.stdout）中的输出信息

In [25]:
import io
sys.stdout = io.StringIO()

In [33]:
import sys
import io

sys.stdout = io.StringIO()#发送给stdout的任意文本实际上都将发送给io.StringIO.这是该行代码创建了一个类似于文件的对象，并且该对象替换了标准的
#sys.stdout文件对象

print("An error message:", file = sys.stdout)
sys.stdout.write("Another error message\n")

22

通过调用`io.StringIO.getvalue()`函数，我们可以获取所有写入到`io.StringIO`对象的字符串，这里具体调用的是`sys.stdout.fetvalue()`——其返回值是一个字符串，其中包含已经写入的所有行。

In [32]:
io.StringIO.getvalue(sys.stdout)

'An error message:\nAnother error message\n'

In [34]:
sys.stdout.getvalue()

'An error message:\nAnother error message\n'

### 命令行程序设计
- 我们需要处理那些在控制台中被重定向的文本，或那些包含在命令行中国列出的文件中的文本，那么我们可以使用fileinput模块的fileinput.input()函数，该函数会对控制台中重定向的所有行（如果存在）进行迭代，或对命令行列出的文件中的所有行进行迭代，就像对一个连续的行序列一样，通过使用fileinput.filename()与fileinput.lineno()，该模块可以再任意时刻报告当前文件名与行号。

- 有两个单独的模块可以处理命令行选项，分别是optoarse与getopt，其中，getopt模块比较流行，因为该模块易于使用，并已在标准库中实现了较长时间，optparse模块更新一些，功能更加强大。

### 数学与数字
- 除了内置的int、float、与complex之外，标准库还提供了decimal.Decimal与fractions.Fraction这两种数据类型
- 有3个可用的数值型标准库：
    - math，用于标准的数学函数
    - cmath，用于复数数学函数
    - random，提供了很多用于随机数生成的函数

### 时间与日期
- calendar模块和datatime模块提供了用于处理日期与时间的函数，然而，这两个模块都是基于理想化的罗马日历，因此不适合处理罗马日历之前的日期
- time模块可以处理时间戳，时间戳实际上是数字，其中存放的是字初始时间（在UNIX上为1970-01-01T00:00:00）至今经过的秒数，该模块可用于获取以UTC（协调世界时）格式表示的机器当前时间，或夏令时形式的本地时间，也可以创建日期、时间以及多种格式的日期\时间字符串，也可以用于分析包含日期与时间的字符串

下面是实例：calendar模块、datatime模块与time模块
- datetime.datetime类型的对象通常是由程序创建的，存放UTC日期与时间的对象则通常是从外部接受的，比如文件的时间戳

In [40]:
import calendar, datetime, time

moon_datetime_a = datetime.datetime(1969, 7, 20, 20, 17, 40)
#moon_time = calendar.timegm(moon_datetime_a.utctimetuple())
#moon_datetime_b = datetime.datetime.utcfromtimestamp(moon_time)
moon_datetime_a.isoformat()
#moon_datetime_b.isoformat()
#time.strftime("%Y-%m-%dT%H:%M:%S",time.gmtime(moon_time))

'1969-07-20T20:17:40'

### 算法与组合数据类型
- bisect模块提供的函数可用于搜索有序序列，比如有序列表，也可用于向其中插入项同时有保证序列的有序性。
- heapq模块提供函数可以将序列（比如列表）转换为堆——一种该数据类型，其中第一项（索引位置为0）总是最小的，也可以向其中插入或移除项，同时又保证序列仍然是个堆
- collections包提供了字典collections.defaultdict与组合数据类型collections.named-tuple
    - 这个包还提供了collections.UserList与collectionsUserDict等数据类型，尽管对内置的list与dict类型进行子类化可能比使用这两种类型更为常见。
    - 另一种类型是collections.deque。该类型与list相似，差别在于，在列表的结尾处添加或移除项有很快的速度，其在开始于结尾处添加或移除项都有很快的速度。
    - Python的非数值型抽象基类（指那些可以被继承，但不能直接使用的类）也在collections包中提供
- array模块提供了序列类型array.array，可以以非常节省空间的方式存储数单词或字符，该类型与列表的行为类似，区别在于其中可存放的对象类型是固定的（创建时），因此，这种类型不能像列表那样存放不同类型的对象。
- weakref模块提供了创建弱引用的功能

### 文件格式、编码与数据持久性

标准库提供了发亮标准文件格式与编码的广泛支持。   
- base64模块提供的函数可以读写RFC 3548中指定的Base16、Base32与Base64等编码格式。
- quopri模块提供的函数可以读写“quoted-printable”格式，该格式在RFC 1521中定义，并用于MIME（多用途Internet邮件扩展）数据
- uu模块提供的函数可以读写uuencoded数据
- RFC 1832定义了外部数据表示校准，xdrlib模块提供的函数可以读写这种格式

还有些模块提供了对采用最流行的格式的存档文件的读写功能：     

- bz2模块可以处理`.bz2`文件
- gzip模块可以处理`.gz`文件

对某些音频格式的处理功能也在某些模块中实现：

- aifc模块可以处理AIFF（音频交换文件格式）
- wave模块可以处理（未压缩的）`.wav`文件
- 有些音频数据格式可由audiop模块操纵，sndhdr模块提供了两个函数，可用于确定文件中存放的是那种类型的音频数据以及某些特性，比如采样率。
- RFC 822中定义了一种配置文件（类似于老格式的Window.ini）格式，configparser模块提供了用于读写这种文件格式的函数。

除了对多种文件格式的支持外，标准库中还有一些包和模块提供了对数据持久性的支持。

- pickle 模块用于向磁盘中存储或从磁盘中取回任意的Python对象（包括整个组合）
- shelve模块可以提供DBM文件，其键为字符串，值为任意的python对象——该模块在某后无缝实现了Python对象与bytes对象之间的转换

### 文件、目录与进程处理
- Shutil模块提供了用于文件与陌路处理的高层函数，包括用于复制文件与整个目录的shutil.copy()函数与shutil.copytree()函数，用于移动目录树的shutil.move()函数，以及用于移动整个目录树（包括非空的）shutil.rmtree()函数。
- tempfile模块创建，该模块提供了必要的函数，比如tempfile.mkstemp()，并以尽可能安全的方式创建临时对象。
- filecmp模块可用于对文件进行比较（使用filecmp.cmp()函数），也可以用于对整个目录进行比较（使用filecmp.cmpfile()函数）
- os模块提供了对操作系统功能的访问接口，并且是平台无关的
    - os.environ变量存放的是映射对象，其项为环境变量名及其值
    - 程序的工作目录可由os.getcwd()提供，并可以使用os.chdir()修改
    - os.access()函数可用于确定某个文件是否存在，或者文件是否可读、可写
    - os.listdir()函数可以返回给定目录中的条目列表
    - os.stat()函数返回关于文件与目录的各种信息项，比如模式、访问时间与大小等
    - 目录可以使用os.mkdir()创建，或者创建中间目录就是用os.make-dirs()
    - 空目录可以使用os.rmdir()移除
    - 只包含空目录的目录树可以使用os.removedirs()移除
    - 文件和目录都可以使用os.remove()移除，也可以使用os.rename()重命名
    - os.walk()函数可以再整个目录树上进行迭代，依次取回每个文件与目录的名称
    - os模块提供的函数主要是与操作系统进行交互，尤其对文件系统，os.path模块则提供了字符串（路径）操纵函数与便于操纵文件系统的函数的混合。
        - os.path.abspath()函数可以返回七参数的绝对路径，并移除荣誉的路径分隔符与`..`元素
        - os.path.split()函数返回一个二元组，其中第一项包含路径，第二项则是文件名（这两项也可以直接使用os.path.basename()与os.path.dirname()）获取
        - 文件名也可以分为两个部分，即名称与扩展名，这是使用os.path.splitext()实现的。
        - os.path.join()函数可以接受任意数量的路径字符串，并使用平台特定的分隔符返回单一的路径

In [4]:
import os

date_from_name = {}
for name in os.listdir(path):
    fullname = os.path.join(path, name)
    if os.path.isfile(fullname):
        date_from_name[fullname] = os.path.getmtime(fullname)

TypeError: listdir: illegal type for path parameter

### 网络与Internet程序设计

用于网络与Internet程序设计的包和模块是Python标准库的主要组成部分
- socket模块提供了大多数基本的网络功能，包括用于创建socket的函数、用于进行DNS（域名系统）查询的函数以及处理IP地址的函数
- ssl模块建立加密和认证的socket
- socketserver模块提供了TCP（传输控制协议）服务器与UDP（用户数据报协议）服务器，这些服务器可以直接处理请求，也可以创建单独的进程或单独的线程来分别处理每个请求
- 异步的客户端与服务器socket处理可以使用asyncore模块以及构建在其上的更高层的asynchat模块来实现。

Python定义了WSGI（Web服务器网关接口），旨在为Web服务器以及Python编写的应用程序之间提供一个标准接口，在对标准的支持方面，wsgiref包提供了WSGI的参考实现，包括提供WSGI兼容的HTTP服务器模块，以及用于处理响应头和CGI（通用网关接口）脚本的模块。
- http.server模块提供了一个HTTP服务器，可以对其赋予一个请求处理这，以便运行CGI脚本
- http.cookies模块与http.cookiejar模块提供了用于管理cookies的函数，CGI脚本支持则是由cgi模块与cgitb模块提供的。


客户端的HTTP请求是由http.client模块提供的，尽管更高层的urllib包中的模块urllib.parse、urllib.request、urllib.error以及urllib.robotparser等提供了更简单也更方便的对URL的访问，从Internet中抓取一个文件是很简单的，如下：

In [5]:
import urllib.request as re
fh = re.urlopen("http://www.baidu.com/index.html")
html = fh.read().decode("utf8")

print(html)

<!DOCTYPE html><!--STATUS OK--><html><head><meta http-equiv="content-type" content="text/html;charset=utf-8"><meta http-equiv="X-UA-Compatible" content="IE=Edge"><meta content="always" name="referrer"><meta name="theme-color" content="#2932e1"><link rel="shortcut icon" href="/favicon.ico" type="image/x-icon" /><link rel="search" type="application/opensearchdescription+xml" href="/content-search.xml" title="百度搜索" /><link rel="icon" sizes="any" mask href="//www.baidu.com/img/baidu.svg"><link rel="dns-prefetch" href="//s1.bdstatic.com"/><link rel="dns-prefetch" href="//t1.baidu.com"/><link rel="dns-prefetch" href="//t2.baidu.com"/><link rel="dns-prefetch" href="//t3.baidu.com"/><link rel="dns-prefetch" href="//t10.baidu.com"/><link rel="dns-prefetch" href="//t11.baidu.com"/><link rel="dns-prefetch" href="//t12.baidu.com"/><link rel="dns-prefetch" href="//b1.bdstatic.com"/><title>百度一下，你就知道</title>
<style index="index"  id="css_index">html,body{height:100%}html{overflow-y:auto}body{font:12p

- HTML和XHTML文档可以使用html.parser模块进行分析，
- URL可以使用urllib.parse模块创建与分析，
- robots.txt文件可以使用urllib.robotparser模块进行分析，
- 使用JSON表示的数据可以使用json模块进行读写

除对HTTP服务器与客户端的支持外，标准库还提供了对XML-RPC（远程过程调用）的支持，这是使用xmlrpc.client模块与xmlrpc.server模块实现的，此外，还有一些附加的客户端功能，如，由ftplib模块提供的FTP功能，有nntplib模块提供的NNTP功能，以及由telbetlib模块提供的TELNET功能。

smtpd模块提供了一个SMTP（简单邮件传输协议）服务器，在email客户端模块中，smtplib用于smtplib用于SMTP，imaplib用于IMAP4（Internet消息访问协议），poplib用于POP3（邮局协议），各种格式的Mailboxes可以使用mailbox模块进行访问，单独的消息（包括多个部分组成的信息）可以使用email模块创建并操纵

### XMl
- 在分析XML文档时，有两种广泛采用的方法
     - 一种是DOM（文档对象模型）
     - 一种是SAX（用于XML的简单API）

- 标准库提供了两个DOM分析器，一个由xml.dom模块提供，一个由xml.dom.minidom模块提供
- SAX分析器则只有xml.sax模块提供的一个

我们没有足够的空间来展示标准库提供的近200个包与模块，尽管如此，上面给出的常用模块概览也足以使我们领略到标准库的强大功能，以及某些关键包的应用领域。