# 7 抽象与模块

## 7.1 列表（元组）传参

参考lecture_6.ipynb中的**可变长度参数**部分。下面我们再看几个小栗子：

In [1]:
# 打印参数元组中的每一个参数元素
def my_print(*args):
    for item in args:
        print(item)

In [2]:
list_1 = ["a","b","c"]

# 此处，list_1，123，"abc"均为为参数元组中的元素
my_print(list_1,123,"abc")

['a', 'b', 'c']
123
abc


In [3]:
list_2=["a","b","c"]

In [4]:
# 此处，list_2是参数元组中的一个元素，参数元组中只包含一个元素
my_print(list_2)

['a', 'b', 'c']


In [5]:
# 星号表示解包，此处，将list_2解包后，把list_2中的元素作为参数传入
# 所以，list_2中的每个元素就变成了参数元组中的元素
my_print(*list_2)

a
b
c


In [6]:
my_print(*list_2, 'abc')

a
b
c
abc


In [7]:
my_print("a","b","c", 'abc')

a
b
c
abc


In [8]:
my_print('abc',*list_2)

abc
a
b
c


In [9]:
my_print('abc', "a","b","c")

abc
a
b
c


In [10]:
# 此处定义的函数有固定个数的参数
# 在调用时，必须传入两个参数值才行哦
def print_fixed_para(arg1, arg2):
    print("{}-----{}".format(arg1, arg2))

In [11]:
print_fixed_para('a', 'b')

a-----b


In [12]:
list_3 = ['c', 'd']

In [13]:
# 此处，按照位置传参，只传了一个参数，显然错误
# print_fixed_para(list_3)

In [14]:
# 此处按照位置传参，传了两个参数
# 没问题，可以正常调用函数
print_fixed_para(list_3, list_3)

['c', 'd']-----['c', 'd']


In [15]:
# 此处采用列表解包的形式，按位置传递了两个参数值
# 当然可以正常调用函数
print_fixed_para(*list_3)

c-----d


从上面的例子可以得出：在调用函数的时候，可以使用`*`对列表（或者元组）进行解包，解包的结果可以用于按位置传参。

上面的例子，都是解包列表，解包元组同样可以，简单用下面小栗子演示一下：

In [16]:
arg_tuple = ('good', 'boy')
my_print(*arg_tuple)

good
boy


In [17]:
my_print(*arg_tuple, 'nice', 'girl')# 'nice', 'girl'

good
boy
nice
girl


In [18]:
my_print('nice', 'girl', *arg_tuple)

nice
girl
good
boy


In [19]:
print_fixed_para(*arg_tuple)

good-----boy


<b><font color=red>思考题：</font></b>下面代码的运行结果是什么

`arg_set = {'good', 'boy'}`

`print_fixed_para(*arg_set)`

`my_print(*arg_set)`

## 7.2 字典传参

字典传参与列表（元组）传参非常类似，下面，直接看小栗子：

In [20]:
# 定义了一个具有固定个数参数的函数，用来求分数平均值
def avg_grade(chinese = 80, math = 85):
    return (chinese + math)/2

In [21]:
grade_dict = {'chinese':88,
             'math':99}

# 对字典进行解包后，按关键字进行参数传递，字典无序哦
avg_grade(**grade_dict)

93.5

上面的例子对字典解包后，按关键字传参，调用函数`avg_grade`，所以，grade_dict中的key必须，必须，必须，与函数定义中的参数关键字同名，一个字母也不能差。不信，你试试下面例子：

In [22]:
# 想一下，为什么下面代码运行出错
# grade_dict = {' chinese':88,
#              'math':99}

# avg_grade(**grade_dict)

In [23]:
# 定义了一个具有可变个数参数的函数，用来求分数平均值
def avg_grade_mul(chinese = 80, math = 85, **kwargs):
    return (chinese + math + sum(kwargs.values()))/(2+len(kwargs))

In [24]:
grade_dict = {'english':88,'history':90}


# 对字典解包后，按关键字参数调用函数
# 此时的参数有四个，求四科成绩的平均值
avg_grade_mul(**grade_dict)

85.75

In [25]:
grade_dict = {'chinese':88,
             'math':99}

# 对字典解包后，按关键字参数调用函数
# 此时的参数有两个
# 字典中的keys与函数的有默认值参数重名
# 用解包后的结果，对默认参数值进行更新
avg_grade_mul(**grade_dict)

93.5

`*`是解包元组，`**`是解包字典。

无论是列表（元组）传参还是字典传参，都可用于调用**有固定个数参数的函数**和**有可变个数参数的函数**，字典传参的时候，keys要与函数的参数名一样哦。

## 7.2 不同类型参数定义顺序


位置参数，默认值参数，可变参数，命名参数，可变命名参数。

先看例子：

In [1]:
def my_func(a, b, c = 0, *args, d, **kwargs):
    print('a:      {}'.format(a),
          'b:      {}'.format(b),
          'c:      {}'.format(c),
          'args:   {}'.format(args),
          'd:      {}'.format(d),
          'kwargs: {}'.format(kwargs),
          sep='\n')

In [4]:
my_func('a', 'b', 88, *[-1, -2, -3], d ='d', **{'name':'Tom','age':'18'})

a:      a
b:      b
c:      88
args:   (-1, -2, -3)
d:      d
kwargs: {'name': 'Tom', 'age': '18'}


`my_func(a, b, c = 0, *args, d, **kwargs)`中：

- `a`，`b`是位置参数，位置参数一定是在最前面；

- `c=0`是默认值参数，它有默认值，在调用时不是必须传参数值的；

- `*args`是可变参数，可以通过解包元组（或列表）来按照位置传参；

- `d`是命名参数，传参数时，必须带上参数名，你看上面的参数调用语句中`d = 'd'`；

- `**kwargs`是可变命名参数，可以通过解包字典来按照关键字传参。

自己运行下面的函数`my_func_1`至函数`my_func_5`的定义，根据运行结果加深对上述**参数定义顺序**的理解：

In [28]:
# def my_func_1(a, b, c = 0, d, *args,**kwargs):
#     print('a:      {}'.format(a),
#           'b:      {}'.format(b),
#           'c:      {}'.format(c),
#           'args:   {}'.format(args),
#           'd:      {}'.format(d),
#           'kwargs: {}'.format(kwargs),
#           sep='\n')

In [8]:
# def my_func_2(a, b, c = 0, *args, **kwargs, d):
#     print('a:      {}'.format(a),
#           'b:      {}'.format(b),
#           'c:      {}'.format(c),
#           'args:   {}'.format(args),
#           'd:      {}'.format(d),
#           'kwargs: {}'.format(kwargs),
#           sep='\n')

SyntaxError: invalid syntax (155951753.py, line 1)

In [30]:
# def my_func_3(**kwargs, a, b, c = 0, *args, d):
#     print('a:      {}'.format(a),
#           'b:      {}'.format(b),
#           'c:      {}'.format(c),
#           'args:   {}'.format(args),
#           'd:      {}'.format(d),
#           'kwargs: {}'.format(kwargs),
#           sep='\n')

In [31]:
# def my_func_4(a, b, c = 0, d, **kwargs, *args):
#     print('a:      {}'.format(a),
#           'b:      {}'.format(b),
#           'c:      {}'.format(c),
#           'args:   {}'.format(args),
#           'd:      {}'.format(d),
#           'kwargs: {}'.format(kwargs),
#           sep='\n')

In [None]:
# def my_func_5(d, a, b, c = 0, *args, **kwargs):
#     print('a:      {}'.format(a),
#           'b:      {}'.format(b),
#           'c:      {}'.format(c),
#           'args:   {}'.format(args),
#           'd:      {}'.format(d),
#           'kwargs: {}'.format(kwargs),
#           sep='\n')

In [33]:
# def my_func_6(*args, a, b, c = 0, d, **kwargs):
#     print('a:      {}'.format(a),
#           'b:      {}'.format(b),
#           'c:      {}'.format(c),
#           'args:   {}'.format(args),
#           'd:      {}'.format(d),
#           'kwargs: {}'.format(kwargs),
#           sep='\n')

## 7.3 map函数

`map`函数**遍历** **序列** **每个值**进行操作，返回一个**`map`对象**。

语法：`map(function, sequence, ....)`

- `function`：函数
- `sequence`：序列

In [34]:
def my_square(x):
    return x**2

In [35]:
list_6 = [1, 2, 3]
list_7 = [4, 5, 6, 7]
list_8 = [8, 9, 10, 11, 12]

In [36]:
result = map(my_square, list_6)

In [37]:
type(result)

map

In [38]:
next(result)

1

In [39]:
next(result)

4

In [40]:
next(result)

9

上面对一个序列进行map操作，并使用`next`方法逐个访问返回的`map`对象。下面使用`for`循环访问map结果。

In [41]:
result = map(my_square, list_6)

In [42]:
for item in result:
    print(item)

1
4
9


In [43]:
result = map(lambda x,y:x*y, list_6, list_7)

In [44]:
type(result)

map

In [45]:
list(result)

[4, 10, 18]

`len(list_6) < len(list_7)`，所以最终结果的长度是`min(len(list_6), len(list_7))`

In [46]:
list(map(lambda x,y,z:x*y, list_6, list_7, list_8))

[4, 10, 18]

<b><font color=blue>注意</font></b>：`function`的参数个数，与后面的序列个数要一致哦。

## 7.4 filter函数

`filter`函数，过滤出序列中的元素。

- 语法：`filter(function, iterable)`；

- `function`，判断函数；

- `iterable`，可迭代对象；

- 返回filter对象。

In [47]:
str_1 = 'aHbDkLuY'

In [48]:
import string

In [49]:
# 过滤出字符串中的大写字母
result = filter(lambda char:char in string.ascii_uppercase, str_1)

In [50]:
type(result)

filter

In [51]:
list(result)

['H', 'D', 'L', 'Y']

使得`function`返回True（或等价于True）的元素被取出来，看下面例子：

In [52]:
list(filter(lambda char:None, str_1))

[]

In [53]:
list(filter(lambda char:char, str_1))

['a', 'H', 'b', 'D', 'k', 'L', 'u', 'Y']

In [54]:
list(filter(lambda char:'', str_1))

[]

In [55]:
list(filter(lambda char:[], str_1))

[]

In [56]:
list(filter(lambda char:char.lower(), str_1))

['a', 'H', 'b', 'D', 'k', 'L', 'u', 'Y']

`function`最好是显示地定义返回布尔值。

## 7.5 reduce函数

`reduce`函数会对参数序列中元素进行**累积**，返回一个值。

函数将一个数据对象（列表，元组等）中的所有数据进行下列操作：用传给 reduce 中的函数 function（有两个参数）先对集合中的第 1、2 个元素进行操作，得到的结果再与第三个数据用 function 函数运算，最后得到一个结果。

语法：`reduce(function, iterable[, initializer])`

参数：

- function，函数，**有两个参数**；

- iterable，可迭代对象；

- initializer，可选，初始参数。

In [57]:
from functools import reduce

In [58]:
reduce(lambda x, y: x + y, [1,2,3,4,5])

15

In [59]:
reduce(lambda x, y: x + y, [1,2,3,4,5], 100)

115

In [60]:
kua_list = ['眉清目秀', '高大威猛', '英俊潇洒', '风流倜傥', '人见人爱', '花见花开', '车见车栽', '才高八斗', '学富五车']

In [61]:
kua_list

['眉清目秀', '高大威猛', '英俊潇洒', '风流倜傥', '人见人爱', '花见花开', '车见车栽', '才高八斗', '学富五车']

In [62]:
reduce(lambda x, y: x + '、'+ y, kua_list, '你真是')

'你真是、眉清目秀、高大威猛、英俊潇洒、风流倜傥、人见人爱、花见花开、车见车栽、才高八斗、学富五车'

## 7.6 模块的创建

Python 模块(Module)，是一个 Python 文件，以 .py 结尾，包含了 Python 对象定义和Python语句；

模块让你能够有逻辑地组织你的 Python 代码段；

把相关的代码分配到一个模块里能让你的代码更好用，更易懂；

模块能定义函数，类和变量，模块里也能包含可执行的代码；

当把一些相关的代码存放在**一个文件中**时，就创建了**一个模块**。**模块中的定义可以被导入到其他模块中从而被其他模块所使用**，这就使得我们可以在多个程序中使用已经编写好的函数而无需将函数复制到每个程序中。

总的来说，模块就是包含Python定义和声明的文件，文件名就是模块名加上扩展名`.py`。

模块有一些内置属性，用于存储模块的某些信息，如`__name__`，`__doc__`，等等，`__name__`属性用来取得模块的名称。

我们来看看python3自带（内置）的`string`模块。

In [63]:
string.__name__

'string'

In [64]:
string.__doc__

'A collection of string constants.\n\nPublic module variables:\n\nwhitespace -- a string containing all ASCII whitespace\nascii_lowercase -- a string containing all ASCII lowercase letters\nascii_uppercase -- a string containing all ASCII uppercase letters\nascii_letters -- a string containing all ASCII letters\ndigits -- a string containing all ASCII decimal digits\nhexdigits -- a string containing all ASCII hexadecimal digits\noctdigits -- a string containing all ASCII octal digits\npunctuation -- a string containing all ASCII punctuation characters\nprintable -- a string containing all ASCII characters considered printable\n\n'

下面的图片以`Ubuntu`系统为例，`Windows`系统和`Mac OS`系统是类似的：

Python自带的模块位于`python3.7`文件夹中，

<div align=center>
<img width="750" height="550" src="https://github.com/zhangjianzhang/programming_basics/blob/master/files/codes/lecture_7/python_module.jpg?raw=true">

<p><center><font>python内置模块</font></center></p>
</div>

上图显示了文件夹`/usr/local/anaconda3/lib/python3.7`中的部分内容。总体上分为两部分：

- 文件夹表示包（package），如`http`包，`email`包；

- `.py`文件表示模块，如`calendar`模块，`string`模块。

<div align=center>
<img width="750" height="550" src="https://github.com/zhangjianzhang/programming_basics/blob/master/files/codes/lecture_7/string.jpg?raw=true">

<p><center><font>string模块</font></center></p>
</div>

打开`string.py`看看里面的内容：

<div align=center>
<img width="750" height="550" src="https://github.com/zhangjianzhang/programming_basics/blob/master/files/codes/lecture_7/string_file_1.jpg?raw=true">

<p><center><font>string.py的内容</font></center></p>
</div>

从上图可以看到：

- `string.__doc__`返回的内容就是`string.py`文件头部的说明性内容，介绍了该模块包含的内容和功能；

- `string.__name__`就是模块的文件名。

再往下看一看：

<div align=center>
<img width="750" height="550" src="https://github.com/zhangjianzhang/programming_basics/blob/master/files/codes/lecture_7/string_file_2.jpg?raw=true">

<p><center><font>string.py的内容</font></center></p>
</div>

从上图可以看到，`string`模块里定义了函数、类（class），也有对其他包（package）和模块的导入：

- 定义了`capwords`函数；

- 定义了`Template`类；

- 导入了正则表达式模块`re`；

- 导入了`collection`包中的`ChainMap`类。

下面，我们自己定义一个模块，命名为`demo_module.py`，内容如下：

In [65]:
'''
This is a demo module
'''

import string


def my_print(content):
    '''
    print alphabets characters vertically.
    '''
    alphanum_list = list(filter(lambda char:char in string.ascii_letters, content))
    print('\n'.join(alphanum_list))

把上述代码保存在`demo_module.py`文件中，在相同的文件夹中新建一个py文件`test_demo_module.py`，内容如下：

In [66]:
import demo_module

demo_module.my_print('G哈哈o滴滴o棒棒哒d×*%123')

G
o
o
d


<b><font color=Chocolate>拓展学习：</font></b>

- <a href="https://www.liaoxuefeng.com/wiki/1016959663602400/1017455068170048" target="_blank">使用模块</a>

## 7.7 模块的导入

Python以模块为单位来组织代码（一个个`.py`文件）；

Python标准库自身就内置了许多标准模块，还有非常丰富的第三方模块以供用户使用；

用户也可以自己编写模块（如上面的`demo_module.py`）。

要在模块外部使用模块内定义的函数，首先要导入该模块：

使用import语句可以导入一个模块，格式为`import 模块名 [as 别名]`。 

In [67]:
# 导入第三方画图包matplotlib中的pyplot模块，并为其赋予一个别名plt
import matplotlib.pyplot as plt

In [68]:
# 导入自定义的模块，并赋予一个别名dm
import demo_module as dm

dm.my_print('G哈哈o滴滴o棒棒哒d×*%123')

G
o
o
d


如果频繁地使用一个函数而不想总是带着模块名进行调用，则可以将其赋给一个本地变量。

In [69]:
pfunc = dm.my_print

pfunc('G哈哈o滴滴o棒棒哒d×*%123')

G
o
o
d


在import后添加as子句来作为模块的别名，模块全名太长，起一个短的别名，敲起来快捷高效。

Python还支持另外一种语法，即`from 模块名 import 对象名 [as 别名]`，使用这种格式仅导入明确指定的对象，可以减少访问速度，同时不需要使用模块名进行调用。

In [70]:
# 从string模块中导入变量ascii_letters，并赋予一个别名aletters
from string import ascii_letters as aletters

In [71]:
# 直接使用导入的对象名（或别名），不需要加上模块名
aletters

'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ'

如果想要使用这一语法导入模块下的全部对象，则可以使用星号`*`来替代对象名。

In [72]:
# string模块中的digits变量没有被导入，所以下面代码运行会出错
# digits

In [73]:
# 把string模块中定义的对象全部导入
from string import *

In [74]:
# string模块中定义的对象已全部导入，下面代码就不会出错了
digits

'0123456789'

## 7.8 包与包内引用

- 包（package）是一种用“点式模块名”构造 Python 模块命名空间的方法。例如，模块名 `A.B` 表示包 A 中名为 B 的子模块；

- 可以将这些模块按照某种方式组织在一个目录下，构成一个包结构；

- 用户可以从包中导入单独的模块或模块中的对象。

<div align=center>
<img width="350" height="650" src="https://github.com/zhangjianzhang/programming_basics/blob/master/files/codes/lecture_7/package.png?raw=true">

<p><center><font>包与模块的关系</font></center></p>
</div>

<div align=center>
<img width="250" height="550" src="https://github.com/zhangjianzhang/programming_basics/blob/master/files/codes/lecture_7/package_struc.png?raw=true">

<p><center><font>一个简单的包结构</font></center></p>
</div>

Python3自带的包在`/usr/local/anaconda3/lib/python3.7`中（以Ubuntu系统中的Anaconda3为例，其他系统类似），第三方包在`/usr/local/anaconda3/lib/python3.7/site-packages`中

下面以第三方包`jieba`为例说明包与模块的关系，`jieba`是一个流行的、开源的（popular and open source）中文分析包，源代码见：https://github.com/fxsjy/jieba

jieba包的包结构如下：

<div align=center>
<img width="250" height="650" src="https://raw.githubusercontent.com/zhangjianzhang/programming_basics/master/files/codes/lecture_7/jieba.jpg">

<p><center><font>jieba包结构</font></center></p>
</div>

包是一个**分层次**的文件目录结构，它定义了一个由**模块**及**子包**，和**子包下的子包**等组成的Python的应用环境。

简单来说，包就是**文件夹**，但该文件夹下必须存在 `__init__.py` 文件，该文件的内容可以为空。`__init__.py`，用于标识当前文件夹是一个包。

如上图，包下面可以包括子包（文件夹，如`analyse`）和模块（`.py`文件，如`_compat.py`），子包下面可以包含子包（文件夹）和模块（`.py`文件）。

In [75]:
# 下面代码要想运行，必须先安装jieba包

In [76]:
# 从jieba包中导入子包posseg，并赋予别名pseg
import jieba.posseg as pseg
# 调用posseg子包中的cut函数
words = pseg.cut("我爱北京天安门") 
for word, flag in words:
	print('%s %s' % (word, flag))

Building prefix dict from the default dictionary ...
Loading model from cache /tmp/jieba.cache
Loading model cost 0.624 seconds.
Prefix dict has been built successfully.


我 r
爱 v
北京 ns
天安门 ns


In [77]:
# 从jieba包中导入_compat模块，并赋予别名ct
from jieba import _compat as ct
# 调用ct模块中定义的strdecode函数
ct.strdecode('阿里巴巴')

'阿里巴巴'

In [78]:
# 从jieba包的_compat模块中到如resolve_filename函数
from jieba._compat import resolve_filename

In [79]:
resolve_filename(ct)

"<module 'jieba._compat' from '/usr/local/anaconda3/lib/python3.7/site-packages/jieba/_compat.py'>"

In [80]:
resolve_filename(pseg)

"<module 'jieba.posseg' from '/usr/local/anaconda3/lib/python3.7/site-packages/jieba/posseg/__init__.py'>"

### 包内引用

下面以下图中的“简单包结构”为例说明包内**模块之间的互相引用**。

<div align=center>
<img width="250" height="550" src="https://github.com/zhangjianzhang/programming_basics/blob/master/files/codes/lecture_7/package_struc.png?raw=true">

<p><center><font>一个简单的包结构</font></center></p>
</div>

#### 子模块之间同样需要互相引用

子包中含有多个模块时（与上图中的effects子包一样），可以使用**绝对导入**和**相对导入**引用当前包中的模块。

例如，要在模块`video.effects.adjustContrast`中使用当前包的`sharpening`模块时：


- 绝对导入，`from video.effects import sharpening`

- 相对导入，`import sharpening`

- 相对导入，`from . import sharpening`

#### 不在当前子包内的模块互相引用

包中含有多个子包时（与上图中的`video`包一样），可以使用**绝对导入**和**相对导入**引用兄弟包中的子模块。

例如，要在模块 `video.effects.adjustContrast`中使用`video.formats`包的`mkv`模块时：

- 绝对导入，可以用`from video.formats import mkv`导入；

- 相对导入，还可以用`import`语句的`from module import name`形式执行相对导入，这些导入语句使用前导句点表示相对导入中的当前包（`.`）和父包(`..`)，`from ..formats import mkv`。

## 7.9 第三方包的安装

pip：方便的包管理工具

安装pip：

- 下载`get-pip.py`，地址为：https://bootstrap.pypa.io/get-pip.py
- 安装pip，打开命令行，进入到包含`get-pip.py`的文件夹，执行`py get-pip.py`

Python 3.4+ 以上版本都自带pip工具，无需自己安装；

Anaconda也自带了pip工具，无需自己安装。

pip的几种常用方法：

- pip install <PackageName>		安装包
    
- pip show <PackageName>		查看已安装的包信息
    
- pip list 				列出已安装的所有包

- pip list --outdated			列出需要更新的包

- pip install --upgrade <PackageName> 	升级包
    
- pip uninstall <Package>		卸载包

pip工具是在命令行中使用，如Windows系统的CMD中，Linux和Mac OS的terminal中，下图显示了在Ubuntu 16.04系统中，成功安装中文分析工具包`jieba`。

<div align=center>
<img width="650" height="350" src="https://github.com/zhangjianzhang/programming_basics/blob/master/files/codes/lecture_7/pip_jieba.jpg?raw=true">

<p><center><font>使用pip命令安装中文分析工具包jieba</font></center></p>
</div>

部分同学的Windows用户名是中文名，导致jupyter-notebook无法正常运行，报错信息为`Bad file descriptor....`，最快捷的解决办法就是用pip命令降级一个名为`pyzmq`的软件包，如下两行命令即可：

卸载pyzmq高版本

`pip uninstall pyzmq`

安装低版本19.0.2版

`pip install pyzmq==19.0.2 --user`

<b><font color=Chocolate>拓展学习：</font></b>

- <a href="https://www.runoob.com/w3cnote/pip-cn-mirror.html" target="_blank">pip 使用国内镜像源加快安装速度</a>

<b><font color=red>思考题：</font></b>

使用`pip`命令在自己的机器上安装中文分析工具包`jieba`。

In [81]:
print('END')

END
