# Python 基础
## 数据类型
### 整数

Python 可以处理任意大小的整数

对于很大的数，类如 `10000000000`， Python 允许在数字之间以`_`分割， 因此， 写成`10_000_000_000`和`10000000000`是完全一样的。

### 浮点数
整数和浮点数在计算机内部存储的方式是不同的，整数运算永远是精确的（除法也是精确的！），而浮点数运算可能会有四舍五入的误差。

### 字符串
字符串是以单引号`‘`或双引号`“`括起来的任意文本。

### 布尔值
布尔值和布尔代数的表示完全一致， 一个布尔值只有`True`、`False`两种值。

布尔值可以用`and`, `or` 和 `not`运算。

### 空值
空值是Python里一个特殊的值， 用`None`表示。

### 变量
变量的概念基本上和初中代数的方程变量是一致的，只是在计算机程序中，变量不仅可以是数字，还可以是任意数据类型。

变量本身类型不固定的语言称之为`动态语言`， 与之对应的是`静态语言`。静态语言在定义变量时必须指定变量类型，如果赋值的时候类型不匹配就会报错。

### 常量
所谓常量就是不能变的变量，比如常用的数学常数pi就是一个常量。**在Python中通常全用大写的变量名表示常量**。

PI = 3.1415926

## 字符窜和编码
在计算机内存中，统一使用 Unicode 编码，当需要保存到硬盘或者需要传输的时候就转换为UTF-8编码。

### Python的字符串
在最新的Python3版本中，字符串是以Unicode编码的，也就是说Python字符串支持多语言。

对于单个字符的编码，Python提供了`ord()`函数获取字符串的整数表示，`chr()`函数把函数编码转换为对应的字符。

In [2]:
ord("A")

65

In [3]:
ord("中")

20013

In [5]:
chr(66)

'B'

In [6]:
chr(25991)

'文'

In [8]:
# 如果知道字符串的整数编码，还可以用十六进制这么写
'\u4e2d\u6587'

'中文'

**占位符**| **替换内容**
---------|-------------
%d | 整数
%f | 浮点数
%s | 字符串
%x | 十六进制整数

其中，格式化整数和浮点数还可以指定是否补0和整数与小数的位数

In [11]:
print('%d-%02d' % (3, 1))
print('%.2f' % 3.1415926)

3-01
3.14


### format()

In [14]:
'Hello, {0}, 成绩提升了 {1:.1f}%'.format('小明', 17.25)

'Hello, 小明, 成绩提升了 17.2%'

### f-string

In [17]:
r = 2.5 
s = 3.14 * r ** 2

print('The area of a circle with radius {r} is {s:.2f}')

The area of a circle with radius {r} is {s:.2f}


## 使用 list 和 tuple
### list
Python 内置的一种数据类型，是一种有序的集合，可以随时添加和删除其中的元素。

In [2]:
classmates = ['Michael', 'Bob', 'Tracy']
classmates

['Michael', 'Bob', 'Tracy']

In [3]:
len(classmates)

3

In [5]:
classmates[0]

'Michael'

In [6]:
classmates[1]

'Bob'

In [8]:
classmates[2]

'Tracy'

In [9]:
classmates[3]

IndexError: list index out of range

In [11]:
classmates[-1]

'Tracy'

In [14]:
# list 是一个可变的有序列表，可以向list中追加元素到末尾

classmates.append("Adam")
classmates

['Michael', 'Bob', 'Tracy', 'Adam', 'Adam']

In [15]:
classmates.insert?

In [16]:
classmates.insert(1, "Jack")

In [17]:
classmates

['Michael', 'Jack', 'Bob', 'Tracy', 'Adam', 'Adam']

In [19]:
# 删除末尾的元素
classmates.pop()
classmates

['Michael', 'Jack', 'Bob', 'Tracy', 'Adam']

In [22]:
# 删除指定位置的元素
classmates.pop(1)

'Bob'

In [23]:
# 替换某个位置的元素
classmates[1] = "Sarah"
classmates

['Michael', 'Sarah', 'Adam']

In [24]:
# list 中元素类型可以不同
L = ['Apple', 123, True]

In [26]:
# list in list
s = ["python", 'java', ['asp', 'php'], 'scheme']
len(s)

4

In [29]:
# access value in list of list
s[2][1]

'php'

### Tuple

tuple 和 list 非常相似，但是 tuple 一旦初始化就不能修改

In [30]:
classmates = ("michael", "Bob", "Tracy")
classmates

('michael', 'Bob', 'Tracy')

In [33]:
classmates.count("Bob")

1

In [40]:
classmates.index("Bob", 0)

1

如果可能尽量使用 tuple 替代 list

In [42]:
t = (1, 2)
t

(1, 2)

In [44]:
# 空的 tuple
t = ()
t

()

In [47]:
# 如果 tuple中质保含一个元素，要在后面加个逗号， 区别与数字
t = (1, )
t

(1,)

In [49]:
# 数字而不是 tuple
t = (1)
t

1

In [50]:
# tuple 中包含的有序可变序列是可以改变的
t = ("a", "b", ['A', 'B']) # tuple 中的 list 是可变的
t

('a', 'b', ['A', 'B'])

In [51]:
t[2][0] = "X"
t[2][1] = "Y"
t

('a', 'b', ['X', 'Y'])

## 条件判断
`if`, `elif`, `else`

In [53]:
age = 3
if age >= 18:
    print("your age is", age)
    print("adult")
else:
    print("Your age is", age)
    print("teenager")

Your age is 3
teenager


In [54]:
age = 3
if age >= 18:
    print("adult")
elif age >= 6:
    print("teenager")
else:
    print("kid")

kid


In [55]:
height = 1.75
weight = 80.5

bmi = weight / height ** 2
if bmi < 18.5:
    print('过轻') 
elif bmi < 25:
    print('正常')
elif bmi < 28:
    print("过重")
elif bmi < 32:
    print("肥胖")
elif bmi >= 32:
    print('严重肥胖')

过重


## 循环
### `for`

In [56]:
list(range(5))

[0, 1, 2, 3, 4]

In [57]:
sum = 0
for x in range(101):
    sum += x
print(sum)

5050


### `while`

In [60]:
sum = 0
n = 0
while n <= 100:
    sum += n
    n += 1
    
print(sum)

5050


### `break`
在循环中，`break`语句可以提前退出循环。

In [4]:
n = 1

while n <= 100:
    if n > 10:
        break
    print(n)
    n += 1
print("END")

1
2
3
4
5
6
7
8
9
10
END


### `continue`
在循环中也可以使用`continue`语句跳过这次循环，直接开始下一次循环。

In [6]:
n = 0
while n < 10:
    n += 1
    if n % 2 == 0:
        continue
    print(n)

1
3
5
7
9


## 使用 dict 和 set
### dict
Python 内置了字典，在其他语言中也称为 map, 使用 key-value 储存，具有极快的查找速度。

一个 key 只能对应一个 value.

In [13]:
names = ['Michael', "Bob", "Tracy"]
score = [95, 75, 85]

d = {"Michael":95, "Bob":75, "Tracy":85}
d["Michael"]

95

In [14]:
d["adam"] = 67
d["adam"]

67

In [15]:
# 用 `in` 判断 key 是否存在
'Thomas' in d

False

In [25]:
# 使用 `get()`方法，判断 key 是否存在，不存在返回 `None`, 或者自己指定的 value
d.get("Thomas")

In [27]:
d.get("Thomas", -1)

-1

In [29]:
# 删除一个 key, pop(key), 对应的 value 也会从 dict 中删除
d.pop("Bob")

75

In [30]:
d.pop("Thomas")

KeyError: 'Thomas'

In [31]:
d.pop("Thomas", -1)

-1

dict 内部存放的顺序和key放入的顺序是没有关系的。

和 list 比较 dict 有一下几个特点：

1. 查找和插入的速度极快，不会随着 key 的增加而变慢
2. 需要占用的内存大， 内存浪费多

而 list 相反：

1. 查找和插入的时间随着元素的增加而变慢
2. 占用的内存小

dict 的 key 必须是不可变对象, 如str, tuple

### Set

set 和 dict 类似，也是一组 key 的集合， 但不存储 value, 由于 key 不能重复，所以set 中没有重复的 key.

In [33]:
s = set([1, 2, 3])
s

{1, 2, 3}

传入的参数 `[1, 2, 3]`是一个 list, 而显示的 `{1, 2, 3}`只是告诉你这个set内部有1, 2, 3这3个元素，而且是有顺序的。

In [36]:
s = set([1, 1, 2, 3, 3, 2])
s

{1, 2, 3}

向 set 中添加元素， 可以重复添加但是不会有效果。

In [38]:
s.add(4)
s

{1, 2, 3, 4}

In [44]:
s.add(4)
s

{1, 2, 3, 4}

从 set 中删除元素

In [45]:
s.remove(4)
s

{1, 2, 3}

set 和 dict 的唯一区别仅在于没有存储对应的value, 但是 set 的原理和 dict 一样，所以，同样不可以放入可变对象， 因为无法判断两个对象是否相等。

In [47]:
s.add([1, 2, 3])

TypeError: unhashable type: 'list'

In [48]:
s.add((1, 2, 3))
s

{(1, 2, 3), 1, 2, 3}

In [49]:
s.add((1, [2, 3]))

TypeError: unhashable type: 'list'

# 函数
## 调用函数
Python 内置了很多有用的函数，我们可以直接调用。

In [54]:
abs(100)

100

调用函数的时候，如果传入的参数数量不对，会报 `TypeError`的错误

In [56]:
abs(1, 2, 3)

TypeError: abs() takes exactly one argument (3 given)

In [58]:
abs("a")

TypeError: bad operand type for abs(): 'str'

In [60]:
max(1, 2, 3)

3

### 数据类型装换
Python 内置的常用函数还包括数据类型转换函数， 比如 `int`函数可以把其他数据类型转换为整数。

In [61]:
int('123')

123

In [62]:
int(1.23)

1

In [63]:
float(123)

123.0

In [64]:
float("1.23")

1.23

In [65]:
str(100)

'100'

In [66]:
bool(1)

True

In [68]:
bool("")

False

函数名其实就是指向一个函数对象的引用，完全可以把一个函数名赋予一个变量，相当与给这个函数起了一个“别名”。

In [71]:
a = abs

a(-1)

1

In [72]:
n1 = 255
n2 = 1000
hex(n1)

'0xff'

In [73]:
hex(n2)

'0x3e8'

## 定义函数
在 Python 中， 定义一个函数要使用 `def`语句， 依次写出函数名，括号，括号中的参数和冒号`：`， 然后在缩进块中编写函数体。函数的返回值用`return`语句返回。

In [76]:
def my_abs(x):
    if x >= 0:
        return x
    else:
        return -x

In [77]:
my_abs(-99)

99

请注意，函数体内部的语句在执行时，一旦执行到`return`时， 函数就执行完毕，并将结果返回。

如果没有`return`语句，函数执行完毕后也会返回结果，只是结果为`None`。`return None` 可以简写为`return`.

### 空函数
如果想定义一个什么都不做的空函数，可以用`pass`语句。

In [80]:
def nop():
    pass

# `pass` 语句什么都不做，实际上`pass`可以用来作为占位符， 
# 比如想在没有想好怎么写函数的代码，就可以先放一个`pass`,让代码能运行起来。

In [82]:
age = 10
if age > 18:
    pass

### 参数检查
调用函数时，如果参数个数不对，Python解释器会自动检查出来，并抛出`TypeError`

In [83]:
my_abs(1, 2)

TypeError: my_abs() takes 1 positional argument but 2 were given

如果参数类型不对，Python解释器会自动检查出来， 并抛出`TypeError`

In [85]:
my_abs("a")

TypeError: '>=' not supported between instances of 'str' and 'int'

### 返回多个值

In [86]:
import math

In [93]:
def move(x, y, step, angle = 0):
    nx = x + step * math.cos(angle)
    ny = y - step * math.sin(angle)
    return nx, ny

In [94]:
x, y = move(100, 100, 60, math.pi / 6)
print(x ,y)

151.96152422706632 70.0


其实Python 返回的仍然是一个单一值, tuple

In [95]:
r = move(100, 100, 60, math.pi / 6)
print(r)

(151.96152422706632, 70.0)


In [103]:
import math

def quadratic(a, b, c):
    x1 = (-b - math.sqrt(b ** 2 - 4 * a * c) / 2 * a)
    x2 = (-b + math.sqrt(b ** 2 - 4 * a * c)/2 * a)
    return x1, x2

In [104]:
print(quadratic(2, 3, 1))

(-4.0, -2.0)


In [105]:
print(quadratic(1, 3, -4))

(-5.5, -0.5)


### 函数的参数
#### 位置参数

In [107]:
def power(x):
    return x*x

# 对于 `power(x)`函数， 参数`x`就是一个位置参数

In [108]:
power(5)

25

In [109]:
power(25)

625

In [110]:
def power(x, n):
    s = 1
    while n > 0:
        n = n - 1
        s = s * x
    return s

In [111]:
power(3, 6)

729

#### 默认参数

In [112]:
def power(x, n = 2):
    s = 1
    while n > 0:
        n = n - 1
        s = s * x
    return s

In [113]:
power(5)

25

In [114]:
power(5, 2)

25

In [115]:
power(5, 3)

125

设置默认参数时，有几点要注意：

1. 必选参数在前，默认参数在后，否则 Python 的解释器会报错。  
2. 如何设置默认参数。

当函数有多个参数的时候，把变化大的参数放前面，变化小的参数放后面。变化小的参数就可以作为默认参数。

使用默认参数的好处就是可以降低调用函数的难度。

In [118]:
def enroll(name, gender):
    print('name:', name)
    print('gender:', 'gender')

In [119]:
enroll("Sarah", 'F')

name: Sarah
gender: gender


In [121]:
def enroll(name, gender, age = 6, city = 'Beijing'):
    print('name:', name)
    print('gender:', gender)
    print('age:', age)
    print('city:', city)

In [122]:
enroll("Sarah", "F")

name: Sarah
gender: F
age: 6
city: Beijing


#### 可变参数
在 Python 函数中，还可以定义可变参数。顾名思义，可变参数就是传入的参数个数是可变的， 可以是1个， 2个到任意个，还可以是0个。

In [127]:
# 由于参数的个数不确定，我们首先想到可以把参数作为一个 list 或 tuple 传入
def calc(numbers):
    sum = 0
    for n in numbers:
        sum = sum + n * n
    return sum

In [128]:
calc([1, 2, 3])

14

In [129]:
calc((1, 2, 3, 4))

30

定义可变参数

In [130]:
def calc(*numbers):
    sum = 0
    for n in numbers:
        sum = sum + n * n
    return sum

In [131]:
calc(1, 2, 3)

14

In [132]:
calc(1, 2, 3, 5)

39

定义可变参数和定义一个list 和 tuple相比仅仅在参数前面加了一个`*`号。在函数内部，参数`numbers`接收到的是一个tuple, 因此，函数代码完全不变。但是，调用该函数时，可以传入任意多个参数，包括0个参数。

In [133]:
calc(1, 2)

5

In [134]:
calc()

0

In [135]:
如果已经有一个list 或tuple，要调用一个可变参数可以这样做

SyntaxError: invalid character in identifier (<ipython-input-135-25fa83328825>, line 1)

In [136]:
num = [1, 2, 3]
calc(num[0], num[1], num[2])

14

In [138]:
# 或者在list 或tuple前加一个`*`
calc(*num)

14

#### 关键字参数
可变参数允许你传入0个或者任意个参数，这些可变参数在函数调用时自动组装成为一个tuple。 而关键字参数允许你传入0个或者任意个含参数名的参数，这些关键字参数在函数内部自动组装为一个dict. 

In [139]:
def person(name, age, **kw):
    print('name:', name, 'age:', age, 'other:', kw)

函数`person`除了必选参数`name`和`age`外， 还接受关键字参数`kw`.在调用该函数时，可以只传入比选参数， 也可以传入任意个数的关键字参数。

In [140]:
person("Michael", 30)

name: Michael age: 30 other: {}


In [141]:
person("Bob", 35, city = "Beijing")

name: Bob age: 35 other: {'city': 'Beijing'}


In [143]:
person("Adam", 45, gender = 'M', job = "engineer")

name: Adam age: 45 other: {'gender': 'M', 'job': 'engineer'}


关键字参数有什么用？它可以扩展函数的功能。比如，在person函数里，我们保证能接收到name和age这两个参数，但是，如果调用者愿意提供更多的参数，我们也能收到。

#### 命名关键字参数
对于关键字参数，函数的调用者可以传入任意不受限制的关键字参数，至于到底传入了哪些，就需要在函数内部通过`kw`检查。

In [144]:
def person(name, age, **kw):
    if 'city' in kw:
        pass
    if 'job' in kw:
        pass
    print("name:", name, 'age:',age, 'other:', kw)

In [145]:
person("jack", 24, city = "Beijing", addr = 'Chaoyang', zipcode = 123456)

name: jack age: 24 other: {'city': 'Beijing', 'addr': 'Chaoyang', 'zipcode': 123456}


如果要限制关键字参数的名字，就可以用关键字参数，例如，只接收`city`和`job`作为关键字参数。

和关键字参数`**kw`不同， 命名关键字参数需要一个特殊分隔符`*`, `*`后面的参数被视为命名关键字参数。

调用参数如下：

In [146]:
def person(name, age, *, city, job):
    print(name, age, city, job)

In [147]:
person('Jack', 24, city = "Beijing", job = "Engineer")

Jack 24 Beijing Engineer


如果函数定义中已经有一个可变参数，后面跟着的命名关键字参数就不需要一个特殊分隔符`*`了。

In [148]:
def person(name, age, *args, city, job):
    print(name, age, args, city, job)

In [149]:
# 命名关键字参数必须传入参数名，和位置参数不同。如果没有传入参数名，调用将报错
person('jack', 25, "beijing", "engineer")

TypeError: person() missing 2 required keyword-only arguments: 'city' and 'job'

In [150]:
# 由于调用时缺少参数名`city`和`job`，Python 解释器把4个参数均视为位置参数，但 person()仅接收2个位置参数。
def person(name, age, *, city = "Beijing", job):
    print(name, age, city, job)

In [151]:
person('jack', 24, job = "Engineer")

jack 24 Beijing Engineer


使用命名关键字参数时要注意，如果没有可变参数，就必须加`*`作为特殊分隔符， 如果缺少`*`, Python 解释器将无法识别位置参数和命名关键字参数。

In [152]:
def person(name, age, city, job):
    pass

#### 参数组合

在Python 中定义函数，可以用必选参数，默认参数，可变参数，关键字参数和命名关键字参数，这5种关键字参数和关键字参数。

但是请注意，参数定义的顺序必须是：必选参数，默认参数，可变参数，命名关键字参数和关键字参数。

In [155]:
# 必选参数，默认参数，可变参数，关键字参数
def f1(a, b, c = 0, *args, **kw):
    print('a = ', a, 'b = ', b, 'c = ', c, 'args =', args, 'kw =', kw)

In [156]:
# 必选参数，默认参数，命名关键字参数，关键字参数
def f2(a, b, c = 0, *, d, **kw):
    print('a =', a, 'b =', b, 'c =', c, 'd =', d, 'kw =', kw)

在调用函数的时候，Python解释器自动按照参数位置和参数名把对应的参数传进去。

In [157]:
f1(1, 2)

a =  1 b =  2 c =  0 args = () kw = {}


In [158]:
f1(1, 2, c = 3)

a =  1 b =  2 c =  3 args = () kw = {}


In [159]:
f1(1, 2, 3, 'a', 'b')

a =  1 b =  2 c =  3 args = ('a', 'b') kw = {}


In [160]:
f2(1, 2, d = 99, ext = None)

a = 1 b = 2 c = 0 d = 99 kw = {'ext': None}


In [161]:
args = (1, 2, 3, 4)
kw = {'d': 99, 'x': '#'}
f1(*args, **kw)

a =  1 b =  2 c =  3 args = (4,) kw = {'d': 99, 'x': '#'}


In [165]:
def product(*x):
    p = 1
    for n in x:
        p = p * n
    return p

In [170]:
product(5)

5

In [171]:
product(5, 6)

30

In [172]:
product(5, 6, 7)

210

In [173]:
product(5, 6, 7, 9)

1890

## 递归函数
在函数内部可以调用其他函数，如果一个函数在内部调用自身本身，这个函数就是递归函数。

In [1]:
def fact(n):
    if n == 1:
        return 1
    return n * fact(n - 1)

In [2]:
fact(2)

2

In [3]:
fact(10)

3628800

In [4]:
fact(100)

93326215443944152681699238856266700490715968264381621468592963895217599993229915608941463976156518286253697920827223758251185210916864000000000000000000000000

递归函数的优点是定义简单，逻辑清晰。理论上，所有递归函数都可以写成循环的方式，但循环的逻辑不如递归清晰。

使用递归函数需要注意栈溢出。在计算机中，函数调用是通过栈（stack）这种数据结构实现的，每当进入一个函数调用，栈就会加一层栈枕，每当函数返回，栈就会减一层栈帧。由于栈的大小不是无限的，所以，递归调用的次数过多会导致栈溢出。

In [6]:
fact(10000)

RecursionError: maximum recursion depth exceeded in comparison

# 高级特性

In [1]:
L = []
n = 1

while n <= 99:
    L.append(n)
    n = n +2

In [2]:
L

[1,
 3,
 5,
 7,
 9,
 11,
 13,
 15,
 17,
 19,
 21,
 23,
 25,
 27,
 29,
 31,
 33,
 35,
 37,
 39,
 41,
 43,
 45,
 47,
 49,
 51,
 53,
 55,
 57,
 59,
 61,
 63,
 65,
 67,
 69,
 71,
 73,
 75,
 77,
 79,
 81,
 83,
 85,
 87,
 89,
 91,
 93,
 95,
 97,
 99]

## 切片
取一个 list 或 tuple的部分元素的常见操作。

In [3]:
L = ['Michael', 'Sarah', "Tracy", 'Bob', "Jack"]

In [4]:
[L[0], L[1], L[2]]

['Michael', 'Sarah', 'Tracy']

In [5]:
r = []
n = 3
for i in range(n):
    r.append(L[i])
    
r

['Michael', 'Sarah', 'Tracy']

In [6]:
L[0:3]

['Michael', 'Sarah', 'Tracy']

In [7]:
L[:3]

['Michael', 'Sarah', 'Tracy']

In [8]:
L[-2:]

['Bob', 'Jack']

In [9]:
L = list(range(100))

In [10]:
L

[0,
 1,
 2,
 3,
 4,
 5,
 6,
 7,
 8,
 9,
 10,
 11,
 12,
 13,
 14,
 15,
 16,
 17,
 18,
 19,
 20,
 21,
 22,
 23,
 24,
 25,
 26,
 27,
 28,
 29,
 30,
 31,
 32,
 33,
 34,
 35,
 36,
 37,
 38,
 39,
 40,
 41,
 42,
 43,
 44,
 45,
 46,
 47,
 48,
 49,
 50,
 51,
 52,
 53,
 54,
 55,
 56,
 57,
 58,
 59,
 60,
 61,
 62,
 63,
 64,
 65,
 66,
 67,
 68,
 69,
 70,
 71,
 72,
 73,
 74,
 75,
 76,
 77,
 78,
 79,
 80,
 81,
 82,
 83,
 84,
 85,
 86,
 87,
 88,
 89,
 90,
 91,
 92,
 93,
 94,
 95,
 96,
 97,
 98,
 99]

In [11]:
L[:10]

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [12]:
L[-10:]

[90, 91, 92, 93, 94, 95, 96, 97, 98, 99]

In [13]:
L[10:20]

[10, 11, 12, 13, 14, 15, 16, 17, 18, 19]

In [14]:
L[:10:2]

[0, 2, 4, 6, 8]

In [15]:
L[::5]

[0, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95]

In [16]:
L[:]

[0,
 1,
 2,
 3,
 4,
 5,
 6,
 7,
 8,
 9,
 10,
 11,
 12,
 13,
 14,
 15,
 16,
 17,
 18,
 19,
 20,
 21,
 22,
 23,
 24,
 25,
 26,
 27,
 28,
 29,
 30,
 31,
 32,
 33,
 34,
 35,
 36,
 37,
 38,
 39,
 40,
 41,
 42,
 43,
 44,
 45,
 46,
 47,
 48,
 49,
 50,
 51,
 52,
 53,
 54,
 55,
 56,
 57,
 58,
 59,
 60,
 61,
 62,
 63,
 64,
 65,
 66,
 67,
 68,
 69,
 70,
 71,
 72,
 73,
 74,
 75,
 76,
 77,
 78,
 79,
 80,
 81,
 82,
 83,
 84,
 85,
 86,
 87,
 88,
 89,
 90,
 91,
 92,
 93,
 94,
 95,
 96,
 97,
 98,
 99]

字符串`‘xxx’`也可以看成是一种 list, 每个元素就是一个字符。因此，字符串也可以用切片操作，只是操作的结果仍然是字符串。

In [19]:
'ABCDEFGHIJK'[::2]

'ACEGIK'

In [20]:
'ABCDEFGHIJK'[:3]

'ABC'

In [6]:
s = '  ABC  DEFG  HIJK  '
def trim(s):
    for i in range(len(s)):
        if s[:i].isspace():
            s = s[(i + 1):]
            
    for j in range(1,(len(s) + 1)):
        if s[-j:].isspace():
            s = s[:-(j + 1)]
            
    return s

trim(s)

'ABC  DEFG  HIJK'

## 迭代
如果给定一个 list 或 tuple, 我们可以通过 `for` 循环来遍历这个 list 或 tuple, 这种遍历我们称为迭代 (iteration).

如何判断一个对象是否可迭代？可以通过 collections 模块的 Iterable 类型判断。

In [103]:
def findMinMax(L):
    mi = L[0]
    ma = L[0]
    for i in range(len(L)):
        if mi > L[i]:
            mi = L[i]
        if ma < L[i]:
            ma = L[i]
    return (mi, ma)

In [106]:
findMinMax([1,2, 3, 10, 12])

(1, 12)

## 列表生成式
列表生成式即 List Comprehensions, 是 Python 内置的非常简单却强大的可以用来创建 list 的生成式。

In [108]:
list(range(1, 11))

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

In [110]:
[x * x for x in range(1, 11)]

[1, 4, 9, 16, 25, 36, 49, 64, 81, 100]

In [111]:
[x * x for x in range(1, 11) if x % 2 == 0]

[4, 16, 36, 64, 100]

In [112]:
[m + n for m in "ABC" for n in "XYZ"]

['AX', 'AY', 'AZ', 'BX', 'BY', 'BZ', 'CX', 'CY', 'CZ']

In [114]:
import os

[d for d in os.listdir(".")]

['Python-For-Data-Analysis',
 'Python - Liao.ipynb',
 '.ipynb_checkpoints',
 'Kaggle']

In [116]:
d = {'x': 'A', 'y': 'B', 'z': 'C' }

for k, v in d.items():
    print(k, ' = ', v)

x  =  A
y  =  B
z  =  C


In [117]:
L = ['Hello', 'World', 'IBM', 'Apple']
[s.lower() for s in L]

['hello', 'world', 'ibm', 'apple']

In [119]:
L1 = ['Hello', 'World', 18, 'Apple', None]
for i in range(len(L1)):
    if L1[i].isinstance()

Hello
World
18
Apple
None


In [121]:
from collections import Iterable
for i in range(len(L1)):
    if isinstance(L1[i], Iterable):
        

In [127]:
L2 = [x.lower() if isinstance(x, Iterable) else x for x in L1]
L2

['hello', 'world', 18, 'apple', None]

## 生成器

通过列表生成式，我们可以直接创建一个列表。但是，受到内存限制，列表容量肯定是有限的。而且，创建一个包含100万个元素的列表，不仅占用很大的存储空间，如果我们仅仅需要访问前面几个元素，那后面绝大多数元素占用的空间都白白浪费了。

所以，如果列表元素可以按照某种算法推算出来，那我们是否可以在循环的过程中不断推算出后续的元素呢？这样就不必创建完整的list，从而节省大量的空间。在Python中，这种一边循环一边计算的机制，称为生成器：generator。

要创建一个generator，有很多种方法。第一种方法很简单，只要把一个列表生成式的`[]`改成`()`，就创建了一个generator：

In [7]:
L = [x * x for x in range(10)]
L

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

In [8]:
g = (x * x for x in range(10))
g

<generator object <genexpr> at 0x7f491eb82970>

创建L和g的区别仅在于最外层的[]和()，L是一个list，而g是一个generator。

我们可以直接打印出list的每一个元素，但我们怎么打印出generator的每一个元素呢？

如果要一个一个打印出来，可以通过next()函数获得generator的下一个返回值：

In [9]:
next(g)

0

In [10]:
next(g)

1

In [11]:
next(g)

4

In [12]:
next(g)

9

In [13]:
next(g)

16

In [14]:
next(g)

25

In [15]:
next(g)

36

In [17]:
next(g)

64

In [18]:
next(g)

81

In [19]:
next(g)

StopIteration: 

我们讲过，generator保存的是算法，每次调用next(g)，就计算出g的下一个元素的值，直到计算到最后一个元素，没有更多的元素时，抛出StopIteration的错误。

当然，上面这种不断调用next(g)实在是太变态了，正确的方法是使用for循环，因为generator也是可迭代对象：

In [20]:
g = (x * x for x in range(10))

for n in g:
    print(n)

0
1
4
9
16
25
36
49
64
81


所以，我们创建了一个generator后，基本上永远不会调用next()，而是通过for循环来迭代它，并且不需要关心StopIteration的错误。

generator非常强大。如果推算的算法比较复杂，用类似列表生成式的for循环无法实现的时候，还可以用函数来实现。

比如，著名的斐波拉契数列（Fibonacci），除第一个和第二个数外，任意一个数都可由前两个数相加得到：

斐波拉契数列用列表生成式写不出来，但是，用函数把它打印出来却很容易：

In [21]:
def fib(max):
    n, a, b = 0, 0, 1
    while n < max:
        print(b)
        a, b = b, a + b
        n = n + 1
    return 'Done'

In [22]:
fib(6)

1
1
2
3
5
8


'Done'

仔细观察，可以看出，fib函数实际上是定义了斐波拉契数列的推算规则，可以从第一个元素开始，推算出后续任意的元素，这种逻辑其实非常类似generator。

也就是说，上面的函数和generator仅一步之遥。要把fib函数变成generator，只需要把print(b)改为yield b就可以了：

In [23]:
def fib(max):
    n, a, b = 0, 0, 1
    while n < max:
        yield b
        a, b = b, a + b
        n = n + 1
    return "Done"

这就是定义generator的另一种方法。如果一个函数定义中包含 `yield` 关键字，那么这个函数就不再是一个普通函数，而是一个generator.

In [25]:
f = fib(6)
f

<generator object fib at 0x7f491eb82d60>

这里，最难理解的就是 `generator` 和函数的执行流程不一样。函数是顺序执行，遇到 `return` 语句或者最后一行函数语句就返回。而变成 `generator` 的函数，在每次调用 `next()`的时候执行，遇到 `yield` 语句返回，再次执行时从上次返回的yield语句处继续执行。

In [30]:
def odd():
    print('step 1')
    yield 1
    print('step 2')
    yield 2
    print('step 3')
    yield 5

In [31]:
o = odd()

In [32]:
next(o)

step 1


1

In [33]:
next(o)

step 2


2

In [34]:
next(o)

step 3


5

In [35]:
next(o)

StopIteration: 

可以看到，odd不是普通函数，而是generator，在执行过程中，遇到yield就中断，下次又继续执行。执行3次yield后，已经没有yield可以执行了，所以，第4次调用next(o)就报错。

回到fib的例子，我们在循环过程中不断调用yield，就会不断中断。当然要给循环设置一个条件来退出循环，不然就会产生一个无限数列出来。

同样的，把函数改成generator后，我们基本上从来不会用next()来获取下一个返回值，而是直接使用for循环来迭代.

In [36]:
for n in fib(6):
    print(n)

1
1
2
3
5
8


但是用for循环调用generator时，发现拿不到generator的return语句的返回值。如果想要拿到返回值，必须捕获StopIteration错误，返回值包含在StopIteration的value中

In [38]:
g = fib(6)

while True:
    try:
        x = next(g)
        print('g:', x)
    except StopIteration as e:
        print("Generator return value:", e.value)
        break

g: 1
g: 1
g: 2
g: 3
g: 5
g: 8
Generator return value: Done


## 迭代器
我们已经知道，可以直接作用于for循环的数据类型有以下几种：

一类是集合数据类型，如list、tuple、dict、set、str等；

一类是generator，包括生成器和带yield的generator function。

这些可以直接作用于for循环的对象统称为可迭代对象：`Iterable`。
可以使用`isinstance()`判断一个对象是否是Iterable对象

In [39]:
from collections.abc import Iterable

In [40]:
isinstance([], Iterable)

True

In [41]:
isinstance({}, Iterable)

True

In [42]:
isinstance('abc', Iterable)

True

In [43]:
isinstance((x for x in range(10)), Iterable)

True

In [44]:
isinstance(100, Iterable)

False

而生成器不但可以作用于for循环，还可以被next()函数不断调用并返回下一个值，直到最后抛出StopIteration错误表示无法继续返回下一个值了。

可以被next()函数调用并不断返回下一个值的对象称为迭代器：Iterator。

可以使用isinstance()判断一个对象是否是Iterator对象.

In [46]:
from collections.abc import Iterator

isinstance((x for x in range(10)), Iterator)

True

In [47]:
isinstance([], Iterator)

False

In [48]:
isinstance({}, Iterator)

False

In [49]:
isinstance("abc", Iterator)

False

生成器都是`Iterator`对象，但`list`、`dict`、`str`虽然是`Iterable`，却不是`Iterator`。

把list、dict、str等Iterable变成Iterator可以使用iter()函数.

In [51]:
isinstance(iter([]), Iterator)

True

In [52]:
isinstance(iter({}), Iterator)

True

In [53]:
isinstance(iter("abc"), Iterator)

True

你可能会问，为什么list、dict、str等数据类型不是Iterator？

这是因为Python的Iterator对象表示的是一个数据流，Iterator对象可以被next()函数调用并不断返回下一个数据，直到没有数据时抛出StopIteration错误。可以把这个数据流看做是一个有序序列，但我们却不能提前知道序列的长度，只能不断通过next()函数实现按需计算下一个数据，所以Iterator的计算是惰性的，只有在需要返回下一个数据时它才会计算。

Iterator甚至可以表示一个无限大的数据流，例如全体自然数。而使用list是永远不可能存储全体自然数的。

凡是可作用于for循环的对象都是Iterable类型；

凡是可作用于next()函数的对象都是Iterator类型，它们表示一个惰性计算的序列；

集合数据类型如list、dict、str等是Iterable但不是Iterator，不过可以通过iter()函数获得一个Iterator对象。

In [54]:
for x in [1, 2, 3, 4, 5]:
    pass

In [55]:
it = iter([1, 2, 3, 4, 5])

while True:
    try:
        x = next(it)
    except StopIteration:
        break

# 函数式编程

函数是Python内建支持的一种封装，我们通过把大段代码拆成函数，通过一层一层的函数调用，就可以把复杂任务分解成简单的任务，这种分解可以称之为面向过程的程序设计。函数就是面向过程的程序设计的基本单元。

而函数式编程（请注意多了一个“式”字）——Functional Programming，虽然也可以归结到面向过程的程序设计，但其思想更接近数学计算。

我们首先要搞明白计算机（Computer）和计算（Compute）的概念。

在计算机的层次上，CPU执行的是加减乘除的指令代码，以及各种条件判断和跳转指令，所以，汇编语言是最贴近计算机的语言。

而计算则指数学意义上的计算，越是抽象的计算，离计算机硬件越远。

对应到编程语言，就是越低级的语言，越贴近计算机，抽象程度低，执行效率高，比如C语言；越高级的语言，越贴近计算，抽象程度高，执行效率低，比如Lisp语言。

函数式编程就是一种抽象程度很高的编程范式，纯粹的函数式编程语言编写的函数没有变量，因此，任意一个函数，只要输入是确定的，输出就是确定的，这种纯函数我们称之为没有副作用。而允许使用变量的程序设计语言，由于函数内部的变量状态不确定，同样的输入，可能得到不同的输出，因此，这种函数是有副作用的。

函数式编程的一个特点就是，允许把函数本身作为参数传入另一个函数，还允许返回一个函数！

Python对函数式编程提供部分支持。由于Python允许使用变量，因此，Python不是纯函数式编程语言。

## 高阶函数

高阶函数英文叫 High-order function。什么是高阶函数？我们以实际代码为例子，一步一步深入概念。

### 变量可以指向函数
以 Python 内置的求绝对值函数 `abs()` 为例，调用该函数用一下代码。

In [56]:
abs(-10)

10

In [57]:
abs

<function abs(x, /)>

In [59]:
x = abs(-10)
x

10

In [61]:
f = abs
f

<function abs(x, /)>

In [62]:
f(-10)

10

#### 函数名也是变量
那么函数名是什么呢？函数名其实就是指向函数的变量！对于abs()这个函数，完全可以把函数名abs看成变量，它指向一个可以计算绝对值的函数！

如果把 `abs`指向其他对象，会有什么情况发生？

In [63]:
abs = 10
abs(-10)

TypeError: 'int' object is not callable

把abs指向10后，就无法通过abs(-10)调用该函数了！因为abs这个变量已经不指向求绝对值函数而是指向一个整数10！

当然实际代码绝对不能这么写，这里是为了说明函数名也是变量。要恢复abs函数，请重启Python交互环境。

注：由于abs函数实际上是定义在import builtins模块中的，所以要让修改abs变量的指向在其它模块也生效，要用import builtins; builtins.abs = 10。

#### 传入函数
既然变量可以指向函数，函数的参数能接收变量，那么一个函数就可以接收另一个函数作为参数，这种函数就称之为高阶函数。

In [66]:
def add(x, y, f):
    return f(x) + f(y)

In [67]:
add(-5, 6, abs)

TypeError: 'int' object is not callable

把函数作为参数传入，这样的函数称为高阶函数，函数式编程就是指这种高度抽象的编程范式。

### map/reduce
我们先看map。map()函数接收两个参数，一个是函数，一个是Iterable，map将传入的函数依次作用到序列的每个元素，并把结果作为新的Iterator返回。

In [71]:
def f(x):
    return x * x

r = map(f, [1, 2, 3, 4, 5, 6, 7, 8, 9])
list(r)

[1, 4, 9, 16, 25, 36, 49, 64, 81]

map()传入的第一个参数是f，即函数对象本身。由于结果r是一个Iterator，Iterator是惰性序列，因此通过list()函数让它把整个序列都计算出来并返回一个list。

reduce把一个函数作用在一个序列`[x1, x2, x3, ...]`上，这个函数必须接收两个参数，reduce把结果继续和序列的下一个元素做累积计算，其效果就是.

In [72]:
from functools import reduce

def add(x, y):
    return x + y

reduce(add, [1, 3, 5, 7, 9])

25

In [73]:
def fn(x, y):
    return x * 10 + y

reduce(fn, [1, 3, 5, 7, 9])

13579

In [74]:
from functools import reduce

def fn(x, y):
    return x * 10 + y

def char2num(s):
    digits = {'0':0, '1':1, '2':2, '3':3, '4':4, '5':5, '6':6, '7':7, '8':8, '9':9}
    return digits[s]

In [75]:
reduce(fn, map(char2num, '13579'))

13579

In [76]:
from functools import reduce

DIGITs = {'0':0, '1':1, '2':2, '3':3, '4':4, '5':5, '6':6, '7':7, '8':8, '9':9}
def str2int(s):
    def fn(x, y):
        return x * 10 + y
    def char2num(s):
        return DIGITS[s]
    return reduce(fn, map(char2num, s))

### filter
Python 内建的 `filter()` 函数用于过滤序列。

和 `map()`类似，`filter()` 也接收一个函数和序列，但是和 `map()` 不同的是 `filter()`把传入的函数依次作用与每个元素，然后根据返回值是 `True`还是 `False`决定是否保留该元素。

In [1]:
def is_odd(n):
    return n % 2 == 1

In [3]:
list(filter(is_odd, [1,2, 4, 5, 6, 9, 10, 15]))

[1, 5, 9, 15]

In [6]:
# 把一个序列中空字符串去掉

def not_empty(s):
    return s and s.strip()

list(filter(not_empty, ['A', "", "B", None, 'C', "  "]))

['A', 'B', 'C']

`filter()` 函数返回的是一个`Iterator`，也就是一个惰性序列，所以要强迫 `filter()`完成计算结果，用 `list` 返回结果。

### sorted
#### 排序算法
排序也是在程序中经常用到的算法。无论使用冒泡排序还是快速排序，排序的核心是比较两个元素的大小。如果是数字，我们可以直接比较，但如果是字符串或者两个dict呢？直接比较数学上的大小是没有意义的，因此，比较的过程必须通过函数抽象出来。

Python 内置的 `sorted()` 函数就可以对 list 进行排序。

In [9]:
sorted([36, 5, -12, 9, -21])

[-21, -12, 5, 9, 36]

此外， `sorted()`函数也是一个高阶函数，它可以接收一个 `key` 函数来实现自定义的排序。

In [10]:
sorted([36, 5, -12, 9, -21], key = abs)

[5, 9, -12, -21, 36]

In [11]:
sorted(['bob', 'about', 'Zoo', 'Credit'])

['Credit', 'Zoo', 'about', 'bob']

默认情况下，对字符串排序，是按照ASCII的大小比较的，由于'Z' < 'a'，结果，大写字母Z会排在小写字母a的前面。

现在，我们提出排序应该忽略大小写，按照字母序排序。要实现这个算法，不必对现有代码大加改动，只要我们能用一个key函数把字符串映射为忽略大小写排序即可。忽略大小写来比较两个字符串，实际上就是先把字符串都变成大写（或者都变成小写），再比较。

In [12]:
sorted(['bob', 'about', 'Zoo', 'Credit'], key = str.lower)

['about', 'bob', 'Credit', 'Zoo']

In [13]:
sorted(['bob', 'about', 'Zoo', 'Credit'], key = str.lower, reverse = True)

['Zoo', 'Credit', 'bob', 'about']

In [24]:
L = [('Bob', 75), ('Adam', 92), ('Bart', 66), ('Lisa', 88)]
def by_name(t):
    name = []
    for i in range(len(t)):
        name.append(t[i][0])
    return name

by_name(L)

['Bob', 'Adam', 'Bart', 'Lisa']

In [25]:
L2 = sorted(L, key = by_name)

TypeError: 'int' object is not subscriptable

### 返回函数
#### 函数作为返回值
高阶函数除了可以接受函数作为参数外，还可以把函数作为结果返回。

In [27]:
# 通常情况下球和函数可以这样定义
def calc_sum(*args):
    ax = 0
    for n in args:
        ax = ax + n
    return ax

In [28]:
# 但是如果不要求立即求和，而是在后面的代码中根据要求计算怎么办？可以不返回求和的结果，而返回求和的函数

def lazy_sum(*args):
    def sum():
        ax = 0
        for n in args:
            ax = ax + n
        return ax
    return sum

In [29]:
# 当我们调用 `lazy_sum()`时，返回的并不是求和的结果， 而是球和的函数
f = lazy_sum(1, 3, 5 ,7, 9)
f

<function __main__.lazy_sum.<locals>.sum()>

In [31]:
# 调用函数 f()时，，才真正计算求和结果
f()

25

在这个例子中，我们在函数lazy_sum中又定义了函数sum，并且，内部函数sum可以引用外部函数lazy_sum的参数和局部变量，当lazy_sum返回函数sum时，相关参数和变量都保存在返回的函数中，这种称为“闭包（Closure）”的程序结构拥有极大的威力。

再注意一点，当我们调用lazy_sum()时，每次调用都会返回一个新的函数，即使传入相同的参数。

f1 = lazy_sum(1, 3, 5, 7, 9)
f2 = lazy_sum(1, 3, 5, 7 ,9)
f1 == f2

f1()和f2()的调用结果互不影响。

#### 闭包
注意到返回的函数在其定义内部引用了局部变量args，所以，当一个函数返回了一个函数后，其内部的局部变量还被新函数引用，所以，闭包用起来简单，实现起来可不容易。

另一个需要注意的问题是，返回的函数并没有立刻执行，而是直到调用了f()才执行。

In [8]:
def count():
    fs = []
    for i in range(1, 4):
        def f():
            return i * i
        fs.append(f)
    return fs

f1, f2, f3 = count()

In [9]:
f1()

9

In [10]:
f2()

9

In [11]:
f3()

9

全部都是9！原因就在于返回的函数引用了变量 i，但它并非立刻执行。等到3个函数都返回时，它们所引用的变量i已经变成了3，因此最终结果为9。

> 返回闭包时牢记一点：返回函数不要引用任何循环变量，或者后续会发生变化的变量。

如果一定要引用循环变量怎么办？方法是再创建一个函数，用该函数的参数绑定循环变量当前的值，无论该循环变量后续如何更改，已绑定到函数参数的值不变

In [18]:
def count():
    def f(j):
        def g():
            return j * j
        return g
    fs = []
    for i in range(1, 4):
        fs.append(f(i)) # f(i)立即被执行，因此 i 的当前值被传入 f()
    return fs

In [19]:
f1, f2, f3 = count()

In [20]:
f1()

1

In [21]:
f2()

4

In [22]:
f3()

9

### 匿名函数
当我们在传入函数时，有些时候，不需要显式地定义函数，直接传入匿名函数更方便。

在Python中，对匿名函数提供了有限支持。还是以map()函数为例，计算f(x)=x^2时，除了定义一个f(x)的函数外，还可以直接传入匿名函数。

In [23]:
list(map(lambda x: x * x, [1, 2, 3, 4, 5, 6, 7, 8, 9]))

[1, 4, 9, 16, 25, 36, 49, 64, 81]

通过对比可以看出，匿名函数lambda x: x * x实际上就是

关键字 `lambda` 表示匿名函数，冒号前面的 `x` 表示函数参数。

匿名函数有个限制，就是只能有一个表达式，不用写return，返回值就是该表达式的结果。

用匿名函数有个好处，因为函数没有名字，不必担心函数名冲突。此外，匿名函数也是一个函数对象，也可以把匿名函数赋值给一个变量，再利用变量来调用该函数。

In [24]:
f = lambda x: x * x

In [25]:
f

<function __main__.<lambda>(x)>

In [26]:
# 同样也可以把匿名函数作为返回值返回
def build(x, y):
    return lambda : x * x + y * y

In [29]:
L = [x for x in range(1, 20) if x % 2 == 1]
L

[1, 3, 5, 7, 9, 11, 13, 15, 17, 19]

### 装饰器
由于函数也是一个对象，而且函数对象可以被赋值给变量，所以，通过变量也能调用该函数。

In [31]:
def now():
    print("2015-3-25")

In [40]:
f = now
f()

2015-3-25


函数对象有一个`__name__`属性，可以拿到函数的名字。

In [41]:
now.__name__

'now'

In [42]:
f.__name__

'now'

现在，假设我们要增强now()函数的功能，比如，在函数调用前后自动打印日志，但又不希望修改now()函数的定义，这种在代码运行期间动态增加功能的方式，称之为“装饰器”（Decorator）。

本质上，decorator就是一个返回函数的高阶函数。所以，我们要定义一个能打印日志的decorator，可以定义如下

In [44]:
def log(func):
    def wrapper(*args, **kw):
        print('call %s():' % func.__name__)
        return func(*args, **kw)
    return wrapper

观察上面的log，因为它是一个decorator，所以接受一个函数作为参数，并返回一个函数。我们要借助Python的@语法，把decorator置于函数的定义处.

In [46]:
@log
def now():
    print("2015-3-25")

调用now()函数，不仅会运行now()函数本身，还会在运行now()函数前打印一行日志.

In [47]:
now()

call now():
2015-3-25


把@log放到now()函数的定义处，相当于执行了语句.

In [49]:
now = log(now)
now

<function __main__.log.<locals>.wrapper(*args, **kw)>

由于log()是一个decorator，返回一个函数，所以，原来的now()函数仍然存在，只是现在同名的now变量指向了新的函数，于是调用now()将执行新函数，即在log()函数中返回的wrapper()函数.

wrapper()函数的参数定义是`(*args, **kw)`，因此，`wrapper()`函数可以接受任意参数的调用。在wrapper()函数内，首先打印日志，再紧接着调用原始函数。

如果decorator本身需要传入参数，那就需要编写一个返回decorator的高阶函数，写出来会更复杂。比如，要自定义log的文本：

In [50]:
def log(text):
    def decorator(func):
        def wrapper(*args, **kw):
            print('%s %s():' % (text, func.__name__))
            return func(*args, **kw)
        return wrapper
    return decorator

In [51]:
@log("execute")
def now():
    print("2015-3-25")

In [52]:
now()

execute now():
2015-3-25


### 偏函数
Python的functools模块提供了很多有用的功能，其中一个就是偏函数（Partial function）。要注意，这里的偏函数和数学意义上的偏函数不一样。

在介绍函数参数的时候，我们讲到，通过设定参数的默认值，可以降低函数调用的难度。而偏函数也可以做到这一点。

int()函数可以把字符串转换为整数，当仅传入字符串时，int()函数默认按十进制转换

In [53]:
int('12345')

12345

但int()函数还提供额外的base参数，默认值为10。如果传入base参数，就可以做N进制的转换：

In [54]:
int('12345', base = 8)

5349

In [55]:
int("12345", base = 16)

74565

假设要转换大量的二进制字符串，每次都传入int(x, base=2)非常麻烦，于是，我们想到，可以定义一个int2()的函数，默认把base=2传进去：

In [56]:
def int2(x ,base = 2):
    return int(x, base)

In [57]:
int2("1000000")

64

In [58]:
int2("101010101")

341

`functools.partial`就是帮助我们创建一个偏函数的，不需要我们自己定义`int2()`，可以直接使用下面的代码创建一个新的函数`int2`.

In [59]:
import functools

int2 = functools.partial(int, base = 2)
int2("1000000")

64

In [60]:
int2('1010101')

85

所以，简单总结`functools.partial`的作用就是，把一个函数的某些参数给固定住（也就是设置默认值），返回一个新的函数，调用这个新函数会更简单。

注意到上面的新的int2函数，仅仅是把base参数重新设定默认值为2，但也可以在函数调用时传入其他值：

In [61]:
int2("10000", base = 10)

10000

当函数的参数个数太多，需要简化时，使用functools.partial可以创建一个新的函数，这个新函数可以固定住原函数的部分参数，从而在调用时更简单。

# 模块
在计算机程序的开发过程中，随着程序代码越写越多，在一个文件里代码就会越来越长，越来越不容易维护。

为了编写可维护的代码，我们把很多函数分组，分别放到不同的文件里，这样，每个文件包含的代码就相对较少，很多编程语言都采用这种组织代码的方式。在Python中，一个.py文件就称之为一个模块（Module）。

使用模块有什么好处？

最大的好处是大大提高了代码的可维护性。其次，编写代码不必从零开始。当一个模块编写完毕，就可以被其他地方引用。我们在编写程序的时候，也经常引用其他模块，包括Python内置的模块和来自第三方的模块。

使用模块还可以避免函数名和变量名冲突。相同名字的函数和变量完全可以分别存在不同的模块中，因此，我们自己在编写模块时，不必考虑名字会与其他模块冲突。但是也要注意，尽量不要与内置函数名字冲突。

你也许还想到，如果不同的人编写的模块名相同怎么办？为了避免模块名冲突，Python又引入了按目录来组织模块的方法，称为包（Package）。

现在，假设我们的abc和xyz这两个模块名字与其他模块冲突了，于是我们可以通过包来组织模块，避免冲突。方法是选择一个顶层包名，比如mycompany，按照如下目录存放

引入了包以后，只要顶层的包名不与别人冲突，那所有模块都不会与别人冲突。现在，abc.py模块的名字就变成了mycompany.abc，类似的，xyz.py的模块名变成了mycompany.xyz。

请注意，每一个包目录下面都会有一个__init__.py的文件，这个文件是必须存在的，否则，Python就把这个目录当成普通目录，而不是一个包。__init__.py可以是空文件，也可以有Python代码，因为__init__.py本身就是一个模块，而它的模块名就是mycompany。

自己创建模块时要注意命名，不能和Python自带的模块名称冲突。例如，系统自带了sys模块，自己的模块就不可命名为sys.py，否则将无法导入系统自带的sys模块。

模块是一组Python代码的集合，可以使用其他模块，也可以被其他模块使用。

创建自己的模块时，要注意：

- 模块名要遵循Python变量命名规范，不要使用中文、特殊字符；
- 模块名不要和系统模块名冲突，最好先查看系统是否已存在该模块，检查方法是在Python交互环境执行import abc，若成功则说明系统存在此模块。

## 使用模块
Python本身就内置了很多非常有用的模块，只要安装完毕，这些模块就可以立刻使用。

我们以内建的sys模块为例，编写一个hello的模块：

In [63]:
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
'a test module'

__author__ = "Micheal Liao"

import sys
def tests():
    args = sys.argv
    if len(args) == 1:
        print('Hello world!')
    elif len(args) == 2:
        print("Hello, %s!" % args[1])
        
    else:
        print('Too many arguments!')
        
if __name__ == '__main__':
    tests()

Too many arguments!


### 作用域
在一个模块中，我们可能会定义很多函数和变量，但有的函数和变量我们希望给别人使用，有的函数和变量我们希望仅仅在模块内部使用。在Python中，是通过_前缀来实现的。

正常的函数和变量名是公开的（public），可以被直接引用，比如：abc，x123，PI等；

类似__xxx__这样的变量是特殊变量，可以被直接引用，但是有特殊用途，比如上面的__author__，__name__ 就是特殊变量，hello模块定义的文档注释也可以用特殊变量__doc__访问，我们自己的变量一般不要用这种变量名。

类似 _xxx 和 __xxx 这样的函数或变量就是非公开的（private），不应该被直接引用，比如_abc，__abc 等

之所以我们说，private函数和变量“不应该”被直接引用，而不是“不能”被直接引用，是因为Python并没有一种方法可以完全限制访问private函数或变量，但是，从编程习惯上不应该引用private函数或变量。

private函数或变量不应该被别人引用，那它们有什么用呢？

In [68]:
def _private_1(name):
    return 'hello, %s' % name

def _private_2(name):
    return 'Hi, %s' % name

def greeting(name):
    if len(name) > 3:
        return _private_1(name)
    else:
        return _private_2(name)

In [71]:
greeting(["yin", "chun", "you"])

"Hi, ['yin', 'chun', 'you']"

In [73]:
greeting("yin chunyou")

'hello, yin chunyou'

我们在模块里公开greeting()函数，而把内部逻辑用private函数隐藏起来了，这样，调用greeting()函数不用关心内部的private函数细节，这也是一种非常有用的代码封装和抽象的方法，即：

外部不需要引用的函数全部定义成private，只有外部需要引用的函数才定义为public。

## 安装第三方模块
在Python中，安装第三方模块，是通过包管理工具pip完成的。

默认情况下，Python解释器会搜索当前目录、所有已安装的内置模块和第三方模块，搜索路径存放在sys模块的path变量中

In [74]:
import sys

sys.path

['/home/yincy/git/Python3',
 '/home/yincy/miniconda3/envs/py3/lib/python38.zip',
 '/home/yincy/miniconda3/envs/py3/lib/python3.8',
 '/home/yincy/miniconda3/envs/py3/lib/python3.8/lib-dynload',
 '',
 '/home/yincy/miniconda3/envs/py3/lib/python3.8/site-packages',
 '/home/yincy/miniconda3/envs/py3/lib/python3.8/site-packages/IPython/extensions',
 '/home/yincy/.ipython']

如果我们要添加自己的搜索目录，有两种方法：

一是直接修改sys.path，添加要搜索的目录

这种方法是在运行时修改，运行结束后失效。

第二种方法是设置环境变量PYTHONPATH，该环境变量的内容会被自动添加到模块搜索路径中。设置方式与设置Path环境变量类似。注意只需要添加你自己的搜索路径，Python自己本身的搜索路径不受影响。

# 面向对象编程

面向对象编程——Object Oriented Programming，简称OOP，是一种程序设计思想。OOP把对象作为程序的基本单元，一个对象包含了数据和操作数据的函数。

面向过程的程序设计把计算机程序视为一系列的命令集合，即一组函数的顺序执行。为了简化程序设计，面向过程把函数继续切分为子函数，即把大块函数通过切割成小块函数来降低系统的复杂度。

而面向对象的程序设计把计算机程序视为一组对象的集合，而每个对象都可以接收其他对象发过来的消息，并处理这些消息，计算机程序的执行就是一系列消息在各个对象之间传递。

在Python中，所有数据类型都可以视为对象，当然也可以自定义对象。自定义的对象数据类型就是面向对象中的类（Class）的概念。

我们以一个例子来说明面向过程和面向对象在程序流程上的不同之处。

假设我们要处理学生的成绩表，为了表示一个学生的成绩，面向过程的程序可以用一个dict表示

In [75]:
std1 = {'name': 'Michael', 'score':90}
std2 = {'name': 'Bob', 'score':81}

In [76]:
def print_score(std):
    print('%s: %s' % (std['name'], std['score']))

如果采用面向对象的程序设计思想，我们首选思考的不是程序的执行流程，而是Student这种数据类型应该被视为一个对象，这个对象拥有name和score这两个属性（Property）。如果要打印一个学生的成绩，首先必须创建出这个学生对应的对象，然后，给对象发一个print_score消息，让对象自己把自己的数据打印出来。

In [77]:
class Student(object):
    def __init__(self, name, score):
        self.name = name
        self.score = score
        
    def print_score(self):
        print('%s: %s' % (self.name, self.score))

给对象发消息实际上就是调用对象对应的关联函数，我们称之为对象的方法（Method）。面向对象的程序写出来就像这样.

In [78]:
bart = Student('Bart Simpson', 59)
lisa = Student("Lisa Simpson", 87)

bart.print_score()
lisa.print_score()

Bart Simpson: 59
Lisa Simpson: 87


面向对象的设计思想是从自然界中来的，因为在自然界中，类（Class）和实例（Instance）的概念是很自然的。Class是一种抽象概念，比如我们定义的Class——Student，是指学生这个概念，而实例（Instance）则是一个个具体的Student，比如，Bart Simpson和Lisa Simpson是两个具体的Student。

所以，面向对象的设计思想是抽象出Class，根据Class创建Instance。

面向对象的抽象程度又比函数要高，因为一个Class既包含数据，又包含操作数据的方法。

## 类和实例

面向对象最重要的概念就是类（Class）和实例（Instance），必须牢记类是抽象的模板，比如Student类，而实例是根据类创建出来的一个个具体的“对象”，每个对象都拥有相同的方法，但各自的数据可能不同。

仍以Student类为例，在Python中，定义类是通过class关键字：

In [79]:
class Student(object):
    pass

class后面紧接着是类名，即Student，类名通常是大写开头的单词，紧接着是(object)，表示该类是从哪个类继承下来的，继承的概念我们后面再讲，通常，如果没有合适的继承类，就使用object类，这是所有类最终都会继承的类。

定义好了Student类，就可以根据Student类创建出Student的实例，创建实例是通过类名+()实现的:

In [80]:
bart = Student()
bart

<__main__.Student at 0x7f0d45990df0>

In [81]:
Student

__main__.Student

可以看到，变量bart指向的就是一个Student的实例，后面的0x10a67a590是内存地址，每个object的地址都不一样，而Student本身则是一个类。

可以自由地给一个实例变量绑定属性，比如，给实例bart绑定一个name属性：

In [82]:
bart.name = "Bart Simpson"
bart.name

'Bart Simpson'

由于类可以起到模板的作用，因此，可以在创建实例的时候，把一些我们认为必须绑定的属性强制填写进去。通过定义一个特殊的__init__方法，在创建实例的时候，就把name，score等属性绑上去.

In [83]:
class Student(object):
    
    def __init__(self, name, score):
        self.name = name
        self.score = score

注意到__init__方法的第一个参数永远是self，表示创建的实例本身，因此，在__init__方法内部，就可以把各种属性绑定到self，因为self就指向创建的实例本身。

有了__init__方法，在创建实例的时候，就不能传入空的参数了，必须传入与__init__方法匹配的参数，但self不需要传，Python解释器自己会把实例变量传进去

In [84]:
bart = Student(name = "Bart Simpson", score = 59)
bart.name

'Bart Simpson'

In [85]:
bart.score

59

和普通的函数相比，在类中定义的函数只有一点不同，就是第一个参数永远是实例变量self，并且，调用时，不用传递该参数。除此之外，类的方法和普通函数没有什么区别，所以，你仍然可以用默认参数、可变参数、关键字参数和命名关键字参数。

#### 数据封装
面向对象编程的一个重要特点就是数据封装。在上面的Student类中，每个实例就拥有各自的name和score这些数据。我们可以通过函数来访问这些数据，比如打印一个学生的成绩：

In [86]:
def print_score(std):
    print('%s: %s' % (std.name, std.score))
    
print_score(bart)

Bart Simpson: 59


但是，既然Student实例本身就拥有这些数据，要访问这些数据，就没有必要从外面的函数去访问，可以直接在Student类的内部定义访问数据的函数，这样，就把“数据”给封装起来了。这些封装数据的函数是和Student类本身是关联起来的，我们称之为类的方法.

In [100]:
class Student(object):
    def __init__(self, name, score):
        self.name = name
        self.score = score
        
    def print_score(self):
        print('%s: %s' % (self.name, self.score))

要定义一个方法，除了第一个参数是self外，其他和普通函数一样。要调用一个方法，只需要在实例变量上直接调用，除了self不用传递，其他参数正常传入.

In [101]:
bart = Student(name = "Bart Simpson", score = 90)

In [104]:
bart.print_score()

Bart Simpson: 90


这样一来，我们从外部看Student类，就只需要知道，创建实例需要给出name和score，而如何打印，都是在Student类的内部定义的，这些数据和逻辑被“封装”起来了，调用很容易，但却不用知道内部实现的细节。

封装的另一个好处是可以给Student类增加新的方法，比如get_grade：

In [105]:
class Student(object):
    
    def __init__(self, name, score):
        self.name = name
        self.score = score
        
    def print_score(self):
        print('%s: %s' % (self.name, self.score))
        
    def get_grade(self):
        if self.score >= 90:
            return "A"
        elif self.score >= 60:
            return 'B'
        else:
            return "C"

In [106]:
bart = Student(name = "Bart Simpson", score = 95)
bart.get_grade()

'A'

类是创建实例的模板，而实例则是一个一个具体的对象，各个实例拥有的数据都互相独立，互不影响；

方法就是与实例绑定的函数，和普通函数不同，方法可以直接访问实例的数据；

通过在实例上调用方法，我们就直接操作了对象内部的数据，但无需知道方法内部的实现细节。

和静态语言不同，Python允许对实例变量绑定任何数据，也就是说，对于两个实例变量，虽然它们都是同一个类的不同实例，但拥有的变量名称都可能不同：

## 访问权限
在Class内部，可以有属性和方法，而外部代码可以通过直接调用实例变量的方法来操作数据，这样，就隐藏了内部的复杂逻辑。

是，从前面Student类的定义来看，外部代码还是可以自由地修改一个实例的name、score属性：

In [107]:
bart = Student(name = "Bart Simpson", score = 20)
bart.score

20

In [108]:
bart.score = 40
bart.score

40

如果要让内部属性不被外部访问，可以把属性的名称前加上两个下划线__，在Python中，实例的变量名如果以__开头，就变成了一个私有变量（private），只有内部可以访问，外部不能访问，所以，我们把Student类改一改.

In [112]:
class Student(object):
    
    def __init__(self, name, score):
        self.__name = name
        self.__score = score
        
    def print_score(self):
        print('%s: %s' % (self.__name, self.__score)) 

改完后，对于外部代码来说，没什么变动，但是已经无法从外部访问实例变量.__name和实例变量.__score了.

In [116]:
bart = Student(name = "Bart Simpson", score = 30)
bart.__name

AttributeError: 'Student' object has no attribute '__name'

这样就确保了外部代码不能随意修改对象内部的状态，这样通过访问限制的保护，代码更加健壮。

但是如果外部代码要获取name和score怎么办？可以给Student类增加get_name和get_score这样的方法:

In [117]:
class Student(object):
    
    def __init__(self, name, score):
        self.__name = name
        self.__score = score
        
    def print_score(self):
        print('%s: %s' % (self.__name, self.__score))
        
    def get_name(self):
        return self.__name
    
    def get_score(self):
        return self.__score

In [119]:
bart = Student(name = "Bart Simpson", score = 45)
bart.get_name()

'Bart Simpson'

In [120]:
bart.get_score()

45

如果又要允许外部代码修改score怎么办？可以再给Student类增加set_score方法：

In [121]:
class Student(object):
    
    def __init__(self, name, score):
        self.__name = name
        self.__score = score
        
    def print_score(self):
        print('%s: %s' % (self.__name, self.__score))
        
    def get_name(self):
        return self.__name
    
    def get_score(self):
        return self.__score
    
    def set_score(self, score):
        if 0 <= score <= 100:
            self.__score = score
        else:
            raise ValueError('Bad score')

In [122]:
bart = Student(name = "Bart Simpson", score = 45)
bart.get_score()

45

In [123]:
bart.set_score(score = 90)
bart.get_score()

90

In [124]:
bart.set_score(score = 900)

ValueError: Bad score

需要注意的是，在Python中，变量名类似`__xxx__`的，也就是以双下划线开头，并且以双下划线结尾的，是特殊变量，特殊变量是可以直接访问的，不是private变量，所以，不能用`__name__`、`__score__` 这样的变量名。

有些时候，你会看到以一个下划线开头的实例变量名，比如_name，这样的实例变量外部是可以访问的，但是，按照约定俗成的规定，当你看到这样的变量时，意思就是，“虽然我可以被访问，但是，请把我视为私有变量，不要随意访问”。

双下划线开头的实例变量是不是一定不能从外部访问呢？其实也不是。不能直接访问__name是因为Python解释器对外把__name变量改成了_Student__name，所以，仍然可以通过_Student__name来访问__name变量.

In [125]:
bart._Student__name

'Bart Simpson'

In [147]:
class Student(object):
    def __init__(self, name, gender):
        self.name = name
        self.__gender = gender
        
    def get_gender(self):
        return self.__gender
    
    def set_gender(self, gender):
        if gender.upper() in ["MALE", "FEMALE"]:
            self.__gender = gender.capitalize()
        else:
            raise ValueError("wrong value.")

In [148]:
a = Student(name = "ali", gender = "male")
a.name

'ali'

In [149]:
a.set_gender("MALE")
a.get_gender()

'Male'

## 继承和多态
在OOP程序设计中，当我们定义一个class的时候，可以从某个现有的class继承，新的class称为子类（Subclass），而被继承的class称为基类、父类或超类（Base class、Super class）。

比如，我们已经编写了一个名为Animal的class，有一个run()方法可以直接打印。

In [150]:
class Animal(object):
    def run(self):
        print('Animal is running...')

In [151]:
# 当我们需要编写 `Dog` 和 `Cat`类时就可以直接从 `Animal`类继承。
class Dog(Animal):
    pass

class Cat(Animal):
    pass

继承有什么好处？最大的好处是子类获得了父类的全部功能。由于Animial实现了run()方法，因此，Dog和Cat作为它的子类，什么事也没干，就自动拥有了run()方法：

In [153]:
dog = Dog()
dog.run()

Animal is running...


In [154]:
cat = Cat()
cat.run()

Animal is running...


对子类增加一些方法

In [155]:
class Dog(Animal):
    def run(self):
        print("Dog is running...")
    def eat(self):
        print('Eating meat...')

继承的第二个好处需要我们对代码做一点改进。你看到了，无论是Dog还是Cat，它们run()的时候，显示的都是Animal is running...，符合逻辑的做法是分别显示Dog is running...和Cat is running...，因此，对Dog和Cat类改进如下：

In [156]:
class Dog(Animal):
    def run(self):
        print("Dog is running...")
        
class Cat(Animal):
    def run(self):
        print("Cat is running...")

In [157]:
dog = Dog()
cat = Cat()

In [158]:
dog.run()
cat.run()

Dog is running...
Cat is running...


当子类和父类都存在相同的run()方法时，我们说，子类的run()覆盖了父类的run()，在代码运行的时候，总是会调用子类的run()。这样，我们就获得了继承的另一个好处：多态。

要理解什么是多态，我们首先要对数据类型再作一点说明。当我们定义一个class的时候，我们实际上就定义了一种数据类型。我们定义的数据类型和Python自带的数据类型，比如str、list、dict没什么两样:

In [159]:
a = list() # a 是 list 类型
b = Animal() # b 是 Animal 类型
c = Dog() # c 是 Dog 类型

In [161]:
# 判断一个变量是否是某个类型可以用 `isinstance()` 判断

isinstance(a, list)

True

In [162]:
isinstance(b, Animal)

True

In [163]:
isinstance(c, Dog)

True

In [164]:
isinstance(c, Animal)

True

In [165]:
def run_twice(animal):
    animal.run()
    animal.run()

In [166]:
run_twice(Animal())

Animal is running...
Animal is running...


In [167]:
run_twice(Dog())

Dog is running...
Dog is running...


In [168]:
run_twice(Cat())

Cat is running...
Cat is running...


In [169]:
class Tortoise(Animal):
    def run(self):
        print("Tortoise is running slowly...")

In [170]:
run_twice(Tortoise())

Tortoise is running slowly...
Tortoise is running slowly...


你会发现，新增一个Animal的子类，不必对run_twice()做任何修改，实际上，任何依赖Animal作为参数的函数或者方法都可以不加修改地正常运行，原因就在于多态。

多态的好处就是，当我们需要传入Dog、Cat、Tortoise……时，我们只需要接收Animal类型就可以了，因为Dog、Cat、Tortoise……都是Animal类型，然后，按照Animal类型进行操作即可。由于Animal类型有run()方法，因此，传入的任意类型，只要是Animal类或者子类，就会自动调用实际类型的run()方法，这就是多态的意思：

对于一个变量，我们只需要知道它是Animal类型，无需确切地知道它的子类型，就可以放心地调用run()方法，而具体调用的run()方法是作用在Animal、Dog、Cat还是Tortoise对象上，由运行时该对象的确切类型决定，这就是多态真正的威力：调用方只管调用，不管细节，而当我们新增一种Animal的子类时，只要确保run()方法编写正确，不用管原来的代码是如何调用的。这就是著名的“开闭”原则：

对扩展开放：允许新增Animal子类；

对修改封闭：不需要修改依赖Animal类型的run_twice()等函数。

继承还可以一级一级地继承下来，就好比从爷爷到爸爸、再到儿子这样的关系。而任何类，最终都可以追溯到根类object，这些继承关系看上去就像一颗倒着的树。

#### 静态语言 vs 动态语言
对于静态语言（例如Java）来说，如果需要传入Animal类型，则传入的对象必须是Animal类型或者它的子类，否则，将无法调用run()方法。

对于Python这样的动态语言来说，则不一定需要传入Animal类型。我们只需要保证传入的对象有一个run()方法就可以了：

In [171]:
class Timer(object):
    def run(self):
        print("Start...")

In [172]:
run_twice(Timer())

Start...
Start...


这就是动态语言的“鸭子类型”，它并不要求严格的继承体系，一个对象只要“看起来像鸭子，走起路来像鸭子”，那它就可以被看做是鸭子。

Python的“file-like object“就是一种鸭子类型。对真正的文件对象，它有一个read()方法，返回其内容。但是，许多对象，只要有read()方法，都被视为“file-like object“。许多函数接收的参数就是“file-like object“，你不一定要传入真正的文件对象，完全可以传入任何实现了read()方法的对象。

继承可以把父类的所有功能都直接拿过来，这样就不必重零做起，子类只需要新增自己特有的方法，也可以把父类不适合的方法覆盖重写。

动态语言的鸭子类型特点决定了继承不像静态语言那样是必须的。

## 获取对象信息

当我们拿到一个对象的引用时，如何知道这个对象是什么类型、有哪些方法呢？

### 使用 type()
首先，我们来判断对象类型，使用 `type()`函数

基本类型都可以用 `type()` 判断。

In [173]:
type(123)

int

In [174]:
# 如果一个变量指向函数或者类，也可以用 `type()` 判断。

type(abs)

builtin_function_or_method

In [175]:
# type() 返回对应的 Class 类型。
type(123) == type(456)

True

In [176]:
type(123) == int

True

In [177]:
type("123") == type('abc')

True

In [178]:
type("abc") == str

True

In [179]:
type(123) == type('123')

False

判断基本数据类型可以直接写int，str等，但如果要判断一个对象是否是函数怎么办？可以使用types模块中定义的常量.

In [180]:
import types

def fn():
    pass

type(fn) == types.FunctionType

True

In [181]:
type(abs) == types.BuiltinFunctionType

True

In [182]:
type(lambda x: x) == types.LambdaType

True

In [183]:
type((x for x in range(10))) == types.GeneratorType

True

### 使用 isinstance()

对于 class 的继承关系来说，使用 `type()`就不是很方便。要判断 class 的类型，可以使用 `isinstance()`函数。

并且还可以判断一个变量是否是某些类型中的一种，比如下面的代码就可以判断是否是list或者tuple

In [184]:
isinstance([1, 2, 3], (list, tuple))

True

In [185]:
isinstance((1, 2, 3), (list, tuple))

True

 总是优先使用isinstance()判断类型，可以将指定类型及其子类“一网打尽”。

### 使用 dir()
如果要获得一个对象的所有属性和方法，可以使用dir()函数，它返回一个包含字符串的list，比如，获得一个str对象的所有属性和方法

In [186]:
dir("ABC")

['__add__',
 '__class__',
 '__contains__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__getnewargs__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__mod__',
 '__mul__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__rmod__',
 '__rmul__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 'capitalize',
 'casefold',
 'center',
 'count',
 'encode',
 'endswith',
 'expandtabs',
 'find',
 'format',
 'format_map',
 'index',
 'isalnum',
 'isalpha',
 'isascii',
 'isdecimal',
 'isdigit',
 'isidentifier',
 'islower',
 'isnumeric',
 'isprintable',
 'isspace',
 'istitle',
 'isupper',
 'join',
 'ljust',
 'lower',
 'lstrip',
 'maketrans',
 'partition',
 'replace',
 'rfind',
 'rindex',
 'rjust',
 'rpartition',
 'rsplit',
 'rstrip',
 'split',
 'splitlines',
 'startswith',
 'strip',
 'swapcase',
 'title',
 'translate',
 'upper',


In [187]:
"ABC".__len__()

3

In [188]:
len("ABC")

3

我们自己写的类，如果也想用len(myObj)的话，就自己写一个__len__()方法：

In [190]:
class MyDog(object):
    def __len__(self):
        return 100
    
dog = MyDog()
len(dog)

100

仅仅把属性和方法列出来是不够的，配合`getattr()`、`setattr()`以及`hasattr()`，我们可以直接操作一个对象的状态.

In [192]:
class MyObject(object):
    def __init__(self):
        self.x = 9
    def power(self):
        return self.x * self.x
    
obj = MyObject()

In [193]:
hasattr(obj, "x")

True

In [194]:
hasattr(obj, "y")

False

In [197]:
setattr(obj, "y", 19)

In [198]:
hasattr(obj, "y")

True

In [200]:
getattr(obj, "y")

19

In [201]:
obj.y

19

In [204]:
# 可以传入一个default参数，如果属性不存在，就返回默认值
getattr(obj, "z", 404)

404

In [205]:
# 也可以获得对象的方法
hasattr(obj, "power")

True

In [206]:
getattr(obj, "power")

<bound method MyObject.power of <__main__.MyObject object at 0x7f0d453d5d90>>

In [207]:
fn = getattr(obj, "power")
fn

<bound method MyObject.power of <__main__.MyObject object at 0x7f0d453d5d90>>

In [208]:
fn()

81

通过内置的一系列函数，我们可以对任意一个Python对象进行剖析，拿到其内部的数据。要注意的是，只有在不知道对象信息的时候，我们才会去获取对象信息。

假设我们希望从文件流fp中读取图像，我们首先要判断该fp对象是否存在read方法，如果存在，则该对象是一个流，如果不存在，则无法读取。hasattr()就派上了用场。

请注意，在Python这类动态语言中，根据鸭子类型，有read()方法，不代表该fp对象就是一个文件流，它也可能是网络流，也可能是内存中的一个字节流，但只要read()方法返回的是有效的图像数据，就不影响读取图像的功能。

## 实例属性和类属性
由于Python是动态语言，根据类创建的实例可以任意绑定属性。

给实例绑定属性的方法是通过实例变量，或者通过self变量。

In [209]:
class Student(object):
    def __init__(self, name):
        self.name = name
        
s = Student("Bob")
s.score = 90

但是，如果Student类本身需要绑定一个属性呢？可以直接在class中定义属性，这种属性是类属性，归Student类所有.

In [210]:
class Student(object):
    name = 'Student'

In [213]:
# 当我们定义了一个类属性后，这个属性虽然归类所有，但类的所有实例都可以访问到。
class Student(obejct):
    name = "Student"
    
s = Student()
print(s.name)

NameError: name 'obejct' is not defined

In [214]:
print(Student.name)

Student


In [215]:
s.name = "Michael"
print(s.name)

Michael


In [216]:
del s.name # 删除实例的 name属性

In [217]:
print(s.name)

AttributeError: 'Student' object has no attribute 'name'

从上面的例子可以看出，在编写程序的时候，千万不要对实例属性和类属性使用相同的名字，因为相同名称的实例属性将屏蔽掉类属性，但是当你删除实例属性后，再使用相同的名称，访问到的将是类属性。


实例属性属于各个实例所有，互不干扰；

类属性属于类所有，所有实例共享一个属性；

不要对实例属性和类属性使用相同的名字，否则将产生难以发现的错误

# 面向对象高级编程
## 使用 __slots__
正常情况下，当我们定义了一个class，创建了一个class的实例后，我们可以给该实例绑定任何属性和方法，这就是动态语言的灵活性。

In [218]:
class Student(object):
    pass

In [219]:
# 给实例绑定一个属性
s = Student()
s.name = "Michael"
print(s.name)

Michael


In [220]:
# 给实例绑定一个方法
def set_age(self, age):
    self.age = age
    
from types import MethodType
s.set_age = MethodType(set_age, s) # 给实例绑定方法
s.set_age(25) # 调用实例方法
s.age

25

但是，对一个实例绑定的方法对另外一个实例是不起作用的/

In [221]:
s2 = Student()
s2.set_age(23)

AttributeError: 'Student' object has no attribute 'set_age'

为了给所有实例绑定方法，可以给 class 绑定方法

In [223]:
def set_score(self, score):
    self.score = score
    
Student.set_score = set_score # 给 class 绑定方法

In [224]:
s = Student()
s.set_score(100)
s.score

100

In [226]:
s2 = Student()
s2.set_score(99)
s2.score

99

通常情况下，上面的set_score方法可以直接定义在class中，但动态绑定允许我们在程序运行的过程中动态给class加上功能，这在静态语言中很难实现。


### 使用 __slots__
但是，如果我们想要限制实例的属性怎么办？比如，只允许对Student实例添加name和age属性。

为了达到限制的目的，Python允许在定义class的时候，定义一个特殊的__slots__变量，来限制该class实例能添加的属性：

In [227]:
class Student(object):
    __slots__ = ('name', 'age') # 用 tuple 定义允许绑定的属性名称

In [228]:
s = Student()
s.name = "Michael"
s.age = 26
s.score = 99

AttributeError: 'Student' object has no attribute 'score'

由于'score'没有被放到__slots__中，所以不能绑定score属性，试图绑定score将得到AttributeError的错误。

使用`__slots__` 要注意， `__slots__`定义的属性仅对当前类起作用，对继承的子类不起作用。

In [229]:
class GraduateStudent(Student):
    pass

g = GraduateStudent()
g.score = 999

除非在子类中也定义`__slots__`，这样，子类实例允许定义的属性就是自身的`__slots__`加上父类的`__slots__`。

## 使用 @property
在绑定属性时，如果我们直接把属性暴露出去，虽然写起来很简单，但是，没办法检查参数，导致可以把成绩随便改.

这显然不合逻辑。为了限制score的范围，可以通过一个set_score()方法来设置成绩，再通过一个get_score()来获取成绩，这样，在set_score()方法里，就可以检查参数：

In [231]:
class Student(object):
    def get_score(self):
        return self.__score
    
    def set_score(self, value):
        if not isinstance(value, int):
            raise ValueError('score must be an integer!')
        if value < 0 or value > 100:
            raise ValueError('score must between 0 ~ 100!')
        self.__score = value

现在，对任意的Student实例进行操作，就不能随心所欲地设置score了

In [232]:
s = Student()
s.set_score(60)

In [233]:
s.get_score()

60

In [234]:
s.set_score(999)

ValueError: score must between 0 ~ 100!

但是，上面的调用方法又略显复杂，没有直接用属性这么直接简单。

有没有既能检查参数，又可以用类似属性这样简单的方式来访问类的变量呢？对于追求完美的Python程序员来说，这是必须要做到的！

还记得装饰器（decorator）可以给函数动态加上功能吗？对于类的方法，装饰器一样起作用。Python内置的@property装饰器就是负责把一个方法变成属性调用的:

In [235]:
class Student(object):
    @property
    def score(self):
        return self.__score
    @score.setter
    def score(self, value):
        if not isinstance(value, int):
            raise ValueError('score must be an integer!')
        if value < 0 or value > 100:
            raise ValueError("score must between 0 ~ 100!")
        self.__score  = value

@property的实现比较复杂，我们先考察如何使用。把一个getter方法变成属性，只需要加上@property就可以了，此时，@property本身又创建了另一个装饰器@score.setter，负责把一个setter方法变成属性赋值，于是，我们就拥有一个可控的属性操作.

In [237]:
s = Student()
s.score = 60
s.score

60

In [238]:
s.score = 999

ValueError: score must between 0 ~ 100!

注意到这个神奇的@property，我们在对实例属性操作的时候，就知道该属性很可能不是直接暴露的，而是通过getter和setter方法来实现的。

还可以定义只读属性，只定义getter方法，不定义setter方法就是一个只读属性.

In [239]:
class Student(object):
    @property
    def birth(self):
        return self._birth
    
    @birth.setter
    def birth(self, value):
        self._birth = value
        
    @property
    def age(self):
        return 2015 - self._birth

上面的birth是可读写属性，而age就是一个只读属性，因为age可以根据birth和当前时间计算出来。

@property广泛应用在类的定义中，可以让调用者写出简短的代码，同时保证对参数进行必要的检查，这样，程序运行时就减少了出错的可能性。

## 多重继承

继承是面向对象编程的一个重要的方式，因为通过继承，子类就可以扩展父类的功能。

通过多重继承，一个子类就可以同时获得多个父类的所有功能。

In [2]:
class Animal(object):
    pass

class Mammal(Animal):
    pass

class Bird(Animal):
    pass

class Dog(Mammal):
    pass

class Bat(Mammal):
    pass

class Parrot(Bird):
    pass

class Ostrich(Bird):
    pass

In [3]:
class Runnable(object):
    def run(self):
        print("Running...")
        
class Flyable(object):
    def fly(self):
        print("Flying...")

In [4]:
class Dog(Mammal, Runnable):
    pass

In [5]:
class Bat(Mammal, Flyable):
    pass

在设计类的继承关系时，通常，主线都是单一继承下来的，例如，Ostrich继承自Bird。但是，如果需要“混入”额外的功能，通过多重继承就可以实现，比如，让Ostrich除了继承自Bird外，再同时继承Runnable。这种设计通常称之为MixIn。

为了更好地看出继承关系，我们把Runnable和Flyable改为RunnableMixIn和FlyableMixIn。类似的，你还可以定义出肉食动物CarnivorousMixIn和植食动物HerbivoresMixIn，让某个动物同时拥有好几个MixIn

MixIn的目的就是给一个类增加多个功能，这样，在设计类的时候，我们优先考虑通过多重继承来组合多个MixIn的功能，而不是设计多层次的复杂的继承关系。

Python自带的很多库也使用了MixIn。举个例子，Python自带了TCPServer和UDPServer这两类网络服务，而要同时服务多个用户就必须使用多进程或多线程模型，这两种模型由ForkingMixIn和ThreadingMixIn提供。通过组合，我们就可以创造出合适的服务来。

由于Python允许使用多重继承，因此，MixIn就是一种常见的设计。

只允许单一继承的语言（如Java）不能使用MixIn的设计。

## 定制类
看到类似__slots__这种形如__xxx__的变量或者函数名就要注意，这些在Python中是有特殊用途的。

`__slots__`我们已经知道怎么用了，`__len__()`方法我们也知道是为了能让class作用于len()函数。

除此之外，Python的class中还有许多这样有特殊用途的函数，可以帮助我们定制类。

### `__str__`

In [6]:
class Student(object):
    def __init__(self, name):
        self.name = name
        
print(Student('Michael'))

<__main__.Student object at 0x7fe758648370>


In [7]:
class Student(object):
    def __init__(self, name):
        self.name = name
        
    def __str__(self):
        return 'Student object (name: %s)' % self.name
    
print(Student("Micheal"))

Student object (name: Micheal)


In [8]:
Student('Michael')

<__main__.Student at 0x7fe7586489a0>

这是因为直接显示变量调用的不是`__str__()`，而是`__repr__()`，两者的区别是`__str__()`返回用户看到的字符串，而`__repr__()`返回程序开发者看到的字符串，也就是说，`__repr__()`是为调试服务的。

解决办法是再定义一个`__repr__()`。但是通常`__str__()`和`__repr__()`代码都是一样的，所以，有个偷懒的写法：

In [9]:
class Student(object):
    def __init__(self, name):
        self.name = name
        
    def __str__(self):
        return "Student object (name=%s)" % self.name
    __repr__ = __str__

In [10]:
Student("Bob")

Student object (name=Bob)

### `__iter__`

如果一个类想被用于for ... in循环，类似list或tuple那样，就必须实现一个__iter__()方法，该方法返回一个迭代对象，然后，Python的for循环就会不断调用该迭代对象的__next__()方法拿到循环的下一个值，直到遇到StopIteration错误时退出循环。

我们以斐波那契数列为例，写一个Fib类，可以作用于for循环:

In [4]:
class Fib(object):
    def __init__(self):
        self.a, self.b = 0, 1 # 初始化两个计数器 a, b
        
    def __iter__(self):
        return self # 实例本身就是迭代对象，故返回自己
    
    def __next__(self):
        self.a, self.b = self.b, self.a + self.b # 计算下一个值
        if self.a > 1000000:  # 退出循环条件
            raise StopIteration()
            
        return self.a # 返回下一个值

In [5]:
for n in Fib():
    print(n)

1
1
2
3
5
8
13
21
34
55
89
144
233
377
610
987
1597
2584
4181
6765
10946
17711
28657
46368
75025
121393
196418
317811
514229
832040


### `__getitem__`

Fib实例虽然能作用于for循环，看起来和list有点像，但是，把它当成list来使用还是不行，比如，取第5个元素:

In [6]:
Fib()[5]

TypeError: 'Fib' object is not subscriptable

要表现得像list那样按照下标取出元素，需要实现`__getitem__()`方法.

In [7]:
class Fib(object):
    def __getitem__(self, n):
        a, b = 1, 1
        for x in range(n):
            a, b = b, a + b
            
        return a

In [8]:
# 现在就可以访问数列的任意一项了
f = Fib()

f[0]

1

In [9]:
f[1]

1

In [10]:
f[2]

2

In [11]:
f[3]

3

In [12]:
f[4]

5

In [13]:
f[100]

573147844013817084101

In [14]:
class Fib(object):
    def __getitem__(self, n):
        if isinstance(n, int):
            a, b = 1, 1
            for x in range(n):
                a, b = b, a + b
            return a
        
        if isinstance(n, slice):
            start = n.start
            stop = n.stop
            if start is None:
                start = 0
            a, b = 1, 1
            L = []
            for x in range(stop):
                if x >= start:
                    L.append(a)
                a, b = b, a + b
            return L

In [15]:
f = Fib()
f[0:5]

[1, 1, 2, 3, 5]

In [16]:
f[:10]

[1, 1, 2, 3, 5, 8, 13, 21, 34, 55]

### `__getattr__`
正常情况下，当我们调用类的方法或属性时，如果不存在，就会报错。比如定义Student类.

In [17]:
class Student(object):
    def __init__(self):
        self.name = "micheal"

In [18]:
s = Student()
print(s.name)

micheal


print(s.score)

要避免这个错误，除了可以加上一个score属性外，Python还有另一个机制，那就是写一个__getattr__()方法，动态返回一个属性。

In [20]:
class Student(object):
    def __init__(self):
        self.name = "Micheal"
        
    def __getattr__(self, attr):
        if attr == "score":
            return 99

当调用不存在的属性时，比如score，Python解释器会试图调用__getattr__(self, 'score')来尝试获得属性，这样，我们就有机会返回score的值。

In [21]:
s = Student()
s.name

'Micheal'

In [22]:
s.score

99

注意，只有在没有找到属性的情况下，才调用__getattr__，已有的属性，比如name，不会在__getattr__中查找。

此外，注意到任意调用如s.abc都会返回None，这是因为我们定义的__getattr__默认返回就是None。要让class只响应特定的几个属性，我们就要按照约定，抛出AttributeError的错误.

In [28]:
class Student(object):
    def __getattr__(self, attr):
        if attr == "age":
            return lambda: 25
        raise AttributeError("'Student\' object has no attribute '%s'" % attr)

In [27]:
s = Student()
s.score

AttributeError: 'Student' object has no attribute 'score'

这实际上可以把一个类的所有属性和方法调用全部动态化处理了，不需要任何特殊手段。

这种完全动态调用的特性有什么实际作用呢？作用就是，可以针对完全动态的情况作调用。

### `__call__`
一个对象实例可以有自己的属性和方法，当我们调用实例方法时，我们用instance.method()来调用。能不能直接在实例本身上调用呢？在Python中，答案是肯定的。

任何类，只需要定义一个__call__()方法，就可以直接对实例进行调用。

In [29]:
class Student(object):
    def __init__(self, name):
        self.name = name
        
    def __call__(self):
        print("My name is %s." % self.name)

In [31]:
s = Student("Micheal")
s()# self 参数不需要传入

My name is Micheal.


`__call__()`还可以定义参数。对实例进行直接调用就好比对一个函数进行调用一样，所以你完全可以把对象看成函数，把函数看成对象，因为这两者之间本来就没啥根本的区别。

如果你把对象看成函数，那么函数本身其实也可以在运行期动态创建出来，因为类的实例都是运行期创建出来的，这么一来，我们就模糊了对象和函数的界限。

那么，怎么判断一个变量是对象还是函数呢？其实，更多的时候，我们需要判断一个对象是否能被调用，能被调用的对象就是一个`Callable`对象，比如函数和我们上面定义的带有`__call__()`的类实例：

In [32]:
callable(Student())

TypeError: __init__() missing 1 required positional argument: 'name'

In [33]:
callable(max)

True

## 使用枚举类
当我们需要定义常量时，一个办法是用大写变量通过整数来定义。

In [34]:
JAN = 1
FEB = 2
MAR = 3

好处是简单，缺点是类型是int，并且仍然是变量。

更好的方法是为这样的枚举类型定义一个class类型，然后，每个常量都是class的一个唯一实例。Python提供了Enum类来实现这个功能：

In [35]:
from enum import Enum

Month = Enum('Month', ("Jan", "Feb", "Mar", "Apr", "May", "Jun", "Jul", "Aug", "Sep", "Oct", "Nov", "Dec"))

这样我们就获得了`Month`类型的枚举类，可以直接使用`Month.Jan`来引用一个常量，或者枚举它的所有成员。

In [37]:
for name, member in Month.__members__.items():
    print(name, '=>', member, ',', member.value)

Jan => Month.Jan , 1
Feb => Month.Feb , 2
Mar => Month.Mar , 3
Apr => Month.Apr , 4
May => Month.May , 5
Jun => Month.Jun , 6
Jul => Month.Jul , 7
Aug => Month.Aug , 8
Sep => Month.Sep , 9
Oct => Month.Oct , 10
Nov => Month.Nov , 11
Dec => Month.Dec , 12


value属性则是自动赋给成员的int常量，默认从1开始计数。

如果需要更精确地控制枚举类型，可以从Enum派生出自定义类:

In [38]:
from enum import Enum, unique

@unique
class Weekday(Enum):
    Sun = 0
    Mon = 1
    Tue = 2
    Wed = 3
    Thu = 4
    Fri = 5
    Sat = 6

`@unique`装饰器可以帮助我们检查保证没有重复值。

访问这些枚举类有若干中办法。

In [39]:
day1 = Weekday.Mon
print(day1)

Weekday.Mon


In [40]:
print(Weekday.Tue)

Weekday.Tue


In [41]:
print(Weekday['Tue'])

Weekday.Tue


In [42]:
print(Weekday.Tue.value)

2


In [43]:
print(Weekday(1))

Weekday.Mon


In [44]:
Weekday(7)

ValueError: 7 is not a valid Weekday

In [46]:
for name, member in Weekday.__members__.items():
    print(name, '=>', member)

Sun => Weekday.Sun
Mon => Weekday.Mon
Tue => Weekday.Tue
Wed => Weekday.Wed
Thu => Weekday.Thu
Fri => Weekday.Fri
Sat => Weekday.Sat


## 使用元类
### type()
动态语言和静态语言最大的不同，就是函数和类的定义，不是编译时定义的，而是运行时动态创建的。

比方说我们要定义一个`Hello`的`class`，就写一个`hello.py`模块:

In [47]:
class Hello(object):
    def hello(self, name = 'world'):
        print('Hello, %s.' % name)

# 错误、调试和测试

# IO编程

# 进程和线程

# 正则表达式
正则表达式是一种用来匹配字符串的强有力的武器。它的设计思想是用一种描述性的语言来给字符串定义一个规则，凡是符合规则的字符串，我们就认为它“匹配”了，否则，该字符串就是不合法的。

因为正则表达式也是用字符串表示的，所以，我们要首先了解如何用字符来描述字符。

在正则表达式中，如果直接给出字符，就是精确匹配。用\d可以匹配一个数字，\w可以匹配一个字母或数字，所以：

- `'00\d'`可以匹配 `'007'`,但无法匹配 `'00A'`  
- `'\d\d\d'` 可以匹配 `'010'`  
- `'\w\w\d'`可以匹配 `'py3'`  
- `.` 可以匹配任意字符  
- `*` 匹配任意个字符，包括0个  
- `+` 匹配至少一个字符  
- `?`匹配0个或1个字符  
- `{n}` 匹配 n 个字符  
- `{n,m}`表示匹配 n - m 个字符
- `^` 表示开头 
- `$` 表示结尾 
- `|` 或
- `[]` 范围

## re 模块
有了准备知识，我们就可以在Python中使用正则表达式了。Python提供re模块，包含所有正则表达式的功能。由于Python的字符串本身也用\转义，所以要特别注意

In [48]:
s = 'ABC\\-001'

In [49]:
s = r'ABC\-001'

In [50]:
import re

In [56]:
re.match(r'^\d{3}-\d{3,8}$', '010-12345')

<re.Match object; span=(0, 9), match='010-12345'>

In [59]:
re.match(r'^\d{3}[- ]?\d{3,8}$', '010 12345')

<re.Match object; span=(0, 9), match='010 12345'>

### 切分字符串
用正则表达式切分字符串比用固定的字符更灵活，请看正常的切分代码

In [61]:
'a  b c  '.split(' ')
# 无法识别连续的空格

['a', '', 'b', 'c', '', '']

In [72]:
re.split(r'\s+', 'a  b   c')

['a', 'b', 'c']

In [74]:
re.split(r'[\s\,]+', 'a,b, c  d')

['a', 'b', 'c', 'd']

In [75]:
re.split(r'[\s\,\;]+', 'a,b;; c  d')

['a', 'b', 'c', 'd']

## 分组
除了简单地判断是否匹配之外，正则表达式还有提取子串的强大功能。用()表示的就是要提取的分组（Group）。

`^(\d{3})-(\d{3,8})$`分别定义了两个组，可以直接从匹配的字符串中提取出区号和本地号码

In [76]:
m = re.match(r'^(\d{3})-(\d{3,8})$', '010-12345')
m

<re.Match object; span=(0, 9), match='010-12345'>

In [77]:
m.groups()

('010', '12345')

In [78]:
m.group(0)

'010-12345'

In [79]:
m.group(1)

'010'

In [80]:
m.group(2)

'12345'

如果正则表达式中定义了组，就可以在Match对象上用`group()`方法提取出子串来。

注意到`group(0)`永远是原始字符串，`group(1)`、`group(2)`……表示第1、2、……个子串。

### 贪婪匹配
最后需要特别指出的是，正则匹配默认是贪婪匹配，也就是匹配尽可能多的字符。举例如下，匹配出数字后面的0。

In [85]:
re.match(r'^(\d+)(0*)$', '102300').groups()

('102300', '')

由于\d+采用贪婪匹配，直接把后面的0全部匹配了，结果0*只能匹配空字符串了。

必须让\d+采用非贪婪匹配（也就是尽可能少匹配），才能把后面的0匹配出来，加个?就可以让\d+采用非贪婪匹配.

In [86]:
re.match(r'^(\d+?)(0*)$', '102300').groups()

('1023', '00')

### 编译
当我们在Python中使用正则表达式时，re模块内部会干两件事情：

1. 编译正则表达式，如果正则表达式的字符串本身不合法，会报错；
2. 用编译后的正则表达式去匹配字符串。

如果一个正则表达式要重复使用几千次，出于效率的考虑，我们可以预编译该正则表达式，接下来重复使用时就不需要编译这个步骤了，直接匹配

In [87]:
import re

re_telephone = re.compile(r'^(\d{3})-(\d{3,8})$')

In [88]:
re_telephone.match("010-12345").groups()

('010', '12345')

In [89]:
re_telephone.match("010-8886").groups()

('010', '8886')

编译后生成Regular Expression对象，由于该对象自己包含了正则表达式，所以调用对应的方法时不用给出正则字符串。

# 常用内建模块
- datetime
- collections
- base64
- struct
- hashlib
- hmac
- itertools
- contextlib
- urllib
- XML
- HTMLParser

In [1]:
import datetime as dt

In [2]:
dir(dt)

['MAXYEAR',
 'MINYEAR',
 '__builtins__',
 '__cached__',
 '__doc__',
 '__file__',
 '__loader__',
 '__name__',
 '__package__',
 '__spec__',
 'date',
 'datetime',
 'datetime_CAPI',
 'sys',
 'time',
 'timedelta',
 'timezone',
 'tzinfo']

In [7]:
print(dt.date(2020, 10, 10))

2020-10-10


In [8]:
print(dt.datetime(2015, 4, 19, 12, 20))

2015-04-19 12:20:00


In [9]:
dt.datetime_CAPI?

In [10]:
dt.sys?

In [12]:
print(dt.time(20,30, 20, 10))

20:30:20.000010


### 获取当前日期和时间

In [13]:
from datetime import datetime

In [14]:
now = datetime.now()
print(now)

2020-10-08 09:08:16.723712


In [15]:
print(type(now))

<class 'datetime.datetime'>


### 获取指定日期和时间

In [16]:
from datetime import datetime

dt = datetime(2015, 4, 19, 12, 20)
print(dt)

2015-04-19 12:20:00


#### datetime 转换为 timestamp

在计算机中，时间实际上是用数字表示的。我们把1970年1月1日 00:00:00 UTC+00:00时区的时刻称为epoch time，记为0（1970年以前的时间timestamp为负数），当前时间就是相对于epoch time的秒数，称为timestamp。

timestamp = 0 = 1970-1-1 00:00:00 UTC+0:00

对应的北京时间是

timestamp = 0 = 1970-1-1 08:00:00 UTC+8:00

可见timestamp的值与时区毫无关系，因为timestamp一旦确定，其UTC时间就确定了，转换到任意时区的时间也是完全确定的，这就是为什么计算机存储的当前时间是以timestamp表示的，因为全球各地的计算机在任意时刻的timestamp都是完全相同的（假定时间已校准）。

把一个datetime类型转换为timestamp只需要简单调用timestamp()方法.

In [18]:
from datetime import datetime

dt = datetime(2015,4, 19, 12, 20)
dt.timestamp() # 把 datetime 转换成 timestamp

1429417200.0

注意Python的timestamp是一个浮点数，整数位表示秒。

某些编程语言（如Java和JavaScript）的timestamp使用整数表示毫秒数，这种情况下只需要把timestamp除以1000就得到Python的浮点表示方法。

#### timestamp 转换为 datetime

要把timestamp转换为datetime，使用datetime提供的fromtimestamp()方法.

In [20]:
from datetime import datetime

t = 1429417200.0
print(datetime.fromtimestamp(t)) # 本地时间
print(datetime.utcfromtimestamp(t)) # UTC时间

2015-04-19 12:20:00
2015-04-19 04:20:00


注意到timestamp是一个浮点数，它没有时区的概念，而datetime是有时区的。上述转换是在timestamp和本地时间做转换。

本地时间是指当前操作系统设定的时区。

### str 转化为 datetime

In [24]:
from datetime import datetime
cday = datetime.strptime('2015-6-1 18:19:59', "%Y-%m-%d %H:%M:%S")
print(cday)

2015-06-01 18:19:59


#### datetime 转化为 str
如果已经有了datetime对象，要把它格式化为字符串显示给用户，就需要转换为str，转换方法是通过strftime()实现的，同样需要一个日期和时间的格式化字符串.

In [27]:
from datetime import datetime

now = datetime.now()
now.strftime("%a, %b, %d %H:%M")

'Thu, Oct, 08 09:31'

#### datetime 加减
对日期和时间进行加减实际上就是把datetime往后或往前计算，得到新的datetime。加减可以直接用+和-运算符，不过需要导入timedelta这个类。

In [29]:
from datetime import datetime, timedelta

In [30]:
now = datetime.now()
now

datetime.datetime(2020, 10, 8, 9, 35, 8, 508445)

In [32]:
now + timedelta(hours = 10)

datetime.datetime(2020, 10, 8, 19, 35, 8, 508445)

In [33]:
now - timedelta(days = 1)

datetime.datetime(2020, 10, 7, 9, 35, 8, 508445)

In [35]:
now + timedelta(days = 2, hours = 12)

datetime.datetime(2020, 10, 10, 21, 35, 8, 508445)

#### 本地时间转换为 UTC 时间
本地时间是指系统设定时区的时间，例如北京时间是UTC+8:00时区的时间，而UTC时间指UTC+0:00时区的时间。

一个`datetime`类型有一个时区属性`tzinfo`，但是默认为`None`，所以无法区分这个`datetime`到底是哪个时区，除非强行给`datetime`设置一个时区。

In [36]:
from datetime import datetime, timedelta, timezone

In [37]:
tz_utc_8 = timezone(timedelta(hours = 8))

In [39]:
now = datetime.now()
now

datetime.datetime(2020, 10, 8, 9, 40, 1, 307753)

In [41]:
dt = now.replace(tzinfo = tz_utc_8)
dt

datetime.datetime(2020, 10, 8, 9, 40, 1, 307753, tzinfo=datetime.timezone(datetime.timedelta(seconds=28800)))

## collections
collections是Python内建的一个集合模块，提供了许多有用的集合类。

### namedtuple
我们知道tuple可以表示不变集合，例如，一个点的二维坐标就可以表示成

In [43]:
p = (1, 2)

但是，看到(1, 2)，很难看出这个tuple是用来表示一个坐标的。

定义一个class又小题大做了，这时，namedtuple就派上了用场.

In [53]:
from collections import namedtuple

Point = namedtuple('point', ['x', 'y'])
p = Point(1, 2)
p

point(x=1, y=2)

In [54]:
p.x

1

In [55]:
p.y

2

namedtuple是一个函数，它用来创建一个自定义的tuple对象，并且规定了tuple元素的个数，并可以用属性而不是索引来引用tuple的某个元素。

这样一来，我们用namedtuple可以很方便地定义一种数据类型，它具备tuple的不变性，又可以根据属性来引用，使用十分方便。

可以验证创建的Point对象是tuple的一种子类.

In [57]:
isinstance(p, Point)

True

In [58]:
isinstance(p, tuple)

True

In [59]:
Circle = namedtuple('Circle', ['x', 'y', 'r'])

#### deque

使用`list`存储数据时，按索引访问元素很快，但是插入和删除元素就很慢了，因为`list`是线性存储，数据量大的时候，插入和删除效率很低。

`deque`是为了高效实现插入和删除操作的双向列表，适合用于队列和栈.

In [60]:
from collections import deque

q = deque(['a', 'b', 'c'])
q.append('x')
q.appendleft('y')
q

deque(['y', 'a', 'b', 'c', 'x'])

`deque`除了实现`list`的`append()`和`pop()`外，还支持`appendleft()`和`popleft()`，这样就可以非常高效地往头部添加或删除元素。


#### defaultdict

使用`dict`时，如果引用的`Key`不存在，就会抛出`KeyError`。如果希望`key`不存在时，返回一个默认值，就可以用`defaultdict`.

In [62]:
from collections import defaultdict

dd = defaultdict(lambda: 'N/A')
dd['key1'] = 'abc'

In [63]:
dd['key1']

'abc'

In [64]:
dd['key2']

'N/A'

注意默认值是调用函数返回的，而函数在创建defaultdict对象时传入。

除了在Key不存在时返回默认值，defaultdict的其他行为跟dict是完全一样的。

#### OrderedDict
使用`dict`时，`Key`是无序的。在对`dict`做迭代时，我们无法确定`Key`的顺序。

如果要保持`Key`的顺序，可以用`OrderedDict`.

In [65]:
from collections import OrderedDict
d = dict([('a', 1), ('b', 2), ('c', 3)])
d

{'a': 1, 'b': 2, 'c': 3}

In [66]:
od = OrderedDict([('a', 1), ('b', 2), ('c', 3)])
od # orderedDict 的 key 是有序的

OrderedDict([('a', 1), ('b', 2), ('c', 3)])

注意，OrderedDict的Key会按照插入的顺序排列，不是Key本身排序。

OrderedDict可以实现一个FIFO（先进先出）的dict，当容量超出限制时，先删除最早添加的Key。

#### ChainMap
ChainMap可以把一组dict串起来并组成一个逻辑上的dict。ChainMap本身也是一个dict，但是查找的时候，会按照顺序在内部的dict依次查找。

什么时候使用ChainMap最合适？举个例子：应用程序往往都需要传入参数，参数可以通过命令行传入，可以通过环境变量传入，还可以有默认参数。我们可以用ChainMap实现参数的优先级查找，即先查命令行参数，如果没有传入，再查环境变量，如果没有，就使用默认参数。

#### Counter
`Counter` 是一个简单的计数器。

In [67]:
from collections import Counter

c = Counter()

for ch in 'programming':
    c[ch] = c[ch] + 1
    
c

Counter({'p': 1, 'r': 2, 'o': 1, 'g': 2, 'a': 1, 'm': 2, 'i': 1, 'n': 1})

In [68]:
c.update('hello')
c

Counter({'p': 1,
         'r': 2,
         'o': 2,
         'g': 2,
         'a': 1,
         'm': 2,
         'i': 1,
         'n': 1,
         'h': 1,
         'e': 1,
         'l': 2})

`Counter`实际上也是`dict`的一个子类，上面的结果可以看出每个字符出现的次数。

# 常用的第三方模块
- Pillow: iamge processing package
- requests: URL 资源处理
- chardet: 字符串编码检测
- psutil: 系统信息获取

## chardet
字符串编码一直是令人非常头疼的问题，尤其是我们在处理一些不规范的第三方网页的时候。虽然Python提供了Unicode表示的str和bytes两种数据类型，并且可以通过encode()和decode()方法转换，但是，在不知道编码的情况下，对bytes做decode()不好做。

对于未知编码的bytes，要把它转换成str，需要先“猜测”编码。猜测的方式是先收集各种编码的特征字符，根据特征字符判断，就能有很大概率“猜对”。

当然，我们肯定不能从头自己写这个检测编码的功能，这样做费时费力。chardet这个第三方库正好就派上了用场。用它来检测编码，简单易用。

In [117]:
import chardet

chardet.detect(b'Hello, world!')

{'encoding': 'ascii', 'confidence': 1.0, 'language': ''}

In [118]:
data = '距离上次已经10天了'.encode('gbk')
chardet.detect(data)

{'encoding': 'GB2312', 'confidence': 0.99, 'language': 'Chinese'}

In [120]:
data = '距离上次已经10天了'.encode('utf-8')
chardet.detect(data)

{'encoding': 'utf-8', 'confidence': 0.99, 'language': ''}

In [121]:
data = '最新の主要ニュース'.encode('euc-jp')
chardet.detect(data)

{'encoding': 'EUC-JP', 'confidence': 0.99, 'language': 'Japanese'}

## psutil
用Python来编写脚本简化日常的运维工作是Python的一个重要用途。在Linux下，有许多系统命令可以让我们时刻监控系统运行的状态，如ps，top，free等等。要获取这些系统信息，Python可以通过subprocess模块调用并获取结果。但这样做显得很麻烦，尤其是要写很多解析代码。

在Python中获取系统信息的另一个好办法是使用psutil这个第三方模块。顾名思义，psutil = process and system utilities，它不仅可以通过一两行代码实现系统监控，还可以跨平台使用，支持Linux／UNIX／OSX／Windows等，是系统管理员和运维小伙伴不可或缺的必备模块.

### 获取 CPU 信息

In [78]:
import psutil

psutil.cpu_count() # CPU 逻辑数量

16

In [81]:
psutil.cpu_count(logical = False) # CPU 物理核心

8

In [84]:
psutil.cpu_times()

scputimes(user=1838.53, nice=23.08, system=484.1, idle=139959.06, iowait=1021.85, irq=0.0, softirq=11.37, steal=0.0, guest=0.0, guest_nice=0.0)

In [86]:
for i in range(10):
    print(psutil.cpu_percent(interval = 1, percpu = True))

[2.0, 0.0, 2.0, 1.0, 0.0, 0.0, 0.0, 1.0, 0.0, 1.0, 0.0, 0.0, 1.0, 2.0, 0.0, 26.7]
[0.0, 1.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 2.0, 0.0, 2.0, 0.0, 4.0, 1.0, 10.9]
[0.0, 1.0, 0.0, 0.0, 6.0, 1.0, 1.0, 1.0, 1.0, 2.9, 0.0, 0.0, 0.0, 0.0, 1.0, 8.0]
[0.0, 0.0, 0.0, 0.0, 1.0, 11.0, 0.0, 1.0, 0.0, 1.0, 0.0, 0.0, 1.0, 2.0, 0.0, 1.0]
[2.0, 1.0, 2.0, 8.9, 0.0, 9.1, 0.0, 0.0, 0.0, 2.0, 2.0, 0.0, 2.0, 2.0, 0.0, 2.0]
[5.0, 5.0, 6.1, 8.1, 1.0, 82.0, 1.0, 3.0, 2.0, 3.0, 4.0, 2.0, 0.0, 0.0, 3.9, 0.0]
[0.0, 1.0, 1.0, 1.0, 1.0, 51.5, 2.9, 2.0, 1.0, 0.0, 2.0, 0.0, 0.0, 1.0, 1.0, 0.0]
[0.0, 0.0, 0.0, 0.0, 0.0, 5.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 2.0, 0.0, 1.0]
[0.0, 0.0, 0.0, 0.0, 1.0, 7.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 1.0, 1.0, 1.0, 2.9]
[0.0, 0.0, 0.0, 0.0, 0.0, 7.9, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 1.0, 1.0, 0.0, 2.9]


### 获取内存信息

In [87]:
psutil.virtual_memory()

svmem(total=33687404544, available=30392791040, percent=9.8, used=2693918720, free=27893334016, active=3347443712, inactive=1848385536, buffers=192684032, cached=2907467776, shared=157270016, slab=289624064)

In [88]:
psutil.swap_memory()

sswap(total=2147479552, used=0, free=2147479552, percent=0.0, sin=0, sout=0)

### 获取磁盘信息

In [89]:
psutil.disk_partitions() # 磁盘分区信息

[sdiskpart(device='/dev/sda2', mountpoint='/', fstype='ext4', opts='rw,relatime,errors=remount-ro'),
 sdiskpart(device='/dev/loop0', mountpoint='/snap/core/9993', fstype='squashfs', opts='ro,nodev,relatime'),
 sdiskpart(device='/dev/loop1', mountpoint='/snap/gnome-3-28-1804/116', fstype='squashfs', opts='ro,nodev,relatime'),
 sdiskpart(device='/dev/loop3', mountpoint='/snap/gtk-common-themes/1502', fstype='squashfs', opts='ro,nodev,relatime'),
 sdiskpart(device='/dev/loop5', mountpoint='/snap/atom/259', fstype='squashfs', opts='ro,nodev,relatime'),
 sdiskpart(device='/dev/loop4', mountpoint='/snap/core18/1885', fstype='squashfs', opts='ro,nodev,relatime'),
 sdiskpart(device='/dev/loop6', mountpoint='/snap/gnome-3-34-1804/36', fstype='squashfs', opts='ro,nodev,relatime'),
 sdiskpart(device='/dev/loop2', mountpoint='/snap/gtk-common-themes/1506', fstype='squashfs', opts='ro,nodev,relatime'),
 sdiskpart(device='/dev/loop7', mountpoint='/snap/gnome-3-34-1804/60', fstype='squashfs', opts='r

In [90]:
psutil.disk_io_counters() # 磁盘 IO

sdiskio(read_count=47765, write_count=46947, read_bytes=2116634624, write_bytes=1732383744, read_time=843512, write_time=1173196, read_merged_count=21069, write_merged_count=48185, busy_time=117144)

In [95]:
psutil.disk_usage("/")

sdiskusage(total=1967397240832, used=706047967232, free=1161339453440, percent=37.8)

### 获取网络信息

In [96]:
psutil.net_io_counters() # 获取网络读写字节/包的个数

snetio(bytes_sent=39174233, bytes_recv=332307026, packets_sent=123979, packets_recv=247317, errin=0, errout=0, dropin=0, dropout=0)

In [97]:
psutil.net_if_addrs() # 获取网路接口信息

{'lo': [snicaddr(family=<AddressFamily.AF_INET: 2>, address='127.0.0.1', netmask='255.0.0.0', broadcast=None, ptp=None),
  snicaddr(family=<AddressFamily.AF_INET6: 10>, address='::1', netmask='ffff:ffff:ffff:ffff:ffff:ffff:ffff:ffff', broadcast=None, ptp=None),
  snicaddr(family=<AddressFamily.AF_PACKET: 17>, address='00:00:00:00:00:00', netmask=None, broadcast=None, ptp=None)],
 'wlp37s0': [snicaddr(family=<AddressFamily.AF_INET: 2>, address='192.168.123.201', netmask='255.255.255.0', broadcast='192.168.123.255', ptp=None),
  snicaddr(family=<AddressFamily.AF_INET6: 10>, address='fe80::7970:1e6f:7063:fa86%wlp37s0', netmask='ffff:ffff:ffff:ffff::', broadcast=None, ptp=None),
  snicaddr(family=<AddressFamily.AF_PACKET: 17>, address='4c:1d:96:71:83:06', netmask=None, broadcast='ff:ff:ff:ff:ff:ff', ptp=None)],
 'enp34s0': [snicaddr(family=<AddressFamily.AF_PACKET: 17>, address='00:d8:61:c1:00:30', netmask=None, broadcast='ff:ff:ff:ff:ff:ff', ptp=None)]}

In [98]:
psutil.net_if_stats() # 获取网络接口状态

{'lo': snicstats(isup=True, duplex=<NicDuplex.NIC_DUPLEX_UNKNOWN: 0>, speed=0, mtu=65536),
 'wlp37s0': snicstats(isup=True, duplex=<NicDuplex.NIC_DUPLEX_UNKNOWN: 0>, speed=0, mtu=1500),
 'enp34s0': snicstats(isup=True, duplex=<NicDuplex.NIC_DUPLEX_UNKNOWN: 0>, speed=65535, mtu=1500)}

### 获取进程信息

In [99]:
psutil.pids() # 所有进程ID

[1,
 2,
 3,
 4,
 6,
 9,
 10,
 11,
 12,
 13,
 14,
 15,
 16,
 17,
 18,
 20,
 21,
 22,
 23,
 24,
 26,
 27,
 28,
 29,
 30,
 32,
 33,
 34,
 35,
 36,
 38,
 39,
 40,
 41,
 42,
 44,
 45,
 46,
 47,
 48,
 50,
 51,
 52,
 53,
 54,
 56,
 57,
 58,
 59,
 60,
 62,
 63,
 64,
 65,
 66,
 68,
 69,
 70,
 71,
 72,
 74,
 75,
 76,
 77,
 78,
 80,
 81,
 82,
 83,
 84,
 86,
 87,
 88,
 89,
 90,
 92,
 93,
 94,
 95,
 96,
 98,
 99,
 100,
 101,
 102,
 104,
 105,
 106,
 107,
 108,
 113,
 114,
 115,
 116,
 117,
 118,
 165,
 166,
 167,
 168,
 169,
 170,
 171,
 172,
 173,
 174,
 177,
 179,
 180,
 182,
 183,
 184,
 196,
 201,
 202,
 211,
 214,
 229,
 298,
 299,
 300,
 301,
 302,
 303,
 304,
 305,
 306,
 307,
 308,
 309,
 310,
 311,
 312,
 313,
 316,
 317,
 332,
 333,
 334,
 356,
 358,
 359,
 360,
 361,
 363,
 372,
 377,
 380,
 394,
 395,
 397,
 398,
 400,
 407,
 418,
 419,
 441,
 442,
 446,
 450,
 452,
 453,
 457,
 459,
 460,
 461,
 463,
 467,
 469,
 470,
 473,
 497,
 498,
 500,
 503,
 506,
 508,
 512,
 517,
 519,
 542,
 5

In [107]:
p = psutil.Process(pid = 1342)

In [110]:
p.name()

'gnome-shell'

In [111]:
p.exe() # 进程路径

'/usr/bin/gnome-shell'

In [112]:
p.cwd() # 进程工作目录

AccessDenied: psutil.AccessDenied (pid=1342, name='gnome-shell')

In [113]:
p.cmdline()

['/usr/bin/gnome-shell']

In [114]:
p.ppid()

1323

In [115]:
p.parent()

psutil.Process(pid=1323, name='gnome-session-binary', status='sleeping', started='08:16:49')

# virtualenv
在开发Python应用程序的时候，系统安装的Python3只有一个版本：3.4。所有第三方的包都会被pip安装到Python3的site-packages目录下。

如果我们要同时开发多个应用程序，那这些应用程序都会共用一个Python，就是安装在系统的Python 3。如果应用A需要jinja 2.7，而应用B需要jinja 2.6怎么办？

这种情况下，每个应用可能需要各自拥有一套“独立”的Python运行环境。virtualenv就是用来为一个应用创建一套“隔离”的Python运行环境。