# 数组结构和序列

## 元组

元组是固定长度，不可改变的序列对象。

In [2]:
# 创建元组，用逗号分隔一列
tup = 4, 5, 6
tup

(4, 5, 6)

In [3]:
# 可用圆括号表示一个整体
nested_tup = (4, 5, 6), (7, 8)
nested_tup

((4, 5, 6), (7, 8))

In [4]:
# tuple可将任意序列或迭代器转
tuple([4, 0, 2])

(4, 0, 2)

In [5]:
tup = tuple('string')
tup

('s', 't', 'r', 'i', 'n', 'g')

In [6]:
# 用方括号访问元组中的元素，从0开始
tup[0]

's'

In [10]:
# 一旦创建了元组，元组中的对象不能修改
tup = tuple(['foo', [1, 2], True])
tup[2] = False

TypeError: 'tuple' object does not support item assignment

In [11]:
# 如果元祖中某个对象是可变的（如列表），可在原位修改
# tup = tup(['foo', [1, 2], True])
tup[1].append(3)
tup

('foo', [1, 2, 3], True)

In [12]:
# 可以用加号运算符将元组串联起来
(4, None, 'foo') + (6, 0) + ('bar',)

(4, None, 'foo', 6, 0, 'bar')

In [13]:
# 元组乘以整数，会将几个元组复制串联起来
# 对象本身并没有被复制，只是引用了它
('foo', 'bar') * 4

('foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'bar')

### 拆分元组

In [14]:
# 将元组赋值给类似元组的变量
tup = (4, 5, 6)
a, b, c = tup

In [15]:
b

5

In [16]:
# 试验结果：只能等量赋值
d, e = tup

ValueError: too many values to unpack (expected 2)

In [17]:
# 含有元组的元组也能拆分
tup = 4, 5, (6, 7)
a, b, (c, d) = tup
d

7

In [18]:
# 替换变量
a, b = 1, 2
a

1

In [19]:
b

2

In [20]:
# 这样可以直接替换ab的值
b, a = a, b
a

2

In [21]:
b

1

In [22]:
# 变量拆分常用来迭代元组或列表序列
seq = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]
for a, b, c in seq:
    print('a={0}, b={1}, c={2}'.format(a, b, c))

a=1, b=2, c=3
a=4, b=5, c=6
a=7, b=8, c=9


In [24]:
# *rest允许从元组开头摘取元素
# 可用在函数签名中，以抓取任意长度列表的位置参数
values = 1, 2, 3, 4, 5
a, b, *rest = values

In [25]:
a, b

(1, 2)

In [26]:
rest

[3, 4, 5]

In [27]:
# rest的部分是想舍弃的部分，rest这个名字不重要，有时也将不需要的变量使用下划线
a, b, *_ = values

### count方法

In [28]:
# count可以统计某个值的出现频率（也适用于列表）
a = (1, 2, 2, 2, 3, 4, 2)

In [29]:
a.count(2)

4

## 列表

与元组相比，列表的长度可变，内容可被修改。

In [30]:
# 可用方括号或list函数定义
a_list = [2, 3, 7, None]
tup = ('foo', 'bar', 'baz')
b_list = list(tup)
b_list

['foo', 'bar', 'baz']

In [31]:
b_list[1] = 'peekaboo'

In [32]:
b_list

['foo', 'peekaboo', 'baz']

In [33]:
# list函数常用来在数据处理中作为实体化迭代器或生成器的方式
gen = range(10)
gen

range(0, 10)

In [34]:
list(gen)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

### 添加和删除元素

In [35]:
# 用append在列表末尾添加元素
b_list.append('dwarf')

In [36]:
b_list

['foo', 'peekaboo', 'baz', 'dwarf']

In [37]:
# 用insert在特定位置插入元素，插入的序号必须在0和列表长度之间
b_list.insert(1, 'red')

In [38]:
b_list

['foo', 'red', 'peekaboo', 'baz', 'dwarf']

In [39]:
# insert比append耗费的计算量大。可能需要collections.deque作为一个双尾部队列
# pop移除并返回指定位置的元素，是insert的逆运算
b_list.pop(2)

'peekaboo'

In [40]:
b_list

['foo', 'red', 'baz', 'dwarf']

In [41]:
# remove去除某个值，它会寻找第一个值并删除
b_list.append('foo')

In [42]:
b_list

['foo', 'red', 'baz', 'dwarf', 'foo']

In [43]:
b_list.remove('foo')

In [44]:
b_list

['red', 'baz', 'dwarf', 'foo']

In [45]:
# 用in/not in检查列表是否包含某个值，速度比在字段和集合搜索慢，因为它是线性搜索列表中的值
'dwarf' in b_list

True

In [46]:
'dwarf' not in b_list

False

### 串联和组合列表

In [47]:
# 用加号串联两个列表
[4, None, 'foo'] + [7, 8, (2, 3)]

[4, None, 'foo', 7, 8, (2, 3)]

In [49]:
# 用extend方法在已定义列表后追加多个元素，里面的元素要用[]括起来
x = [4, None, 'foo']
x.extend([7, 8, (2, 3)])

In [50]:
x

[4, None, 'foo', 7, 8, (2, 3)]

In [None]:
everything = []
for chunk in list_of_lists:
   everything.extend(chunk)

小结：用extend追加元素比用加法更快，因为用加法要新建一个列表，并且要复制对象

### 排序

In [52]:
# sort函数排序（不创建新的对象）
a = [7, 2, 5, 1, 3]
a.sort()

In [53]:
a

[1, 2, 3, 5, 7]

In [54]:
# sort可以用key进行二级排序
# 例如按长度对字符串排序
b = ['saw', 'small', 'He', 'foxes', 'six']

In [55]:
b.sort(key = len)

In [56]:
b

['He', 'saw', 'six', 'small', 'foxes']

### 二分搜索和维护已排序的列表

In [57]:
# bisect模块支持二分查找，向已排序的列表插入值
# bisect.bisect可找到插入值的位置，并保证它的排序状态
# bisect.insort直接在某位置插入值
import bisect
c = [1, 2, 2, 2, 3, 4, 7]

In [58]:
# 2应该插入在c的4位置
bisect.bisect(c, 2)

4

In [59]:
c

[1, 2, 2, 2, 3, 4, 7]

In [60]:
# 5应该插入在c的6位置
bisect.bisect(c, 5)

6

In [61]:
c

[1, 2, 2, 2, 3, 4, 7]

In [62]:
bisect.insort(c, 6)

In [63]:
c

[1, 2, 2, 2, 3, 4, 6, 7]

注意：bisect模块不检查列表是否已排序。所以在未排序列表使用bisect模块不会报错，但可能会有错误结果。

### 切片

可以用切片选取大多数序列类型的一部分

In [64]:
# 切片的基本形式start:stop
seq = [7, 2, 3, 7, 5, 6, 0, 1]
seq[1:5]

[2, 3, 7, 5]

In [65]:
# 切片也可以被序列赋值
# 切片包括其实元素，不包括结束元素，结果中的元素个数是stop - start
# 把3位置改为6,3，不包括结束元素
seq[3:4] = [6, 3]
seq

[7, 2, 3, 6, 3, 5, 6, 0, 1]

In [66]:
# start或stop能被忽略，省略后分别默认序列的开头和结尾
seq[:5]

[7, 2, 3, 6, 3]

In [67]:
seq[3:]

[6, 3, 5, 6, 0, 1]

In [70]:
# 负数表明从后向前切片，最后一个是-1，倒数第二个是-2....
seq[-4:]

[5, 6, 0, 1]

In [71]:
seq[-6:-2]

[6, 3, 5, 6]

In [72]:
# 第二个冒号后用step，2表示每两个取一个
seq[::2]

[7, 3, 3, 6, 1]

In [73]:
# 使用-1能将列表或元组颠倒过来
seq[::-1]

[1, 0, 6, 5, 3, 6, 3, 2, 7]

## 序列函数

### enumerate函数

In [None]:
# 该函数可以返回(i, value)元组序列
for i, value in enumerate(collection):
    # do something with value

In [74]:
# 可以使用enumerate函数映射序列的值和其在序列中的位置
some_list = ['foo', 'bar', 'baz']

In [75]:
mapping = {}

In [76]:
for i, v in enumerate(some_list):
    mapping[v] = i

In [77]:
mapping

{'foo': 0, 'bar': 1, 'baz': 2}

### sorted函数

In [78]:
# 可以从任意序列的元素返回一个新的已排好序的列表
# sorted函数可以接收和sort相同的参数
sorted([7, 1, 2, 6, 0, 3, 2])

[0, 1, 2, 2, 3, 6, 7]

In [79]:
sorted('horse race')

[' ', 'a', 'c', 'e', 'e', 'h', 'o', 'r', 'r', 's']

### zip函数

In [80]:
# zip能将多个列表、元组或其他序列成对组成一个元组列表
seq1 = ['foo', 'bar', 'baz']
seq2 = ['one', 'two', 'three']

In [81]:
zipped = zip(seq1, seq2)

In [82]:
list(zipped)

[('foo', 'one'), ('bar', 'two'), ('baz', 'three')]

In [83]:
# zip可以处理任意多的序列，元素的个数取决于最短的序列
seq3 = [False, True]

In [84]:
list(zip(seq1, seq2, seq3))

[('foo', 'one', False), ('bar', 'two', True)]

In [85]:
# zip常见用法：同时迭代多个序列，与enumerate结合使用
for i, (a, b) in enumerate(zip(seq1, seq2)):
    print('{0}: {1}, {2}'.format(i, a, b))

0: foo, one
1: bar, two
2: baz, three


In [86]:
# 给出一个被压缩的蓄力额，zip能解压序列
# 也可以将行的列表转换为列的列表
pitchers = [('Nolan', 'Ryan'), ('Roger', 'Clemens'), ('Schilling', 'Curt')]

In [87]:
first_names, last_names = zip(*pitchers)

In [88]:
first_names

('Nolan', 'Roger', 'Schilling')

In [89]:
last_names

('Ryan', 'Clemens', 'Curt')

### reversed函数

In [90]:
# 可以从后向前迭代一个序列
# 是一个生成器，只有实例化后才能创建翻转的序列
list(reversed(range(10)))

[9, 8, 7, 6, 5, 4, 3, 2, 1, 0]

## 字典

也称作哈希映射或关联数组，它是大小可变的key-value的键值对集合

In [1]:
# 一个创建字典的方法是用{}，用冒号分割键和值
empty_dict = {}
d1 = {'a': 'some value', 'b': [1, 2, 3, 4]}

In [3]:
d1

{'a': 'some value', 'b': [1, 2, 3, 4]}

In [4]:
# 可以访问、插入或设定字典中的元素，[]中是key，等号右边是value
d1[7] = 'an integer'

In [5]:
d1

{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer'}

In [6]:
d1['b']

[1, 2, 3, 4]

In [7]:
# 用in检查字典中是否包含某个键
'b' in d1

True

In [8]:
# 可以用del或pop(有返回值)来删除键值对
d1[5] = 'some value'

In [9]:
d1

{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer', 5: 'some value'}

In [10]:
d1['dummy'] = 'another value'

In [11]:
d1

{'a': 'some value',
 'b': [1, 2, 3, 4],
 7: 'an integer',
 5: 'some value',
 'dummy': 'another value'}

In [12]:
del d1[5]

In [13]:
d1

{'a': 'some value',
 'b': [1, 2, 3, 4],
 7: 'an integer',
 'dummy': 'another value'}

In [14]:
ret = d1.pop('dummy')

In [15]:
ret

'another value'

In [16]:
d1

{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer'}

In [17]:
# keys和values方法分别提供字典的键和值的迭代器
# 虽然键值对没有一定的顺序，但这些方法会按照相同的顺序输出key和value
list(d1.keys())

['a', 'b', 7]

In [18]:
list(d1.values())

['some value', [1, 2, 3, 4], 'an integer']

In [19]:
# 可以用update方法将一个字典与另一个字典融合
d1.update({'b': 'foo', 'c': 12})

In [20]:
d1

{'a': 'some value', 'b': 'foo', 7: 'an integer', 'c': 12}

In [21]:
# 由于update方法是直接改变字典，所以数据中已经存在的key经过update方法后会舍弃原来的值
# 下例中update的key为a的键值对被改编成了change，原来的some value被丢弃了
d1.update({'a':'change'})

In [22]:
d1

{'a': 'change', 'b': 'foo', 7: 'an integer', 'c': 12}

### 用序列创建字典

In [None]:
# 有些情况想要将两个序列配对成字典，可能会这样写：
mapping = {}
for key, value in zip(key_list, value_list):
    mapping[key] = value

In [23]:
# 因为字典本质上是2元元组的集合，dict方法可以接受2元元组的列表
mapping = dict(zip(range(5), reversed(range(5))))

In [24]:
mapping

{0: 4, 1: 3, 2: 2, 3: 1, 4: 0}

### 默认值

In [None]:
# 下面的逻辑很常见：
if key in some_dict:
    value = some_dict[key]
else:
    value = default_value

In [None]:
# 字典的get和pop方法可以取默认值进行返回，上述情况可以简写为：
value = some_dict.get(key, default_value)

In [25]:
# 如果键不存在，get方法默认返回None，pop会抛出异常
# 字典中的设定值往往是其他集合，如列表等
# 例：通过首字母将列表中的单词分类
words = ['apple', 'bat', 'bar', 'atom', 'book']
by_letter = {}

In [26]:
for word in words:
    letter = word[0]
    if letter not in by_letter:
        by_letter[letter] = [word]
    else:
        by_letter[letter].append(word)

In [27]:
by_letter

{'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']}

In [28]:
# setdefault可以实现该功能，dict.setdefault(key, default=None)
# 如果字典中包含有给定键，则返回该键对应的值，否则返回为该键设置的值。
# 上述循环可以改写为：
for word in words:
    letter = word[0]
    by_letter.setdefault(letter, []).append(word)

In [30]:
# collection模块的类defaultdict可进一步简化
# 传递类型或函数以生成每个位置的默认值
from collections import defaultdict
by_letter = defaultdict(list)
for word in words:
    by_letter[word[0]].append(word)

In [31]:
by_letter

defaultdict(list, {'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']})

### 有效的键类型

In [1]:
# 字典的键是不可变的标量（整数、浮点型、字符串）或元组（元组中的对象必须是不可变的）
# 即“可哈希性”
# 用hash函数检测一个对象是否可被用作字典的键（是否是可哈希的）
hash('string')

2942625301600042363

In [2]:
hash((1, 2, (2, 3)))

1097636502276347782

In [3]:
# 列表不行
hash((1, 2, [2, 3]))

TypeError: unhashable type: 'list'

In [4]:
# 若要列表当做键，可将列表转化为元组
d = {}
d[tuple([1, 2, 3])] = 5

In [5]:
d

{(1, 2, 3): 5}

## 集合

集合是无序不可重复的元素集合。只有键没有值字典。

In [6]:
# 通过set函数或{}创建集合
set([2, 2, 2, 1, 3, 3])

{1, 2, 3}

In [7]:
{2, 2, 2, 1, 3}

{1, 2, 3}

In [8]:
# 集合支持并集，交集，差分，对称差等数学集合运算
a = {1, 2, 3, 4, 5}
b = {3, 4, 5, 6, 7, 8}

In [9]:
# 合并：取两个集合中不重复的元素，用union方法或|运算符
a.union(b)

{1, 2, 3, 4, 5, 6, 7, 8}

In [10]:
a | b

{1, 2, 3, 4, 5, 6, 7, 8}

In [11]:
# 交集：两个集合中都有的元素，用intersection方法或&运算符
a.intersection(b)

{3, 4, 5}

In [12]:
a & b

{3, 4, 5}

In [13]:
# 所有的逻辑集合操作都有对应的in-place counterpart
# 可以在等式左边用结果替换集合的内容
c = a.copy()

In [14]:
# c = c | b
c |= b

In [15]:
c

{1, 2, 3, 4, 5, 6, 7, 8}

In [16]:
d = a.copy()

In [17]:
# d = d & b
d &= b

In [18]:
d

{3, 4, 5}

In [19]:
# 与字典类似，集合元素通常是不可变的。
# 要获得类似列表的元素，必须转换成元组
my_data = [1, 2, 3, 4]
my_set = {tuple(my_data)}

In [20]:
my_set

{(1, 2, 3, 4)}

In [21]:
# 检测一个集合是否是另一个集合的子集或父集
a_set = {1, 2, 3, 4, 5}
{1, 2, 3}.issubset(a_set)

True

In [22]:
a_set.issuperset({1, 2, 3})

True

In [23]:
# 集合的内容相等时集合才对等
{1, 2, 3} == {3, 2, 1}

True

## 列表、集合和字典推导式

In [None]:
# 列表推导式允许用户从一个集合过滤元素，形成列表，在传递参数的过程中还能修改元素
[expr for val in collection if condition]

# 等同于：
result = []
for val in collection:
    if condition:
        result.append(expr)

In [25]:
# filter条件可以被忽略，留下表达式
# 例：给定一个字符串列表，过滤出长度在2以下的字符串并将其转换成大写
string = ['a', 'as', 'bat', 'car', 'dove', 'python']

In [26]:
[x.upper() for x in string if len(x) > 2]

['BAT', 'CAR', 'DOVE', 'PYTHON']

In [None]:
# 用类似的方法也可以推导集合和字典
# 字典形式如下：
dict_comp = {key-expr: value-expr for value in collection if condition}

In [None]:
# 集合形式如下：
set_comp = {expr for value in collectin if conditin}

In [28]:
# 取字符串列表的字符串长度，用集合很方便
unique_lengths = {len(x) for x in string}

In [29]:
unique_lengths

{1, 2, 3, 4, 6}

In [30]:
# 用map函数能进一步简化
set(map(len, string))

{1, 2, 3, 4, 6}

In [31]:
# 创建一个字符串的查找映射表以确定它在列表中的位置
loc_mapping = {val: index for index, val in enumerate(string)}

In [32]:
loc_mapping

{'a': 0, 'as': 1, 'bat': 2, 'car': 3, 'dove': 4, 'python': 5}

### 嵌套列表推导式

In [33]:
# 假设有一个包含列表的列表，包含英文名和西班牙名
all_data = [['John', 'Emily', 'Michael', 'Mary', 'Steven'], ['Maria', 'Juan', 'Javier', 'Natalia', 'Pilar']]

In [36]:
names_of_interest = []
for names in all_data:
    enough_es = [names for name in names if name.count('e') >= 2]
    names_of_interest.extend(enough_es)

In [37]:
names_of_interest

[['John', 'Emily', 'Michael', 'Mary', 'Steven']]

In [44]:
# 用嵌套列表推导式
all_data = [['John', 'Emily', 'Michael', 'Mary', 'Steven'], ['Maria', 'Juan', 'Javier', 'Natalia', 'Pilar']]
result = [name for names in all_data for name in names
          if name.count('e') >= 2]

In [45]:
result

['Steven']

In [46]:
# 将一个整数元组的列表扁平化成一个整数列表
some_tuples = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]

In [47]:
flattened = [x for tup in some_tuples for x in tup]

In [49]:
flattened

[1, 2, 3, 4, 5, 6, 7, 8, 9]

In [50]:
# for表达式的顺序与嵌套for循环的顺序一样
flattened = []
for tup in some_tuples:
    for x in tup:
        flattened.append(x)

In [51]:
# 产生一个列表的列表
[[x for x in tup] for tup in some_tuples]

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]

# 函数

In [52]:
# 函数用def关键字声明，用return关键字返回值
def my_function(x, y, z = 1.5):
    if z > 1:
        return z * (x + y)
    else:
        return z / (x + y)

可以同时有多条return语句，如果到函数末尾没有return语句，则返回None

函数可以有位置参数和关键字参数，关键字参数通常用于指定默认值或可选参数

上面定义的函数中x和y是位置参数，z是关键字参数

In [53]:
# 下例的调用方式都是合理的
my_function(5, 6, z = 0.7)
my_function(3.14, 7, 3.5)
my_function(10, 20)

45.0

函数的关键字参数必须位于位置参数之后

可以按照任何顺序指定关键字参数

也可以用关键字传递位置参数

In [None]:
# 下面两种写法一样且合法
my_function(x = 5, y = 6, z = 7)
my_function(y = 6, x, = 5, z = 7)

## 命名空间、作用域和局部函数

函数可以访问两种不同作用域中的变量：全局和局部

用于描述变量作用域的名称叫做命名空间（namespace）

任何在函数中赋值的变量默认分配到局部命名空间

局部命名空间是在函数被调用时创建的，函数参数会立即填入该命名空间

函数执行完毕后，局部命名空间就会被销毁（有例外，闭包等）

In [None]:
# 调用func()后，首先会创建出空列表a，然后添加5个元素，最后a在该函数退出时被销毁
def func():
    a = []
    for i in range(5):
        a.append(i)

In [54]:
# 虽然可以在函数中对全局变量进行赋值操作，但那些变量必须用global关键字声明成全局的
a = None

In [55]:
def bind_a_variable():
    global a
    a =[]
bind_a_variable()

In [56]:
print(a)

[]


注：一般不建议频繁用global关键字，全局变量一般用于存放系统的某些状态

## 返回多个值

In [57]:
def f():
    a = 5
    b = 6
    c = 7
    return a, b, c

In [58]:
# 该函数其实只返回了一个对象，即一个元素，该元组会被拆包到各个结果变量中
a, b, c = f()

In [59]:
print(a, b, c)

5 6 7


In [60]:
return_value = f()

In [61]:
# 是一个包含有三个返回值的三元元组
return_value

(5, 6, 7)

In [62]:
# 函数还能返回字典
def f():
    a = 5
    b = 6
    c = 7
    return {'a': a, 'b': b, 'c': c}

## 函数也是对象

In [63]:
# 假设有下面的字符串数组，希望对其进行数据清理工作并执行转换
states = ['  Alabama', 'Georgia!', 'Georgia', 'georgia', 'F10rIda',
         'south  carolina##', 'West virginia?']

In [64]:
# 可以使用内建的字符串方法和正则表达式re模块
import re

def clean_strings(strings):
    result = []
    for value in strings:
        value = value.strip()
        value = re.sub('[!#?]', '', value)
        value = value.title()
        result.append(value)
    return result

In [65]:
clean_strings(states)

['Alabama',
 'Georgia',
 'Georgia',
 'Georgia',
 'F10Rida',
 'South  Carolina',
 'West Virginia']

In [66]:
# 可以将需要在一组给定字符串上执行的所有运算做成一个列表
def remove_punctuation(value):
    return re.sub('[!#?]', '', value)

In [68]:
clean_ops = [str.strip, remove_punctuation, str.title]

In [69]:
def clean_strings(strings, ops):
    result = []
    for value in strings:
        for function in ops:
            value = function(value)
        result.append(value)
    return result

In [70]:
clean_strings(states, clean_ops)

['Alabama',
 'Georgia',
 'Georgia',
 'Georgia',
 'F10Rida',
 'South  Carolina',
 'West Virginia']

In [71]:
# 函数也可以作为其他函数的参数，如内置的map函数，它用于在一组数据上应用一个函数
for x in map(remove_punctuation, states):
    print(x)

  Alabama
Georgia
Georgia
georgia
F10rIda
south  carolina
West virginia


## 匿名（lambda）函数

In [72]:
# 仅由单条语句组成，该语句的结果就是返回值
def short_function(x):
    return x * 2

equiv_anon = lambda x: x * 2

In [73]:
equiv_anon

<function __main__.<lambda>(x)>

In [74]:
# 虽然可以编写x * 2 foe x in ints，但用lambda更简洁
def apply_to_list(some_list, f):
    return [f(x) for x in some_list]

ints = [4, 0, 1, 5, 6]
apply_to_list(ints, lambda x: x * 2)

[8, 0, 2, 10, 12]

In [75]:
# 假设有一组字符串，想要根据各字符串不同字母的数量对其排序
strings = ['foo', 'card', 'bar', 'aaaa', 'abab']

In [80]:
# 传入一个lambda函数到列表的sort方法
strings.sort(key = lambda x: len(set(list(x))))

In [81]:
strings

['aaaa', 'foo', 'abab', 'bar', 'card']

## 柯里化：部分参数应用

柯里化（currying）：通过部分参数应用从现有函数派生出新函数的技术

In [82]:
# 假设有一个执行两数相加的函数
def add_numbers(x, y):
    return x + y

In [83]:
# 通过这个函数可以派生出一个新的只有一个参数的函数add_five，对其参数加5
add_five = lambda y: add_numbers(5, y)

In [85]:
# add_numbers的第二个参数称为“柯里化的”
# 实际上就是定义了一个可以调用现有函数的新函数
# 内置的functools模块可以用partial函数将此过程简化
from functools import partial
add_five = partial(add_numbers, 5)

In [86]:
add_five(4)

9

## 生成器

通过迭代器协议能以一致的方式对序列进行迭代

In [87]:
# 对字典进行迭代可以得到其所有的键
some_dict = {'a': 1, 'b': 2, 'c': 3}

In [88]:
for key in some_dict:
    print(key)

a
b
c


In [89]:
# 当编写for key in some_dict时，python解释器会从some_dict创建一个迭代器
dict_iterator = iter(some_dict)
dict_iterator

<dict_keyiterator at 0x51f8228>

In [90]:
# 大部分能接收列表对象的方法都能接收任何可迭代对象
# 如min、max、sum方法和list、tuple等类型构造器
list(dict_iterator)

['a', 'b', 'c']

生成器是构造新的可迭代对象的一种简单方式

生成器是以延迟的方式返回一个值序列，即每返回一个值后暂停，直到下一个值被请求时再继续

In [91]:
# 创建生成器，将函数中的return替换为yeild
def squares(n = 10):
    print('Generating squares from 1 to {0}'.format(n ** 2))
    for i in range(1, n + 1):
        yield i ** 2

In [92]:
# 调用该生成器时没有任何代码会被立即执行
gen = squares()

In [93]:
gen

<generator object squares at 0x00000000051F47D8>

In [94]:
# 知道从该生成器中请求元素时才会开始执行代码
for x in gen:
    print(x, end = ' ')

Generating squares from 1 to 100
1 4 9 16 25 36 49 64 81 100 

### 生成器表达式

In [95]:
# 类似于列表、字典、集合推导式的生成器
# 把列表推导式两段的方括号改为圆括号即可
gen = (x ** 2 for x in range(100))

In [96]:
gen

<generator object <genexpr> at 0x00000000051F42B0>

In [97]:
# 与下面等价
def _make_gen():
    for x in range(10):
        yield x ** 2
gen = _make_gen()

In [98]:
# 生成器也可以取代列表推导式，作为函数参数
sum(x ** 2 for x in range(100))

328350

In [99]:
dict((i, i ** 2) for i in range(5))

{0: 0, 1: 1, 2: 4, 3: 9, 4: 16}

### itertools模块

In [100]:
# 该模块的groupby可以接受任何序列和一个函数
# 它根据函数的返回值对序列中的连续元素进行分组
import itertools

In [101]:
first_letter = lambda x: x[0]

In [102]:
names = ['Alan', 'Adam', 'Wes', 'Will', 'Albert', 'Steven']

In [103]:
# groupby(iterable[,keyfunc])为每一个唯一键生成一个(key, sub-iterator)
for letter, names in itertools.groupby(names, first_letter):
    print(letter, list(names))   # names是一个生成器

A ['Alan', 'Adam']
W ['Wes', 'Will']
A ['Albert']
S ['Steven']


## 错误和异常处理

In [104]:
# float函数可以将字符串转换成浮点数，但输入有误时有ValueError错误
float('1.2345')

1.2345

In [105]:
float('something')

ValueError: could not convert string to float: 'something'

In [106]:
# 如果想优雅地处理float的错误，让它返回输入值，可以写一个函数，在try/except中调用float
def attempt_float(x):
    try:
        return float(x)
    except:
        return x

In [107]:
# 当float(x)抛出异常时才会执行except的部分
attempt_float('1.2345')

1.2345

In [108]:
attempt_float('something')

'something'

In [109]:
# float抛出的异常不仅是ValueError
# 可能只想处理ValueError，TypeError错误，可以写一个异常类型
def attempt_float(x):
    try:
        return float(x)
    except ValueError:
        return x

In [110]:
attempt_float((1, 2))

TypeError: float() argument must be a string or a number, not 'tuple'

In [111]:
# 可以用元组包含多个异常
def attempt_float(x):
    try:
        return float(x)
    except(TypeError, ValueError):
        return x

In [None]:
# 某些情况下，可能想无论try部分的代码是否成功，都执行一段代码，则可以使用finally
f = open(path, 'w')
try:
    write_to_file(f)
finally:
    f.close()

In [None]:
# 可以用else让只在try部分成功的情况下才执行代码
f = open(path, 'w')

try:
    write_to_file(f)
except:
    print('Failed')
else:
    print('Succeeded')
finally:
    f.close()

# 文件和操作系统

In [115]:
# 打开文件，使用内置的open函数以及一个相对或绝对的文件路径
path = 'segismundo.txt'

In [116]:
f = open(path)

In [122]:
# 默认情况下文件是以只读模式（'r'）打开的
# 接下来可以像处理列表一样处理f
# 比如对行进行迭代
for line in f:
    pass

In [123]:
# 从文件中取出的行都带有完整的行结束符（EOL）
# 下面得到一组没有EOL的行
lines = [x.rstrip() for x in open(path)]

In [124]:
lines

['Chapter 3', 'for practice', 'by olivia']

In [125]:
# 如果使用open创建文件对象，一定要用close关闭
f.close()

In [126]:
# 用with可以在退出代码块时自动关闭文件
with open(path) as f:
    lines = [x.rstrip() for x in f]

如果输入f = open(path, 'w')，就会有新文件被创建在segismundo.txt，并覆盖掉位置原来的任何数据

x文件模式可以创建可写的文件，但如果文件路径存在，就无法创建

对于可读文件，常用方法是read、seek和tell

read会从文件返回字符

字符的内容是由文件的编码决定的，如果是二进制模式打开的就是原始字节

In [128]:
f = open(path)

In [129]:
f.read(10)

'Chapter 3\n'

In [130]:
f2 = open(path, 'rb')  # 二进制模式

In [131]:
f2.read(10)

b'Chapter 3\n'

In [132]:
# read模式会将文件句柄的位置提前，提前的数量是读取的字节数
# tell可以给出当前位置
f.tell()

10

In [134]:
f2.tell()

10

In [135]:
# 检查默认的编码
import sys
sys.getdefaultencoding()

'utf-8'

In [136]:
# seek将文件位置更改为文件中的指定字节
f.seek(3)

3

In [137]:
f.read(1)

'p'

In [138]:
f.close()

In [140]:
f2.close()

In [141]:
# 向文件写入可以使用文件的write或writelines方法
with open('tmp.txt', 'w') as handle:
    handle.writelines(x for x in open(path) if len(x) > 1)

In [143]:
with open('tmp.txt') as f:
    lines = f.readlines()

In [144]:
lines

['Chapter 3\n', 'for practice\n', 'by olivia\n']

## 文件的字节和Unicode

In [145]:
# python文件的默认操作是“文本模式”，即需要处理python的字符串（Unicode）
with open(path) as f:
    chars = f.read(10)

In [146]:
chars

'Chapter 3\n'

In [147]:
# UTF-8是长度可变的Unicode编码
# 当从文件请求一定数量的字符时，python会从文件读取足够多的字节解码
# 如果以“rb”模式打开文件，则读取确切的请求字节数
with open(path, 'rb') as f:
    data = f.read(10)

In [148]:
data

b'Chapter 3\n'

In [149]:
# 可以将字节编码为str对象，但只有当每个编码的Unicode字符都完全成形时才能这么做
data.decode('utf-8')

'Chapter 3\n'

In [150]:
data[:4].decode('utf-8')

'Chap'

In [151]:
# 文本模式结合了open的编码选项，提供了一种更方便的方法将Unicode转换为另一种编码
sink_path = 'sink.txt'

In [152]:
with open(path) as source:
    with open(sink_path, 'xt', encoding = 'iso-8859-1') as sink:
        sink.write(source.read())

In [153]:
with open(sink_path, encoding = 'iso-8859-1') as f:
    print(f.read(10))

Chapter 3



注意：不要在二进制模式中使用seek

如果文件位置位于定义Unicode字符的字节的中间位置，读取后面会产生错误