讨论贯穿本书所要使用的Python语言内建功能。由于像pandas和NumPy这类附加库提供了在大数据集上的高级计算功能，所以被设计为与Python内建数据操作工具协同使用。

介绍Python的常用数据结构：元组、列表、字典和集合。然后讨论如何创建可复用的Python函数。还将介绍Python文件对象的机制以及如何与本地硬盘进行交互。

## 3.1　数据结构和序列
Python的数据结构简单但强大。精通这些数据结构是成为优秀Python编程者的必要条件。

### 3.1.1　元组
元组是一种固定长度、不可变的Python对象序列。创建元组最简单的办法就是用逗号分隔序列值。

In [1]:
tup = 4, 5, 6

tup

(4, 5, 6)

当通过更复杂的表达式来定义元组时，通常需要用括号将值包起来，例如下面这个例子。生成了元素是元组的元组：

In [2]:
nested_tup = (4, 5, 6), (7, 8)
nested_tup

((4, 5, 6), (7, 8))

可以使用tuple函数将任意序列或迭代器转换为元组：

In [3]:
tuple([4, 0, 2])

(4, 0, 2)

In [4]:
tup = tuple('string')
tup

('s', 't', 'r', 'i', 'n', 'g')

元组的元素可以通过中括号[]来获取，在大多数序列类型中都可以使用这个方法。和C、C++、Java以及很多其他语言一样，Python中的序列索引是从0开始的：

In [5]:
tup[0]

's'

虽然对象元组中存储的对象其自身是可变的，但是元组一旦创建，各个位置上的对象是无法被修改的：

In [6]:
tup = tuple(['foo', [1, 2], True])
tup[2] = False

TypeError: 'tuple' object does not support item assignment

如果元组中的一个对象是可变的，例如列表，可以在它内部进行修改：

In [7]:
tup[1].append(3)

tup

('foo', [1, 2, 3], True)

可以使用`+`号连接元组来生成更长的元组：

In [8]:
(4, None, 'foo') + (6, 0) + ('bar',)

(4, None, 'foo', 6, 0, 'bar')

将元组乘以整数，则会和列表一样，生成含有多份拷贝的元组：

In [9]:
('foo', 'bar') * 4

('foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'bar')

> 请注意对象自身并没有复制，只是指向它们的引用进行了复制。

#### 3.1.1.1　元组拆包

如果想要将元组型的表达式赋值给变量，Python会对等号右边的值进行拆包：

In [10]:
tup = (4, 5, 6)
a, b, c = tup

b

5

即使是嵌套元组也可以拆包：

In [11]:
tup = 4, 5, (6, 7)

a, b, (c, d) = tup
d

7

使用这个功能，可以轻易地交换变量名。
但在Python中，交换可以如下完成：

In [12]:
a, b = 1, 2

print(a, b)
b, a = a, b
print(a, b)

1 2
2 1


拆包的一个常用场景就是遍历元组或列表组成的序列：

In [13]:
seq = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]

for a, b, c in seq:
    print('a={0}, b={1}, c={2}'.format(a, b, c))

a=1, b=2, c=3
a=4, b=5, c=6
a=7, b=8, c=9


另一个常用场景是从函数返回多个值。

Python语言新增了一些更为高级的元组拆包功能，用于帮助你从元组的起始位置“采集”一些元素。这个功能使用特殊的语法`*rest`，用于在函数调用时获取任意长度的位置参数列表：

In [14]:
values = 1, 2, 3, 4, 5

a, b, *rest = values

print(a, b)
print(rest)

1 2
[3, 4, 5]


rest部分有时是想要丢弃的数据，rest这个变量名并没有什么特殊之处，为了方便，很多Python编程者会使用下划线（`_`）来表示不想要的变量：

In [15]:
a, b, *_ = values

#### 3.1.1.2　元组方法

由于元组的内容和长度是无法改变的，它的实例方法很少。一个常见的有用方法是count（列表中也可用），用于计量某个数值在元组中出现的次数：

In [16]:
a = (1, 2, 2, 2, 3, 4, 2)

a.count(2)

4

### 3.1.2　列表
与元组不同，列表的长度是可变的，它所包含的内容也是可以修改的。可以使用中括号`[]`或者`list`类型函数来定义列表：

In [17]:
a_list = [2, 3, 7, None]
tup = ('foo', 'bar', 'baz')
b_list = list(tup)
print(b_list)
b_list[1] = 'peekaboo'
print(b_list)

['foo', 'bar', 'baz']
['foo', 'peekaboo', 'baz']


列表与元组非常相似（尽管元组不可修改），它们的很多函数用法是相似的。

list函数在数据处理中常用于将迭代器或者生成器转化为列表：

In [18]:
gen = range(10)

print(gen)
print(list(gen))

range(0, 10)
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


#### 3.1.2.1　增加和移除元素

使用append方法可以将元素添加到列表的尾部：

In [19]:
b_list.append('dwarf')

b_list

['foo', 'peekaboo', 'baz', 'dwarf']

使用insert方法可以将元素插入到指定的列表位置：

In [20]:
b_list.insert(1, 'red')

b_list

['foo', 'red', 'peekaboo', 'baz', 'dwarf']

插入位置的范围在0到列表长度之间。

insert与append相比，计算代价更高。因为子序列元素不得不在内部移动为新元素提供空间。如果想要在序列的头部和尾部都插入元素，那应该探索下`collections.deque`，它是一个双端队列，可以满足头尾部都增加的要求。

insert的反操作是pop，该操作会将特定位置的元素移除并返回：

In [21]:
b_list.pop(2)

b_list

['foo', 'red', 'baz', 'dwarf']

元素可以通过remove方法移除，该方法会定位`第一个符合要求`的值并移除它：

In [22]:
b_list.append('foo')
print(b_list)
b_list.remove('foo')
print(b_list)

['foo', 'red', 'baz', 'dwarf', 'foo']
['red', 'baz', 'dwarf', 'foo']


如果不考虑性能，通过使用append和remove，可以将Python的列表用作一种完全合适的“多集合”数据结构。

使用in关键字可以检查一个值是否在列表中：

In [23]:
'dwarf' in b_list

True

not关键字可以用作in的反义词，表示“不在”：

In [24]:
'dwarf' not in b_list

False

> 与字典、集合（后面会介绍）相比，检查列表中是否包含一个值是非常缓慢的。这是因为Python在列表中进行了线性逐个扫描，而在字典和集合中Python是同时检查所有元素的（基于哈希表）。

#### 3.1.2.2　连接和联合列表

与元组类似，两个列表可以使用`+`号连接：

In [25]:
[4, None, 'foo'] + [7, 8, (2, 3)]

[4, None, 'foo', 7, 8, (2, 3)]

如果有一个已经定义的列表，可以用extend方法向该列表添加多个元素：

In [26]:
x = [4, None, 'foo']
x.extend([7, 8, (2, 3)])
print(x)
# 注意两者的区别
x.append([7, 8, (2, 3)])
print(x)

[4, None, 'foo', 7, 8, (2, 3)]
[4, None, 'foo', 7, 8, (2, 3), [7, 8, (2, 3)]]


> 请注意通过添加内容来连接列表是一种相对高代价的操作，这是因为连接过程中创建了新列表，并且还要复制对象。使用extend将元素添加到已经存在的列表是更好的方式，尤其是在需要构建一个大型列表时：

In [27]:
import numpy as np 

In [28]:
%%timeit
list_of_lists = list(np.random.randint(65,high=122,size=1000))
everything = []
for chunk in list_of_lists:
    everything.extend(chr(chunk))

1000 loops, best of 3: 284 µs per loop


上述实现比下述实现更快：

In [29]:
%%timeit
list_of_lists = list(np.random.randint(65,high=122,size=1000))
everything = []
for chunk in list_of_lists:
    everything = everything + list(chr(chunk))

100 loops, best of 3: 2.02 ms per loop


#### 3.1.2.3　排序

可以调用列表的sort方法对列表进行内部排序（无须新建一个对象）：

In [30]:
a = [7, 2, 5, 1, 3]
a.sort()
print(a)

[1, 2, 3, 5, 7]


sort有一些选项偶尔会派上用场。其中一项是传递一个二级排序key——一个用于生成排序值的函数。例如，可以通过字符串的长度进行排序：

In [31]:
b = ['saw', 'small', 'He', 'foxes', 'six']
b.sort()
print(b)
b.sort(key=len)
print(b)

['He', 'foxes', 'saw', 'six', 'small']
['He', 'saw', 'six', 'foxes', 'small']


下面，讨论sorted方法，该方法可以针对通用序列产生一个排序后的拷贝。

#### 3.1.2.4　二分搜索和已排序列表的维护

内建的bisect模块实现了二分搜索和已排序列表的插值。`bisect.bisect`会找到元素应当被插入的位置，并保持序列排序，而`bisect.insort`将元素插入到相应位置：

In [32]:
import bisect
c = [1, 2, 2, 2, 3, 4, 7]
# 查找插入的位置
print(bisect.bisect(c, 2))
print(c)
print(bisect.bisect(c, 5))
print(c)
# 直接按排序插入相应的位置
bisect.insort(c, 6)
print(c)

4
[1, 2, 2, 2, 3, 4, 7]
6
[1, 2, 2, 2, 3, 4, 7]
[1, 2, 2, 2, 3, 4, 6, 7]


bisect模块的函数并不会检查列表是否已经排序，因为这么做代价太大。因此，对未排序列表使用bisect的函数虽然不会报错，但可能会导致不正确的结果。

#### 3.1.2.5　切片

使用切片符号可以对大多数序列类型选取其子集，它的基本形式是将start：stop传入到索引符号`[]`中：

In [33]:
seq = [7, 2, 3, 7, 5, 6, 0, 1]
seq[1:5]

[2, 3, 7, 5]

切片还可以将序列赋值给变量：

In [34]:
seq[3:4] = [5,5]
seq

[7, 2, 3, 5, 5, 5, 6, 0, 1]

由于起始位置start的索引是包含的，而结束位置stop的索引并不包含，因此元素的数量是stop-start。

start和stop是可以省略的，如果省略的话会默认传入序列的起始位置或结束位置：

In [35]:
seq[:5], seq[3:]

([7, 2, 3, 5, 5], [5, 5, 5, 6, 0, 1])

负索引可以从序列的尾部进行索引：

In [36]:
seq[-4:], seq[-6:-2]

([5, 6, 0, 1], [5, 5, 5, 6])

如果以前使用过R或MATLAB，切片语义则需要适应一下。

步进值step可以在第二个冒号后面使用，意思是每隔多少个数取一个值：

In [37]:
seq[::2]

[7, 3, 5, 6, 1]

当需要对列表或元组进行翻转时，一种很聪明的用法就是向步进传值-1：

In [38]:
seq[::-1], seq[5:0:-1], seq[5::-1]

([1, 0, 6, 5, 5, 5, 3, 2, 7], [5, 5, 5, 3, 2], [5, 5, 5, 3, 2, 7])

### 3.1.3　内建序列函数
Python有很多有用的序列函数，应当熟悉并择机使用。

#### 3.1.3.1　enumerate

经常需要在遍历一个序列的同时追踪当前元素的索引。一种自行实现的方法像下面的示例：
```python
i = 0
for value in collection:
   # 使用值做点事
   i += 1
```

由于这种场景很常见，所以Python内建了enumerate函数，返回了（i，value）元组的序列，其中value是元素的值，i是元素的索引：
```python
for i, value in enumerate(collection):
   # 使用值做点事
```

当需要对数据建立索引时，一种有效的模式就是使用enumerate构造一个字典，将序列值（假设是唯一的）映射到索引位置上：

In [39]:
some_list = ['foo', 'bar', 'baz']
mapping = {}
for i, v in enumerate(some_list):
    mapping[v] = i
    print(i, v, mapping)

0 foo {'foo': 0}
1 bar {'foo': 0, 'bar': 1}
2 baz {'foo': 0, 'bar': 1, 'baz': 2}


#### 3.1.3.2　sorted

sorted函数返回一个根据任意序列中的元素新建的已排序列表：

In [40]:
print(sorted([7, 1, 2, 6, 0, 3, 2]))

print(sorted('horse race'))

[0, 1, 2, 2, 3, 6, 7]
[' ', 'a', 'c', 'e', 'e', 'h', 'o', 'r', 'r', 's']


sorted函数接受的参数与列表的sort方法一致。

#### 3.1.3.3　zip

zip将列表、元组或其他序列的元素`配对`，新建一个元组构成的列表：

In [41]:
seq1 = ['foo', 'bar', 'baz']
seq2 = ['one', 'two', 'three']

zipped = zip(seq1, seq2)

list(zipped)

[('foo', 'one'), ('bar', 'two'), ('baz', 'three')]

> zip可以处理任意长度的序列，它生成列表长度由最短的序列决定：

In [42]:
seq3 = [False, True]

list(zip(seq1, seq2, seq3))
[('foo', 'one', False), ('bar', 'two', True)]

[('foo', 'one', False), ('bar', 'two', True)]

zip的常用场景为同时遍历多个序列，有时候会和enumerate同时使用：

In [43]:
for i, (a, b) in enumerate(zip(seq1, seq2)):
    print('{0}: {1}, {2}'.format(i, a, b))

0: foo, one
1: bar, two
2: baz, three


给定一个已“配对”的序列时，zip函数有一种机智的方式去“拆分”序列。这种方式的另一种思路就是将行的列表转换为列的列表。语法看上去略显魔幻：

In [44]:
pitchers = [('Nolan', 'Ryan'), ('Roger', 'Clemens'), ('Schilling', 'Curt')]
# 相当与是对原来的zipped对象去反操作
first_names, last_names = zip(*pitchers)

print(first_names)
print(last_names)

('Nolan', 'Roger', 'Schilling')
('Ryan', 'Clemens', 'Curt')


#### 3.1.3.4　reversed

reversed函数将序列的元素倒序排列：

In [45]:
list(reversed(range(10)))

[9, 8, 7, 6, 5, 4, 3, 2, 1, 0]

请牢记，reversed是一个生成器，因此如果没有实例化（例如使用list函数或进行for循环）的时候，它并不会产生一个倒序的列表。

### 3.1.4　字典
dict（字典）可能是Python内建数据结构中最重要的。它更为常用的名字是`哈希表`或者是`关联数组`。`字典`是拥有灵活尺寸的键值对集合，其中键和值都是Python对象。用大括号{}是创建字典的一种方式，在字典中用逗号将键值对分隔：

In [46]:
empty_dict = {}

d1 = {'a' : 'some value', 'b' : [1, 2, 3, 4]}
print(empty_dict, d1)

{} {'a': 'some value', 'b': [1, 2, 3, 4]}


可以访问、插入或设置字典中的元素，就像访问列表和元组中的元素一样：

In [47]:
d1[7] = 'an integer'

print(d1)
print(d1['b'])

{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer'}
[1, 2, 3, 4]


可以用检查列表或元组中是否含有一个元素的相同语法来检查字典是否含有一个键：

In [48]:
'b' in d1, 8 in d1

(True, False)

可以使用`del`关键字或`pop`方法删除值，`pop`方法会在删除的同时返回被删的值，并删除键：

In [49]:
d1[5] = 'some value'

print(d1)
d1['dummy'] = 'another value'
print(d1)
del d1[5]
print(d1)
ret = d1.pop('dummy')
print(ret)
print(d1)

{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer', 5: 'some value'}
{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer', 5: 'some value', 'dummy': 'another value'}
{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer', 'dummy': 'another value'}
another value
{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer'}


keys方法和values方法会分别为你提供字典键、值的迭代器。然而键值对并没有特定的顺序，这些函数输出的键、值都是按照相同的顺序：

In [50]:
list(d1.keys())

['a', 'b', 7]

In [51]:
list(d1.values())

['some value', [1, 2, 3, 4], 'an integer']

可以使用update方法将两个字典合并：

In [52]:
d1.update({'b' : 'foo', 'c' : 12})
d1

{7: 'an integer', 'a': 'some value', 'b': 'foo', 'c': 12}

update方法改变了字典中元素位置，因此对于任何原字典中已经存在的键，如果传给update方法的数据也含有相同的键，则它的值将会被覆盖。

#### 3.1.4.1　从序列生成字典

通常情况下，会有两个序列想要在字典中按元素配对。起初，可能会写出这样的代码：
```python
mapping = {}
for key, value in zip(key_list, value_list):
    mapping[key] = value
````

由于字典本质上是2-元组（含有2个元素的元组）的集合，字典是可以接受一个2-元组的列表作为参数的：
```python
mapping = dict(zip(key_list, value_list))
```

In [53]:
mapping = dict(zip(range(5), reversed(range(5))))

mapping

{0: 4, 1: 3, 2: 2, 3: 1, 4: 0}

#### 3.1.4.2　默认值

通常情况下，会有这样的代码逻辑：
```python
if key in some_dict:
    value = some_dict[key]
else:
    value = default_value
```
不过字典的get方法和pop方法可以返回一个默认值，因此上述的if-else代码块可以被简写为：
```python
value = some_dict.get(key, default_value)
```
带有默认值的get方法会在key参数不是字典的键时返回None，而pop会抛出异常。一个常见的场景是字典中的值集合通过设置，成为另一种集合，比如列表。举个例子，可以想象一下将字词组成的列表根据首字母分类为包含列表的字典：

In [54]:
words = ['apple', 'bat', 'bar', 'atom', 'book']
by_letter = {}

for word in words:
    letter = word[0]
    if letter not in by_letter:
        by_letter[letter] = [word]
    else:
        by_letter[letter].append(word)


by_letter

{'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']}

字典的setdefault方法就是为了这个目的而产生的。上述的for循环语句可以被写为：

In [55]:
by_letter = {}
for word in words:
    letter = word[0]
    by_letter.setdefault(letter, []).append(word)

by_letter

{'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']}

内建的集合模块有一个非常有用的类，defaultdict。这个类使得上述目的实现更为简单。想要生成符合要求的字典，你可以向字典中传入类型或能在各位置生成默认值的函数：

In [56]:
from collections import defaultdict
by_letter = defaultdict(list)
for word in words:
    by_letter[word[0]].append(word)
    print(by_letter)

defaultdict(<class 'list'>, {'a': ['apple']})
defaultdict(<class 'list'>, {'a': ['apple'], 'b': ['bat']})
defaultdict(<class 'list'>, {'a': ['apple'], 'b': ['bat', 'bar']})
defaultdict(<class 'list'>, {'a': ['apple', 'atom'], 'b': ['bat', 'bar']})
defaultdict(<class 'list'>, {'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']})


#### 3.1.4.3　有效的字典键类型

尽管字典的值可以是任何Python对象，但键必须是不可变的对象，比如标量类型（整数、浮点数、字符串）或元组（且元组内对象也必须是不可变对象）。这里要使用到一个术语叫作哈希化，通过hash函数可以检查一个对象是否可以哈希化（即是否可以用作字典的键）：

In [57]:
hash('string')

-6252222385833097043

In [58]:
hash((1, 2, (2, 3)))

1097636502276347782

In [59]:
hash((1, 2, [2, 3])) # 会因为列表是可变的失败

TypeError: unhashable type: 'list'

为了将列表作为键，一种方式就是将其转换为元组，而元组只要它内部元素都可以哈希化，则它自己也可哈希化：

In [60]:
d = {}

d[tuple([1, 2, 3])] = 5
print(d)

{(1, 2, 3): 5}


### 3.1.5　集合
集合是一种无序且元素唯一的容器。可以认为集合也像字典，但是只有键没有值。集合可以有两种创建方式：通过set函数或者是用字面值集与大括号的语法：

In [61]:
set([2, 2, 2, 1, 3, 3])

{1, 2, 3}

In [62]:
{2, 2, 2, 1, 3, 3}

{1, 2, 3}

集合支持数学上的集合操作，例如联合、交集、差集、对称差集。考虑以下示例集合：

In [63]:
a = {1, 2, 3, 4, 5}
b = {3, 4, 5, 6, 7, 8}

两个集合的联合就是两个集合中不同元素的并集。可以通过`union`方法或`|`二元操作符完成：

In [64]:
a.union(b)

{1, 2, 3, 4, 5, 6, 7, 8}

In [65]:
a | b

{1, 2, 3, 4, 5, 6, 7, 8}

交集包含了两个集合中同时包含的元素。可以使用`&`操作符或`intersection`方法获得交集：

In [66]:
print(a.intersection(b))

print(a & b)

{3, 4, 5}
{3, 4, 5}


下表是常用的集合方法列表。
  
|                函数                 | 替代方法 |                     描述                     |
| ----------------------------------- | ------- | -------------------------------------------- |
| a.add(x)                            | N/A     | 将元素x加入集合a                               |
| a.clear()                           | N/A     | 将集合重置为空，清空所有元素                     |
| a.remove(x)                         | N/A     | 从集合a移除某个元素                            |
| a. pop()                            | N/A     | 移除任意元素,如果集合是空的抛出KeyError          |
| a.union(b)                          | a       | b                                            |
| a.update(b)                         | a       | =b                                           |
| a.intersection(b)                  | a&b     | a、b中同时包含的元素                           |
| a.intersection_update(b)           | a&=b    | 将a的内容设置为a和b的交集                       |
| a.difference(b)                     | a-b     | 在a不在b的元素                                 |
| a.difference_update(b)             | a-=b    | 将a的内容设为在a不在b的元素                     |
| a.symmetric_difference(b)          | a^b     | 所有在a或b中,但不是同时在a、b中的元素            |
| a.symmetric\_difference\_update(b) | a^=b    | 将a的内容设为所有在a或b中,但不是同时在a、b中的元素 |
| a.issubset(b)                       | N/A     | 如果a包含于b返回True                           |
| a.issuperset(b)                     | N/A     | 如果a包含b返回True                            |
| a.isdisjoint(b)                     | N/A     | a、b没有交集返回True                           |


所有的逻辑集合运算都有对应操作，允许用操作的结果替代操作左边的集合内容。对于大型集合，下面的代码效率更高：

In [67]:
c = a.copy()
c |= b
print(c)
d = a.copy()
d &= b
print(d)

{1, 2, 3, 4, 5, 6, 7, 8}
{3, 4, 5}


和字典类似，集合的元素必须是不可变的。如果想要包含列表型的元素，必须先转换为元组：

In [68]:
my_data = [1, 2, 3, 4]
# my_set = {my_data}
my_set = {tuple(my_data)}
my_set

{(1, 2, 3, 4)}

还可以检查一个集合是否是另一个结合的子集（包含于）或超集（包含）：

In [69]:
a_set = {1, 2, 3, 4, 5}
print({1, 2, 3}.issubset(a_set))
print(a_set.issuperset({1, 2, 3, 6}))

True
False


当且仅当两个集合的内容一模一样时，两个集合才相等：

In [70]:
{1, 2, 3} == {3, 2, 1}

True

### 3.1.6　列表、集合和字典的推导式
列表推导式是最受欢迎的Python语言特性之一。它允许你过滤一个容器的元素，用一种简明的表达式转换传递给过滤器的元素，从而生成一个新的列表。列表推导式的基本形式为：
```
[expr for val in collection if condition]
```
这与下面的for循环是等价的：
```python
result = []
for val in collection:
    if condition:
        result.append(expr)
```
过滤条件是可以忽略的，只保留表达式。例如，给定一个字符串列表，我们可以过滤出长度大于2的，并且将字母改为大写：

In [71]:
strings = ['a', 'as', 'bat', 'car', 'dove', 'python']
[x.upper() for x in strings if len(x) > 2]

['BAT', 'CAR', 'DOVE', 'PYTHON']

集合与字典的推导式是列表推导式的自然拓展，用相似的方式生成集合与字典。字典推导式如下所示：
```python
dict_comp = {key-expr : value-expr for value in collection
             if condition}
```
集合推导式看起来很像列表推导式，只是中括号变成了大括号：
```python
set_comp = {expr for value in collection if condition}
```
和列表推导式类似，集合、字典的推导式非常方便，它们使代码更易读易写。如果有一个字符串的列表，假设想要一个集合，集合里包含列表中字符串的长度，我可以通过集合推导式很方便地实现：

In [72]:
unique_lengths = {len(x) for x in strings}

unique_lengths

{1, 2, 3, 4, 6}

也可以使用map函数更函数化、更简洁地表达：
```
set(map(len, strings))
```
创建一个将字符串与其位置相匹配的字典作为字典推导式的简单示例：

In [73]:
loc_mapping = {val : index for index, val in enumerate(strings)}
loc_mapping

{'a': 0, 'as': 1, 'bat': 2, 'car': 3, 'dove': 4, 'python': 5}

#### 3.1.6.1　嵌套列表推导式

假设有一个包含列表的列表，内容是英语姓名和西班牙语姓名：

In [74]:
all_data = [['John', 'Emily', 'Michael', 'Mary', 'Steven'],
            ['Maria', 'Juan', 'Javier', 'Natalia', 'Pilar']]

已经忘了这些名字来自哪些文件，但想要根据语言来组织这些名字。现在再假设想要获得一个列表包含所有含有2个以上字母e的名字，当然可以简单地使用for循环：

In [75]:
names_of_interest = []
for names in all_data:
    enough_es = [name for name in names if name.count('e') >= 2]
    names_of_interest.extend(enough_es)
print(names_of_interest)

['Steven']


实际上，可以将整个操作用一个嵌套列表推导式来完成，如下：

In [76]:
result = [name for names in all_data for name in names
          if name.count('e') >= 2]
print(result)

['Steven']


首先，嵌套列表推导式可能（不熟练理解的就不是可能了）会让人有点晕头转向。列表推导式的for循环部分是根据嵌套的顺序排列的，所有的过滤条件像之前一样被放在尾部。下面的例子是将含有整数元组的列表扁平化为一个简单的整数列表：

In [77]:
some_tuples = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]
# 从右往左推导理解
flattened = [num for tup_nums in some_tuples for num in tup_nums]
flattened

[1, 2, 3, 4, 5, 6, 7, 8, 9]

请牢记for表达式的顺序应当和你写嵌套for循环来替代列表推导式的顺序一致：

In [78]:
flattened = []

for tup in some_tuples:
    for x in tup:
        flattened.append(x)

print(flattened)

[1, 2, 3, 4, 5, 6, 7, 8, 9]


可以嵌套多层的列表推导式，但超过两到三层之后很可能开始疑惑这种做法是否会有利于代码可读性。嵌套推导式的语法要和列表推导式中的列表推导式区分开，列表推导式中的列表推导式也是非常有效的：

In [79]:
[[x for x in tup] for tup in some_tuples]

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]

上面的代码创建了一个包含列表的列表，而不是所有内部元素扁平排列。

## 3.2　函数
函数是Python中最重要、最基础的代码组织和代码复用方式。根据经验，如果需要多次重复相同或类似的代码，就非常值得写一个可复用的函数。通过给一组Python语句一个函数名，形成的函数可以使你的代码更加可读。

函数声明时使用def关键字，返回时使用return关键字：

In [80]:
def my_function(x, y, z=1.5):
    if z > 1:
        return z * (x + y)
    else:
        return z / (x + y)

有多条返回语句是没有问题的。如果Python达到函数的尾部时仍然没有遇到return语句，就会自动返回None。

每个函数都可以有位置参数和关键字参数。关键字参数最常用于指定默认值或可选参数。在前面的函数中，x和y是位置参数，z是关键字参数。这意味着函数可以通过以下任意一种方式进行调用：

In [81]:
print(my_function(5, 6, z=0.7))
print(my_function(3.14, 7, 3.5))
print(my_function(10, 20))

0.06363636363636363
35.49
45.0


函数参数的主要限制是关键字参数必须跟在位置参数（如果有的话）后。可以按照任意顺序指定关键字参数，这可以不必强行记住函数参数的顺序，而只需用参数名指定。

也可以使用关键字参数向位置参数传参。在前面的例子中，我们也可以这样写：

In [82]:
print(my_function(x=5, y=6, z=7))
print(my_function(y=6, x=5, z=7))

77
77


在部分场景中，这样做有助于代码可读性。

### 3.2.1　命名空间、作用域和本地函数
函数有两种连接变量的方式：全局、本地。在Python中另一种更贴切地描述变量作用域的名称是命名空间。在函数内部，任意变量都是默认分配到本地命名空间的。本地命名空间是在函数被调用时生成的，并立即由函数的参数填充。当函数执行结束后，本地命名空间就会被销毁（除了一些本章范围外的特殊情况）。考虑以下函数：

In [83]:
def func():
    a_test = []
    for i in range(8):
        a_test.append(i) 
func()
print(a_test, type(a_test))

NameError: name 'a_test' is not defined

当调用func（）时，空的列表a会被创建，五个元素被添加到列表，之后a会在函数退出时被销毁。假设像下面这样声明a：

In [84]:
a = []
def func():
    for i in range(5):
        a.append(i)
func()
print(a, type(a))

[0, 1, 2, 3, 4] <class 'list'>


在函数外部给变量赋值是可以的，但是那些变量必须使用global关键字声明为全局变量：

In [85]:
a = None

def bind_a_variable():     
    global a
    a = []
    
bind_a_variable()    
print(a)

[]


> 通常全局变量用来存储系统中的某些状态。如果发现大量使用了全局变量，可能表明需要面向对象编程（使用类）。

### 3.2.2　返回多个值
使用Python编程时最喜欢的特性就是使用简单语法就可以从函数中返回多个值，代码如下：

In [86]:
def f():
    a = 5
    b = 6
    c = 7
    return a, b, c

a, b, c = f()
print(a, c, b)

5 7 6


在数据分析和其他科研应用中，可能经常需要返回多个值。这里实质上是返回了一个对象，也就是元组，而元组之后又被拆包为多个结果变量。在前面的例子中，可以用下面的代码代替：

In [87]:
return_value = f()
print(return_value)

(5, 6, 7)


在这个例子中，return_value是一个包含3个元素的元组。像之前那样一次返回多个值还有一种潜在的、更有吸引力的实现：

In [88]:
def f():
    a = 5
    b = 6
    c = 7
    return {'a' : a, 'b' : b, 'c' : c}
print(f())

{'a': 5, 'b': 6, 'c': 7}


### 3.2.3　函数是对象
由于Python的函数是对象，很多在其他语言中比较难的构造在Python中非常容易实现。假设正在做数据清洗，需要将一些变形应用到下列字符串列表中：

In [89]:
states = ['   Alabama ', 'Georgia!', 'Georgia', 'georgia', 'FlOrIda',
          'south   carolina##', 'West virginia?']

任何处理过用户提交数据的人都对这样的数据感到凌乱。为了使这些数据整齐、可用于分析，有很是事情需要做：去除空格，移除标点符号，调整适当的大小写。一种方式是使用内建的字符串方法，结合标准库中的正则表达式模块re：

In [90]:
import re

def clean_strings(strings):
    result = []
    for value in strings:
        value = value.strip()
        value = re.sub('[!#?]', '', value)
        value = value.title()
        result.append(value)
    return result

clean_strings(states)

['Alabama',
 'Georgia',
 'Georgia',
 'Georgia',
 'Florida',
 'South   Carolina',
 'West Virginia']

另一种有用的实现就是将特定的列表操作应用到某个字符串的集合上：

In [91]:
def remove_punctuation(value):
    return re.sub('[!#?]', '', value)

clean_ops = [str.strip, remove_punctuation, str.title]

def clean_strings(strings, ops):
    result = []
    for value in strings:
        for function in ops:
            value = function(value)
        result.append(value)
    return result

clean_strings(states, clean_ops)

['Alabama',
 'Georgia',
 'Georgia',
 'Georgia',
 'Florida',
 'South   Carolina',
 'West Virginia']

像这种更为函数化的模式可以在更高层次上方便地修改字符串变换方法。clean_strings函数现在也具有更强的复用性和通用性。

可以将函数作为一个参数传给其他的函数，比如内建的map函数，可以将一个函数应用到一个序列上：

In [92]:
for x in map(remove_punctuation, states):
    print(x)

   Alabama 
Georgia
Georgia
georgia
FlOrIda
south   carolina
West virginia


### 3.2.4　匿名（Lambda）函数
Python支持所谓的匿名或lambda函数。`匿名函数`是一种通过单个语句生成函数的方式，其结果是返回值。匿名函数使用lambda关键字定义，该关键字仅表达“声明一个匿名函数”的意思：

In [93]:
def short_function(x):
    return x * 2

equiv_anon = lambda x: x * 2

将会看到，匿名函数在数据分析中非常方便，因为在很多案例中数据变形函数都可以作为函数的参数。匿名函数代码量小（也更为清晰），将它作为参数进行传值，比写一个完整的函数或者将匿名函数赋值给局部变量更好。举个例子，考虑下面的不佳示例：

In [94]:
def apply_to_list(some_list, f):
    return [f(x) for x in some_list]

ints = [4, 0, 1, 5, 6]
apply_to_list(ints, lambda x: x * 2)

[8, 0, 2, 10, 12]

也可以写成`[x*2 for x in ints]`，但是在这里能够简单地将一个自定义操作符传递给apply_to_list函数。

另一个例子，假设想要根据字符串中不同字母的数量对一个字符串集合进行排序，这里可以将一个匿名函数传给列表的sort方法：

In [95]:
strings = ['foo', 'card', 'bar', 'aaaa', 'abab']
strings.sort(key=lambda x: len(set(list(x))), reverse=True)
strings

['card', 'bar', 'foo', 'abab', 'aaaa']

> 和def关键字声明的函数不同，匿名函数对象自身并没有一个显式的`__name__`属性，这是lambda函数被称为匿名函数的一个原因。

### 3.2.5　柯里化：部分参数应用
柯里化是计算机科学术语（以数学家Haskell Curry命名），它表示通过部分参数应用的方式从已有的函数中衍生出新的函数。例如，假设我们有一个不重要的函数，其功能是将两个数加一起：

In [96]:
def add_numbers(x, y):
    return x + y

使用这个函数，我们可以衍生出一个只有一个变量的新函数，add_five，可以给参数加上5：

In [97]:
add_five = lambda y: add_numbers(5, y)

第二个参数对于函数add_numers就是柯里化了。真正做的事只是定义了一个新函数，这个新函数调用了已经存在的函数。内建的functools模块可以使用pratial函数简化这种处理：

In [98]:
from functools import partial
add_five = partial(add_numbers, 5)
print(add_five(8))

13


### 3.2.6　生成器
通过一致的方式遍历序列，例如列表中的对象或者文件中的一行行内容，这是Python的一个重要特性。这个特性是通过迭代器协议来实现的，迭代器协议是一种令对象可遍历的通用方式。例如，遍历一个字典，获得字典的键：

In [99]:
some_dict = {'a': 1, 'b': 2, 'c': 3}

for key  in some_dict:
    print(key, end=', ')

a, b, c, 

当写下`for key in some_dict`的语句时，Python解释器首先尝试根据some_dict生成一个迭代器：

In [100]:
dict_iterator = iter(some_dict)

dict_iterator

<dict_keyiterator at 0x7f888b1604f8>

迭代器就是一种用于在上下文中（比如for循环）向Python解释器生成对象的对象。大部分以列表或列表型对象为参数的方法都可以接收任意的迭代器对象。包括内建方法比如min、max和sum，以及类型构造函数比如list和tuple：

In [101]:
print(list(dict_iterator))

['a', 'b', 'c']


生成器是构造新的可遍历对象的一种非常简洁的方式。普通函数执行并一次返回单个结果，而生成器则“惰性”地返回一个多结果序列，在每一个元素产生之后暂停，直到下一个请求。如需创建一个生成器，只需要在函数中将返回关键字return替换为yield关键字：

In [102]:
def squares(n=10):
    print('Generating squares from 1 to {0}'.format(n ** 2))
    for i in range(1, n + 1):
        # yield将函数的返回值变成一个生成器
        yield i ** 2

当实际调用生成器时，代码并不会立即执行：

In [103]:
gen = squares()
gen

<generator object squares at 0x7f888b178b48>

直到请求生成器中的元素时，它才会执行它的代码(可以节约内存)：

In [104]:
for x in gen:
    print(x, end=' ')

Generating squares from 1 to 100
1 4 9 16 25 36 49 64 81 100 

#### 3.2.6.1　生成器表达式

用生成器表达式来创建生成器更为简单。生成器表达式与列表、字典、集合的推导式很类似，创建一个生成器表达式，**只需要将列表推导式的中括号替换为小括号**即可：

In [105]:
gen = (x ** 2 for x in range(100))

gen

<generator object <genexpr> at 0x7f888b178eb8>

上面的代码与下面更为复杂的生成器是等价的：

In [106]:
def _make_gen():
    for x in range(100):
        yield x ** 2
gen = _make_gen()

在很多情况下，生成器表达式可以作为函数参数用于替代列表推导式：

In [107]:
print(sum(x ** 2 for x in range(100)))

print(dict((i, i **2) for i in range(5)))

328350
{0: 0, 1: 1, 2: 4, 3: 9, 4: 16}


#### 3.2.6.2　itertools模块

标准库中的itertools模块是适用于大多数数据算法的生成器集合。例如，groupby可以根据任意的序列和一个函数，通过函数的返回值对序列中连续的元素进行分组，参见下面的例子：

In [108]:
import itertools
first_letter = lambda x: x[0]
names = ['Alan', 'Adam', 'Wes', 'Will', 'Albert', 'Steven']
for letter, names in itertools.groupby(names, first_letter):
    print(letter, list(names)) # names is a generator

A ['Alan', 'Adam']
W ['Wes', 'Will']
A ['Albert']
S ['Steven']


下表是一些经常用到的itertools函数的列表。也可以通过查询Python官方文档来获得更多关于内建工具库的信息。


| 函数                            | 描述                                                                                                                               |
| -                               | -                                                                                                                                 |
| combinations(iterable, k)      | 根据 iterable参数中的所有元素生成一个包含所有可能K-元组的序列,忽略元素的顺序,也不进行替代（需要替代请参考函数 combinations\_with\_replacement） |
| permutations(iterable, k)      | 根据 iterable参数中的所有元素按顺序生成包含所有可能K元组的序列                                                                            |
| groupby(iterable\[, keyfunc\]) | 根据每一个独一的key生成(key,sub-iterator)元组                                                                                        |
| product(*iterables, repeat=1)  | 以元组的形式,根据输入的可遍历对象生成笛卡尔积,与嵌套的for循环类似                                                                          |
  

### 3.2.7　错误和异常处理
优雅地处理Python的错误或异常是构建稳定程序的重要组成部分。在数据分析应用中，很多函数只能处理特定的输入。例如，Python的float函数可以将字符串转换为浮点数字，但是对不正确的输入会产生ValueError：

In [109]:
float('1.2345')

1.2345

In [110]:
float('something')

ValueError: could not convert string to float: 'something'

假设想要在float函数运行失败时可以优雅地返回输入参数。可以通过将float函数写入一个try/except代码段来实现：

In [111]:
def attempt_float(x):
    try:
        return float(x)
    except:
        return f"Error:{x}"

如果float（x）执行时抛出了异常，则代码段中的except部分代码将会被执行：

In [112]:
attempt_float('1.2345')

1.2345

In [113]:
attempt_float('something')

'Error:something'

除了ValueError，float函数还会抛出其他的异常：

In [114]:
float((1, 2))

TypeError: float() argument must be a string or a number, not 'tuple'

只想处理ValueError，因为TypeError（输入的不是字符串或数值）可能表明程序中有个合乎语法的错误。为了实现这个目的，在except后面写下异常类型：

In [115]:
def attempt_float(x):
    try:
        return float(x)
    except ValueError:
        return x

In [116]:
attempt_float((1, 2))

TypeError: float() argument must be a string or a number, not 'tuple'

可以通过将多个异常类型写成元组的方式同时捕获多个异常（小括号是必不可少的）：

In [117]:
def attempt_float(x):
    try:
        return float(x)
    except (TypeError, ValueError):
        return x
        

某些情况下，可能想要处理一个异常，但是希望一部分代码无论try代码块是否报错都要执行。为了实现这个目的，使用finally关键字：

In [118]:
path = 'SomePath'
f = open(path, 'w')
try:
    f.write('Some Content!')
finally:
    f.close()

这样，可以让f在程序结束后总是关闭。类似地，可以使用else来执行当try代码块成功执行时才会执行的代码：

In [119]:
f = open(path, 'w')
try:
    f.write('Some Content!')
except:
    print('Failed')
else:
    print('Succeeded')
finally:
    f.close()

Succeeded


#### 3.2.7.1　IPython中的异常

如果正在用`%run`执行一个脚本或执行任何语句时报错，IPython将会默认打印出完整的调用堆栈跟踪（报错追溯），会将堆栈中每个错误点附近的几行上下文代码打印出：

In [120]:
%run examples/ipython_bug.py

ERROR:root:File `'examples/ipython_bug.py'` not found.


比标准Python解释器提供更多额外的上下文是IPython的一大进步（标准Python解释器不提供任何额外的上下文）。可以使用`%xmode`命令来控制上下文的数量，可以从Plain（普通）模式（与标准Python解释器一致）切换到Verbose（复杂）模式（可以显示函数的参数值以及更多有用信息）。后面将看到如何在错误发生后进入异常堆栈（使用`%debug`或`%pdb`命令）进行交互式事后调试。

## 3.3　文件与操作系统
后文大部分内容使用了像pandas.read_csv这类的高级工具来从硬盘中将数据文件读取为Python数据结构。但是，理解如何在Python中处理文件的基础知识也是很重要的。Python中处理文件非常简单，这也是Python能够在文本和文件处理领域如此流行的原因。

打开文件进行读取或写入，需要使用内建函数open和绝对、相对路径：

In [121]:
path = 'examples/segismundo.txt'
f = open(path)
# f.close()

默认情况下，文件是以只读模式'r'打开的。之后可以像处理列表一样处理文件f，并遍历f中的行内容，代码如下：

In [122]:
for line in f:
    print(line)

Contents 内容 in segismundo.txt.

For Example.

中文。


行内容会在行结尾标识（EOL）完整的情况下从文件中全部读出，所以会经常看到一些代码，功能是将文件中的内容形成不带EOL的列表：

In [123]:
lines = [x.rstrip() for x in open(path)]
lines

['Contents 内容 in segismundo.txt.', 'For Example.', '中文。']

当使用open来创建文件对象时，在结束操作时显式地关闭文件是非常重要的。关闭文件会将资源释放回操作系统：

In [124]:
f.close()

另一种更简单的关闭文件的方式就是使用with语句：

In [125]:
with open(path) as f:
    lines = [x.rstrip() for x in f]
print(lines)

['Contents 内容 in segismundo.txt.', 'For Example.', '中文。']


使用with语句，文件会在with代码块结束后自动关闭。

如果写下`f=open(path，'w')`，一个新的文件会在examples/segismundo.txt的位置**被创建（请小心！）**，并在同一路径下覆盖同名文件。还有一种'x'文件模式，它会创建可写的文件，但如果给定路径下已经存在同名文件就会创建失败。

| 模式 |                                                   描述                                                   |
| --- | ------------------------------------------------------------------------------------------------------- |
| r    | 只读模式                                                                                                 |
| w    | 只写模式,创建新文件(清除路径下的同名文件中的数据)                                                              |
| x    | 只写模式,创建新文件,但存在同名路径时会创建失败                                                                |
| a    | 添加到已经存在的文件(如果不存在就创建)                                                                       |
| r+   | 读写模式                                                                                                 |
| b    | 二进制文件的模式,添加到别的模式中(比如'rb'或'wb')                                                            |
| t    | 文件的文本模式(自动将字节解码为 Unicode)。 <br>如果没有指明模式,默认使用此模式,可以添加到别的模式中(例如'rt'或'xt') |


对于可读文件，最常用的方法是`read`、`seek`和`tell`。`read`返回文件中一定量的字符，构成字符的内容是由文件的编码决定的（例如UTF-8），或者在二进制模式下打开文件读取简单的原生字节：

In [126]:
f = open(path)

f.read(10)

'Contents 内'

read方法通过读取的字节数来推进文件句柄的位置。`tell`方法可以给出句柄当前的位置：

In [127]:
# 如果前10个字符中含有中文的话，这里将定位到20
f.tell()

12

尽管从文件中读取了10个字符，但是当前的句柄位置是11，这是因为使用默认编码的情况下需要这么多字节来对10个字符进行解码。可以用sys模块来检查文件的默认编码：

In [128]:
import sys

sys.getdefaultencoding()

'utf-8'

seek方法可以将句柄位置改变到文件中特定的字节：

In [129]:
f.seek(41)
f.read(1)

'a'

之后，请牢记关闭文件：

In [130]:
f.close()

为了写入文件，可以使用文件对象的write或wirtelines方法。例如，可以创建一个没有空行的prof_mod.py，像这样：

In [131]:
with open('examples/tmp.txt', 'w') as handle:
    handle.writelines(x for x in open(path) if len(x) > 1)

with open('examples/tmp.txt') as f:
    lines = f.readlines()

print(lines)

['Contents 内容 in segismundo.txt.\n', 'For Example.\n', '中文。']


下表是一些常用的文件方法。


|        函数         |                       描述                       |
| ------------------- | ------------------------------------------------ |
| read(\[size\])      | 将文件数据作为字符串返回,可选参数size控制读取的字节数 |
| readlines(\[size\]) | 返回文件中行内容的列表,size参数可选                 |
| write(str)          | 将字符串写入文件                                  |
| writelines(strings) | 将字符串序列写入文件                               |
| close()             | 关闭文件                                          |
| flush()             | 将内部IO缓冲器内容刷新到硬盘                        |
| seek(pos)           | 移动到指定的位置(整数)                             |
| tell()              | 返回当前的文件位置,返回值是整数                     |
| closed              | 如果文件已关闭,则为True                            |

### 3.3.1　字节与Unicode文件
默认的Python文件行为（无论是可读或可写）是文本模式，这意味着需要处理Python字符串（比如Unicode）。与二进制模式不同，在二进制模式中可以将b添加到文件模式中，然后进行读写。来看下上一节中的文件（包含了UTF-8编码的非ASCⅡ字符）：

In [132]:
with open(path) as f:
    chars = f.read(20)

chars

'Contents 内容 in segis'

结果是一种可变长度的Unicode编码，因此当从文件中请求一定量的字符时，Python从文件中读取了足够的字节（可以少至10个字节，也可以多至40个字节），并进行了解码。如果使用'rb'模式代替，则read请求提取了一定量的字节：

In [133]:
with open(path, 'rb') as f:
    data = f.read(20)

data

b'Contents \xe5\x86\x85\xe5\xae\xb9 in s'

根据文本编码，可能会将字节解码为str对象，但是只有每个已编码的Unicode字符是完整的情况下，才能进行解码：

In [134]:
data.decode('utf-8')

'Contents 内容 in s'

文本模式下，利用open方法的选项参数encoding，Python提供了一种方便的方法将文件内容从Unicode编码转换为其他类型的编码：

In [135]:
sink_path = 'examples/sink.txt'

with open(path) as source:
    with open(sink_path, 'xt', encoding='GBK') as sink:
        sink.write(source.read())

with open(sink_path, encoding='GBK') as f:
    print(f.read(10))
   

Contents 内


除了二进制模式，在打开文件时使用seek要当心。如果文件的句柄位置恰好在一个Unicode符号的字节中间时，后续的读取会导致错误：

In [136]:
f = open(path, 'rb')

f.read(10)

# f.close()

b'Contents \xe5'

In [137]:
f.close()
print(f.closed)

True


> 如果经常需要在非ASCⅡ文本数据上进行数据分析，那么精通Python的Unicode功能是很有必要的。参见Python官方文档（https://docs.python.org/ ）可以了解更多相关信息