本章讨论Python的内置功能，我们会从Python最基础的数据结构开始：元组、列表、字典和集合。然后会讨论创建你自己的、可重复使用的Python函数。最后，会学习Python的文件对象，以及如何与本地硬盘交互。

# 3.1 数据结构和序列

## 元组

元组是一个固定长度，不可改变的Python序列对象。创建元组的最简单方式，是用逗号分隔一列值：

In [3]:
tup = (4, 5, 6)
tup

(4, 5, 6)

In [5]:
nested_tup = ((4, 5, 6),(7, 8))
nested_tup

((4, 5, 6), (7, 8))

用tuple可以将任意序列或迭代器转换成元组：

In [6]:
tuple([4, 0, 2])

(4, 0, 2)

In [8]:
tup = tuple('string')
tup

('s', 't', 'r', 'i', 'n', 'g')

可以用方括号访问元组中的元素。和C、C++、JAVA等语言一样，序列是从0开始的：

In [9]:
tup[1]

't'

一旦创建了元组，元组中的对象就不能修改了.

In [10]:
tup = tuple(['foo', [1, 2], True])

tup[1].append(3)

tup

('foo', [1, 2, 3], True)

可以用加号运算符将元组串联起来：

In [11]:
(4, None, 'foo') + (6, 0) + ('bar',)

(4, None, 'foo', 6, 0, 'bar')

元组乘以一个整数，像列表一样，会将几个元组的复制串联起来：

In [12]:
('foo', 'bar') * 4

('foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'bar')

### 拆分元组
如果你想将元组赋值给类似元组的变量，Python会试图拆分等号右边的值：

In [13]:
tup = (4, 5, 6)
a, b, c = tup
b

5

即使含有元组的元组也会被拆分：

In [15]:
tup = (4, 5, (6, 7))
a, b, (c, d) = tup

d

7

使用这个功能，你可以很容易地替换变量的名字，其它语言可能是这样：

In [None]:
tmp = a
a = b
b = tmp

但是在Python中，替换可以这样做：

In [17]:
a, b = 1, 2
b, a = a, b
a

2

变量拆分常用来迭代元组或列表序列：

In [18]:
seq = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]
for a, b, c in seq:
    print('a={0}, b={1}, c={2}'.format(a, b, c))

a=1, b=2, c=3
a=4, b=5, c=6
a=7, b=8, c=9


Python最近新增了更多高级的元组拆分功能，允许从元组的开头“摘取”几个元素。它使用了特殊的语法*rest，这也用在函数签名中以抓取任意长度列表的位置参数：

In [19]:
values = (1, 2, 3, 4, 5)

a, b, *rest = values

a

1

In [20]:
a,b

(1, 2)

In [21]:
rest

[3, 4, 5]

rest的部分是想要舍弃的部分，rest的名字不重要。作为惯用写法，许多Python程序员会将不需要的变量使用下划线：

In [25]:
a, b, *_ = values
a,b

(1, 2)

### tuple方法
因为元组的大小和内容不能修改，它的实例方法都很轻量。其中一个很有用的就是count（也适用于列表），它可以统计某个值得出现频率：

In [26]:
a = (1, 2, 2, 2, 3, 4, 2)

a.count(2)

4

## 列表
与元组对比，列表的长度可变、内容可以被修改。你可以用方括号定义，或用list函数：

In [27]:
a_list = [2, 3, 7, None]

tup = ('foo', 'bar', 'baz')

b_list = list(tup)

b_list

['foo', 'bar', 'baz']

In [28]:
b_list[1] = 'peekaboo'

b_list

['foo', 'peekaboo', 'baz']

list函数常用来在数据处理中实体化迭代器或生成器：

In [29]:
gen = range(10)

list(gen)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

### 添加和删除元素
可以用append在列表末尾添加元素：

In [30]:
b_list.append('dwarf')

b_list

['foo', 'peekaboo', 'baz', 'dwarf']

insert可以在特定的位置插入元素：

In [31]:
b_list.insert(1, 'red')

b_list

['foo', 'red', 'peekaboo', 'baz', 'dwarf']

>警告：与append相比，insert耗费的计算量大，因为对后续元素的引用必须在内部迁移，以便为新元素提供空间。如果要在序列的头部和尾部插入元素，你可能需要使用collections.deque，一个双尾部队列。

insert的逆运算是pop，它移除并返回指定位置的元素：

In [32]:
b_list.pop(2)

'peekaboo'

In [33]:
b_list

['foo', 'red', 'baz', 'dwarf']

可以用remove去除某个值，remove会先寻找第一个值并除去：

In [34]:
b_list.append('foo')

b_list

['foo', 'red', 'baz', 'dwarf', 'foo']

In [35]:
b_list.remove('foo')

b_list

['red', 'baz', 'dwarf', 'foo']

用in可以检查列表是否包含某个值：

In [36]:
'dwarf' in b_list

True

否定in可以再加一个not：

In [37]:
'dwarf' not in b_list

False

### 串联和组合列表
与元组类似，可以用加号将两个列表串联起来：

In [38]:
[4, None, 'foo'] + [7, 8, (2, 3)]

[4, None, 'foo', 7, 8, (2, 3)]

如果已经定义了一个列表，用extend方法可以追加多个元素：

In [39]:
x = [4, None, 'foo']

x.extend([7, 8, (2,3)])

x

[4, None, 'foo', 7, 8, (2, 3)]

通过加法将列表串联的计算量较大，因为要新建一个列表，并且要复制对象。用extend追加元素，尤其是到一个大列表中，更为可取。因此：

In [None]:
everything = []
for chunk in list_of_lists:
    everything.extend(chunk)

要比串联方法快：

In [None]:
everything = []
for chunk in list_of_lists:
    everything = everything + chunk

### 排序
你可以用sort函数将一个列表原地排序（不创建新的对象）：

In [41]:
a = [7, 2, 5, 1, 3]

a.sort()

a

[1, 2, 3, 5, 7]

sort有一些选项，有时会很好用。其中之一是二级排序key，可以用这个key进行排序。例如，我们可以按长度对字符串进行排序：

In [42]:
b = ['saw', 'small', 'He', 'foxes', 'six']

b.sort(key=len)

b

['He', 'saw', 'six', 'small', 'foxes']

### 二分搜索和维护已排序的列表
bisect模块支持二分查找，和向已排序的列表插入值。bisect.bisect可以找到插入值后仍保证排序的位置，bisect.insort是向这个位置插入值：

In [44]:
import bisect

c = [1, 2, 2, 2, 3, 4, 7]

bisect.bisect(c,2)

4

In [45]:
c

[1, 2, 2, 2, 3, 4, 7]

In [46]:
bisect.bisect(c,5)

6

In [48]:
bisect.insort(c,6)

c

[1, 2, 2, 2, 3, 4, 6, 6, 7]

>注意：bisect模块不会检查列表是否已排好序，进行检查的话会耗费大量计算。因此，对未排序的列表使用bisect不会产生错误，但结果不一定正确。

### 切片
用切片可以选取大多数序列类型的一部分，切片的基本形式是在方括号中使用start:stop

In [49]:
seq = [7, 2, 3, 7, 5, 6, 0, 1]

seq[1:5]

[2, 3, 7, 5]

切片也可以被序列赋值：

In [50]:
seq[3:4] = [6, 3]

seq

[7, 2, 3, 6, 3, 5, 6, 0, 1]

切片的起始元素是包括的，不包含结束元素。

In [51]:
seq[:5]

[7, 2, 3, 6, 3]

In [52]:
seq[3:]

[6, 3, 5, 6, 0, 1]

负数表明从后向前切片：

In [53]:
seq[-4:]

[5, 6, 0, 1]

In [54]:
seq[-6:-2]

[6, 3, 5, 6]

在第二个冒号后面使用step，可以隔一个取一个元素：

一个聪明的方法是使用-1，它可以将列表或元组颠倒过来：

In [56]:
seq[::-1]

[1, 0, 6, 5, 3, 6, 3, 2, 7]

### 序列函数
Python有一些有用的序列函数。
### enumerate函数
迭代一个序列时，你可能想跟踪当前项的序号。Python内建了一个enumerate函数，可以返回(i, value)元组序列：

In [None]:
for i, value in enumerate(collection):
   # do something with value

In [1]:
some_list = {'foo', 'bar', 'baz'}

mapping = {}

for i,v in enumerate(some_list):
    mapping[v] = i
    
mapping

{'bar': 0, 'foo': 1, 'baz': 2}

### sorted函数
sorted函数可以从任意序列的元素返回一个新的排好序的列表：  
与sort函数的区别在于，sorted是返回一个新的列表，sort是原列表。

In [2]:
sorted([7 , 1, 2, 5, 0, 3, 2])

[0, 1, 2, 2, 3, 5, 7]

In [3]:
sorted('horse race')

[' ', 'a', 'c', 'e', 'e', 'h', 'o', 'r', 'r', 's']

sorted函数可以接受和sort相同的参数。

### zip函数
zip可以将多个列表、元组或其它序列成对组合成一个元组列表.

In [4]:
seq1 = ['foo', 'bar', 'baz']
seq2 = ['one', 'two', 'three']

zipped = zip(seq1, seq2)

list(zipped)

[('foo', 'one'), ('bar', 'two'), ('baz', 'three')]

zip可以处理任意多的序列，元素的个数取决于最短的序列：

In [5]:
seq3 = [False, True]

list(zip(seq1, seq2, seq3))

[('foo', 'one', False), ('bar', 'two', True)]

zip的常见用法之一是同时迭代多个序列，可能结合enumerate使用.

In [6]:
for i,(a, b) in enumerate(zip(seq1, seq2)):
    print('{0}:{1},{2}'.format(i, a, b))

0:foo,one
1:bar,two
2:baz,three


给出一个“被压缩的”序列，zip可以被用来解压序列。也可以当作把行的列表转换为列的列表。

In [7]:
pitchers = [('Nolan', 'Ryan'), ('Roger', 'Clemens'),('Schilling', 'Curt')]

first_names, last_names = zip(*pitchers)

first_names

('Nolan', 'Roger', 'Schilling')

In [8]:
last_names

('Ryan', 'Clemens', 'Curt')

### reversed函数
reversed可以从后向前迭代一个序列.

In [10]:
list(reversed(range(10)))

[9, 8, 7, 6, 5, 4, 3, 2, 1, 0]