## 第2章 Python序列

* 序列是程序设计中经常用到的数据存储方式，几乎每一种程序设计语言都提供了类似的数据结构，如C和Basic中的一维、多维数组等。
* Python提供的序列类型在所有程序设计语言中是最丰富，最灵活，也是功能最强大的。
* 序列是一系列连续值，它们通常是相关的，并且按一定顺序排列。
* Python中常用的序列结构有列表、元组、字典、字符串、集合以及range等等。
* 除字典和集合之外，列表、元组、字符串等序列均支持双向索引，第一个元素下标为0，第二个元素下标为1，以此类推；最后一个元素下标为-1，倒数第二个元素下标为-2，以此类推。


## 2.1  列表
* 列表是Python中内置可变序列，是若干元素的有序集合，列表中的每一个数据称为元素，列表的所有元素放在一对中括号“[”和“]”中，并使用逗号分隔开；
* 当列表元素增加或删除时，列表对象自动进行扩展或收缩内存，保证元素之间没有缝隙；
* 在Python中，一个列表中的数据类型可以各不相同，可以同时分别为整数、实数、字符串等基本类型，甚至是列表、元组、字典、集合以及其他自定义类型的对象。例如：

In [None]:
[10, 20, 30, 40]

In [None]:
['crunchy frog', 'ram bladder', 'lark vomit']

In [None]:
['spam', 2.0, 5, [10, 20]]

In [None]:
[['file1', 200,7], ['file2', 260,9]]

### 列表方法，见ppt

## 2.1.1 列表创建与删除
* 使用“=”直接将一个列表赋值给变量即可创建列表对象
* 也可以使用list()函数将元组、range对象、字符串或其他类型的可迭代对象类型的数据转换为列表。

In [None]:
a_list = ['a', 'b', 'mpilgrim', 'z', 'example']

In [None]:
a_list = [] #创建空列表

In [None]:
a_list = list((3,5,7,9,11))

In [None]:
a_list

In [None]:
list(range(1,10,2))

In [None]:
list('hello world')

In [None]:
x = list() #创建空列表

In [None]:
x

## 2.1.1 列表创建与删除

内置函数range()该函数语法为：  
range([start,] stop[, step])  
内置函数range()接收3个参数，第一个参数表示起始值（默认为0），第二个参数表示终止值（结果中不包括这个值），第三个参数表示步长（默认为1），该函数在Python 3.x中返回一个range可迭代对象，在Python 2.x中返回一个包含若干整数的列表。见ppt

In [None]:
range(10)

In [None]:
# Python2 only
xrange(10)

In [None]:
list(range(10))

In [None]:
%%timeit -r 1
for j in range(100000000):
    1+1

当不再使用时，使用del命令删除整个列表，如果列表对象所指向的值不再有其他对象指向，Python将同时删除该值。

In [None]:
del a_list

In [None]:
a_list

### 2.1.2 列表元素的增加  
1. 可以使用“+”运算符来实现将元素添加到列表中的功能。虽然这种用法在形式上比较简单也容易理解，但严格意义上来讲，这并不是真的为列表添加元素，而是创建一个新列表，并将原列表中的元素和新元素依次复制到新列表的内存空间。由于涉及大量元素的复制，该操作速度较慢，在涉及大量元素添加时不建议使用该方法。  
1. 使用列表对象的append()方法，原地修改列表，是真正意义上的在列表尾部添加元素，速度较快，也是推荐使用的方法。

In [None]:
aList = [3, 4, 5, 7]
aList.append(9)
aList


为了比较“+”和append()这两种方法的速度差异，请看以下代码：

In [None]:
%%timeit -n 1 -r 1
result = []
for i in range(100000):
    result = result + [i]

In [None]:
%%timeit -n 1 -r 1
result = []
for i in range(100000):
    result.append(i)

Python采用的是基于值的自动内存管理方式，当为对象修改值时，并不是真的直接修改变量的值，而是使变量指向新的值，这对于Python所有类型的变量都是一样的。

In [None]:
a = [1,2,3]
id(a)

In [None]:
a = [1,2]
id(a)

对于列表、集合、字典等可变序列类型而言，情况稍微复杂一些。以列表为例，列表中包含的是元素值的引用，而不是直接包含元素值。如果是直接修改序列变量的值，则与Python普通变量的情况是一样的，而如果是通过下标来修改序列中元素的值或通过可变序列对象自身提供的方法来增加和删除元素时，序列对象在内存中的起始地址是不变的，仅仅是被改变值的元素地址发生变化。

In [None]:
a = [1,2,4]
b = [1,2,3]
a == b

In [None]:
id(a) == id(b)

In [None]:
id(a[0]) == id(b[0])

In [None]:
a = [1,2,3]
id(a)

In [None]:
a.append(4)
id(a)

In [None]:
a.remove(3)
a

In [None]:
id(a)

In [None]:
a[0] = 5
a

In [None]:
id(a)

(3) 使用列表对象的extend()方法可以将另一个迭代对象的所有元素添加至该列表对象尾部。通过extend()方法来增加列表元素也不改变其内存首地址，属于原地操作。例如，继续上面的代码执行下面的代码。

In [None]:
a.extend([7,8,9])
a

In [None]:
id(a)

In [None]:
aList.extend([11,13])
aList

In [None]:
aList.extend((15,17))
aList

In [None]:
id(a)

（4）使用列表对象的insert()方法将元素添加至列表的指定位置。

In [None]:
aList.insert(3,6)
aList

应尽量从列表尾部进行元素的增加与删除操作。列表的insert()可以在列表的任意位置插入元素，但由于列表的自动内存管理功能，insert()方法会涉及到插入位置之后所有元素的移动，这会影响处理速度，类似的还有后面介绍的remove()方法以及使用pop()函数弹出列表非尾部元素和使用del命令删除列表非尾部元素的情况。

In [None]:
%%timeit -n 1 -r 1
a = []
for i in range(10000):
    a.insert(0, i)

In [None]:
a

In [None]:
%%timeit -n 1 -r 1
a = []
for i in range(10000):
    a.append(i)

使用乘法来扩展列表对象，将列表与整数相乘，生成一个新列表，新列表是原列表中元素的重复。

In [None]:
aList = [3,5,7]
bList = aList
id(aList)

In [None]:
id(bList)

In [None]:
aList = aList*3

In [None]:
aList

In [None]:
bList

In [None]:
id(aList)

In [None]:
id(bList)

### 2.1.3 列表元素的删除
使用del命令删除列表中的指定位置上的元素。前面已经提到过，del命令也可以直接删除整个列表，这里不再赘述。

In [None]:
a_list = [3,5,7,9,11]
del a_list[1]

In [None]:
a_list

2）使用列表的pop()方法删除并返回指定（默认为最后一个）位置上的元素，如果给定的索引超出了列表的范围则抛出异常。

In [None]:
a_list = list((3,5,7,9,11))
a_list.pop()

In [None]:
a_list

In [None]:
a_list.pop(1)

In [None]:
a_list

（3）使用列表对象的remove()方法删除首次出现的指定元素，如果列表中不存在要删除的元素，则抛出异常。

In [None]:
a_list = [3,5,7,9,7,11]
a_list.remove(7)
a_list

有时候可能需要删除列表中指定元素的所有重复，大家会很自然地想到使用“循环+remove()”的方法，但是具体操作时很有可能会出现意料之外的错误，代码运行没有出现错误，但结果却是错的，或者代码不稳定，对某些数据处理结果是正确的，而对某些数据处理结果却是错误的。例如，下面的代码成功地删除了列表中的重复元素，执行结果是完全正确的。

In [None]:
x = [1,2,1,2,1,2,1,2,1]
for i in x:
    if i == 1:
      x.remove(i)

In [None]:
x

然而，上面这段代码的逻辑是错误的，尽管执行结果是正确的。例如下面的代码同样试图删除列表中所有的“1”，代码完全相同，仅仅是所处理的数据发生了一点变化，然而当循环结束后却发现并没有把所有的“1”都删除，只是删除了一部分。

In [None]:
x = [1,2,1,2,1,1,1]
for i in x:
    if i == 1:
      x.remove(i)

In [None]:
x

两组数据的本质区别在于，第一组数据中没有连续的“1”，而第二组数据中存在连续的“1”。出现这个问题的原因是列表的自动内存管理功能。前面已经提到，在删除列表元素时，Python会自动对列表内存进行收缩并移动列表元素以保证所有元素之间没有空隙，增加列表元素时也会自动扩展内存并对元素进行移动以保证元素之间没有空隙。每当插入或删除一个元素之后，该元素位置后面所有元素的索引就都改变了。正确的代码：

In [None]:
x = [1,2,1,2,1,1,1]  
for i in x[::]:  
    if i == 1:  
        x.remove(i)
x

In [None]:
x = [1,2,1,2,1,1,1]  
for i in range(len(x)-1,-1,-1): 
    if x[i]==1:  
        del x[i]
x

In [None]:
x = [1,2,1,2,1,1,1] 
for i in range(x.count(1)):
    x.remove(1)
x

### 2.1.4 列表元素访问与计数
使用下标直接访问列表元素

In [None]:
aList = [3, 4, 5, 7, 9, 11, 13, 15, 17]
aList[3]

In [None]:
aList[3] = 5.5
aList

In [None]:
aList[15]

使用列表对象的index方法获取指定元素首次出现的下标

In [None]:
aList

In [None]:
aList.index(9)

In [None]:
aList.index(100)

使用列表对象的count方法统计指定元素在列表对象中出现的次数

In [None]:
aList = [7, 4, 5, 5.5, 5, 11, 7, 15, 7]

In [None]:
aList.count(5)

如果需要判断列表中是否存在指定的值，可以使用前面介绍的count()方法，如果存在则返回大于0的数，如果返回0则表示不存在。或者，使用更加简洁的“in”关键字来判断一个值是否存在于列表中，返回结果为“True”或“False”。

In [None]:
aList

In [None]:
3 in aList

In [None]:
11 in aList

In [None]:
bList = [[1], [2], [3]]

In [None]:
3 in bList

In [None]:
3 not in bList

In [None]:
[3] in bList

In [None]:
aList = [3, 5, 7, 9, 11]
bList = ['a', 'b', 'c', 'd']
(3, 'a') in zip(aList, bList)

In [None]:
list(zip(aList, bList))

In [None]:
zip(aList, bList)

In [None]:
for a, b in zip(aList, bList):
    print(a,'--->', b)

### 2.1.6 切片操作

* 切片是Python序列的重要操作之一，适用于列表、元组、字符串、range对象等类型。
* 切片使用2个冒号分隔的3个数字来完成，第一个数字表示切片开始位置（默认为0），第二个数字表示切片截止（但不包含）位置（默认为列表长度），第三个数字表示切片的步长（默认为1），当步长省略时可以顺便省略最后一个冒号。可以使用切片来截取列表中的任何部分，得到一个新列表，也可以通过切片来修改和删除列表中部分元素，甚至可以通过切片操作为列表对象增加元素。
* 与使用下标访问列表元素的方法不同，切片操作不会因为下标越界而抛出异常，而是简单地在列表尾部截断或者返回一个空列表，代码具有更强的健壮性。

In [None]:
aList = [3, 4, 5, 6, 7, 9, 11, 13, 15, 17]

In [None]:
aList[::]

In [None]:
aList[::-1]

In [None]:
aList[::2]

In [None]:
aList[1::2]

In [None]:
aList[3::]

In [None]:
aList[3:6]

In [None]:
aList[3:6:1]

In [None]:
aList[0:100:1]

In [None]:
aList[100:]

可以使用切片来原地修改列表内容

In [None]:
aList = [3, 5, 7]
aList[len(aList):]
[]

In [None]:
aList[len(aList):] = [9]
aList

In [None]:
aList[:3] = [1, 2, 3]
aList

In [None]:
aList[:3] = []
aList

In [None]:
aList = list(range(10))
aList

In [None]:
aList[::2] = [0]*(len(aList)//2)
aList

使用del与切片结合来删除列表元素

In [None]:
aList = [3,5,7,9,11]
del aList[:3]
aList

切片返回的是列表元素的浅拷贝

In [None]:
aList = [3, 5, 7]
bList = aList #bList与aList指向同一个内存
bList

In [None]:
bList[1] = 8

In [None]:
aList

In [None]:
aList == bList

In [None]:
aList is bList

In [None]:
id(aList), id(bList)

In [None]:
aList = [3, 5, 7]
bList = aList[::] #浅复制
bList

In [None]:
bList[1] = 8

In [None]:
aList

In [None]:
aList == bList

In [None]:
aList is bList

In [None]:
id(aList), id(bList)

BAIDU Python 深拷贝与浅拷贝  
Python标准库中有个 copy 模块，用于对象之间的拷贝，其中常用的两个函数：copy 和 deepcopy；  
copy.copy() 是浅拷贝，只拷贝了父对象，不会拷贝父对象中的子对象；deepcopy 是深拷贝，可以认为是完全的复制过去了；  

In [None]:
l = ['a', 'b', 'c', [1, 2, 3]]
import copy
a = copy.copy(l)
b = copy.deepcopy(l)
a.append('e')
b.append('f')
print(a, b, l)
a[3][2] = 'x'
b[3][2] = 'y'
print(a, b, l)

### 2.1.7 列表排序
使用列表对象的sort方法进行原地排序，支持多种不同的排序方法

In [None]:
aList = [3, 4, 5, 6, 7, 9, 11, 13, 15, 17]
import random

In [None]:
random.shuffle(aList)
aList

In [None]:
aList.sort()
aList

In [None]:
aList.sort(reverse=True)
aList

In [None]:
aList.sort(key = lambda x:len(str(x)))
aList

使用内置函数sorted对列表进行排序并返回新列表

In [None]:
sorted(aList)

In [None]:
sorted(aList, reverse=True)

使用列表对象的reverse方法将元素原地逆序

In [None]:
aList = [3, 4, 5, 11, 13, 15, 17, 6, 7, 9]
aList.reverse()
aList

使用内置函数reversed方法对列表元素进行逆序排列并返回迭代对象

In [None]:
aList = [3, 4, 5, 6, 7, 9, 11, 13, 15, 17]
newList = reversed(aList)
newList

In [None]:
list(newList)

In [None]:
# 如无输出内容，迭代对象已遍历结束，需要重新创建迭代对象
for i in newList:
    print(i, end=' ')

### 2.1.8 用于序列操作的常用内置函数
cmp(列表1，列表2)：对两个列表进行比较，若第一个列表大于第二个，则结果为1，相反则为-1，元素完全相同则结果为0，类似于==运算符，和is、is not不一样。

In [None]:
(1, 2, 3) < (1, 2, 4)

In [None]:
import operator
# cmp Python 3 已不再支持
# cmp((1, 2, 3) , (1, 2, 4))
operator.lt((1, 2, 3) , (1, 2, 4))

In [None]:
[1, 2, 3] < [1, 2, 4]

In [None]:
'ABC' < 'C' < 'Pascal' < 'Python'

In [None]:
cmp( 'Pascal', 'Python')

In [None]:
(1, 2, ('aa', 'ab')) < (1, 2, ('abc', 'a'), 4)

在Python 3.x中，不再支持cmp()函数，可以直接使用关系运算符来比较数值或序列的大小，也可以使用对象的“__le__()”及其相关方法，或者也可以使用其他写法来模拟Python 2.x的内置函数cmp()。

In [None]:
a = [1, 2]
b = [1, 2, 3]
(a>b)-(a<b)

In [None]:
a.__le__(b)

In [None]:
a.__gt__(b)

## 2.1.8 用于序列操作的常用内置函数
* len(列表)：返回列表中的元素个数，同样适用于元组、字典、字符串等等。
* max(列表)、 min(列表)：返回列表中的最大或最小元素，同样适用于元组、range。
* sum(列表)：对数值型列表的元素进行求和运算，对非数值型列表运算则出错，同样适用于元组、range。
* zip(列表1,列表2,…):将多个列表对应位置元素组合为元组，并返回包含这些元组的列表。

In [None]:
l = list(range(0,11))
sum(l)

In [None]:
aList = [1,2,3]
bList = [4,5,6]
cList = [7,8,9]
dList = zip(aList, bList, cList)