# 2 序列构成的数组
## 2.1内置序列类型
- 容器序列：list、tuple 和 collections.deque 这些序列能存放不同类型的数据。
- 扁平序列：str、bytes、bytearray、memoryview 和 array.array，这类序列只能容纳一种类型。


序列类型还能按照能否被修改来分类。
- 可变序列：list、bytearray、array.array、collections.deque 和 memoryview。
- 不可变序列：tuple、str 和 bytes。
## 2.2 列表推导和生成器表达式
### 2.2.1 列表推导

In [3]:
symble = "$¢£¥€¤"
codes = [ord(x) for x in symble if ord(x) > 100]
print('列表推导：', codes)
codes = list(filter(lambda x: x > 100, map(ord, symble)))
print('filter/map组合：', codes)


列表推导： [162, 163, 165, 8364, 164]
filter/map组合： [162, 163, 165, 8364, 164]


In [4]:
colors = ['black', 'white']
sizes = ['S', 'M', 'L']
tshirts = [(color, size) for color in colors for size in sizes]
print('笛卡尔积：', tshirts)


笛卡尔积： [('black', 'S'), ('black', 'M'), ('black', 'L'), ('white', 'S'), ('white', 'M'), ('white', 'L')]


### 2.2.2 生成器表达式 
生成器表达式的语法跟列表推导差不多，只不过把方括号换成圆括号而已。

In [5]:
# 生成器表达式逐个产出元素，从来不会一次性产出一个含有 6 个 T 恤样式的列表。
colors = ['black', 'white']
sizes = ['S', 'M', 'L']
for tshirts in (('%s %s') % (c, s) for c in colors for s in sizes):
    print(tshirts)


black S
black M
black L
white S
white M
white L


## 2.3 元组不仅仅时不可变的列表
### 2.3.1 元组和记录
如果只把元组理解为不可变的列表，那其他信息——它所含有的元素的总数和它们的位置——似乎就变得可有可无。但是如果把元组当作一些字段的集合，那么数量和位置信息就变得非常重要了。

In [6]:
# 经纬度
lax_coordinates = (33, -118)
# 市名、年份、人口（单位：百万）、人口变化（单位：百分比）和面积（单位：平方千米）
city, year, pop, chg, area = ('Tokyp', 2003, 32450, 0.66, 8014)
traveler_ids = [('USA', '31195855'), ('BRA', 'CE342567'), ('ESP', 'CE342567')]
for passport in traveler_ids:
    print('%s/%s' % passport)


USA/31195855
BRA/CE342567
ESP/CE342567


### 2.3.2 元组拆包
将元组中的元素分别赋值给不同的变量，可用 * 来表示忽略多余的元素

In [11]:
latitude, longitude = lax_coordinates
print('latitude:', latitude, '\nlongitude:', longitude, '\n')

_, longitude = lax_coordinates  # 使用_占位符取到想要的数据
print('longitude:', longitude, '\n')

a, b, *rest = range(5)  # 用*来处理剩下的元素
print(a, b, rest)


latitude: 33 
longitude: -118 

longitude: -118 

0 1 [2, 3, 4]


### 2.3.3 嵌套元组拆包
接受表达式的元组可以是嵌套式的，例如 (a, b, (c, d))。

In [12]:
# 每个元组内有 4 个元素，其中最后一个元素是一对坐标。
# 我们把输入元组的最后一个元素拆包到由变量构成的元组里，这样就获取了坐标。
# if longitude <= 0: 这个条件判断把输出限制在西半球的城市。
metro_areas = [
    ('Tokyo', 'JP', 36.933, (35.689722, 139.691667)),
    ('Delhi NCR', 'IN', 21.935, (28.613889, 77.208889)),
    ('Mexico City', 'MX', 20.142, (19.433333, -99.133333)),
    ('New York-Newark', 'US', 20.104, (40.808611, -74.020386)),
    ('Sao Paulo', 'BR', 19.649, (-23.547778, -46.635833)),
]
print('{:15} | {:^9} | {:^9}'.format('', 'lat.', 'long.'))
fmt = '{:15} | {:9.4f} | {:9.4f}'
for name, cc, pop, (latitude, longitude) in metro_areas:
    if longitude <= 0:
        print(fmt.format(name, latitude, longitude))


                |   lat.    |   long.  
Mexico City     |   19.4333 |  -99.1333
New York-Newark |   40.8086 |  -74.0204
Sao Paulo       |  -23.5478 |  -46.6358


### 2.3.4 具名元组
collections.namedtuple 是一个工厂函数，它可以用来构建一个带字段名的元组和一个有名字的类——这个带名字的类对调试程序有很大帮助。

In [23]:
from collections import namedtuple
City = namedtuple("City","name country population coordinates")
tokyo = City("Tokyo",'JP',36,(35,139))
print(tokyo)
print(tokyo.name)
print(tokyo[1])

print('*'*10+'具名元组的属性和方法'+'*'*10)
print(City._fields) # 输出包含类所有字段名称的元组
LatLong = namedtuple("LatLong","lar long")
delhi_data = ('Delhi NCR', 'IN', 21.935, LatLong(28.613889, 77.208889))
delhi = City._make(delhi_data) # 用_make()通过接受一个可迭代对象来生成类的实例
print(delhi._asdict()) # _asdict()把具名元组以collections.OrderedDict的形式返回

print('*'*20)
for k,v in delhi._asdict().items():
    print(k,'：',v)


City(name='Tokyo', country='JP', population=36, coordinates=(35, 139))
Tokyo
JP
**********具名元组的属性和方法**********
('name', 'country', 'population', 'coordinates')
{'name': 'Delhi NCR', 'country': 'IN', 'population': 21.935, 'coordinates': LatLong(lar=28.613889, long=77.208889)}
********************
name ： Delhi NCR
country ： IN
population ： 21.935
coordinates ： LatLong(lar=28.613889, long=77.208889)


## 2.4 切片

## 2.5 对序列使用+和*
如果在 a * n 这个语句中，序列 a 里的元素是对其他可变对象的引用的话，你就需要格外注意了

In [29]:
print('\n'+'*'*10+'写法一'+'*'*10+'\n')
board = [['_']*3 for i in range(3)]
print(board)
board[1][2] = 'x'
print(board)
print('\n'+'*'*10+'写法二'+'*'*10+'\n')
board = [['_']*3]*3
print(board)
board[1][2] = 'x'
print(board)


**********写法一**********

[['_', '_', '_'], ['_', '_', '_'], ['_', '_', '_']]
[['_', '_', '_'], ['_', '_', 'x'], ['_', '_', '_']]

**********写法二**********

[['_', '_', '_'], ['_', '_', '_'], ['_', '_', '_']]
[['_', '_', 'x'], ['_', '_', 'x'], ['_', '_', 'x']]


## 2.6 序列的增量赋值
增量赋值运算符 += 和 *= 的表现取决于它们的第一个操作对象。

In [31]:
# 可变序列
l = [1,2,3]
print(id(l)) # 刚开始时列表的 ID。
l *= 2
print(l)
print(id(l)) # 运用增量乘法后，列表的 ID 没变，新元素追加到列表上。
# 不可变序列
t  = (1,2,3)
print(id(t)) # 元组最开始的 ID。
t *= 2
print(t)
print(id(t)) # 运用增量乘法后，新的元组被创建。

2486609198656
[1, 2, 3, 1, 2, 3]
2486609198656
2486582196224
(1, 2, 3, 1, 2, 3)
2486609172320


## 2.7 list.sort 方法和内置函数sorted
list.sort 方法会就地排序列表，也就是说不会把原列表复制一份。这也是这个方法的返回值是 None 的原因，提醒你本方法不会新建一个列表。在这种情况下返回 None 其实是Python 的一个惯例：如果一个函数或者方法对对象进行的是就地改动，那它就应该返回None，好让调用者知道传入的参数发生了变动，而且并未产生新的对象。
   
与 list.sort 相反的是内置函数 sorted，它会新建一个列表作为返回值。这个方法可以接受任何形式的可迭代对象作为参数，甚至包括不可变序列或生成器（见第 14 章）。而不管sorted 接受的是怎样的参数，它最后都会返回一个列表。

In [32]:
# 参数：
# reverse : 是否降序 True/False
# key     : 一个只有一个参数的函数，默认为恒等函数。例：str.lower、len。
fruits = ['grape','respberry','apple','banana']
print(sorted(fruits))
print(fruits)
print(sorted(fruits,reverse=True))
print(sorted(fruits,key=len))

print(fruits.sort())
print(fruits)

['apple', 'banana', 'grape', 'respberry']
['grape', 'respberry', 'apple', 'banana']
['respberry', 'grape', 'banana', 'apple']
['grape', 'apple', 'banana', 'respberry']
None
['apple', 'banana', 'grape', 'respberry']


## 2,8 用bisect来管理已排序的序列
bisect 模块包含两个主要函数，bisect 和 insort，两个函数都利用二分查找算法来在有序序列中查找或插入元素。
### 2.8.1 用bisect来搜索
bisect(haystack, needle) 在 haystack（干草垛）里搜索 needle（针）的位置，该位置满足的条件是，把 needle 插入这个位置之后，haystack 还能保持升序。也就是在说这个函数返回的位置前面的值，都小于或等于 needle 的值。

In [45]:
import bisect
import sys
HAYSTACK = [1, 4, 5, 6, 8, 12, 15, 20, 21, 23, 23, 26, 29, 30]
NEEDLES = [0, 1, 2, 5, 8, 10, 22, 23, 29, 30, 31]
ROW_FMT = '{0:2d} @ {1:2d}    {2}{0:<2d}'
print('DEMO:', bisect.bisect.__name__)
print('haystack ->', ' '.join('%2d' % n for n in HAYSTACK))
for needle in reversed(NEEDLES):
    position = bisect.bisect(HAYSTACK, needle)
    offset = position * '  |'
    print(ROW_FMT.format(needle, position, offset))

DEMO: bisect_right
haystack ->  1  4  5  6  8 12 15 20 21 23 23 26 29 30
31 @ 14      |  |  |  |  |  |  |  |  |  |  |  |  |  |31
30 @ 14      |  |  |  |  |  |  |  |  |  |  |  |  |  |30
29 @ 13      |  |  |  |  |  |  |  |  |  |  |  |  |29
23 @ 11      |  |  |  |  |  |  |  |  |  |  |23
22 @  9      |  |  |  |  |  |  |  |  |22
10 @  5      |  |  |  |  |10
 8 @  5      |  |  |  |  |8 
 5 @  3      |  |  |5 
 2 @  1      |2 
 1 @  1      |1 
 0 @  0    0 


### 2.8.2 用bisect.insert插入新元素
insort(seq, item) 把变量 item 插入到序列 seq 中，并能保持 seq 的升序顺序。

In [53]:
import bisect
import random
SIZE=7
my_list = []
for i in range(SIZE):
    new_item = random.randrange(SIZE*2)
    bisect.insort(my_list, new_item)
    print('%2d ->' % new_item, my_list)

 0 -> [0]
 2 -> [0, 2]
13 -> [0, 2, 13]
 4 -> [0, 2, 4, 13]
 8 -> [0, 2, 4, 8, 13]
 5 -> [0, 2, 4, 5, 8, 13]
13 -> [0, 2, 4, 5, 8, 13, 13]


## 2.9 当列表不是首选
虽然列表既灵活又简单，但面对各类需求时，我们可能会有更好的选择。比如，要存放1000 万个浮点数的话，数组（array）的效率要高得多，因为数组在背后存的并不是 float对象，而是数字的机器翻译，也就是字节表述。这一点就跟 C 语言中的数组一样。再比如说，如果需要频繁对序列做先进先出的操作，deque（双端队列）的速度应该会更快。
### 2.9.1 数组
如果我们需要一个只包含数字的列表，那么 array.array 比 list 更高效。数组支持所有跟可变序列有关的操作，包括 .pop、.insert 和 .extend。另外，数组还提供从文件读取和存入文件的更快的方法，如 .frombytes 和 .tofile。

In [7]:
from array import array
from random import random
float = array('d',(random() for i in range(10)))
# 存入文件
fp = open('floats.bin', 'wb')
float.tofile(fp)
fp.close()
# 从文件读取
float2 = array('d')
fp = open('floats.bin', 'rb')
float2.fromfile(fp, 10)
fp.close()

print(float == float2)

True


### 2.9.2 内存视图
memoryview 是一个内置类，它能让用户在不复制内容的情况下操作同一个数组的不同切片。

### 2.9.3 Numpy 和 Scipy
NumPy 实现了多维同质数组（homogeneous array）和矩阵，这些数据结构不但能处理数字，还能存放其他由用户定义的记录。通过 NumPy，用户能对这些数据结构里的元素进行高效的操作。

SciPy 是基于 NumPy 的另一个库，它提供了很多跟科学计算有关的算法，专为线性代数、数值积分和统计学而设计。

In [10]:
import numpy
a = numpy.arange(12)
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])