# Python 机器学习实战 ——代码样例

# 第五章 列表生成式

## 5.1.	使用列表生成式代替循环语句

下面举一个简单的循环处理的例子，类似于一般的教科书上的写法，功能是对一个列表中的每个元素计算长度，并将长度添加在元素内容后面，生成一个新的列表。用循环语句来写当然无可厚非。学习任何编程语言，我们都会去学习如何处理判断、循环等这些基本的编程理念。


In [1]:
# 计算列表中的每个元素长度，然后将长度添加在元素内容后面，生成一个新的列表。

list_test = ['a', 'bb', 'ccc', 'a1']
list_new = []

for i in list_test:
    new_item = i + str(len(i))
    list_new.append(new_item)

print(list_new)

['a1', 'bb2', 'ccc3', 'a12']


上面这个例子非常简单，也是 Python 程序中经常会出现的代码片段，属于平铺直叙的写法。然而我们推荐用列表生成式的方式来简化程序。列表生成式的好处就是自带初始化，按照条件生成列表中的元素，完成上述功能的代码如下：

In [2]:
# 计算列表中的每个元素长度，然后将长度添加在元素内容后面，生成一个新的列表；
# 使用列表生成式

list_test = ['a', 'bb', 'ccc', 'a1']
list_new = [i + str(len(i)) for i in list_test]
print(list_new)

['a1', 'bb2', 'ccc3', 'a12']


可以看到程序代码简洁了很多，列表生成式用一行代码来代替了四行代码，节约的就是列表初始化、for 循环说明、列表元素追加这些内容。鉴于 Python 中数据结构 list 和循环是最常见的，每一个地方节约几行代码，总量不容小觑，并且在代码的可读性方面几乎没有损失。

## 5.2.	列表生成式的概念

Python 中有不少概念有时比较费解，毕竟这是一门发展了几十年的语言，比如至今还有人在为了使用 Python 2 还是 Python 3 乐此不疲的争论。

List Comprehension 是一个编程语言中的概念，在 wiki 上有专门的解释 ：

“List comprehension is a syntactic construct available in some programming languages for creating a list based on existing lists. It follows the form of the mathematical set-builder notation (set comprehension.) as distinct from the use of map and filter functions.”

“列表生成式是一些编程语言中的语法结构，可以根据现有的列表创建新列表。它遵循了数学中“集合生成”的概念，并与 map 和 filter 函数的使用不同。”

List Comprehension 在 Python 中的实现主要就是列表生成式。在 wiki 的 List Comprehension 的 Python 的词条里面解释到，Python 使用下面的语法来对一个有限定的列表来进行新的列表的生成：

s = [2x for x in range(100) if x*2 > 3]

在 Python 的官方文档中是这样解释的 ：

“List comprehensions provide a concise way to create lists. Common applications are to make new lists where each element is the result of some operations applied to each member of another sequence or iterable, or to create a subsequence of those elements that satisfy a certain condition.”

“列表生成式为创建列表提供了一种简洁的方式。常规的创建列表的方法是对另一个序列或可迭代对象中的每一个元素进行一些操作，然后生成新的元素，或者在满足某个特定条件的情况下创建这些元素的子集。”


In [3]:
[(x, y) for x in [1,2,3] for y in [3,1,4] if x != y]

[(1, 3), (1, 4), (2, 3), (2, 1), (2, 4), (3, 1), (3, 4)]

In [4]:
s = 'hello world'
comp = [x for x in s if x !=' ']
print(comp)
print(type(comp))

['h', 'e', 'l', 'l', 'o', 'w', 'o', 'r', 'l', 'd']
<class 'list'>


In [5]:
s = '我们来测试一下中文'
comp = [x for x in s]
print(comp)
print(type(comp))

['我', '们', '来', '测', '试', '一', '下', '中', '文']
<class 'list'>


## 5.3.	字典和集合的生成式

实际上，列表生成式这个概念在 Python 中被泛化了。用刚才这样的语法，不但可以生成列表，还可以生成字典 dict 和集合 set。我们看看下面这个例子：

In [6]:
s = 'hello world'
comp = {x for x in s}
print(comp)
print(type(comp))

{'e', 'w', 'h', ' ', 'l', 'r', 'o', 'd'}
<class 'set'>


如果我们要用了列表生成式来写一个生成”字典“的话，可以用 key:value 这样的方式，这也是 python 强大的地方，你觉得应该是怎么样比较自然的，python 语法的设计就会是这样比较人性化的。

严格来说，字典生成式是这样的语法：{key: value for (key, value) in iterable}

zip() 函数用于将可迭代的对象作为参数，将对象中对应的元素打包成一个个元组，然后返回由这些元组组成的列表。

这里需要一个生成连续的 key 值的列表，所以用了 zip() 函数。


In [7]:
s = 'hello world'
dict_comp = {k:v for (k,v) in zip(range(11),s)}
print(dict_comp)
print(type(dict_comp))

{0: 'h', 1: 'e', 2: 'l', 3: 'l', 4: 'o', 5: ' ', 6: 'w', 7: 'o', 8: 'r', 9: 'l', 10: 'd'}
<class 'dict'>


如果对 zip() 函数不清楚的话，可以看一下下面的执行效果

In [8]:
s = 'hello world'
for k,v in zip(range(9),s):
    print(k,v)

0 h
1 e
2 l
3 l
4 o
5  
6 w
7 o
8 r


我们还可以把程序稍微优化一下，业务逻辑分离，因为 range(9) 这样的写法是不合适的，我们可以继续优雅的使用 python 的连续变量赋值。

In [9]:
s, i = 'hello world', len(s)
dict_comp = {k:v for (k,v) in zip(range(i),s)}
print(dict_comp)
print(type(dict_comp))

{0: 'h', 1: 'e', 2: 'l', 3: 'l', 4: 'o', 5: ' ', 6: 'w', 7: 'o', 8: 'r', 9: 'l', 10: 'd'}
<class 'dict'>


这个例子过于简单，实际上不用字典生成式，直接用 dict() 来进行转换也是可以的，但是如果在转换 key 和 value 的时候有一些逻辑的话，字典生成式还是一个不错的选择。

In [10]:
# 用dict() 函数转换成字典
s, i = 'hello world', len(s)
dict_comp = dict(zip(range(i),s))
print(dict_comp)
print(type(dict_comp))

{0: 'h', 1: 'e', 2: 'l', 3: 'l', 4: 'o', 5: ' ', 6: 'w', 7: 'o', 8: 'r', 9: 'l', 10: 'd'}
<class 'dict'>


In [11]:
# 对 key 做一点点处理
s, i = 'hello world', len(s)
dict_comp = {k+1:v for (k,v) in zip(range(i),s)}
print(dict_comp)
print(type(dict_comp))

{1: 'h', 2: 'e', 3: 'l', 4: 'l', 5: 'o', 6: ' ', 7: 'w', 8: 'o', 9: 'r', 10: 'l', 11: 'd'}
<class 'dict'>


## 5.4.	列表生成式实际例子

### 5.4.1 指定目录下查找指定后缀的所有文件

我们来写一个可以在指定目录下查找指定后缀的所有文件的函数。当然，python 里面有几乎现成的函数，不过我们的函数也很简洁，只有一行。

在 list_files_with_ext() 函数中输入目录和后缀，就会返回符合条件的文件名列表。

In [None]:
import os

def list_files_with_ext(path, ext):
    return [file for f in os.listdir(path) if f.endswith(ext)]

list_files_with_ext('/Users/david/Pictures/travel', '.jpg')

### 5.4.2 找到指定范围的勾股数

一般在列表生成式的结果中用一到两个变量，这里举一个简单的三个变量的例子，用一行列表生成式的程序来生成指定范围内的所有勾股数。


In [18]:
[(x,y,z) for x in range(1,30) for y in range(x,30) for z in range(y,30) 
 if x**2 + y**2 == z**2]

[(3, 4, 5),
 (5, 12, 13),
 (6, 8, 10),
 (7, 24, 25),
 (8, 15, 17),
 (9, 12, 15),
 (10, 24, 26),
 (12, 16, 20),
 (15, 20, 25),
 (20, 21, 29)]

### 5.4.3 矩阵 flatten 计算

将类似 [0,1,2,3,4][5,6,7,8,9] 这样的矩阵铺平成为 [0,1,2,3,4,5,6,7,8,9]

这几个例子以及下面的速度比拼可以参考 https://www.analyticsvidhya.com/blog/2016/01/python-tutorial-list-comprehension-examples/


In [12]:
# Flatten a Matrix

def for_flatten(matrix):
    flat = []
    for row in matrix:
        for x in row:
            flat.append(x)
    return flat

def list_flatten(matrix):
    return [x for row in matrix for x in row ]

matrix = [ range(0,5), range(5,10), range(10,15)]

print('原始 Matrix:',str(matrix))
print('使用 for 操作:',str(for_flatten(matrix)))
print('使用列表生成式操作:',str(list_flatten(matrix)))

原始 Matrix: [range(0, 5), range(5, 10), range(10, 15)]
使用 for 操作: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14]
使用列表生成式操作: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14]


### 5.4.4 国家首都的匹配

实际上这是解决将两个列表如何装配成一个字典的问题，我们通过字典生成式很容易解决这个问题。

思路上来说，就是根据一个列表的长度进行循环，然后依次在字典中写入 key 和 value。


In [13]:
def zip_list(keys, values):
    return { keys[i] : values[i] for i in range(len(keys)) }

country = ['India', 'Pakistan', 'Nepal', 'Bhutan', 'China', 'Bangladesh']
capital = ['New Delhi', 'Islamabad','Kathmandu', 'Thimphu', 'Beijing', 'Dhaka']

print('result:', str(zip_list(country, capital)))

result: {'China': 'Beijing', 'Pakistan': 'Islamabad', 'India': 'New Delhi', 'Nepal': 'Kathmandu', 'Bangladesh': 'Dhaka', 'Bhutan': 'Thimphu'}


## 5.5 速度比拼

下面的代码可以测试一下用传统的 for 循环、列表生成式和 map 方式完成同样的功能，哪个速度最快 。注意，此段代码需要在 Jupyter Notebook中运行。

In [15]:
# for循环函数
def for_square(var):
    result = []
    for i in var:
        result.append(i**100)
    return result

%timeit for_square(range(1,11))


100000 loops, best of 3: 6.67 µs per loop


In [16]:
# 列表生成式函数
def list_square(var):
    return [i**100 for i in var]

%timeit list_square(range(1,11))

100000 loops, best of 3: 7.06 µs per loop


In [17]:
# map函数
def map_square(var):
    return map(lambda x: x**100, var)

%timeit map_square(range(1,11))

The slowest run took 4.38 times longer than the fastest. This could mean that an intermediate result is being cached.
1000000 loops, best of 3: 583 ns per loop


timeit模块提供了测量Python小段代码执行时间的方法。它即可以在命令行界面直接使用，也可以通过导入模块进行调用。

我们使用 timeit 的默认参数，选取执行最快的3次的平均值，可以看到，使用 for 和列表生成式相差并不大，用列表生成式略快一些，而使用 map()方式的则要快得多。

在下面这里有一篇详细的讨论，也讨论了不同场景下使用不同方法的速度以及原理等：

https://stackoverflow.com/questions/1247486/python-list-comprehension-vs-map