# 2. Python速成

> 本节略过大部分基础内容，只记录了关键的几个技术点。

## 2.1 defaultdict
假设你需要计算某份文件中的单词数目。一个明显的方式是，建立一个键是单词、值是单词出现次数的字典。每次你查到一个单词，如果字典中存在这个词，就在该词的计数上增加1，如果字典中没有这个词，就把这个词增加到这个字典中：

In [1]:
document = "hello python"

word_counts = {} 

for word in document:
    if word in word_counts:
        word_counts[word] += 1 
    else:
        word_counts[word] = 1

word_counts

{'h': 2, 'e': 1, 'l': 2, 'o': 2, ' ': 1, 'p': 1, 'y': 1, 't': 1, 'n': 1}

当查找缺失值碰到异常报出时，你可以遵循“与其瞻前顾后，不如果断行动”（Forgiveness is better than permission）的原则，果断处理异常：

In [2]:
document = "hello python"

word_counts = {} 

for word in document: 
    try:
        word_counts[word] += 1 
    except KeyError:
        word_counts[word] = 1

word_counts

{'h': 2, 'e': 1, 'l': 2, 'o': 2, ' ': 1, 'p': 1, 'y': 1, 't': 1, 'n': 1}

第三种方法是使用`get`：

In [3]:
document = "hello python"

word_counts = {} 

for word in document:
    previous_count = word_counts.get(word, 0)
    word_counts[word] = previous_count + 1

word_counts

{'h': 2, 'e': 1, 'l': 2, 'o': 2, ' ': 1, 'p': 1, 'y': 1, 't': 1, 'n': 1}

以上三种方法都略显笨拙，这是`defaultdict`的意义之所在。一个`defaultdict`相当于一个标准的字典，除了当你查找一个没有包含在内的键时，它用一个你提供的零参数函数建立一个新的键，并为它的值增加1：

In [4]:
from collections import defaultdict

document = "hello python"

# int()生成0
word_counts = defaultdict(int)

for word in document:
    word_counts[word] += 1
    
word_counts

defaultdict(int,
            {'h': 2,
             'e': 1,
             'l': 2,
             'o': 2,
             ' ': 1,
             'p': 1,
             'y': 1,
             't': 1,
             'n': 1})

这对列表、字典或者你自己的函数都有用：

In [5]:
# list()生成一个空列表
dd_list = defaultdict(list) 
dd_list[2].append(1)

dd_list

defaultdict(list, {2: [1]})

In [6]:
# dict()产生一个新字典
dd_dict = defaultdict(dict)
dd_dict["Joel"]["City"] = "Seattle"

dd_dict

defaultdict(dict, {'Joel': {'City': 'Seattle'}})

In [7]:
dd_pair = defaultdict(lambda: [0,0])
dd_pair[2][1] = 1
dd_pair[3]=2
dd_pair

defaultdict(<function __main__.<lambda>()>, {2: [0, 1], 3: 2})

## 2.2 Counter
一个计数器将一个序列的值转化成一个类似于整型的标准字典（即`defaultdict(int)`）的键到计数的对象映射。我们主要用它来生成直方图：

In [8]:
from collections import Counter 
c = Counter([0, 1, 2, 0])
c

Counter({0: 2, 1: 1, 2: 1})

这给我们提供了一个用来解决单词计数问题的很简便的方法：

In [9]:
document = "hello python"
word_counts = Counter(document)
word_counts

Counter({'h': 2,
         'e': 1,
         'l': 2,
         'o': 2,
         ' ': 1,
         'p': 1,
         'y': 1,
         't': 1,
         'n': 1})

一个Counter实例带有的`most_common`方法的例子如下：

In [10]:
# 打印10个最常见的词和它们的计数 
for word, count in word_counts.most_common(10):
    print(word, count)

h 2
l 2
o 2
e 1
  1
p 1
y 1
t 1
n 1


## 2.3 布尔类型
Python的布尔数除了首字母大写之外，其他用法和大多数别的语言类似：

In [11]:
one_is_less_than_two = 1 < 2 
true_equals_false = True == False

one_is_less_than_two, true_equals_false

(True, False)

Python使用`None`来表示一个不存在的值，它类似别的语言中的`null`。

Python可以使用任何可被认为是布尔数的值。下面这些都是“假”（Falsy）：
```
False
None
[ ]
{ }
""
set()
0
0.0
```

## 2.4 排序
每个Python列表都有一个sort方法可以恰当地排序。如果你不想弄乱你的列表，可以使用sorted函数，它会返回一个新列表：

In [12]:
x = [4,1,2,3] 
y = sorted(x) 
x, y

([4, 1, 2, 3], [1, 2, 3, 4])

In [13]:
x.sort()
x

[1, 2, 3, 4]

默认情况下，`sort`和`sorted`基于元素之间的朴素比较从最小值到最大值对列表进行排序。如果你想把元素按从最大值到最小值进行排序，可以指定参数`reverse=True`。除了比较元素本身，你还可以通过指定键来对函数的结果进行比较：

In [14]:
# 通过绝对值对列表元素从最大到最小排序 
x = sorted([-4,1,-2,3], key=abs, reverse=True)
x

[-4, 3, -2, 1]

In [15]:
# 从最高数到最低数排序单词和计数 
wc = sorted(word_counts.items(), key= lambda x: x[1], reverse=True)
wc

[('h', 2),
 ('l', 2),
 ('o', 2),
 ('e', 1),
 (' ', 1),
 ('p', 1),
 ('y', 1),
 ('t', 1),
 ('n', 1)]

## 2.5 列表解析
有时可能会想把一个列表转换为另一个列表，例如只保留其中一些元素，或更改其中一些元素，或者同时做这两种变动。可以执行这种操作的Python技巧叫作`列表解析`：

In [16]:
even_numbers = [x for x in range(5) if x % 2 == 0]
even_numbers

[0, 2, 4]

In [17]:
squares = [x * x for x in range(5)]
squares

[0, 1, 4, 9, 16]

In [18]:
even_squares = [x * x for x in even_numbers]
even_squares

[0, 4, 16]

也可以把列表转换为字典或集合：

In [19]:
square_dict = { x : x * x for x in range(5) } 
square_dict

{0: 0, 1: 1, 2: 4, 3: 9, 4: 16}

In [20]:
square_set = { x * x for x in [1, -1] }
square_set

{1}

如果你不需要来自原列表中的值，常规的方式是使用下划线作为变量：

In [21]:
zeroes = [0 for _ in even_numbers]
zeroes

[0, 0, 0]

列表解析可以包括多个for语句：

In [22]:
pairs = [(x, y) 
         for x in range(3)
         for y in range(3)]
pairs

[(0, 0), (0, 1), (0, 2), (1, 0), (1, 1), (1, 2), (2, 0), (2, 1), (2, 2)]

## 2.6 生成器和迭代器
列表的一个问题是它很容易变得非常大。range(1000000)能创建一个有100万个元素的列表：如果你需要每次只处理其中一个元素，这将会是极大的资源浪费；如果你只需要前面的几个值，那对整个列表都进行计算也是一种浪费。

`生成器`（generator）是一种可以对其进行迭代的程序，但是它的值只按需`延迟`（lazily）产生。

创建生成器的一种方法是使用函数和`yield`运算符：

In [23]:
def lazy_range(n):
    """a lazy version of range""" 
    i = 0 
    while i < n:
        yield i
        i += 1

# 下面的循环会每次消耗一个yield值直到一个也不剩
for i in lazy_range(10): 
    print(i)

0
1
2
3
4
5
6
7
8
9


Python有一个和`lazy_range`一样的函数，叫作`xrange`， 并且在`Python 3`中， 函数本身就是延迟的。这意味着，你甚至可以创建一个无限的序列：

In [24]:
def natural_numbers():
    """returns 1, 2, 3, ..."""
    n = 1 
    while True:
        yield n
        n += 1

> 延迟的缺点是，你只能通过生成器迭代一次。如果需要多次迭代某个对象，你就需要每次都重新创建一个生成器，或者使用列表

第二种创建生成器的方法是使用包含在圆括号中的`for`语句解析：

In [25]:
lazy_evens_below_20 = (i for i in lazy_range(20) if i % 2 == 0)
lazy_evens_below_20

<generator object <genexpr> at 0x7f4a8c216048>

## 2.7 函数式工具
在传递函数的时候，有时我们可能想部分地应用(即柯里化)函数来创建新函数。下面是一个简单的例子，假设我们有一个含两个变量的函数：

In [26]:
def exp(base, power):
    return base ** power

# 使用functools.partial柯里化
from functools import partial 

two_to_the = partial(exp, 2) 
two_to_the(3)

8

In [27]:
# 如果你为后面的参数指定了名字，也能用partial来填充这些参数
square_of = partial(exp, power=2)
square_of(3)

9

如果你柯里化中间函数的参数，就会变得混乱起来，所以要努力避免这么做。

偶尔我们也会使用函数`map`、`reduce`和`filter`，它们为列表解析提供了函数式替换方案：

In [28]:
def double(x): 
    return 2 * x

xs = [1, 2, 3, 4] 
twice_xs = map(double, xs) 
list(twice_xs)

[2, 4, 6, 8]

In [29]:
list_doubler = partial(map, double) 
twice_xs = list_doubler(xs)
list(twice_xs)

[2, 4, 6, 8]

如果你提供了多个列表，可以对带有多个参数的函数使用`map`：

In [30]:
def multiply(x, y): 
    return x * y 

products = map(multiply, [1, 2], [4, 5]) 
list(products)

[4, 10]

## 2.8 压缩和参数拆分
如果想把两个或多个列表压缩在一起，可以使用`zip`把多个列表转换为一个对应元素的元组的单个列表中：

In [31]:
list1 = ['a', 'b', 'c'] 
list2 = [1, 2, 3] 
l = zip(list1, list2)
list(l)

[('a', 1), ('b', 2), ('c', 3)]

可以使用一种特殊的方法`解压`一个列表：

In [32]:
pairs = [('a', 1), ('b', 2), ('c', 3)] 
letters, numbers = zip(*pairs)
list(letters), list(numbers)

(['a', 'b', 'c'], [1, 2, 3])

其中的`星号`执行`参数拆分`（argument unpacking）。 参数拆分使用`pairs`的元素作为独立的参数传给`zip`。这就和调用以下函数的结果是一样的：

In [33]:
letters, numbers = zip(('a', 1), ('b', 2), ('c', 3))
list(letters), list(numbers)

(['a', 'b', 'c'], [1, 2, 3])

可以在任何函数上使用参数拆分：

In [34]:
def add(a, b): 
    return a + b

add(1, 2)

3

In [35]:
# TypeError!
# add([1, 2])
add(*[1, 2])

3

## 2.9 args和kwargs
假如我们想创建一个更高阶的函数，把某个函数`f`作为输入，并返回一个对任意输入都返回`f`值两倍的新函数：

In [36]:
def doubler(f):
    def g(x):
        return 2 * f(x) 
    return g

def f1(x):
    return x + 1

g = doubler(f1)
g(3)

8

但对于有多个参数的函数来说，就不适用：

In [37]:
def f2(x, y): 
    return x + y

g = doubler(f2)

try:
    g(1, 2)
except TypeError as te:
    print("TypeError: ", te)

TypeError:  g() takes 1 positional argument but 2 were given


我们所需要的是一种指定一个可以取任意参数的函数的方法，利用参数拆分和一点点魔法就可以做到这一点：

In [38]:
def magic(*args, **kwargs): 
    print("unnamed args:", args)
    print("keyword args:", kwargs)

magic(1, 2, key="word", key2="word2")

unnamed args: (1, 2)
keyword args: {'key': 'word', 'key2': 'word2'}


也就是说，当我们定义了这样一个函数时，`args`是一个它的未命名参数的元组，而`kwargs`是一个它的已命名参数的`dict`。 反过来也适用，你可以使用一个`list`或者`tuple`和`dict`来给函数提供参数：

In [39]:
def other_way_magic(x, y, z):
    return x + y + z

x_y_list = [1, 2] 
z_dict = { "z" : 3 } 

other_way_magic(*x_y_list, **z_dict)

6

利用这种技巧就可以创建将任意参数作为输入的高阶函数：

In [40]:
def doubler_correct(f):
    def g(*args, **kwargs): 
        return 2 * f(*args, **kwargs) 
    return g 

def f2(x, y): 
    return x + y

g = doubler_correct(f2) 
g(1, 2)

6