# Map, Filter, Reduce, and Groupby

本部分展示高阶函数应用


In [1]:
data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

In [2]:
def square(x):
    return x ** 2

def iseven(n):
    return n % 2 == 0

def add(x, y):
    return x + y

def mul(x, y):
    return x * y

def lesser(x, y):
    if x < y:
        return x
    else:
        return y

def greater(x, y):
    if x > y:
        return x
    else:
        return y

## Map

In [4]:
# map works like this
list(map(square, data))

[1, 4, 9, 16, 25, 36, 49, 64, 81, 100]

In [7]:
# In this way it's like numpy's broadcasting operators
import numpy as np
X = np.arange(1, 11)
X*2

array([ 2,  4,  6,  8, 10, 12, 14, 16, 18, 20])

但是 `map` 是纯python函数，所以 

*   很慢
*   能够处理普通的函数比如fibonacci

In [8]:
def fib(i):
    if i in (0, 1):
        return i
    else:
        return fib(i - 1) + fib(i - 2)
    
list(map(fib, data))

[1, 1, 2, 3, 5, 8, 13, 21, 34, 55]

In [9]:
# 通过情况下，我们将会这样应用他们
result = []
for item in data:
    result.append(fib(item))
    
result

[1, 1, 2, 3, 5, 8, 13, 21, 34, 55]

In [10]:
# 查看下上面给的好的范式说明了如何定义一个map方法 map looking at the function above gives us a good pattern for how to define `map`
# 我们将自己抽象定义一个map函数  We just abstract out the function `fib` for a user input

# `map` is easy to define
def map(fn, sequence):
    result = []
    for item in sequence:
        result.append(fn(item))
    return result

鲜为人知的事实是，对象的方法也是完全有效的函数

In [11]:
map(str.upper, ['Alice', 'Bob', 'Charlie'])

['ALICE', 'BOB', 'CHARLIE']

map函数是非常重要的，它有自己的语法，**列表理解**，

In [12]:
[fib(i) for i in data]

[1, 1, 2, 3, 5, 8, 13, 21, 34, 55]

In [13]:
[name.upper() for name in ['Alice', 'Bob', 'Charlie']]

['ALICE', 'BOB', 'CHARLIE']

## Filter

“过滤器” 高阶函数通过断言方式来过滤数据集。

断言是一个返回“True”或“False”的函数。 `filter`函数返回一个新的只有断言为true的元素的列表。


In [11]:
list(filter(iseven, data))

[2, 4, 6, 8, 10]

In [13]:
from sympy import isprime  # Only works if you have the sympy math library installed
list(filter(isprime, data))

[2, 3, 5, 7]

In [14]:
def filter(predicate, sequence):
    result = []
    for item in sequence:
        if predicate(item):
            result.append(item)
    return result

## Reduce

Reduce是`map`和`filter`的小兄弟。 Reduce不太受欢迎，经常被责骂难以理解。

尽管社会问题“Reduce”是相当强大的，一旦你写了“Reduce”，一旦你明白它是如何工作的。 更重要的是，您将学习如何识别约简操作以及如何将它们与二元运算符配对。 数据分析中的降维操作很常见的，特别是在将大型数据集缩减为概要时。

为了显示“Reduce”，我们将首先实现两个常见的减少，“sum”和“min”。 我们已经用二元运算符`add`和`lessser`来暗示它们，以突出它们的类似结构。 选出以下两个互不相同功能的部分。

In [15]:
def sum(sequence):
    result = 0
    for item in sequence:
        # reult = result + item
        result = add(result, item)
    return result

In [17]:
def min(sequence):
    result = 99999999999999  # a really big number
    for item in sequence:
        # result = result if result < item else item
        result = lesser(result, item)
    return result

### Exercise

现在填写下面的空白来完成`product`的定义，这个函数将序列的元素放在一起。

In [16]:
def product(sequence):
    result = ?
    for item in sequence:
        result = ?(result, item)
    return result

assert product([2, 3, 10]) == 60

SyntaxError: invalid syntax (<ipython-input-16-92db2dd2fc1e>, line 2)

### Exercise

实现 `reduce`.

首先复制上述三个函数的模式。 三者之间的差异是你的输入。 传统上，reduce的论点是有序的，以便下面的例子运行良好。


In [17]:
def reduce(...):
    ...

SyntaxError: invalid syntax (<ipython-input-17-880dfea8dc75>, line 1)

In [19]:
from functools import reduce
reduce(add, data, 0)

55

In [20]:
reduce(mul, data, 1)

3628800

In [21]:
reduce(lesser, data, 10000000)

1

In [22]:
reduce(greater, data, -100000000)

10

## Lambda

我们这部分课程有很多像这样小的函数定义

```
def add(x, y):
    return x + y
```

这些单线功能有时看起来有点愚蠢。 我们使用`lambda`关键字来即时创建小函数。 上述定义可以表述如下

```
add = lambda x, y: x + y
```

表达式`lambda x，y：x + y`是一个值，就像`3`或`Alice`一样。 就像文字整数和字符串一样，Lambda表达式可以在不用变量存储的情况下即时使用。


In [23]:
reduce(add, data, 0)

55

In [24]:
reduce(lambda x, y: x + y, data, 0)  # Define `add` on the fly

55

另外，我们可以使用`lambda`来快速指定函数作为更一般化的特化。 在下面我们快速定义总和，最小值和最大值。

In [25]:
sum = lambda data: reduce(add, data, 0)
min = lambda data: reduce(lesser, data, 99999999999)
max = lambda data: reduce(greater, data, -999999999999)

In [26]:
sum(data)

55

作业练习，自己定制一个 `product` 使用下 `lambda`, `reduce`, 和 `mul`.

In [26]:
product = ...
assert product([2, 3, 10]) == 60

SyntaxError: invalid syntax (<ipython-input-26-405b2d336b95>, line 1)

## Groupby

Groupby可以被看作是“filter”的一个更强大的版本。 而不是给你一个数据的子集，它把数据分成所有相关的子集。


In [27]:
filter(iseven, data)

[2, 4, 6, 8, 10]

In [28]:
from toolz import groupby
groupby(iseven, data)

{False: [1, 3, 5, 7, 9], True: [2, 4, 6, 8, 10]}

In [29]:
groupby(isprime, data)

{False: [1, 4, 6, 8, 9, 10], True: [2, 3, 5, 7]}

但是 `groupby` 不能严格的断言 (传递函数返回 `True` 或 `False`)

In [30]:
groupby(lambda n: n % 3, data)

{0: [3, 6, 9], 1: [1, 4, 7, 10], 2: [2, 5, 8]}

In [32]:
groupby(len, ['Alice', 'Bob', 'Charlie', 'Dan', 'Edith', 'Frank'])

{3: ['Bob', 'Dan'], 5: ['Alice', 'Edith', 'Frank'], 7: ['Charlie']}

令人惊讶的是`groupby`在普通情况下并不比`filter` 消费更多资源。 它通过数据一次性计算这些数据组。


## Integrative example

让我们把它们放在一个小数据集中展示。


In [31]:
likes = """Alice likes Chocolate
Bob likes Chocolate
Bob likes Apples
Charlie likes Apples
Alice likes Peanut Butter
Charlie likes Peanut Butter"""

In [43]:
tuples = map(lambda s: s.split(' likes '), likes.split('\n'))
tuples

<map at 0xe5f2c88>

In [44]:
groups = groupby(lambda x: x[0], tuples)
groups

{'Alice': [['Alice', 'Chocolate'], ['Alice', 'Peanut Butter']],
 'Bob': [['Bob', 'Chocolate'], ['Bob', 'Apples']],
 'Charlie': [['Charlie', 'Apples'], ['Charlie', 'Peanut Butter']]}

In [46]:
from toolz import valmap, first, second
valmap(lambda L: list(map(second, L)), groups)

{'Alice': ['Chocolate', 'Peanut Butter'],
 'Bob': ['Chocolate', 'Apples'],
 'Charlie': ['Apples', 'Peanut Butter']}

In [49]:
tuples = map(lambda s: s.split(' likes '), likes.split('\n'))
valmap(lambda L: list(map(first, L)), groupby(lambda x: x[1], tuples))

{'Apples': ['Bob', 'Charlie'],
 'Chocolate': ['Alice', 'Bob'],
 'Peanut Butter': ['Alice', 'Charlie']}

In [58]:
tuples = list(map(lambda s: s.split(' likes '), likes.split('\n')))
# first second 取数据
# groupby 数据分组
# compose 函数组合
# valmap 字典元组计算
from toolz.curried import map, valmap, groupby, first, second, get, curry, compose, pipe

f = compose(valmap(first), groupby(second))

f(tuples)

{'Apples': ['Bob', 'Apples'],
 'Chocolate': ['Alice', 'Chocolate'],
 'Peanut Butter': ['Alice', 'Peanut Butter']}