## Python几个高级常用函数

介绍几个较为常用的高级函数：
* Counter：计数器
* defaultdict：带默认值的字典
* map、reduce、filter：针对序列操作的函数
* groupby：类似SQL中groupby的聚合函数（但只会相邻相同元素聚合）

### 1. Counter 计数器

Counter（计数器）：用于追踪值的出现次数，Counter类继承dict类，所以它能使用dict类里面的方法 

#### 对iterable进行计数

In [1]:
import collections

In [2]:
counter = collections.Counter(['a', 'b', 'c', 'a', 'b', 'a'])

In [3]:
counter

Counter({'a': 3, 'b': 2, 'c': 1})

#### 使用update可以往Counter新增内容

In [4]:
counter.update(['c', 'b', 'c', 'd', 'c'])

In [5]:
counter

Counter({'a': 3, 'b': 3, 'c': 4, 'd': 1})

#### 可以像字典一样输出key/value

In [6]:
for key, value in counter.items():
    print(key, value)

a 3
b 3
c 4
d 1


#### 很方便的输出最高频率的数据

In [7]:
counter.most_common(3)

[('c', 4), ('a', 3), ('b', 3)]

### 2. defaultdict

直接访问字典不存在的key是会报错的，所以一般需要做初始化：
```
if key not in d:
  d[key] = 0
  d[key] = []
d[key] += 3
d[key].append(123)
```
dict =defaultdict(factory_function)  
factory_function可以是str、int、list、set，可以省略初始化

In [8]:
from collections import defaultdict

#### 默认的value为int类型，直接加数字

In [9]:
dint = defaultdict(int)
dint["a"] += 3
dint["b"] += 4

dint

defaultdict(int, {'a': 3, 'b': 4})

#### 默认的value为list类型，直接添加元素

In [10]:
dlist = defaultdict(list)
dlist["a"].append(1)
dlist["a"].extend([2,3,4])

dlist

defaultdict(list, {'a': [1, 2, 3, 4]})

### 3. map、reduce、filter函数


#### map(function, iterable, ...)
给序列的每个元素应用一个函数，返回一个迭代器

In [11]:
l = [1,2,3,4]

In [12]:
result = map(lambda x: x**2, l)
result

<map at 0x7f64a079a850>

In [13]:
list(result)

[1, 4, 9, 16]

#### reduce(function, iterable)

使用function(x, y)函数，将序列缩减成1个元素结果

In [14]:
l = [1,2,3,4]

In [15]:
from functools import reduce

reduce(lambda x, y: x+y, l)

10

#### filter(function, iterable)

使用返回bool的function对序列过滤，返回满足条件的结果

In [16]:
l = range(10)

In [17]:
result = filter(lambda x: x%2==0, l)
result

<filter at 0x7f64a0788f90>

In [18]:
list(result)

[0, 2, 4, 6, 8]

### 4. groupby函数

按照指定key进行数据分组：groupby(iterable, key=None)

In [19]:
# 文章ID、文章标题、文章分类
datas = [
    {"id":101, "title":"标题1", "category":"Python"},
    {"id":102, "title":"标题2", "category":"Java"},
    {"id":103, "title":"标题3", "category":"C++"},
    {"id":104, "title":"标题4", "category":"Python"},
    {"id":105, "title":"标题5", "category":"Python"},
    {"id":106, "title":"标题6", "category":"Java"}
]

In [20]:
from itertools import groupby  

#### 先将数据按目标key排序

In [21]:
datas = sorted(datas, key=lambda x:x["category"])
datas

[{'id': 103, 'title': '标题3', 'category': 'C++'},
 {'id': 102, 'title': '标题2', 'category': 'Java'},
 {'id': 106, 'title': '标题6', 'category': 'Java'},
 {'id': 101, 'title': '标题1', 'category': 'Python'},
 {'id': 104, 'title': '标题4', 'category': 'Python'},
 {'id': 105, 'title': '标题5', 'category': 'Python'}]

#### 使用groupby可以对相邻相同元素做聚合

In [22]:
from itertools import groupby  

In [23]:
result = groupby(datas, key=lambda x : x["category"])
result

<itertools.groupby at 0x7f64a0748c50>

In [24]:
list(result)

[('C++', <itertools._grouper at 0x7f64a0747650>),
 ('Java', <itertools._grouper at 0x7f64a0747890>),
 ('Python', <itertools._grouper at 0x7f64a0747a90>)]

In [25]:
# 因为是迭代器，消耗完了就没有数据了
result = groupby(datas, key=lambda x : x["category"])
for key, values in result:
    print(key, list(values))

C++ [{'id': 103, 'title': '标题3', 'category': 'C++'}]
Java [{'id': 102, 'title': '标题2', 'category': 'Java'}, {'id': 106, 'title': '标题6', 'category': 'Java'}]
Python [{'id': 101, 'title': '标题1', 'category': 'Python'}, {'id': 104, 'title': '标题4', 'category': 'Python'}, {'id': 105, 'title': '标题5', 'category': 'Python'}]
