# 数据结构常用模块及函数

## collections模块
    
    1. deque类（更快速的操作队列，设置队列最大长度等。）
    2. defaultdict类（创建字典时，指定值的类型，如defaultdict(list)，则值的初始类型为列表。但其内存占用是一般字典的两倍。）
    3. OrderedDict类（有序字典，按照插入先后顺序进行排序。）

    4. Counter类（ 在底层实现上，一个 Counter 对象就是一个字典，将元素映射到它出现的次数上。）
    

In [1]:
from collections import Counter

words = [
'look', 'into', 'my', 'eyes', 'look', 'into', 'my', 'eyes',
'the', 'eyes', 'the', 'eyes', 'the', 'eyes', 'not', 'around', 'the',
'eyes', "don't", 'look', 'around', 'the', 'eyes', 'look', 'into',
'my', 'eyes', "you're", 'under']

word_counts = Counter(words)

# 出现频率最高的3个单词
top_three = word_counts.most_common(3)

print(top_three)

print(word_counts['not'])

print(word_counts['eyes'])


morewords = ['why','are','you','not','looking','in','my','eyes']
word_counts.update(morewords)

word_counts['look']

[('eyes', 8), ('the', 5), ('look', 4)]
1
8


4

    5. namedtuple()函数：传递一个类型名和你需要的字段给它，然后它就会返回一个类。可以将元组命名。

In [2]:
from collections import namedtuple

Subscriber = namedtuple('tuple_name', ['addr', 'joined'])             # tuple_name即为元组的名称
sub = Subscriber('jonesy@example.com', '2012-10-19')

print(sub)

print(sub.addr)

print(sub.joined)

tuple_name(addr='jonesy@example.com', joined='2012-10-19')
jonesy@example.com
2012-10-19


## heapq模块(堆数据结构)里的nsmallest和nlargest函数（n, iterable, key=None）

## zip()函数将两个可迭代对象捉对压缩到一个包含元组的列表中，且是一个只能访问一次的迭代器。

## 在对字典进行sorted（）排序时，比如：

In [3]:
prices = {
    'ACME': 45.23,
    'AAPL': 612.78,
    'IBM': 205.55,
    'HPQ': 37.20,
    'FB': 10.75
}

sorted(prices,key=lambda k:prices[k])

['FB', 'HPQ', 'ACME', 'IBM', 'AAPL']

注意：传入的参数为字典prices，但是在sorted函数内部进行排序操作的仅仅只有键。

## operator模块：

### itemgetter（）函数用来提取指定键或位置的值。

In [4]:
from operator import itemgetter

rows = [
    {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003},
    {'fname': 'David', 'lname': 'Beazley', 'uid': 1002},
    {'fname': 'John', 'lname': 'Cleese', 'uid': 1001},
    {'fname': 'Big', 'lname': 'Jones', 'uid': 1004}]

rows_by_fname = sorted(rows, key=itemgetter('fname'))
rows_by_uid = sorted(rows, key=itemgetter('uid'))
print(rows_by_fname)
print('-------------------------------------------------------------------------------------------------------------------------------')
print(rows_by_uid)

[{'fname': 'Big', 'lname': 'Jones', 'uid': 1004}, {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}, {'fname': 'David', 'lname': 'Beazley', 'uid': 1002}, {'fname': 'John', 'lname': 'Cleese', 'uid': 1001}]
-------------------------------------------------------------------------------------------------------------------------------
[{'fname': 'John', 'lname': 'Cleese', 'uid': 1001}, {'fname': 'David', 'lname': 'Beazley', 'uid': 1002}, {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}, {'fname': 'Big', 'lname': 'Jones', 'uid': 1004}]


### attrgetter()函数用来提取类的指定属性。

In [5]:
from operator import attrgetter

class User:
    def __init__(self, user_id):
        self.user_id = user_id

    def __repr__(self):
        return 'User({})'.format(self.user_id)
    
users = [User(23), User(3), User(99)]

print(sorted(users, key=lambda u: u.user_id))
print(sorted(users, key=attrgetter('user_id')))

[User(3), User(23), User(99)]
[User(3), User(23), User(99)]


itemgetter（）和attrgetter（）通常会比lambda函数运行得快一点

## itertools模块

groupby() 函数扫描整个序列并且查找连续相同值（或者根据指定 key 函数返回值相同）的元素序列。 在每次迭代的时候，它会返回一个值和一个迭代器对象， 这个迭代器对象可以生成元素值全部等于上面那个值的组中所有对象。

In [6]:
from operator import itemgetter
from itertools import groupby

rows = [
    {'address': '5412 N CLARK', 'date': '07/01/2012'},
    {'address': '5148 N CLARK', 'date': '07/04/2012'},
    {'address': '5800 E 58TH', 'date': '07/02/2012'},
    {'address': '2122 N CLARK', 'date': '07/03/2012'},
    {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'},
    {'address': '1060 W ADDISON', 'date': '07/02/2012'},
    {'address': '4801 N BROADWAY', 'date': '07/01/2012'},
    {'address': '1039 W GRANVILLE', 'date': '07/04/2012'},]

# Sort by the desired field first
rows.sort(key=itemgetter('date'))

# Iterate in groups
for date, items in groupby(rows, key=itemgetter('date')):
    print(date)
    for i in items:
        print(' ', i)

07/01/2012
  {'address': '5412 N CLARK', 'date': '07/01/2012'}
  {'address': '4801 N BROADWAY', 'date': '07/01/2012'}
07/02/2012
  {'address': '5800 E 58TH', 'date': '07/02/2012'}
  {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'}
  {'address': '1060 W ADDISON', 'date': '07/02/2012'}
07/03/2012
  {'address': '2122 N CLARK', 'date': '07/03/2012'}
07/04/2012
  {'address': '5148 N CLARK', 'date': '07/04/2012'}
  {'address': '1039 W GRANVILLE', 'date': '07/04/2012'}


## fnmatch模块

主要用于文件名的匹配，也可解决简单的匹配问题。

In [None]:
fnmatch()
fnmatchcase()