In [None]:

# 1.12 序列中出现次数最多的元素
'''
问题
怎样找出一个序列中出现次数最多的元素呢？
解决方案
collections.Counter 类就是专门为这类问题而设计的，它甚至有一个有用的
most_common() 方法直接给了你答案。

'''
words = [
'look', 'into', 'my', 'eyes', 'look', 'into', 'my', 'eyes',
'the', 'eyes', 'the', 'eyes', 'the', 'eyes', 'not', 'around', 'the',
'eyes', "don't", 'look', 'around', 'the', 'eyes', 'look', 'into',
'my', 'eyes', "you're", 'under'
]

from collections import Counter
word_counts = Counter(words)
# 出现频率最高的3个单词
top_three = word_counts.most_common(3)
print(top_three)
# [('eyes', 8), ('the', 5), ('look', 4)]


# 作为输入，Counter 对象可以接受任意的由可哈希（hashable）元素构成的序列对象。
# 在底层实现上，一个 Counter 对象就是一个字典，将元素映射到它出现的次数上。
# 比如：

word_counts['not']
word_counts['eyes']


morewords = ['why','are','you','not','looking','in','my','eyes']
a = Counter(words)
b = Counter(morewords)
a
b
c = a + b 
c


In [17]:
# 1.13 通过某个关键字排序一个字典列表

'''
问题
你有一个字典列表，你想根据某个或某几个字典字段来排序这个列表。
解决方案
通过使用 operator 模块的 itemgetter 函数，可以非常容易的排序这样的数据结
构。假设你从数据库中检索出来网站会员信息列表，并且以下列的数据结构返回
'''

rows = [
{'fname': 'Brian', 'lname': 'Jones', 'uid': 1003},
{'fname': 'David', 'lname': 'Beazley', 'uid': 1002},
{'fname': 'John', 'lname': 'Cleese', 'uid': 1001},
{'fname': 'Big', 'lname': 'Jones', 'uid': 1004}
]

from operator import itemgetter
rows_by_fname = sorted(rows,key=itemgetter('fname'))
rows_by_uid = sorted(rows,key=itemgetter('uid'))
print(rows_by_fname)
print(rows_by_uid)

[{'fname': 'Big', 'lname': 'Jones', 'uid': 1004}, {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}, {'fname': 'David', 'lname': 'Beazley', 'uid': 1002}, {'fname': 'John', 'lname': 'Cleese', 'uid': 1001}]
[{'fname': 'John', 'lname': 'Cleese', 'uid': 1001}, {'fname': 'David', 'lname': 'Beazley', 'uid': 1002}, {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}, {'fname': 'Big', 'lname': 'Jones', 'uid': 1004}]


In [28]:
# 1.14 排序不支持原生比较的
'''
问题
你想排序类型相同的对象，但是他们不支持原生的比较操作。

解决方案
内置的 sorted() 函数有一个关键字参数 key ，可以传入一个 callable 对象给
它，这个 callable 对象对每个传入的对象返回一个值，这个值会被 sorted 用来排序
这些对象。比如，如果你在应用程序里面有一个 User 实例序列，并且你希望通过他们
的 user_id 属性进行排序，你可以提供一个以 User 实例作为输入并输出对应 user_id
值的 callable 对象。比如：

'''

class User:
    def __init__(self,user_id):
        self.user_id = user_id
        
        
    def __repr__(self):
        return 'User({})'.format(self.user_id)
    
    
def sort_notcompare():
    users = [User(23),User(3),User(99)]
    print(users)
    print(sorted(users,key = lambda u:u.user_id))
    
sort_notcompare()

[User(23), User(3), User(99)]
[User(3), User(23), User(99)]


In [11]:
# 1.15 通过某个字段将记录
'''
问题
你有一个字典或者实例的序列，然后你想根据某个特定的字段比如 date 来分组迭
代访问。
解决方案
itertools.groupby() 函数对于这样的数据分组操作非常实用。为了演示，假设你
已经有了下列的字典列表：

'''
rows = [
{'address': '5412 N CLARK', 'date': '07/01/2012'},
{'address': '5148 N CLARK', 'date': '07/04/2012'},
{'address': '5800 E 58TH', 'date': '07/02/2012'},
{'address': '2122 N CLARK', 'date': '07/03/2012'},
{'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'},
{'address': '1060 W ADDISON', 'date': '07/02/2012'},
{'address': '4801 N BROADWAY', 'date': '07/01/2012'},
{'address': '1039 W GRANVILLE', 'date': '07/04/2012'},
]
from operator import itemgetter
from itertools import groupby

# Sort by the desired field first
rows.sort(key=itemgetter('date'))
#Iterate in groups
for data,items in groupby(rows,key=itemgetter('date')):
    print(data)
    for i in items:
        print(' ',i)
        
        
'''
如果你仅仅只是想根据 date 字段将数据分组到一个大的数据结构中去，并且允许
随机访问，那么你最好使用 defaultdict() 来构建一个多值字典，关于多值字典已经
在 1.6 小节有过详细的介绍。比如
'''

from collections import defaultdict
rows_by_date = defaultdict(list)
for row in rows:
    rows_by_date[row['date']].append(row)
    
for r in rows_by_date['07/01/2012']:
    print(r)
    


07/01/2012
  {'address': '5412 N CLARK', 'date': '07/01/2012'}
  {'address': '4801 N BROADWAY', 'date': '07/01/2012'}
07/02/2012
  {'address': '5800 E 58TH', 'date': '07/02/2012'}
  {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'}
  {'address': '1060 W ADDISON', 'date': '07/02/2012'}
07/03/2012
  {'address': '2122 N CLARK', 'date': '07/03/2012'}
07/04/2012
  {'address': '5148 N CLARK', 'date': '07/04/2012'}
  {'address': '1039 W GRANVILLE', 'date': '07/04/2012'}
{'address': '5412 N CLARK', 'date': '07/01/2012'}
{'address': '4801 N BROADWAY', 'date': '07/01/2012'}


In [18]:
# 1.16 过滤序列元素
'''
问题
你有一个数据序列，想利用一些规则从中提取出需要的值或者是缩短序列

解决方案
最简单的过滤序列元素的方法就是使用列表推导。比如
'''
mylist = [1, 4, -5, 10, -7, 2, 3, -1]
[n for n in mylist if n > 0]


# 使用列表推导的一个潜在缺陷就是如果输入非常大的时候会产生一个非常大的结果集，占用大量内存。
# 如果你对内存比较敏感，那么你可以使用生成器表达式迭代产生过滤的元素。比如：
pos = (n for n in mylist if n>0)
print(pos)
for x in pos:
    print(x)
    
    
'''
有时候，过滤规则比较复杂，不能简单的在列表推导或者生成器表达式中表达出
来。比如，假设过滤的时候需要处理一些异常或者其他复杂情况。这时候你可以将过滤
代码放到一个函数中，然后使用内建的 filter() 函数。示例如下：
'''

values = ['1', '2', '-3', '-', '4', 'N/A', '5']

def is_int(val):
    try:
        x = int(val)
        return True
    except ValueError:
        return False
    

ivals = list(filter(is_int,values))
print(ivals)


'''
过滤操作的一个变种就是将不符合条件的值用新的值代替，而不是丢弃它们。比
如，在一列数据中你可能不仅想找到正数，而且还想将不是正数的数替换成指定的数。
通过将过滤条件放到条件表达式中去，可以很容易的解决这个问题，就像这样：
'''
clip_neg = [n if n >0 else 0 for n in mylist]
clip_neg

<generator object <genexpr> at 0x0000028F24C5BF48>
1
4
10
2
3
['1', '2', '-3', '4', '5']


[1, 4, 0, 10, 0, 2, 3, 0]

In [28]:
# 1.17 从字典中提取子集
'''
问题
你想构造一个字典，它是另外一个字典的子集。

解决方案
最简单的方式是使用字典推导。比如：
'''
prices = {
'ACME': 45.23,
'AAPL': 612.78,
'IBM': 205.55,
'HPQ': 37.20,
'FB': 10.75
}

# Make a dictionary of all prices over 200
p1 = {key: value for key, value in prices.items() if value > 200}
# Make a dictionary of tech stocks
tech_names = {'AAPL', 'IBM', 'HPQ', 'MSFT'}
p2 = {key: value for key, value in prices.items() if key in tech_names  if value > 200}
print(p1)
print(p2)

# 大多数情况下字典推导能做到的，通过创建一个元组序列然后把它传给 dict() 函 数也能实现。比如：
p1 = dict((key, value) for key, value in prices.items() if value > 200 )
print(p1)
# 但是，字典推导方式表意更清晰，并且实际上也会运行的更快些（在这个例子中，实际测试几乎比 dcit() 函数方式快整整一倍）。


{'AAPL': 612.78, 'IBM': 205.55}
{'AAPL': 612.78, 'IBM': 205.55}
{'AAPL': 612.78, 'IBM': 205.55}


In [30]:
# 1.18 映射名称到序列元素
'''
问题
你有一段通过下标访问列表或者元组中元素的代码，但是这样有时候会使得你的
代码难以阅读，于是你想通过名称来访问元素。

解决方案
collections.namedtuple() 函数通过使用一个普通的元组对象来帮你解决这个问
题。这个函数实际上是一个返回 Python 中标准元组类型子类的一个工厂方法。你需要
传递一个类型名和你需要的字段给它，然后它就会返回一个类，你可以初始化这个类，
为你定义的字段传递值等。代码示例：
'''

# 下面是使用普通元组的代码：
def compute_cost(records):
    total = 0.0
    for rec in records:
        total += rec[1] * rec[2]
    return  total

# 下标操作通常会让代码表意不清晰，并且非常依赖记录的结构。下面是使用命名元组的版本
from collections import namedtuple

Stock = namedtuple('Stock',['name','shares','price'])
def compute_cost2(records):
    total = 0.0
    for rec in records:
        s = Stock(*rec)
        total += s.shares * s.price
    return total



In [42]:
# 1.19 转换并同时计
'''
问题
你需要在数据序列上执行聚集函数（比如 sum() , min() , max() ），但是首先你需
要先转换或者过滤数据

解决方案
一个非常优雅的方式去结合数据计算与转换就是使用一个生成器表达式参数。比
如，如果你想计算平方和，可以像下面这样做：
'''

nums = [1, 2, 3, 4, 5]
s = sum(x*x for x in nums)
print(s)

import os
files = os.listdir('C:\\Users\\admin\PycharmProjects\Life_Process_Study\StudyPacticePython\Base_Python\cook_book')
if any(name.endswith('.py') for name in files):
    print('There be python! ')
else:
    print('Sorry, no python! ')
    
#Output a tuple as CSV
s = ('ACME',50,123.45)
print(' '.join(str(x)for x in s))

portfolio = [
{'name':'GOOG', 'shares': 50},
{'name':'YHOO', 'shares': 75},
{'name':'AOL', 'shares': 20},
{'name':'SCOX', 'shares': 65}
]

# Original: Return 20
min_shares = min(s['shares'] for s in portfolio)
print(min_shares)

# Alternative: Return{'name':'AQL','shares':20}
min_shares = min(portfolio,key=lambda s: s['shares'])
print(min_shares)

    

55
There be python! 
ACME 50 123.45
20
{'name': 'AOL', 'shares': 20}


In [45]:
# 1.20 合并多个字典或映射
'''
问题
现在有多个字典或者映射，你想将它们从逻辑上合并为一个单一的映射后执行某
些操作，比如查找值或者检查某些键是否存在。

解决方案
假如你有如下两个字典:
'''
a = {'x': 1, 'z': 3 }
b = {'y': 2, 'z': 4 }
# 现在假设你必须在两个字典中执行查找操作（比如先从 a 中找，如果找不到再在 b
# 中找）。一个非常简单的解决方案就是使用 collections 模块中的 ChainMap 类。比如：
from collections import ChainMap
c= ChainMap(a,b)
print(c['x'])
print(c['y'])
print(c['z'])

1
2
3
