# 集合

- 集合是无序、可变序列，使用一对大括号界定，元素不可重复，同一个集合中每个元素都是唯一的。
- 集合中只能包含数字、字符串、元组等不可变类型（或者说可哈希）的数据，而不能包含列表、字典、集合等可变类型的数据。


## 集合的创建与删除

In [3]:
'''用{}或者set()可以创建集合'''
a = {3, 5}
a_set = set(range(8,14))
'''set()可以将列表、元组等其它可迭代对象转换为集合；并仅保留一个，如果存在重复的元素'''
b_set = set([0, 1, 2, 3, 0, 1, 2, 3, 7, 8])   #自动去除重复
print(b_set)
c_set = set()                                 #空集合

{0, 1, 2, 3, 7, 8}


## 集合元素的增加与删除

In [15]:
a ={1,2,3,4,5,6,7}
a.add(10000)
#将元素 10000添加到集合 a 中，如果元素已存在，则不进行任何操作。
a.update([8,9])
#可以添加元素，且参数可以是列表，元组，字典等；如果元素已存在，则不进行任何操作。
a.pop()
#可以设置随机删除集合中的一个元素
#set 集合的 pop 方法会对集合进行无序的排列，然后将这个无序排列集合的左面第一个元素进行删除。
a.remove(7)
#将元素 7 从集合 a 中移除，如果元素不存在，则会发生错误。
a.discard(80)
#移除集合中的元素，且如果元素不存在，不会发生错误

{2, 3, 4, 5, 6, 8, 9, 10000}

## 集合运算

In [4]:
'''使用匀运算符实现交集、并集、差集、对称差集等运算'''
a_set = set([8, 9, 10, 11, 12, 13])
b_set = {0, 1, 2, 3, 7, 8}
print(a_set | b_set)                             #并集
print(a_set & b_set)                             #交集
print(a_set - b_set)
print(a_set ^ b_set)                             #对称差集

{0, 1, 2, 3, 7, 8, 9, 10, 11, 12, 13}
{8}
{9, 10, 11, 12, 13}
{0, 1, 2, 3, 7, 9, 10, 11, 12, 13}


In [23]:
'''使用集合自带的方法'''
a_set = set([8, 9, 10, 11, 12, 13])
b_set = {0, 1, 2, 3, 7, 8}
print('集合的交集：',a_set.intersection(b_set))
print('集合的并集：',a_set.union(b_set))
print('集合的差：',a_set.difference(b_set)) #a_set-b_set
print('集合的对称差：',a_set.symmetric_difference(b_set)) 
a_set.intersection_update({8,9,17})
print('集合的交更新集合a_set',a_set)

集合的交集： {8}
集合的并集： {0, 1, 2, 3, 7, 8, 9, 10, 11, 12, 13}
集合的差： {9, 10, 11, 12, 13}
集合的对称差： {0, 1, 2, 3, 7, 9, 10, 11, 12, 13}
集合的交更新集合a_set {8, 9}


## 集合包含关系测试

In [30]:
x = {1, 2, 3}
y = {1, 2, 5}
z = {1, 2, 3, 4}
print('比较集合大小/包含关系:',x < y)                                #
print('比较集合大小/包含关系；真子集:',x < z)                                #
print(y < z)
print({1, 2, 3} <= {1, 2, 3})               #子集
print('判断某个元素是否属于集合:',4 in x)

比较集合大小/包含关系: False
比较集合大小/包含关系；真子集: True
False
True
判断某个元素是否属于集合 False


## 集合推导式

In [67]:
'''{ 表达式 for 迭代变量 in 可迭代对象 [if 条件表达式] }'''
setnew = {i**2 for i in range(3)}
print(setnew)

tupledemo = (1,1,2,3,4,5,6,6)
setnew = {x**2 for x in tupledemo if x%2==0}
print(setnew)

{0, 1, 4}
{16, 4, 36}


## 集合运用案例

In [33]:
'''例2-1  生成不重复随机数的效率比较。'''
import random
import time

def RandomNumbers(number, start, end):
    '''使用列表来生成number个介于start和end之间的不重复随机数'''
    data = []
    n = 0
    while True:
        element = random.randint(start, end)
        if element not in data:
            data.append(element)
            n += 1
            if n == number:
                break
    return data


def RandomNumbers1(number, start, end):
    '''使用列表来生成number个介于start和end之间的不重复随机数'''
    data = []
    while True:
        element = random.randint(start, end)
        if element not in data:
            data.append(element)
            if len(data) == number:
                break
    return data


def RandomNumbers2(number, start, end):
    '''使用集合来生成number个介于start和end之间的不重复随机数'''
    data = set()
    while True:
        data.add(random.randint(start, end))
        if len(data) == number:
            break
    return data


# 数字范围
begin, end = 1, 100000
# 要获取的不重复数字个数
num = 500
# 重复测试次数
rep = 10
for ran in (RandomNumbers,RandomNumbers1,RandomNumbers2):
    start = time.time()
    for i in range(rep):
        ran(num, begin, end)
    print(ran.__name__, time.time()-start)

RandomNumbers 0.018977642059326172
RandomNumbers1 0.01994609832763672
RandomNumbers2 0.004986763000488281


In [38]:
print('''例2-2   假设已有若干用户名字及其喜欢的电影清单，现有某用户，已看过并喜欢一些电影，现在想找个新电影看看，又不知道看什么好。

思路：根据已有数据，查找与该用户爱好最相似的用户，也就是看过并喜欢的电影与该用户最接近，然后从那个用户喜欢的电影中选取一个当前用户
还没看过的电影，进行推荐。

''')
from random import randrange

# 其他用户喜欢看的电影清单
data = {'user'+str(i):{'film'+str(randrange(1, 10)) for j in range(randrange(15))}for i in range(10)}#值是集合推导式
# 待测用户曾经看过并感觉不错的电影
user = {'film1', 'film2', 'film3'}
# 查找与待测用户最相似的用户和Ta喜欢看的电影，忽略与待测用户完全一样的用户
similarUser, films = max(data.items(),
                         key=lambda item: (item[1]!=user, len(item[1]&user)))
print('历史数据：')
for u, f in data.items():
    print(u, f, sep=':')
print('和您最相似的用户是：', similarUser)
print('Ta最喜欢看的电影是：', films)
print('Ta看过的电影中您还没看过的有：', films-user)



例2-2   假设已有若干用户名字及其喜欢的电影清单，现有某用户，已看过并喜欢一些电影，现在想找个新电影看看，又不知道看什么好。

思路：根据已有数据，查找与该用户爱好最相似的用户，也就是看过并喜欢的电影与该用户最接近，然后从那个用户喜欢的电影中选取一个当前用户
还没看过的电影，进行推荐。


历史数据：
user0:{'film7', 'film9'}
user1:{'film2', 'film8', 'film7', 'film9'}
user2:{'film1', 'film2'}
user3:{'film7'}
user4:{'film3', 'film2', 'film6', 'film1', 'film5', 'film4'}
user5:{'film2', 'film4', 'film7'}
user6:{'film3', 'film6', 'film1', 'film9', 'film8'}
user7:{'film3', 'film2', 'film9', 'film1', 'film7', 'film5'}
user8:{'film1', 'film6'}
user9:{'film3', 'film2', 'film6', 'film1', 'film9', 'film7', 'film5', 'film4', 'film8'}
和您最相似的用户是： user4
Ta最喜欢看的电影是： {'film3', 'film2', 'film6', 'film1', 'film5', 'film4'}
Ta看过的电影中您还没看过的有： {'film5', 'film4', 'film6'}


In [94]:
'''例2-3过滤无效书评
'''
'''
很多人喜欢爬取书评，然后选择自己喜欢的书或者其他读者评价较高的书，这是一个非常好的思路，也是非常明智的做法。

然而，并不是每个消费者都会认真留言评论，也有部分消费者可能会复制了几个简单的句子或词作为评论。
在爬取到原始书评之后可能需要进行简单的处理和过滤，这时就需要制定一个过滤的标准进行预处理，这也是数据处理与分析的关键内容之一。

在下面的代码中，采用了一个最简单的规则：正常书评中，重复的字应该不会超过一定的比例。

'''

'\n很多人喜欢爬取书评，然后选择自己喜欢的书或者其他读者评价较高的书，这是一个非常好的思路，也是非常明智的做法。\n\n然而，并不是每个消费者都会认真留言评论，也有部分消费者可能会复制了几个简单的句子或词作为评论。\n在爬取到原始书评之后可能需要进行简单的处理和过滤，这时就需要制定一个过滤的标准进行预处理，这也是数据处理与分析的关键内容之一。\n\n在下面的代码中，采用了一个最简单的规则：正常书评中，重复的字应该不会超过一定的比例。\n\n'

In [97]:
comments = ['这是一本非常好的书，作者用心了',
            '作者大大辛苦了',
            '好书，感谢作者提供了这么多的好案例',
            '书在运输的路上破损了，我好悲伤。。。',
            '为啥我买的书上有菜汤。。。。',
            '啊啊啊啊啊啊，我怎么才发现这么好的书啊，相见恨晚',
            '书的质量有问题啊，怎么会开胶呢？？？？？？',
            '好好好好好好好好好好好',
            '好难啊看不懂好难啊看不懂好难啊看不懂',
            '书的内容很充实',
            '你的书上好多代码啊，不过想想也是，编程的书嘛，肯定代码多一些',
            '书很不错!!一级棒!!买书就上当当，正版，价格又实惠，让人放心!!! ',
            '无意中来到你小铺就淘到心意的宝贝，心情不错! ',
            '送给朋友的、很不错',
            '这是一本好书，讲解内容深入浅出又清晰明了，推荐给所有喜欢阅读的朋友同好们。']


In [104]:
rule = lambda s:len(set(s))/len(s)>0.5
result = filter(rule, comments)
#filter() 函数用于过滤序列，过滤掉不符合条件的元素，返回一个迭代器对象
#该接收两个参数，第一个为函数，第二个为序列，序列的每个元素作为参数传递给函数进行判断，然后返回 True 或 False，
#最后将返回 True 的元素放到新列表中。
print('原始书评：')
for comment in comments:
    print(comment)

print('= ='*40)
print('过滤后的书评：')
for comment in result:
    print(comment)


原始书评：
这是一本非常好的书，作者用心了
作者大大辛苦了
好书，感谢作者提供了这么多的好案例
书在运输的路上破损了，我好悲伤。。。
为啥我买的书上有菜汤。。。。
啊啊啊啊啊啊，我怎么才发现这么好的书啊，相见恨晚
书的质量有问题啊，怎么会开胶呢？？？？？？
好好好好好好好好好好好
好难啊看不懂好难啊看不懂好难啊看不懂
书的内容很充实
你的书上好多代码啊，不过想想也是，编程的书嘛，肯定代码多一些
书很不错!!一级棒!!买书就上当当，正版，价格又实惠，让人放心!!! 
无意中来到你小铺就淘到心意的宝贝，心情不错! 
送给朋友的、很不错
这是一本好书，讲解内容深入浅出又清晰明了，推荐给所有喜欢阅读的朋友同好们。
= == == == == == == == == == == == == == == == == == == == == == == == == == == == == == == == == == == == == == == == =
过滤后的书评：
这是一本非常好的书，作者用心了
作者大大辛苦了
好书，感谢作者提供了这么多的好案例
书在运输的路上破损了，我好悲伤。。。
为啥我买的书上有菜汤。。。。
啊啊啊啊啊啊，我怎么才发现这么好的书啊，相见恨晚
书的质量有问题啊，怎么会开胶呢？？？？？？
书的内容很充实
你的书上好多代码啊，不过想想也是，编程的书嘛，肯定代码多一些
书很不错!!一级棒!!买书就上当当，正版，价格又实惠，让人放心!!! 
无意中来到你小铺就淘到心意的宝贝，心情不错! 
送给朋友的、很不错
这是一本好书，讲解内容深入浅出又清晰明了，推荐给所有喜欢阅读的朋友同好们。


# sorted()函数

- 列表对象提供了sort()方法支持原地排序，而内置函数sorted()返回新列表，并不对原列表进行任何修改。
- sorted()方法可以对列表、元组、字典、range对象等进行排序。
- 列表的sort()方法和内置函数sorted()都支持key参数实现复杂排序要求。

In [117]:
persons = [{'name':'Dong', 'age':37}, 
               {'name':'Zhang', 'age':40},
               {'name':'Li', 'age':50},
               {'name':'Dong', 'age':43}]
print('原始的字典：',persons)
'''使用key来指定排序依据，先按姓名升序排序，姓名相同的按年龄降序排序'''
print('先按姓名升序排序，姓名相同的按年龄降序排序：',sorted(persons, key=lambda x:(x['name'], -x['age'])))

from operator import itemgetter
print('先按姓名升序排序，姓名相同的按年龄升序排序：',sorted(persons, key=itemgetter('name','age')))


原始的字典： [{'name': 'Dong', 'age': 37}, {'name': 'Zhang', 'age': 40}, {'name': 'Li', 'age': 50}, {'name': 'Dong', 'age': 43}]
先按姓名升序排序，姓名相同的按年龄降序排序： [{'name': 'Dong', 'age': 43}, {'name': 'Dong', 'age': 37}, {'name': 'Li', 'age': 50}, {'name': 'Zhang', 'age': 40}]
先按姓名升序排序，姓名相同的按年龄升序排序： [{'name': 'Dong', 'age': 37}, {'name': 'Dong', 'age': 43}, {'name': 'Li', 'age': 50}, {'name': 'Zhang', 'age': 40}]


In [112]:
phonebook = {'Linda':'7750', 'Bob':'9345', 'Carol':'5834'}
from operator import itemgetter
print('按字典中元素值进行排序:',sorted(phonebook.items(), key=itemgetter(1)))
print('按字典中元素的键进行排序:',sorted(phonebook.items(), key=itemgetter(0)))                                     



按字典中元素值进行排序: [('Carol', '5834'), ('Linda', '7750'), ('Bob', '9345')]
按字典中元素的键进行排序: [('Bob', '9345'), ('Carol', '5834'), ('Linda', '7750')]


In [114]:
from operator import itemgetter
gameresult = [['Bob', 95.0, 'A'], ['Alan', 86.0, 'C'], 
                  ['Mandy', 83.5, 'A'], ['Rob', 89.3, 'E']]
sorted(gameresult, key=itemgetter(0, 1))
                             #按姓名升序，姓名相同按分数升序排序
[['Alan', 86.0, 'C'], ['Bob', 95.0, 'A'], ['Mandy', 83.5, 'A'], ['Rob', 89.3, 'E']]
sorted(gameresult, key=itemgetter(1, 0))
                             #按分数升序，分数相同的按姓名升序排序
[['Mandy', 83.5, 'A'], ['Alan', 86.0, 'C'], ['Rob', 89.3, 'E'], ['Bob', 95.0, 'A']]
sorted(gameresult, key=itemgetter(2, 0))
                             #按等级升序，等级相同的按姓名升序排序


[['Bob', 95.0, 'A'],
 ['Mandy', 83.5, 'A'],
 ['Alan', 86.0, 'C'],
 ['Rob', 89.3, 'E']]

In [120]:
'''根据另外一个列表的值来对当前列表元素进行排序'''

list1 = ["what", "I'm", "sorting", "by"]
list2 = ["something", "else", "to", "sort"]
pairs = zip(list1, list2)
'''根据list1中元素排序list2中的元素'''
pairs = sorted(pairs)
pairs

[("I'm", 'else'), ('by', 'sort'), ('sorting', 'to'), ('what', 'something')]

In [125]:
list1 = ["what", "I'm", "sorting", "by"]
list2 = ["something", "else", "to", "sort"]
pairs = zip(list1, list2)
result = [x[1] for x in pairs]
print(result)
'''仅适用于列表list2中元素各不相同的情形'''
sorted(list2, key=lambda item: list1[list2.index(item)])#index：从列表中找出某个值第一个匹配项的索引位置，并返回值

['something', 'else', 'to', 'sort']


['else', 'sort', 'to', 'something']

In [126]:
'''应用：有一个整数列表，要求调整元素顺序，把所有奇数都放到前面，偶数都放到后面。'''

from random import randint
x = [randint(1,100) for i in range(20)]
print(x)
sorted(x, key=lambda item:item%2==0)



[92, 93, 11, 26, 52, 10, 38, 76, 12, 95, 23, 86, 59, 89, 89, 7, 80, 84, 42, 51]


[93, 11, 95, 23, 59, 89, 89, 7, 51, 92, 26, 52, 10, 38, 76, 12, 86, 80, 84, 42]