# 集合(set)与字典(dict)
**作者：** 郑如滨

**主要参考资料:** [Python 3.7.5官方中文文档](https://docs.python.org/zh-cn/3.7/) 

**字符串、列表、元组**均是序列类型，其中的元素均是**有序**排列。  
其他容器对象：集合(set)、字典(dict)。

**集合:**  
集合内的元素
- **不可重复**  
- **无序排列**
    
**字典:**  
- 存储了**键-值**对。  
- 通过键**快速查找**值。

# 1. 集合(set)
## 1.1 集合概述
包含0个或多个数据元素的**无序**组合，且元素**不可重复**。

集合内元素用**{}**括起来。

In [1]:
city = {"xiamen", "beijing", 361000, "lasa", "wuxi"}
print(city)

{361000, 'xiamen', 'beijing', 'wuxi', 'lasa'}


集合内元素无序，所以打印出来的元素顺序与定义时不一致。

**集合主要用途:**
1. 成员检测
2. 消除重复元素
3. 集合的并集、交集、叉集等数学运算

In [7]:
city = {"xiamen", "beijing", 361000, "xiamen", 361000}
print(city, "集合内元素个数：", len(city))
print("shang" in city)

{361000, 'xiamen', 'beijing'} 集合内元素个数： 3
False


## 1.2 集合常见用法
使用列表(list)创建集合，并去除了重复元素。  
然后使用`in`与`not in`判断指定值是否在集合中。  
最后使用`remove`方法删除set中指定元素。

In [3]:
namelist = ["zhang","wang","zhao","li","wang","chen"]
nameset = set(namelist)
for e in nameset:       #遍历nameset
    print(e, end = " ")
print()
print("namelist中元素个数为{}".format(len(namelist)))
print("nameset 中元素个数为{},内容为{}".format(len(nameset),namelist))
print("'zhang'  在nameset中吗?", "zhang" in nameset)
print("'zhang'不在nameset中吗?", "zhang" not in nameset)
print("'张'在nameset中吗?", "王" in nameset)
nameset.remove("zhang")
print("删除'zhang'后nameset的长度{}，内容{}".format(len(nameset),nameset))

zhao wang zhang li chen 
namelist中元素个数为6
nameset 中元素个数为5,内容为['zhang', 'wang', 'zhao', 'li', 'wang', 'chen']
'zhang'  在nameset中吗? True
'zhang'不在nameset中吗? False
'张'在nameset中吗? False
删除'zhang'后nameset的长度4，内容{'zhao', 'wang', 'li', 'chen'}


**集合的并交叉运算**

In [9]:
xset = set([1,2,3,5,6,7,8,10]) #创建set
yset = set([1,4,5,7,9,10])
print("并集为:",xset|yset)   
print("交集为:",xset & yset)
print("在xset但不在yset的元素:", xset - yset)
print("在xset或yset，但不在他们的较集中的元素:", xset^yset)

并集为: {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
交集为: {1, 10, 5, 7}
在xset但不在yset的元素: {8, 2, 3, 6}
在xset或yset，但不在他们的较集中的元素: {2, 3, 4, 6, 8, 9}


## 1.3 集合的创建与遍历
### 1.3.1 集合的创建
可使用set()函数或{}进行创建。

**1.使用{}可以直接创建**  
元素之间用**,**分隔。

In [18]:
xset = {3,1,2,1,2,3}
yset = {'a','b',1,2,'a'b}
print(xset, yset) #{1, 2, 3} {'b', 1, 2, 'a'}

{1, 2, 3} {'b', 1, 2, 'a'}


**注意：**不能使用**{}**代表空集合，因为其代表空字典。  
需使用set()函数创建空集合。

In [20]:
print(type({}))

<class 'dict'>


**2.使用set()函数创建**  
该函数接受任何可迭代(iterable)对象(str, list, tuple, range等)

In [22]:
xset = set("abca")
yset = set([1,2,3])
print(xset,yset) # {'b', 'c', 'a'} {1, 2, 3}
zset = set(("x","y","z"))
rset = set(range(5))
print(zset,rset) # {'z', 'x', 'y'} {0, 1, 2, 3, 4}
emptyset = set() # 创建空字典
print(type(emptyset), len(emptyset))

{'b', 'c', 'a'} {1, 2, 3}
{'z', 'x', 'y'} {0, 1, 2, 3, 4}
<class 'set'> 0


**小技巧：**如何判定一个对象是否是可迭代的？
使用collections模块中的Iterable类型判断

In [16]:
from collections import Iterable
print(isinstance(("abc"), Iterable))
print(isinstance((range(5)), Iterable))
print(isinstance(3.14, Iterable))

True
True
False


**3.使用集合推导式创建**

In [42]:
xset = {x**2 for x in range(10) if x % 2 == 0}
print(type(xset),xset)

<class 'set'> {0, 64, 4, 36, 16}


### 1.3.2 集合的遍历

集合是可迭代对象，因此可直接使用for循环进行遍历。  

In [35]:
nameset = set(["zhang","wang","zhao","li","wang","chen"])
for e in nameset:       #遍历nameset
    print(e, end = " ")

zhang li chen wang zhao 

使用**迭代器**进行遍历。

In [34]:
cityiterator = iter(nameset)
for i in range(len(nameset)):
    print(next(cityiterator), end = " ")

zhang li chen wang zhao 

**注意：**集合中的元素是无序排列的。
因此将上述遍历代码存于文件，并多次运行，返回的结果可能不一致。如下图所示：  
![set内元素无序排列](set内元素无序排列.png)

## 1.4 集合常用方法

可以将集合的方法按照**增、删、查、其他**进行分类。如下表所示。  

**注:** s为所要操作的集合： 
<escape>
<table>
  <tr>
    <th>类别</th>
    <th>方法</th>
    <th>说明</th>
  </tr>
  <tr>
    <td rowspan="2">增</td>
    <td>s.add(x)</td>
    <td>如果数据项x不在集合s中，将x加入s</td>
  </tr>
  <tr>
    <td>s.update(xset)</td>
    <td>在s中添加来自xset中的元素</td>
  </tr>
  <tr>
    <td rowspan="4">删</td>
    <td>s.remove(x)</td>
    <td>如x在集合s中，则移除；否则，引发KeyError异常</td>
  </tr>
  <tr>
    <td>s.discard(x)</td>
    <td>如果x在集合s中，移除该元素；如果x不存在，不报错</td>
  </tr>
  <tr>
    <td>s.pop()</td>
    <td>随机返回集合s中的一个元素，如集合为空，引发KeyError异常</td>
  </tr>
  <tr>
    <td>s.clear()</td>
    <td>移除s中所有数据项</td>
  </tr>
  <tr>
    <td rowspan="2">查</td>
    <td>x in S</td>
    <td>如果x是S的元素，返回True，否则返回False</td>
  </tr>
  <tr>
    <td>x not in S</td>
    <td>如果x不是S的元素，返回True，否则返回False</td>
  </tr>
  <tr>
    <td rowspan="3">其他</td>
    <td>len(s)</td>
    <td>返回集合s元素个数</td>
  </tr>
  <tr>
    <td>s.copy()</td>
    <td>返回集合S的一个浅拷贝</td>
  </tr>
  <tr>
    <td>isdisjoint, issubset, issuperset</td>
    <td>判断两个集合之间的关系的方法</td>
  </tr>
</table>
</escape>

In [54]:
s = set()
s.add(1)
s.update({2,3,4})
print(s)
if 4 in s:   #因为remove方法可能会引发KeyError，所以应先判断
    s.remove(4)
s.discard(5) #5不存在，也不会报错
while len(s) != 0: #因s为空时pop会引发KeyError，所以需判断
    print(s.pop(), end = " ")
print()

{1, 2, 3, 4}
1 2 3 


**判断两个集合之间的关系的方法或运算符：** 

方法或运算符|说明
-|-
s.isdisjoint(xset)|如果集合s中没有与xset中有共同的元素返回`True`
s.issubset(xset)|如果s是xset的子集返回`True`
s <= xset|判断s是否xset的子集
s < xset|判断s是否xset的**真子集**
s.issuperset(xset)|判断s是否是xset的超集
s >= xset|判断xset是否是s的子集
s > xset|判断xset是否是s的**真子集**

In [24]:
xset = {1,2,3}
yset = {1,2,3,4,5}
zset = {4,5,6}
print(xset.isdisjoint(zset))    #True
print(xset.issubset(yset))      #True
print(yset.issuperset(xset))    #True
print(xset<=yset, xset<{1,2,3}) #True, False
print(yset>=xset, xset>{1,2,3}) #True, False

True
True
True
True False
True False


## 1.5 集合的数学运算
集合支持并集(**|**)、交集(**&**)、差集(**-**)、对称差集(^)等数学运算。  
集中集合运算的含义如下图所示：

![集合的数学运算](集合的数学运算.png)


In [1]:
A = {1,3,5,6,7,9,10}
B = {1,2,3,4,8,9,10}
print("个数:", len(A|B), ", A|B:",A|B)
print("A&B", A&B) 
print("A-B", A-B)
print("A^B", A^B)

个数: 10 , A|B: {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
A&B {1, 10, 3, 9}
A-B {5, 6, 7}
A^B {2, 4, 5, 6, 7, 8}


并集(**|**)、交集(**&**)、差集(**-**)、对称差集(**^**)是运算符版本的集合运算。  
其对对应的非运算符版本的集合运算分别是`union, intersection, difference, symmetric_difference`。

In [12]:
A = {1,3,5,6,7,9,10}
B = {1,2,3,4,8,9,10}
print(A.union(B))
print(A.intersection(B))
print(A.difference(B))
print(A.symmetric_difference(B))

{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
{1, 10, 3, 9}
{5, 6, 7}
{2, 4, 5, 6, 7, 8}


**注意：**不管是运算符或者非运算符版本的集合运算都不会改变原来的集合。

## 1.6 集合的应用

### 1.6.1 词汇统计
给定一段英文，将其中的单词抽取出来。抽取之前先进行预处理：将其中的所有标点符号替换为一个空格。  
预处理后，统计这段英文：
1. 有多少个单词。
2. 有多少不重复的单词。
3. 将这些不重复的单词按升序输出。

In [25]:
article = '''
There were doors all round the hall, but they were all locked;
and when Alice had been all the way down one side and up the
other, trying every door, ALICE walked sadly down the middle,
wondering how she was ever to get out again.
'''
article = article.lower()
for e in ",;.":
   article = article.replace(e, " ")
words = article.split()
print("原文单词个数：",len(words))
wordset = set(words)
print("不重复的单词个数：",len(wordset))
print("他们是：",sorted(wordset),)

原文单词个数： 45
不重复的单词个数： 36
他们是： ['again', 'alice', 'all', 'and', 'been', 'but', 'door', 'doors', 'down', 'ever', 'every', 'get', 'had', 'hall', 'how', 'locked', 'middle', 'one', 'other', 'out', 'round', 'sadly', 'she', 'side', 'the', 'there', 'they', 'to', 'trying', 'up', 'walked', 'was', 'way', 'were', 'when', 'wondering']


### 1.6.2 任务随机分配
假设有A、B、C、D四项任务需要完成。现在有一份成员名单，名单上有n个成员，每个成员都可以做这4项任务。  
希望编写一个算法，每回从名单随机抽取一个成员分配某个任务，并将该成员标注为已分配，下回抽取就不会再  
抽到该成员。且分配过程中**不能删除名单中的成员**。 希望整个分配过程尽量保证每个任务分配到的人数基本一致。  
请编写程序打印出每个任务分配到的成员情况。

In [5]:
import random
tasks = ["A", "B", "C", "D"]
members = list(range(39))     #假设有39人
result = [[] for i in range(4)]
mset = set()                  #用来存放已分配任务的成员
for i in range(len(members)):
    while(True): #从名单中随机选取一个成员，可能选到已分配过的成员
        i = random.randint(0, len(members)-1)
        p = members[i]
        if p not in mset:
            break
    mset.add(p)
    result[i%4].append(p)     #按照ABCDA..顺序依次选取任务分配
for i in range(len(result)):
    print("任务{}分配了{}个人，他们是{}".format(tasks[i],len(result[i]), result[i]))
isdisjoint = False  #假设他们有交集
for i in range(len(result)):
    for j in range(i+1,len(result)):
        isdisjoint = set(result[i]).isdisjoint(result[j])
        if isdisjoint == False:
            break
print("没有交集" if isdisjoint else "有交集")

任务A分配了10个人，他们是[32, 20, 8, 36, 4, 16, 24, 28, 12, 0]
任务B分配了10个人，他们是[5, 1, 9, 29, 37, 13, 21, 33, 17, 25]
任务C分配了10个人，他们是[2, 34, 18, 22, 10, 14, 6, 26, 38, 30]
任务D分配了9个人，他们是[7, 19, 23, 31, 35, 3, 15, 27, 11]
没有交集


### 1.6.3 学生选修统计


In [9]:
classA = set([1,2,3,4,5])
classB = set([6,7,8,9,10])
os = set([1,3,5,6,9])       #选修操作系统
java = set([1,2,3,7,8,9])   #选修java
badminton = set([1,2,3,7])  #选修羽毛球
threeset = os & java & badminton
print("同时选修3门课程的学生：", threeset)
print("A班中没有进行任何选修的:", classA - (os | java | badminton))
print("两个班未进行任何选修的：", (classA|classB) - (os | java | badminton))
oneset = (os|java|badminton)-(os&java)-(os&badminton)-(java&badminton)
print("有且仅有选修1门的学生:", oneset)
print("有且仅有选修2门的学生:", (os|java|badminton) - oneset - threeset)
#打印A班每个人的选修情况
for e in classA:
    result = str(e)+":"
    if e in os:
        result += " os"
    if e in java:
        result += (" java") 
    if e in badminton:
        result += (" badminton") 
    print(result)
        

同时选修3门课程的学生： {1, 3}
A班中没有进行任何选修的: {4}
两个班未进行任何选修的： {10, 4}
有且仅有选修1门的学生: {8, 5, 6}
有且仅有选修2门的学生: {9, 2, 7}
1: os java badminton
2: java badminton
3: os java badminton
4:
5: os


# 2. 字典(dict)
## 2.1 字典概述
我们使用字典查询某个字时，通常是先通过拼音、偏旁找到要查的字。  
然后根据该字所在页码，找到该字的详细释义。  

Python中的字典(dict)：通过键(key)快速找到对应的值(value)。  
类比字典，**“字”**就相当于键，**“详细释义”**相当于值。  

字典特点与用法：
- **主要用法：**通过键可**快速**找到值
- 存储了**键:值对**(key->value)组合
- 键值必须唯一，且为不可变类型（通常为数、字符串）
- 字典中的键值对会保留插入顺序

## 2.2 字典常见用法
**包含：**创建、查找、键成员判断、删除。  

In [4]:
#创建字典
namedict = {"zhang":"张", "wang":"王", "zhao":"赵", "li":"李", "chen":"陈"}
#字典查找
print("zhang对应:", namedict["zhang"])
namedict["zhang"] = "章" #更新字典
print("字典内容:", namedict, "键个数:", len(namedict))
#删除键
del namedict["zhao"]
print("删除后'zhao'后字典内容:", namedict, "键个数:", len(namedict))
#成员判断
name = "chen"
if name in namedict:
    namedict[name] = "晨"
print("字典内容:", namedict)

zhang对应: 张
字典内容: {'zhang': '章', 'wang': '王', 'zhao': '赵', 'li': '李', 'chen': '陈'} 键个数: 5
删除后'zhao'后字典内容: {'zhang': '章', 'wang': '王', 'li': '李', 'chen': '陈'} 键个数: 4
字典内容: {'zhang': '章', 'wang': '王', 'li': '李', 'chen': '晨'}


## 2.3 字典的创建与遍历
### 2.3.1 字典的创建
可使用dict()函数或**{}**来进行创建。

**1. 使用{}直接创建**  

使用{}将一系列**键值对**括起来。

In [3]:
# 创建空字典
emptyDict = {}
# 创建有内容的字典
cityDict = {"厦门":111111, "北京":100000, "上海":200000, "深圳":518000, "杭州":310000, "厦门":361000}
print(cityDict)        #后出现的key对应的值会覆盖先出现的相同key对应的值
print("键个数:",len(cityDict), "内容:",list(cityDict))  #显示字典的键列表，按插入顺序排列

{'厦门': 361000, '北京': 100000, '上海': 200000, '深圳': 518000, '杭州': 310000}
键个数: 5 内容: ['厦门', '北京', '上海', '深圳', '杭州']


**2. 使用dict()函数创建**

In [16]:
dict1 = dict(一 = 1, 二 = 2, 三 = 3) #这里的键“一”为字符串
print(dict1)

{'一': 1, '二': 2, '三': 3}


dict函数接受可迭代(iterable)对象作为参数。  
但该对象其中每项必须为包含两个元素的可迭代对象。

In [35]:
dict2 = dict([('一',1), ('二',2), ('三',3)])
dict3 = dict([['一',1], ['二',2], ['三',3]])
print(dict1 == dict2 == dict3)  #上面3个dict都一样
dict4 = dict({"厦门":111111, "北京":100000, "上海":200000, "深圳":518000, "杭州":310000, "厦门":361000})
print(dict4)  #字典本身也是可迭代对象
#使用zip函数创建字典
charlist = list("abcde")
ordlist = [97,98,99,100,101]
dict5 = dict(zip(charlist, ordlist)) #zip是可迭代对象，将两个可迭代对象绑定起来
print(dict5)

True
{'厦门': 361000, '北京': 100000, '上海': 200000, '深圳': 518000, '杭州': 310000}
{'a': 97, 'b': 98, 'c': 99, 'd': 100, 'e': 101}


**小技巧:**怎么判断一个对象是否是可迭代对象？

In [38]:
from collections import Iterable
print(isinstance(zip(['one', 'two', 'three'], [1, 2, 3]), Iterable)) #返回True, zip对象可迭代
print(isinstance({}, Iterable))  # 返回True, 字典也是可迭代的

True
True


**3. 使用字典推导式创建**

In [11]:
#创建一个9*9乘法表，键为元组类型
mydict = {(i,j):str(i)+"*"+str(j)+"="+str(i*j) for i in range(1, 10) for j in range(1, 10)}
print(mydict[(8,9)])

8*9=72


**4.使用dict的类方法fromkeys创建**  

fromkeys方法可以接收可迭代对象参数作为参数，生成一个新的字典。  
该字典的键是列表中的元素，值为None或者自己预先设定的值。

In [20]:
keyList = [chr(ord('A') + x) for x in range(5)]
print(keyList)
xdict = dict.fromkeys(keyList)    #键为keyList中的元素，值为None
ydict = dict.fromkeys(keyList, 0) #值为0
print(xdict)
print(ydict)

['A', 'B', 'C', 'D', 'E']
{'A': None, 'B': None, 'C': None, 'D': None, 'E': None}
{'A': 0, 'B': 0, 'C': 0, 'D': 0, 'E': 0}


### 2.3.2 字典的遍历
可以对字典的以下几个方法返回的对象进行迭代遍历
- keys()：返回键视图
- values()：返回值视图
- items()：返回(键, 值)对视图

In [24]:
cityDict = {"厦门":111111, "北京":100000, "上海":200000, "深圳":518000, "杭州":310000, "厦门":361000}
for e in cityDict:      #按键遍历。同for e in cidyDict.keys()
    print("{}:{}".format(e, cityDict[e]))
print("\n打印键列表、值列表")
print(list(cityDict.keys()), list(cityDict.values()), sep = "\n")

print("\n遍历值")
for e in cityDict.values():  #遍历值
    print(e, end = " ")
print()
print("\n打印items()对象")
print(cityDict.items())
print("\n将items()转化为列表")
print(list(cityDict.items()))

厦门:361000
北京:100000
上海:200000
深圳:518000
杭州:310000

打印键列表、值列表
['厦门', '北京', '上海', '深圳', '杭州']
[361000, 100000, 200000, 518000, 310000]

遍历值
361000 100000 200000 518000 310000 

打印items()对象
dict_items([('厦门', 361000), ('北京', 100000), ('上海', 200000), ('深圳', 518000), ('杭州', 310000)])

将items()转化为列表
[('厦门', 361000), ('北京', 100000), ('上海', 200000), ('深圳', 518000), ('杭州', 310000)]


## 2.4 字典常用方法

可以将字典相关的方法按照**查、增、改、删、其他**进行分类。如下表所示：

**注:** d为所要操作的集合：

### 字典中的查找、新增与更新操作

d[key]有可能引发KeyError，要谨慎使用。

In [64]:
nameDict = {"zhang":"张", "wang":"王", "zhao":"赵", "li":"李", "chen":"陈"}
# 查找
print(nameDict["zhang"])     #namedict["cao"]会引发KeyError
print(nameDict.get("zhang")) #未找到。不会引发KeyError，返回None    
print(nameDict.get("cao", "not exist")) #未找到，返回"not exist"
print("cao" in nameDict, "wang" not in nameDict) #判断是否在nameDict中
if "cao" not in nameDict:
    nameDict["cao"] = "曹"  #新增
print(nameDict["cao"])

张
张
not exist
False False
曹


### 字典中的更新操作

`d.setdefault`方法的主要特点是更新字典的时候同时**有返回值**。     
返回值为已有的键对应的值，如果不存在该键则返回`None`或用户指定的值。

In [63]:
nameDict = {"zhang":"张", "wang":"王", "zhao":"赵", "li":"李", "chen":"陈"}
nameDict["zhang"] = "章"       #如果zhang不存在，则新增键值对
nameDict.update({"zhao":"朝"}) #更新字典已有键值对
nameDict.update({"sun":"吴"})  #对不存在的键值对，则直接添加新键值对
nameDict.update([("yan", "闫"),("lu","鲁")]) #使用其他可迭代对象更新
nameDict.update(guo="郭", geng="耿")
print(nameDict)
r1 = nameDict.setdefault("xie")       #字典中无xie，添加"xie":none键值对同时返回none
r2 = nameDict.setdefault("wang", "汪")#字典中有wang，所以返回"王"，不更新其值
r3 = nameDict.setdefault("kong","孔") #字典中无kong，添加"kong":"孔"键值对同时返回"孔"
print(r1, r2, r3)

{'zhang': '章', 'wang': '王', 'zhao': '朝', 'li': '李', 'chen': '陈', 'sun': '吴', 'yan': '闫', 'lu': '鲁', 'guo': '郭', 'geng': '耿'}
None 王 孔


### 字典中的删除操作

- del d[key]删除key对应的键值对。但如果key不存在会引发KeyError
- pop(key[,default])，key对应的键值对不存返回default或引发KeyError  
- popitem()，从字典删除键值对，并返回该键值对对应的元组  
- clear()，移除字典中所有元素

In [23]:
nameDict = {"zhang":"张", "wang":"王", "zhao":"赵", "li":"李", "chen":"陈"}
if "zhang" in nameDict:  #因为del一个不存在键值对会引发KeyError，所以需用in判断一下
    del nameDict["zhang"]
print(nameDict)

if "zhang" in nameDict:  #因为zhang对应的键值对不存在，会引发KeyError，所以需要先判断一下
    x = nameDict.pop("zhang")   #这句并未执行
x = nameDict.pop("zhang", None) #键值对不存在返回用户指定的值None
print(x)

while len(nameDict) != 0:
    item = nameDict.popitem()   #实际上返回的是一个键值对元组
    
xdict = {x:x+10 for x in range(5)}
print(xdict)
xdict.clear()
print(xdict)


{'wang': '王', 'zhao': '赵', 'li': '李', 'chen': '陈'}
None
{0: 10, 1: 11, 2: 12, 3: 13, 4: 14}
{}


### 字典的视图对象
字典的items()、keys()、values()分别返回了字典的键值对视图对象、键视图对象与值视图对象。

通过这些视图对象，可以访问字典中的元素。同时字典中元素的改变，也会影响到视图对象。

In [27]:
def printDict(xdict):
    print(xdict.items())
    print(xdict.keys())
    print(xdict.values())
    
nameDict = {"zhang":"张", "wang":"王", "zhao":"赵", "li":"李", "chen":"陈"}
printDict(nameDict)
del nameDict["zhang"]
nameDict["wang"] = "汪"
print("字典内容修改后")
printDict(nameDict)

dict_items([('zhang', '张'), ('wang', '王'), ('zhao', '赵'), ('li', '李'), ('chen', '陈')])
dict_keys(['zhang', 'wang', 'zhao', 'li', 'chen'])
dict_values(['张', '王', '赵', '李', '陈'])
字典内容修改后
dict_items([('wang', '汪'), ('zhao', '赵'), ('li', '李'), ('chen', '陈')])
dict_keys(['wang', 'zhao', 'li', 'chen'])
dict_values(['汪', '赵', '李', '陈'])


### 字典的其他方法
- d.copy()，对字典d进行浅拷贝

In [39]:
nameDict = {"zhang":["章","张"], "wang":["王"]}
cloneDict = nameDict.copy()
print(id(nameDict) == id(cloneDict)) #id不一致，说明两个字典不是同一个
nameDict["wang"].append("汪") #因为copy是浅拷贝，所以更新nameDict的value，也会更新cloneDict
print("nameDict",nameDict)
print("cloneDict",cloneDict) 
print(nameDict == cloneDict) #返回True，因为其键值对一致

False
nameDict {'zhang': ['章', '张'], 'wang': ['王', '汪']}
cloneDict {'zhang': ['章', '张'], 'wang': ['王', '汪']}
True


- 使用 `==` 判断两个字典是否相同

虽然xdict与ydict打印出来不一样(因为不同的插入顺序)，但其内容相同。  
使用 `==` 运算符依然可以判断两个字典是否相同。

- sorted函数
对字典的键集排序，并返回键列表

In [41]:
xdict = {1:"a", 2:"b", 3:"c"}
ydict = {3:"c", 1:"a", 2:"b"}
print(xdict)
print(ydict)
print(xdict == ydict)
x = sorted(ydict)
print(type(x), x)

{1: 'a', 2: 'b', 3: 'c'}
{3: 'c', 1: 'a', 2: 'b'}
True
<class 'list'> [1, 2, 3]


## 2.5 字典应用案例

### 英文字符统计
统计一段英文中每个字符出现的个数（忽略大小写）。并按键排序后输出。  
代码中使用了sorted函数，生成了一个新的列表。

In [75]:
article = '''
There were doors all round the hall, but they were all locked;
and when Alice had been all the way down one side and up the
other, trying every door, ALICE walked sadly down the middle,
wondering how she was ever to get out again.
'''
article = article.lower()
charCounter = {}
for e in article:
    charCounter[e] = charCounter.get(e, 0) + 1
xlist = sorted(list(charCounter.items()), key = lambda x:x[0])
print(xlist[0:10])


[('\n', 5), (' ', 41), (',', 4), ('.', 1), (';', 1), ('a', 15), ('b', 2), ('c', 3), ('d', 15), ('e', 29)]


### **英文单词统计**
统计一段英文中每个单词出现的个数，并按照出现频率降序排序后输出。   
代码中使用了list本身的sort排序，这是一种就地排序。为生成新列表。

In [72]:
article = '''
There were doors all round the hall, but they were all locked;
and when Alice had been all the way down one side and up the
other, trying every door, ALICE walked sadly down the middle,
wondering how she was ever to get out again.
'''
article = article.lower()
for e in ",;.":
   article = article.replace(e, " ")
wordCounter = {}
for word in article.split():
    wordCounter[word] = wordCounter.get(word, 0) + 1
xlist = list(wordCounter.items())
xlist.sort(key = lambda x:x[1], reverse = True)
if len(xlist) >= 10:
    for i in range(10):
        print(xlist[i])
else:
    for e in xlist:
        print(e)

('the', 4)
('all', 3)
('were', 2)
('and', 2)
('alice', 2)
('down', 2)
('there', 1)
('doors', 1)
('round', 1)
('hall', 1)


### 中文分词、统计及词云