## 字典
### 字典类型的创建
- 使用{}创建
- 使用构造函数dict()创建
- 使用dict()和基于键值对的参数来构建


In [None]:
empty_dic = dict()
print(empty_dic)
ls = [('RUC',"中国人民大学"),('THU',"清华大学"),("PKU","北京大学")]
tu = tuple(ls)
dic1 = dict(ls)
dic2 = dict(tu)
print(dic1, dic2)
dic3 = dic2.copy()
dic4 = dict(dic2)
dic5 = dic2
print(dic3, dic4)
print(dic3 == dic4, dic3 is dic4)
print(dic4 is dic2)
print(dic5 is dic2)

In [None]:
dic6 = dict(RUC='中国人民大学',THU='清华大学',PKU='北京大学')
print(dic6)
dic7 = dict(dic6,FDU='复旦大学')
print(dic7)

### **1. `dict()` 构造函数的关键字参数形式**
#### 语法规则：
```python
dic6 = dict(RUC='中国人民大学', THU='清华大学', PKU='北京大学')
```
- **键的处理**：
  这里的 `RUC`、`THU`、`PKU` 是 **关键字参数名（keyword argument names）**，Python会自动将它们转换为 **字符串（string）** 作为字典的键。
  - 例如，`RUC='中国人民大学'` 会被解析为键值对 `'RUC': '中国人民大学'`。
- **限制**：
  关键字参数名必须是 **有效的Python标识符**（不能包含空格、不能以数字开头等），否则会报错：
  ```python
  dict(123='错误')       # ❌ SyntaxError: invalid syntax
  dict(Key-With-Space='错误') # ❌ 语法错误
  ```

#### 底层原理：
```python
# 等效于显式字符串键的字典
dic6 = {'RUC': '中国人民大学', 'THU': '清华大学', 'PKU': '北京大学'}
```

---

### **2. 其他方法需要引号的原因**
#### (1) **字面量直接赋值**：
```python
dic6 = {'RUC': '中国人民大学', 'THU': '清华大学', 'PKU': '北京大学'}
```
- **键的类型**：
  在字典字面量中，键可以是任意 **不可变类型**（如字符串、数字、元组）。
- **引号的作用**：
  - 如果键是字符串，必须用引号包裹，否则Python会将其视为变量：
    ```python
    key = 'RUC'
    dic6 = {key: '中国人民大学'}  # ✅ 变量作为键
    dic6 = {RUC: '中国人民大学'}  # ❌ 若RUC未定义则报 NameError
    ```
  - 数字键不需要引号：
    ```python
    dic6 = {1: '中国人民大学', 2: '清华大学'}  # ✅ 合法
    ```

#### (2) **通过列表/元组构建**：
```python
dic6 = dict([('RUC', '中国人民大学'), ('THU', '清华大学')])
```
- 必须显式用引号包裹字符串键，因为元组中的元素是独立的表达式。

---

### **3. 两种方法的对比**
| 方法                | 是否需要引号 | 键的限制                   | 适用场景                 |
|---------------------|--------------|---------------------------|-------------------------|
| `dict(key=value)`    | 否           | 必须是有效标识符           | 键名简单且符合标识符规则 |
| 字面量 `{key: value}`| 是（字符串） | 可以是任意不可变类型       | 灵活，支持复杂键        |
| 元组列表构造 `dict()`| 是           | 无（需显式写出键的完整形式）| 动态生成键值对          |

---

### **4. 核心总结**
- **`dict()` 的关键字参数形式**：
  是一种语法糖（syntactic sugar），自动将参数名转换为字符串键，但仅适用于符合标识符规则的键。
- **字面量或其他方法**：
  需要显式定义键的类型（如字符串必须加引号），但支持更灵活的键类型（如数字、元组）。

---

### **示例：键名不合法时的替代方案**
```python
# 如果键名包含空格，必须使用字面量或元组列表形式
dic6 = {'Key-With-Space': '值'}  # ✅ 合法
# 或
dic6 = dict([('Key-With-Space', '值')])  # ✅ 合法
```

## 词频统计-字典方法

In [85]:
import jieba
txt = open(r"D:\Myself\Codefield\Code_Python\Code_Ai_Python\Class_Notes\文件\高瓴人工智能学院简介.txt","r",encoding="utf-8").read()
words = jieba.lcut(txt)
counts = {}
for word in words:
    if len(word) == 1:          # 删去单字!
        continue
    else:
        counts[word] = counts.get(word,0) + 1       # 好好理解!
items = list(counts.items())
items.sort(key=lambda x: x[1], reverse=True)
for item in items:
    print("{0:<10}{1:>5}".format(item[0],item[1]))

人工智能         13
学院            8
一流            5
中国人民大学        4
未来            3
高瓴            3
院长            3
打造            3
全球            3
研究            3
联合            3
时代            2
影响            2
技术            2
发展            2
培养            2
领域            2
建设            2
人才培养          2
委员会           2
主任            2
担任            2
创新            2
中心            2
促进            2
过去            1
已来            1
构建            1
宏大            1
世界观           1
历史            1
趋势            1
吸纳            1
顶尖            1
学者            1
实践者           1
应运而生          1
扮演            1
至关重要          1
角色            1
下属            1
承担            1
学校            1
学科            1
规划            1
开展            1
本学科           1
相关            1
交叉学科          1
科学研究          1
工作            1
由高瓴           1
资本            1
创始人           1
首席            1
执行官           1
耶鲁大学          1
校董            1
校友            1
张磊            1
先生            1
捐资            1
支持      

## 所有的对象（object）均可以作为字典的值
- 基本数据类型、组合数据类型、甚至是函数，均可以作为字典的值


In [None]:
dic8 = dict(dic3)
print(dic8)
dic8["RUC"] = {"中文名":'中国人民大学',"英文名":'Renmin University of China'}
print(dic8)
print(dic8["RUC"])
print(dic8["RUC"]['英文名'])

def out_ruc():
    print("中文名: 中国人民大学\t英文名: Renmin University of China")
dic8['RUC'] = out_ruc
dic8['RUC']()

## 利用字典实现一个简单的计算器

In [None]:
import math
oper_dict = {
    '+': lambda x, y: x + y,
    '-': lambda x, y: x - y,
    '*': lambda x, y: x * y,
    '/': lambda x, y: x / y,
    'sin': lambda x: math.sin(x),
    'cos': lambda x: math.cos(x),
    'tan': lambda x: math.tan(x),
    'asin': lambda x: math.asin(x),
    'atan': lambda x: math.atan(x),
    'exp': lambda x: math.exp(x),
    'ln': lambda x: math.log(x),
    'log10': lambda x: math.log10(x)
}

while True:
    s = input("请输入一个前缀表达式,运算符和数字间用空格分开(输入空字符退出):")
    if len(s) < 1:
        break
    tokens = s.split()
    oper = oper_dict[tokens[0]]
    operand = []
    for token in tokens[1:]:
        operand.append(float(token))
    out = oper(*operand)
    print('计算结果:{:.4f}'.format(out))

## 什么信息可以作为字典的值和键
- 简单来说，所有一旦创建就不能被修改（immutable）的对象，都可以用作字典的键，例如：
基本数据类型,字符串(是的，字符串创建后就不能修改了), 元组
- 而创建后可以修改的（mutable）对象，都不能用作字典的键，例如：
列表,集合,字典
- 为什么？
Python中的字典是基于哈希表（Hash table，又叫散列表）实现的字典保存和索引元素（键值对）的原理：
在将一个键值对添加到字典中时，会先调用键对象的哈希函数，计算哈希值
哈希值通常为一个整数
字典会将键的哈希值相同的元素保存在同一个“桶”（bucket）里
一个桶里保存的元素的键的哈希值相等
在索引时，会调用查询的键的哈希函数计算哈希值，找到相应的桶
即找到所有与查询键哈希值相同的元素（注意：不相等对象的哈希值可能相等）
再遍历桶中元素的键，调用__eq__()函数，判断其是否和查询相等
相等：找到与查询相等的键，索引成功；均不相等：找不到查询对应的元素
思考：
这样做是正确的的吗？
这样做的目的是什么？
- 更准确的答案：
所有可哈希（hash）的，即实现了__hash__()和__eq__()两个特殊方法的对象，可以作为字典的键
Python语言要求：
如果两个对象相等(a.__eq__(b) 或者 a == b返回True），那么他们的__hash__()函数返回值必须相等
只有不可变对象才是可哈希的，才有__hash__()函数
为什么？
哈希函数需要满足两个性质：
哈希函数的计算应该比较高效
如果两个对象不相等，那么他们的哈希值相等的可能性很低
哈希值的分布尽可能是“均匀”的




## 组合数据类型的高级操作
- Python语言自带的用于处理组合数据类型的函数
Filter
Map
Reduce
- 列表推导式
方便的创建组合数据类型的方式


In [7]:
# filter(function, iterable)
# 将可遍历对象中不满足function定义条件的元素过滤掉
nums = [1,2,3,4,5,6,7,8,9]
f = filter(lambda x: x % 2 == 0, nums)
print(type(f))
print(list(f))

<class 'filter'>
[2, 4, 6, 8]


In [86]:
# 分词后用于过滤单字
import jieba
txt = open(r"D:\Myself\Codefield\Code_Python\Code_Ai_Python\Class_Notes\文件\高瓴人工智能学院简介.txt","r",encoding="utf-8").read()
words = jieba.lcut(txt)[0:20]
print("过滤前:\n{0}".format(words))
words = list(filter(lambda x: len(x) > 1, words))
print("过滤后:\n{0}".format(words))

过滤前:
['“', '过去', '未', '去', '，', '未来', '已来', '”', '，', '在', '构建', '人工智能', '时代', '的', '宏大', '世界观', '时', '，', '在', '影响']
过滤后:
['过去', '未来', '已来', '构建', '人工智能', '时代', '宏大', '世界观', '影响']


In [23]:
# map(function, iterable,...)
# 将function函数应用于所有可遍历对象中的元素上
data = [1,2,3,4,5,6,7,8,9]
out = map(lambda x: x * x, data)
results = list(out)
print(type(out))
print(results)

<class 'map'>
[1, 4, 9, 16, 25, 36, 49, 64, 81]


In [35]:
out_1 = list(map(str, results))
print(out_1)
st = ', '.join(out_1)
print(st)

['1', '4', '9', '16', '25', '36', '49', '64', '81']
1, 4, 9, 16, 25, 36, 49, 64, 81


In [37]:
# map还能同时作用于多个可遍历对象
short_names = ["RUC","THU","PKU"]
full_names = ['中国人民大学','清华大学','北京大学']
results = map(lambda x,y: '{0} => {1}'.format(x,y), full_names, short_names)
print(', '.join(results))

中国人民大学 => RUC, 清华大学 => THU, 北京大学 => PKU


In [39]:
# reduce(function, iterable[, initialzer])
# 利用function函数将可遍历对象中的元素合并起来
from functools import reduce    # 使用前需要引入模块!
# 将列表中的元素相乘
nums = [1,2,3,4,5,6,7,8,9]
print(reduce(lambda x,y: x * y, nums))
# 计算列表中的最大值
print(reduce(lambda x,y: x if x > y else y, nums))

362880
9


In [41]:
# 列表推导式
# 方便的创建组合数据类型的方式
# 其形式为：
# <expression> for item in iterable <if optional_condition>
# 上述语句会生成一个可遍历的对象，基于该对象，我们可以创建列表、元组、集合和字典
print([x for x in range(100) if x % 3 == 0])
print({x for x in range(100) if x % 3 == 0})

[0, 3, 6, 9, 12, 15, 18, 21, 24, 27, 30, 33, 36, 39, 42, 45, 48, 51, 54, 57, 60, 63, 66, 69, 72, 75, 78, 81, 84, 87, 90, 93, 96, 99]
{0, 3, 6, 9, 12, 15, 18, 21, 24, 27, 30, 33, 36, 39, 42, 45, 48, 51, 54, 57, 60, 63, 66, 69, 72, 75, 78, 81, 84, 87, 90, 93, 96, 99}


In [71]:
dic6 = dict(RUC='中国人民大学',THU='清华大学',PKU='北京大学')
inverse_dict = {value : key for key, value in dic6.items()}     # 键值对换
print(inverse_dict)

{'中国人民大学': 'RUC', '清华大学': 'THU', '北京大学': 'PKU'}


## 组合数据类型相关模块
Python语言在collections模块中还提供了其他的组合数据类型：
- deque
- Counter
- defaultdict


In [53]:
# deque: 可以在头部增删元素的列表
from collections import deque
x = deque([1,2,3])
x.append(4)         # 在尾部加入元素
print(x)
x.pop()             # 返回并删去尾部元素
print(x)
x.appendleft(4)     # 在头部加入新元素
print(x)
x.popleft()         # 返回并删除头部元素
print(x)

deque([1, 2, 3, 4])
deque([1, 2, 3])
deque([4, 1, 2, 3])
deque([1, 2, 3])


In [58]:
# 思考：用下面这样的方法在列表（list）前增加元素会有什么问题？
x = [1,2,3]
x = [0] + x
print(x)

[0, 1, 2, 3]


In [59]:
%%time
x = []
for i in range(100000):
    x = [i * i] + x

CPU times: total: 13.4 s
Wall time: 13.5 s


In [62]:
%%time
x = deque()
for i in range(100000):
    x.appendleft(i * i)

CPU times: total: 15.6 ms
Wall time: 19.3 ms


In [70]:
# Counter  专门用来计数的字典
from collections import Counter
data = [1,2,3,4,5,6,7,8,9,9,9,9,9,6,5,4,6,7,4,3,3,5,5]
c = Counter(data)       # 直接用可遍历对象构造Counter
print(c)
print(c[9])             # 字典的值是键出现的次数
c[1] = 'x'          # 可以像字典一样访问和修改元素
print(c)
print(c[-100])          # 没出现就返回0,不会报错!

Counter({9: 5, 5: 4, 3: 3, 4: 3, 6: 3, 7: 2, 1: 1, 2: 1, 8: 1})
5
Counter({1: 'x', 2: 1, 3: 3, 4: 3, 5: 4, 6: 3, 7: 2, 8: 1, 9: 5})
0


In [78]:
# defaultdict: 有默认值的字典
# 在构造时需提供一个**函数**对象
# 在找不到某个查询键对应的元素时，调用上述函数对象
# 返回函数的返回值
# 并将查询键和函数的返回值构成一个新的键值对加入defaultdict
from collections import defaultdict
d = defaultdict(lambda : "默认值")     # 需要一个函数,就算你需要默认值,也只能提供常值函数
d.update(dic6)
print(d)
print(d["RUC"])         # 找到返回正常值
print(d["FDU"])         # 找不到返回默认值
print(d)                # FDU已经加进去了!

defaultdict(<function <lambda> at 0x000002C59005E340>, {'RUC': '中国人民大学', 'THU': '清华大学', 'PKU': '北京大学'})
中国人民大学
默认值
defaultdict(<function <lambda> at 0x000002C59005E340>, {'RUC': '中国人民大学', 'THU': '清华大学', 'PKU': '北京大学', 'FDU': '默认值'})


In [99]:
# 分词并记录词在文本中出现的位置
import jieba
txt = open(r"D:\Myself\Codefield\Code_Python\Code_Ai_Python\Class_Notes\文件\高瓴人工智能学院简介.txt","r",encoding="utf-8").read()
# words = list(filter(lambda x: len(x) > 1, jieba.lcut(txt)))
positions = defaultdict(list)       # 默认值是list函数返回的值,即空列表
for word,start,end in jieba.tokenize(txt):
    if end - start == 1:
        continue
    positions[word].append((start,end))
results = sorted(positions.items(), key=lambda x:len(x[1]),reverse=True)        # 这是一个列表!
print(results)
for word,positions in results:
    print(word)
    print(positions)

[('人工智能', [(15, 19), (32, 36), (53, 57), (78, 82), (105, 109), (127, 131), (219, 223), (250, 254), (317, 321), (405, 409), (439, 443), (471, 475), (508, 512)]), ('学院', [(82, 84), (109, 111), (120, 122), (172, 174), (223, 225), (284, 286), (298, 300), (328, 330)]), ('一流', [(326, 328), (361, 363), (370, 372), (379, 381), (388, 390)]), ('中国人民大学', [(70, 76), (112, 118), (196, 202), (276, 282)]), ('未来', [(6, 8), (315, 317), (348, 350)]), ('高瓴', [(76, 78), (103, 105), (217, 219)]), ('院长', [(242, 244), (273, 275), (286, 288)]), ('打造', [(304, 306), (368, 370), (479, 481)]), ('全球', [(332, 334), (467, 469), (512, 514)]), ('研究', [(416, 418), (427, 429), (457, 459)]), ('联合', [(449, 451), (455, 457), (477, 479)]), ('时代', [(19, 21), (321, 323)]), ('影响', [(30, 32), (310, 312)]), ('技术', [(36, 38), (414, 416)]), ('发展', [(38, 40), (353, 355)]), ('培养', [(51, 53), (377, 379)]), ('领域', [(57, 59), (152, 154)]), ('建设', [(137, 139), (212, 214)]), ('人才培养', [(160, 164), (483, 487)]), ('委员会', [(227, 230), (258, 

## 课后练习1：多个文本的词频统计
- 按照章节读取《射雕英雄传》全文
获取一个目录下所有文件，并依次打开、读取文件内容
- 对文本进行分词
需考虑使用自定义词典提升分词准确率
- 对文本进行词频统计
输出出现频率最高的词
- 分析并思考：
出现频率最高的词有什么特点？
它们能否反映文本的内容？
如何提取出能更好的体现文本内容的词？


## 课后练习2：统计人物出现次数
- 按照章节读取《射雕英雄传》全文
- 对文本进行分词
- 读取射雕英雄传人物.txt中保存的人物名称
- 将人物在章节中出现的次数输出到一个CSV文件中
每行对应一个人物
每列对应一个章节
单元格中内容为人物名称在该章节文本中出现的次数
- 注意：
章节和人物应该按照一定顺序进行排序
由于jieba库分词算法有一定的随机性，最后结果会有一定差异


## 课后练习：《射雕英雄传》人物出场分析
- 读取《射雕英雄传》全文，进行分词
需使用用户自定义词典，提升分词准确率
- 根据射雕英雄传人物.txt中保存的人物名称，找出每个人物出现的地方，并统计出现次数
计算人物名称在文本出现次数
只考虑该文件中的人物名称，不需考虑人物的别名、外号
- 设计程序，使用字典等组合数据类型，统计两个人物一同出场的次数
若人物B的名字出现在以人物A为中心，左右50个词的上下文环境内，则认为两个人物同时出现
- 输出每个人物的出现次数，和与他共同出现次数最多的前十个人物及相应的共同出现次数
例如，对于主角郭靖，输出：
- 注意：jieba库得到的分词结果可能会有一定随机性，所以最终执行结果不一定会和该样例相同


## 课后练习：《射雕英雄传》人物出场分析
- 实现一个能查找两个人物共同出现的文本片段的函数：
find_co_occurrence(p1, p2, k=0)
p2在以p1为中心的上下文中第k+1次出现的文本
- 并用一定方式，在文本中标记出p1和p2
- 提示：可以使用jieba.tokenize()函数得到每个词在原始字符串中的位置
