# Python组合数据类型（二）

## 本讲提纲
* 字典类型的概念与操作
* 组合数据类型高级操作
* collections模块中的提供的数据类型

## 字典类型的概念与操作

### 字典类型的概念

上节课中介绍的序列类组合数据类型（如：元组（tuple）和列表（list））让我们可以使用整数索引来查找元素，例如：

In [1]:
short_names = ['RUC', 'THU', 'PKU', 'BIT', 'BUAA']
full_names = ['中国人民大学', '清华大学', '北京大学', '北京理工大学', '北京航空航天大学']
print(short_names[0], full_names[0])
print(short_names[1], full_names[1])

RUC 中国人民大学
THU 清华大学


但很多时候我们需要更加灵活的信息查找方式，例如，我们想通过学校的简称找到学校的全称，这时我们需要利用一个字符串，查找另一个字符串。编程术语中，我们常将用来查询的信息叫做"键（key）”，将查找到的信息叫做“值（value）”。相应的键和值构成了“键值对（key-value pair）”。通过任意键信息查找一组数据中对应的值信息的过程叫做映射。在上面的例子中，“学校的简称”就是键信息,而学校的全名就是值信息。在Python语言中我们可以通过字典实现映射。

需要注意，字典中的键是唯一的，而值可以重复。

### 字典类型的创建

字典类型的创建方法有以下几种：

In [2]:
dict1 = {'RUC': '中国人民大学', 
         'THU': '清华大学', 
         'PKU': '北京大学', 
         'BIT': '北京理工大学', 
         'BUAA': '北京航空航天大学'} # 用{}创建
empty_dict = {} # 可以用这个方式创建空字典

print(dict1)
print(empty_dict)

{'RUC': '中国人民大学', 'THU': '清华大学', 'PKU': '北京大学', 'BIT': '北京理工大学', 'BUAA': '北京航空航天大学'}
{}


In [3]:
empty_dict = dict() # 利用构造函数创建字典对象
dict2 = dict(dict1) # 利用另一个dict创建，注意这里dict1中的数据会被拷贝一份
dict3 = dict([('RUC', '中国人民大学'), 
              ('THU', '清华大学'),
              ('PKU', '北京大学'),
              ('BIT', '北京理工大学'),
              ('BUAA', '北京航空航天大学')]) # 利用包含 键值对 的序列对象创建
dict4 = dict((['RUC', '中国人民大学'], 
              ['THU', '清华大学'], 
              ['PKU', '北京大学'], 
              ['BIT', '北京理工大学'],
              ['BUAA', '北京航空航天大学'])) # 元组也是序列对象；键值对 可以是列表

print(empty_dict)
print(dict2)
print(dict3)
print(dict4)

{}
{'RUC': '中国人民大学', 'THU': '清华大学', 'PKU': '北京大学', 'BIT': '北京理工大学', 'BUAA': '北京航空航天大学'}
{'RUC': '中国人民大学', 'THU': '清华大学', 'PKU': '北京大学', 'BIT': '北京理工大学', 'BUAA': '北京航空航天大学'}
{'RUC': '中国人民大学', 'THU': '清华大学', 'PKU': '北京大学', 'BIT': '北京理工大学', 'BUAA': '北京航空航天大学'}


In [4]:
# 一种"特殊"的创建方式
dict5 = dict(RUC='中国人民大学', 
             THU='清华大学', 
             PKU='北京大学', 
             BIT='北京理工大学', 
             BUAA='北京航空航天大学')
dict6 = dict(dict1, FDU='复旦大学') # 还可以和其他创建方式一起使用

print(dict5)
print(dict6)

{'RUC': '中国人民大学', 'THU': '清华大学', 'PKU': '北京大学', 'BIT': '北京理工大学', 'BUAA': '北京航空航天大学'}
{'RUC': '中国人民大学', 'THU': '清华大学', 'PKU': '北京大学', 'BIT': '北京理工大学', 'BUAA': '北京航空航天大学', 'FDU': '复旦大学'}


我们之前学习了，在定义函数时，可以设计可变数量的参数，这些参数会以元组（tuple）的形式被传递到函数内。例如：

In [5]:
def f(*args):
    print(type(args))
    print(args)
    
f(1)
f(1, 2)

<class 'tuple'>
(1,)
<class 'tuple'>
(1, 2)


类似的，我们可以设计基于键值对的参数(keyword arguments)，这些参数会以字典（dict）的形式被传递到函数内。例如：

In [6]:
def g(**kwargs):
    print(type(kwargs))
    print(kwargs)

g()
g(RUC='中国人民大学', THU='清华大学')


<class 'dict'>
{}
<class 'dict'>
{'RUC': '中国人民大学', 'THU': '清华大学'}


### 字典类型的操作

我们可以利用利用键索引字典中保存的值，例如：

In [7]:
print(dict1['RUC'])
print(dict1['FDU']) # 若键信息不在字典里，会报错

中国人民大学


KeyError: 'FDU'

In [8]:
print(dict1.get('RUC')) # 也可以使用get方法
print(dict1.get('FDU', '名称未知')) # get方法的第二个参数是若键信息不在字典里时返回的默认值信息

中国人民大学
名称未知


我们还可以判断某一个键是否在字典中：

In [9]:
print('RUC' in dict1)
print('FDU' in dict1)

True
False


以及通过键信息增加、修改值信息和删除相应的键值对：

In [10]:
dict2 = dict(dict1)
print(dict2)
dict2['FDU'] = '复旦大学'
dict2['RUC'] = 'Renmin University of China'
print(dict2)

{'RUC': '中国人民大学', 'THU': '清华大学', 'PKU': '北京大学', 'BIT': '北京理工大学', 'BUAA': '北京航空航天大学'}
{'RUC': 'Renmin University of China', 'THU': '清华大学', 'PKU': '北京大学', 'BIT': '北京理工大学', 'BUAA': '北京航空航天大学', 'FDU': '复旦大学'}


In [11]:
dict2 = dict(dict1)
print(dict2)
del dict2['RUC']
print(dict2)

{'RUC': '中国人民大学', 'THU': '清华大学', 'PKU': '北京大学', 'BIT': '北京理工大学', 'BUAA': '北京航空航天大学'}
{'THU': '清华大学', 'PKU': '北京大学', 'BIT': '北京理工大学', 'BUAA': '北京航空航天大学'}


\<d\>[\<key\>]和<d>.get()函数返回的都是对象，我们还可以调用对象对应的方法，例如：

In [12]:
dict2['RUC'] = []
dict2['RUC'].append('中国人民大学')
dict2['RUC'].append('Renmin University of China')
print(dict2)

{'THU': '清华大学', 'PKU': '北京大学', 'BIT': '北京理工大学', 'BUAA': '北京航空航天大学', 'RUC': ['中国人民大学', 'Renmin University of China']}


我们还可以分别获取一个字典中的所有键、值、以及键值对。

In [13]:
dict2 = dict(dict1)
keys = dict2.keys()
print(keys)
values = dict2.values()
print(values)
items = dict2.items()
print(items)

dict_keys(['RUC', 'THU', 'PKU', 'BIT', 'BUAA'])
dict_values(['中国人民大学', '清华大学', '北京大学', '北京理工大学', '北京航空航天大学'])
dict_items([('RUC', '中国人民大学'), ('THU', '清华大学'), ('PKU', '北京大学'), ('BIT', '北京理工大学'), ('BUAA', '北京航空航天大学')])


需要注意的是，上述方法获得均为字典中相应信息的一个视图（view），即如果我们修改了字典中的内容，上述视图对象也会相应变化，例如：

In [14]:
del dict2['RUC']
print(keys)
print(values)
print(items)

dict_keys(['THU', 'PKU', 'BIT', 'BUAA'])
dict_values(['清华大学', '北京大学', '北京理工大学', '北京航空航天大学'])
dict_items([('THU', '清华大学'), ('PKU', '北京大学'), ('BIT', '北京理工大学'), ('BUAA', '北京航空航天大学')])


我们也可以使用for ... in ... 语句遍历字典中的信息，例如：

In [15]:
dict2 = dict(dict1)
for key in dict2: # 该语句会遍历字典中所有键
    print(key) 
    
for key, value in dict2.items(): # 这样可以遍历所有键值对
    print(key, value)

RUC
THU
PKU
BIT
BUAA
RUC 中国人民大学
THU 清华大学
PKU 北京大学
BIT 北京理工大学
BUAA 北京航空航天大学


其他一些字典相关的操作：

In [16]:
dict2 = dict(dict1)
print(len(dict2)) # 字典的大小（包含键值对的个数）

dict2.clear() # 清空字典
print(dict2)

dict2 = dict1.copy() # 返回一个字典的拷贝
print(dict2)

dict2.update({'RUC': 'Renmin University of China',
              'THU': 'Tsinghua University'}) # 批量更新字典中键值对
print(dict2)

print(dict2.pop('PKU')) # 按键查找，然后删除相应键值对
print(dict2)


5
{}
{'RUC': '中国人民大学', 'THU': '清华大学', 'PKU': '北京大学', 'BIT': '北京理工大学', 'BUAA': '北京航空航天大学'}
{'RUC': 'Renmin University of China', 'THU': 'Tsinghua University', 'PKU': '北京大学', 'BIT': '北京理工大学', 'BUAA': '北京航空航天大学'}
北京大学
{'RUC': 'Renmin University of China', 'THU': 'Tsinghua University', 'BIT': '北京理工大学', 'BUAA': '北京航空航天大学'}


In [17]:
dict2 = dict(dict1)

print(dict2.popitem()) # 返回一个键值对，并将其删掉 
print(dict2)

"""
注意在3.7版以前，popitem会随机返回一个键值对，但是在3.7版之后，会返回最后一个被添加的键值对
"""
print(dict2.popitem()) 
print(dict2)

print(dict2.popitem()) 
print(dict2)

('BUAA', '北京航空航天大学')
{'RUC': '中国人民大学', 'THU': '清华大学', 'PKU': '北京大学', 'BIT': '北京理工大学'}
('BIT', '北京理工大学')
{'RUC': '中国人民大学', 'THU': '清华大学', 'PKU': '北京大学'}
('PKU', '北京大学')
{'RUC': '中国人民大学', 'THU': '清华大学'}


### 思考：什么样的信息可以作为字典的值信息和键信息？

任意基本数据类型、组合数据类型、甚至是函数，均可以作为字典的值。所有的对象（object）均可以作为字典的值。

In [18]:
dict2 = dict(dict1)
dict2['RUC'] = 1 # 基本数据类型
print(dict2)

dict2['RUC'] = ('中国人民大学', 'Renmin University of China') # 组合数据类型，元组
print(dict2)
dict2['RUC'] = ['中国人民大学', 'Renmin University of China'] # 组合数据类型，列表
print(dict2)

# 字典可以嵌套
dict2['RUC'] = {'中文名': '中国人民大学', '英文名': 'Renmin University of China'} 
print(dict2)
print(dict2['RUC']['中文名'])

{'RUC': 1, 'THU': '清华大学', 'PKU': '北京大学', 'BIT': '北京理工大学', 'BUAA': '北京航空航天大学'}
{'RUC': ('中国人民大学', 'Renmin University of China'), 'THU': '清华大学', 'PKU': '北京大学', 'BIT': '北京理工大学', 'BUAA': '北京航空航天大学'}
{'RUC': ['中国人民大学', 'Renmin University of China'], 'THU': '清华大学', 'PKU': '北京大学', 'BIT': '北京理工大学', 'BUAA': '北京航空航天大学'}
{'RUC': {'中文名': '中国人民大学', '英文名': 'Renmin University of China'}, 'THU': '清华大学', 'PKU': '北京大学', 'BIT': '北京理工大学', 'BUAA': '北京航空航天大学'}
中国人民大学


In [19]:
# 字典的值还可以是一个函数
def output_ruc():
    print('中文名: 中国人民大学\t英文名: Renmin University of China')
dict2['RUC'] = output_ruc
print(dict2)
dict2['RUC']() # 在一个函数后加上括号就可以调用这个函数！

{'RUC': <function output_ruc at 0x7f99ea748820>, 'THU': '清华大学', 'PKU': '北京大学', 'BIT': '北京理工大学', 'BUAA': '北京航空航天大学'}
中文名: 中国人民大学	英文名: Renmin University of China


In [26]:
import math
oper_dict = {
    '+': lambda x, y: x + y,
    '-': lambda x, y: x - y,
    '*': lambda x, y: x * y,
    '/': lambda x, y: x / y,
    'sin': lambda x: math.sin(x),
    'exp': lambda x: math.exp(x),
    'ln': lambda x: math.log(x)
}

while(True):
    s = input('请输入一个前缀表达式，运算符和数字间用空格分开(输入空字符串退出)：')
    if len(s) == 0:
        break
    tokens = s.split(' ')
    operation = oper_dict[tokens[0]]
    operands = []
    for token in tokens[1:]:
        operands.append(float(token))
    print('计算结果:{0:.4f}'.format(operation(*operands)))

请输入一个前缀表达式，运算符和数字间用空格分开(输入空字符串退出)： 


然而，并不是所有的对象均可以作为字典的键：

In [27]:
new_dict = {}
new_dict[1] = 1 # 可以用基本数据类型作为字典的键
new_dict['RUC'] = '中国人民大学' # 可以用字符串作为字典的键
new_dict[('RUC', 'GSAI')] = '中国人民大学高瓴人工智能学院' # 可以用元组作为字典的键
# 甚至可以用嵌套的元组作为字典的键
new_dict[(('RUC', 'GSAI'), 'address')] = '北京市海淀区中关村大街59号中国人民大学' 
print(new_dict)

{1: 1, 'RUC': '中国人民大学', ('RUC', 'GSAI'): '中国人民大学高瓴人工智能学院', (('RUC', 'GSAI'), 'address'): '北京市海淀区中关村大街59号中国人民大学'}


In [28]:
new_dict[['THU', 'DCST']] = '清华大学计算机科学与技术系' # 然而使用列表作为字典的键会报错

TypeError: unhashable type: 'list'

In [29]:
new_dict[set(['THU', 'DCST'])] = '清华大学计算机科学与技术系' # 集合也不行

TypeError: unhashable type: 'set'

那么，到底哪些对象可以作为字典的键呢？

简单来说，所有一旦创建就不能被修改（immutable）的对象，都可以用作字典的键，例如：
* 基本数据类型
* 字符串（是的，字符串创建后就不能修改了）
* 元组

而创建后可以修改的（mutable）对象，都不能用作字典的键，例如：
* 列表
* 集合
* 字典


而更准确的说法是，所有可哈希的对象，即所有实现了\_\_hash\_\_()和\_\_eq\_\_()两个特殊方法的对象，可以作为字典的键。字典会使用哈希函数值（\_\_hash\_\_()的返回值）并且通过\_\_eq\_\_()来判断两个作为键的对象是否相等。例如，判断查询的键是否和字典中保存的某一个键相等。

Python语言要求：
* 如果两个对象相等(a.\_\_eq\_\_(b) 或者 a == b返回True），那么他们的\_\_hash\_\_()函数返回值必须相等
* 只有不可变对象才是可哈希的，才有\_\_hash\_\_()函数

相应的哈希函数需要满足两个性质：
* 如果两个对象的哈希函数值相等，那么他们*很可能*相等
* 哈希函数的计算应该比较高效

这样，字典就可以：
* 使用哈希函数值来组织键值信息的保存
* 使用相等函数来判断某个键是否已经出现在字典里了



In [30]:
print((1).__hash__())
print((1).__eq__(1)) # 基本数据类型

print((1, 2, 3).__hash__())
print((1, 2, 3).__eq__((1, 2, 3))) # 元组

# 而列表、集合、字典的__hash__方法为None
print([1, 2, 3].__hash__) 
print({1, 2, 3}.__hash__)
print({1:1, 2:2, 3:3}.__hash__)

# 无法调用该函数
[1, 2, 3].__hash__()

1
True
529344067295497451
True
None
None
None


TypeError: 'NoneType' object is not callable

### 例子1：使用字典统计词频

In [31]:
import jieba
txt = open('./高瓴人工智能学院简介.txt', 'r', encoding='utf-8').read()
words = jieba.lcut(txt)
counts = {}
for word in words:
    if len(word) == 1: #排除单个字符的分词结果
        continue
    else:
        counts[word] = counts.get(word, 0) + 1
items = list(counts.items())
items.sort(key=lambda x: x[1], reverse=True)
for i in range(15):
    word, count = items[i]
    print('{0:<10}{1:>5}'.format(word, count))

Building prefix dict from the default dictionary ...
Loading model from cache /tmp/jieba.cache
Loading model cost 0.331 seconds.
Prefix dict has been built successfully.


人工智能         13
学院            8
一流            5
中国人民大学        4
未来            3
高瓴            3
院长            3
打造            3
全球            3
研究            3
联合            3
时代            2
影响            2
技术            2
发展            2


### 例子2：使用字典保存运算结果

我们可以用递归的方式计算斐波那契数列的第n项

In [32]:
%%time 
def fib(n):
    if n == 1 or n == 2:
        return 1
    else:
        return fib(n-2) + fib(n-1)
fib(36)

CPU times: user 1.88 s, sys: 0 ns, total: 1.88 s
Wall time: 1.88 s


14930352

上述方法的计算效率很低，这是因为存在大量的重复计算，例如，在计算fib(5)时会计算fib(4)和fib(3)；而在计算fib(4)时，同样会调用fib(3)。一个提升计算效率的方式可以使用字典缓存计算的结果：

In [33]:
%%time
fib_n = {}
def fib_cached(n):
    if n not in fib_n:
        if n == 1 or n == 2:
            fib_n[n] = 1
        else:
            fib_n[n] = fib_cached(n-2) + fib_cached(n-1)
    return fib_n[n]
fib_cached(36)

CPU times: user 20 µs, sys: 0 ns, total: 20 µs
Wall time: 21.9 µs


14930352

## 组合数据类型的高级操作

Python语言自带了一些能够方便处理组合数据类型的函数，如：
* filter
* map
* reduce

这三个函数的第一个参数是一个函数，第二个参数是个可遍历的（iterable）对象。列表、元组、集合、字典均为可遍历对象。

### filter函数：
* 形式：filter(function, iterable)
* 功能：将可遍历对象中不满足function定义条件的元素过滤掉，例如：

In [34]:
# 保留所有偶数，过滤掉其他数
data = [1, 2, 3, 4, 5, 6]
print(list(filter(lambda x: x % 2 == 0, data)))

[2, 4, 6]


In [35]:
# 分词后过滤掉所有单字词
import jieba
txt = open('./高瓴人工智能学院简介.txt', 'r', encoding='utf-8').read()
words = jieba.lcut(txt)[0:20]
print('过滤前:', words)
words = list(filter(lambda x: len(x) > 1, words))
print('过滤后:', words)

过滤前: ['“', '过去', '未', '去', '，', '未来', '已来', '”', '，', '在', '构建', '人工智能', '时代', '的', '宏大', '世界观', '时', '，', '在', '影响']
过滤后: ['过去', '未来', '已来', '构建', '人工智能', '时代', '宏大', '世界观', '影响']


### map函数：
* 形式：map(function, iterable, ...)
* 功能：将function函数应用于所有可遍历对象中的元素上，例如：

In [36]:
# 求列表中每个数的平方
data = [1, 2, 3, 4, 5, 6]
results = list(map(lambda x: x * x, data))
print(results)
# 将每个数转化为字符串
results = map(str, results)
# 将字符串连接起来，用, 分割
print(', '.join(results))

[1, 4, 9, 16, 25, 36]
1, 4, 9, 16, 25, 36


In [37]:
# map还能同时作用于多个可遍历对象，例如：
short_names = ['RUC', 'THU', 'PKU', 'BIT', 'BUAA']
full_names = ['中国人民大学', '清华大学', '北京大学', '北京理工大学', '北京航空航天大学']
results = map(lambda x, y: '{0:}=>{1:}'.format(x, y), short_names, full_names)
print(', '.join(results))

RUC=>中国人民大学, THU=>清华大学, PKU=>北京大学, BIT=>北京理工大学, BUAA=>北京航空航天大学


### reduce函数：
* 形式：reduce(function, iterable\[, initialzer\])
* 功能：利用function函数将可遍历对象中的元素合并起来，例如：

In [38]:
from functools import reduce # python 3 中需要从functools模块中import reduce函数

# 将列表中的元素相乘
data = [1, 2, 3, 4, 5, 6]
print(reduce(lambda x, y: x * y, data))

# 计算列表中的最大值
data = [1, 2, 3, 4, 5, 6, 1, 10, -10]
print(reduce(lambda x, y: x if x > y else y, data))

720
10


In [39]:
# 词频统计
from functools import reduce
import jieba
txt = open('./高瓴人工智能学院简介.txt', 'r', encoding='utf-8').read()
words = jieba.lcut(txt)
words = filter(lambda x: len(x) > 1, words) 

def word_count(d, w):
    d[w] = d.get(w, 0) + 1
    return d

counts = reduce(word_count, words, {})
items = list(counts.items())
items.sort(key=lambda x: x[1], reverse=True)
for i in range(15):
    word, count = items[i]
    print('{0:<10}{1:>5}'.format(word, count))

人工智能         13
学院            8
一流            5
中国人民大学        4
未来            3
高瓴            3
院长            3
打造            3
全球            3
研究            3
联合            3
时代            2
影响            2
技术            2
发展            2


### 列表推导式

Python语言还提供了一种方便的创建组合数据类型的方式。

其形式为：
\<expression\> for item in iterable \<if optional\_condition\>

上述语句会生成一个可遍历的对象，基于该对象，我们可以创建列表、元组、集合和字典，例如：


In [40]:
# 生成包含100以内所有3的倍数的列表和集合
print([x for x in range(100) if x % 3 == 0])
print({x for x in range(100) if x % 3 == 0})

[0, 3, 6, 9, 12, 15, 18, 21, 24, 27, 30, 33, 36, 39, 42, 45, 48, 51, 54, 57, 60, 63, 66, 69, 72, 75, 78, 81, 84, 87, 90, 93, 96, 99]
{0, 3, 6, 9, 12, 15, 18, 21, 24, 27, 30, 33, 36, 39, 42, 45, 48, 51, 54, 57, 60, 63, 66, 69, 72, 75, 78, 81, 84, 87, 90, 93, 96, 99}


In [41]:
# 生成字典
inverse_dict = {value: key for key, value in dict1.items()}
print(inverse_dict)

{'中国人民大学': 'RUC', '清华大学': 'THU', '北京大学': 'PKU', '北京理工大学': 'BIT', '北京航空航天大学': 'BUAA'}


## 组合数据类型相关模块

在这里我们主要介绍collections模块中提供的一些数据类型：
* deque
* Counter
* defaultdict


deque：可以在头部增删元素的列表

In [43]:
from collections import deque
x = deque([1, 2, 3])
x.append(4) # 在尾部加入新元素
print(x)
x.pop() # 返回并删除尾部元素
print(x)
x.appendleft(0) # 在头部加入新元素
print(x)
x.popleft() # 返回并删除头部元素 
print(x)

deque([1, 2, 3, 4])
deque([1, 2, 3])
deque([0, 1, 2, 3])
deque([1, 2, 3])


In [45]:
# 思考：像这样在普通列表前增加元素会有什么问题？
x = [1, 2, 3]
x = [0] + x
print(x)

[0, 1, 2, 3]


Counter: 专门用来计数的字典

In [65]:
from collections import Counter
data = [1, 1, 1, 2, 2, 3]
c = Counter(data) # 可以直接用需要计数的可遍历对象构造Counter
print(c)
print(c[1]) # 也可以像使用字典一样访问和修改每一个元素
c[1] += 1
print(c)
print(c[0]) # 没出现过的元素的个数为0

Counter({1: 3, 2: 2, 3: 1})
3
Counter({1: 4, 2: 2, 3: 1})
0


In [63]:
# 词频统计
import jieba
txt = open('./高瓴人工智能学院简介.txt', 'r', encoding='utf-8').read()
counts = Counter(word for word in jieba.cut(txt) if len(word) > 1)
for word,count in counts.most_common(15):
    print('{0:<10}{1:>5}'.format(word, count))

人工智能         13
学院            8
一流            5
中国人民大学        4
未来            3
高瓴            3
院长            3
打造            3
全球            3
研究            3
联合            3
时代            2
影响            2
技术            2
发展            2


defaultdict: 有默认值的字典

In [71]:
from collections import defaultdict
d = defaultdict(lambda: '默认值') # 构造时需要一个生成默认值的函数
d.update(dict1)
print(d)
print(d['RUC']) # 若defaultdict包含该键，正常返回对应值
print(d['FDU']) # 若不包含该键，调用生成默认值函数，生成一个默认值，添加到defaultdict中
print(d)

defaultdict(<function <lambda> at 0x7f99a9368790>, {'RUC': '中国人民大学', 'THU': '清华大学', 'PKU': '北京大学', 'BIT': '北京理工大学', 'BUAA': '北京航空航天大学'})
中国人民大学
默认值
defaultdict(<function <lambda> at 0x7f99a9368790>, {'RUC': '中国人民大学', 'THU': '清华大学', 'PKU': '北京大学', 'BIT': '北京理工大学', 'BUAA': '北京航空航天大学', 'FDU': '默认值'})


In [81]:
# 分词并记录每个词出现的位置
import jieba
txt = open('./高瓴人工智能学院简介.txt', 'r', encoding='utf-8').read()
positions = defaultdict(list) # 默认值是list函数返回的一个空列表
for word, start_pos, end_pos in jieba.tokenize(txt): # tokenize函数返回词，开始、结束位置
    if len(word) > 1:
        positions[word].append((start_pos, end_pos))
results = sorted(positions.items(), key=lambda x: -len(x[1]))
for word, positions in results[0:15]:
    print(word)
    print(positions)

人工智能
[(15, 19), (32, 36), (53, 57), (78, 82), (105, 109), (127, 131), (219, 223), (250, 254), (317, 321), (405, 409), (439, 443), (471, 475), (508, 512)]
学院
[(82, 84), (109, 111), (120, 122), (172, 174), (223, 225), (284, 286), (298, 300), (328, 330)]
一流
[(326, 328), (361, 363), (370, 372), (379, 381), (388, 390)]
中国人民大学
[(70, 76), (112, 118), (196, 202), (276, 282)]
未来
[(6, 8), (315, 317), (348, 350)]
高瓴
[(76, 78), (103, 105), (217, 219)]
院长
[(242, 244), (273, 275), (286, 288)]
打造
[(304, 306), (368, 370), (479, 481)]
全球
[(332, 334), (467, 469), (512, 514)]
研究
[(416, 418), (427, 429), (457, 459)]
联合
[(449, 451), (455, 457), (477, 479)]
时代
[(19, 21), (321, 323)]
影响
[(30, 32), (310, 312)]
技术
[(36, 38), (414, 416)]
发展
[(38, 40), (353, 355)]
