# Lesson 5

v1.0.0, 2016.12 by David Yi   
v1.0.1, 2017.02 modified by Yimeng Zhang  
v1.1, 2020.4 edit by David Yi

    
### 本次内容要点

* dict 字典用法
* tuple 元组用法
* 思考

---

##  dict 字典用法

字典是另一种可变容器模型，可存储任意类型对象。

字典的每个键值(key=>value)对用冒号(:)分割，每个对之间用逗号(,)分割，整个字典包括在花括号({})中，格式如 `d = {key1 : value1, key2 : value2 }`

字典中的 key 值不可以重复（第一次定义后不能重复）

字典的几个特点：
1. 查找和插入的速度极快，不会随着key的增加而变慢；   
2. 需要占用大量的内存，内存浪费多。   

而list相反：
1. 查找和插入的时间随着元素的增加而增加；   
2. 占用空间小，浪费内存很少。   

字典的基本操作：
* 创建字典
* 访问字典中的 key-value
* 修改字典中的 key-value
* 获得字典中指定 key 的 value
* 删除字典中的 key

In [1]:
# 定义字典
# 访问字典中的 key-value

d = {'Tom': 95, 'Mary': 90, 'Tracy': 92}
print(d)
print(d['Tom'])

{'Tom': 95, 'Mary': 90, 'Tracy': 92}
95


In [2]:
# 字典增加元素

d['Hugo'] = 85
print(d)

{'Tom': 95, 'Mary': 90, 'Tracy': 92, 'Hugo': 85}


In [3]:
# 修改字典元素的值
d['Tom'] = 97
print(d)

# 字典是否存在某个 key
print('Tom' in d)

# 如果要获得不存在的 key 的 value，可以设置默认值
print(d.get('Tommy',80))

# 直接去获得不存在的 key 的 value，会报错
print(d['Tommy'])



{'Tom': 97, 'Mary': 90, 'Tracy': 92, 'Hugo': 85}
True
80


KeyError: 'Tommy'

In [4]:
# 字典删除 key

d = {'Tom': 95, 'Mary': 90, 'Tracy': 92}
print(d)

# 删除 key
d.pop('Tom')
print(d)

{'Tom': 95, 'Mary': 90, 'Tracy': 92}
{'Mary': 90, 'Tracy': 92}


In [19]:
# 获得字典的长度

# 一个空的字典
d1 = {}

# 造一些字典内容
for i in range(30):
    d1['id_'+str(i)] = i*3
print(d1)

print(len(d1))

{'id_0': 0, 'id_1': 3, 'id_2': 6, 'id_3': 9, 'id_4': 12, 'id_5': 15, 'id_6': 18, 'id_7': 21, 'id_8': 24, 'id_9': 27, 'id_10': 30, 'id_11': 33, 'id_12': 36, 'id_13': 39, 'id_14': 42, 'id_15': 45, 'id_16': 48, 'id_17': 51, 'id_18': 54, 'id_19': 57, 'id_20': 60, 'id_21': 63, 'id_22': 66, 'id_23': 69, 'id_24': 72, 'id_25': 75, 'id_26': 78, 'id_27': 81, 'id_28': 84, 'id_29': 87}
30


---

## Tuple 元组用法

Tuple 也是一种有序列表，在存储数据方面和 list 列表很相似， 为了区分，我们叫它元组。
Tuple 一旦内容存储后，就不能修改；这样的好处是数据很安全。

应用范围：在我们需要使用 list 列表功能的时候，但是又不需要改变这个 list 的内容，用 Tuple 元组功能会很安全，不用担心程序中不小心修改了其内容。Python 在向函数传递多个参数时候，就是采用 tuple，保证参数在被调用的过程中的安全。



In [2]:
# 创建元组

t = ('Tom', 'Jerry', 'Mary')
print(t)

('Tom', 'Jerry', 'Mary')


In [4]:
# 访问元组的元素

print(t[1])

Jerry


In [8]:
# 元组创建后是不能修改的

# 会报错
t.append('Someone')

AttributeError: 'tuple' object has no attribute 'append'

In [3]:
# 元组创建后是不能修改的

# 像列表一样去定义值也会报错
# 'tuple' object does not support item assignment
t[1] = 'aaa'

TypeError: 'tuple' object does not support item assignment

In [20]:
# 创建复杂一点的元组

t1  = ['A', 'B', 'C']
t2 =(t1, 100, 200)
print(t2)

(['A', 'B', 'C'], 100, 200)


In [4]:
# 变通的实现"可变"元组内容

t1  = ['A', 'B', 'C']
t2 =(t1, 100, 200)
print(t1)
print(t2)

# tuple的每个元素，指向永远不变，但指向的元素本身是可变的
t1.append('D')

print(t1)
print(t2)  

['A', 'B', 'C']
(['A', 'B', 'C'], 100, 200)
['A', 'B', 'C', 'D']
(['A', 'B', 'C', 'D'], 100, 200)


In [25]:
# 创建只有1个元素的元组

# 下面这样是不行的
t = (1)
# l成了一个整数，因为这里的括号有歧义，被认作数学计算里的小括号
print(type(t))  

# 1个元素的元组必须加逗号来消除歧义
t = (1,)
print(type(t))
print(t)

<class 'int'>
<class 'tuple'>
(1,)


### 思考

* 中文分词，是一个很有趣的话题，也是机器学习中关于语言处理的最基本的概念。今天我们看看 Python 怎么处理中文分词。
* 需要先安装 jieba 这个 Python 的库，使用 `pip install jieba`

In [7]:
import jieba

# 全模式
# 把句子中所有的可以称此的词语都扫描出来，速度非常快，但是不能解决歧义

seg_list = jieba.cut("今天上海的天气怎么样", cut_all = True)
print("Full Mode: " + "/ ".join(seg_list))  


Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\yijun\AppData\Local\Temp\jieba.cache
Loading model cost 0.656 seconds.
Prefix dict has been built successfully.


Full Mode: 今天/ 天上/ 上海/ 的/ 天气/ 怎么/ 怎么样


In [29]:
# 精确模式
# 试图将句子最精确的切开，适合文本分析

seg_list = jieba.cut("明天纽约下雨么", cut_all = False)
print("Default Mode: " + "/ ".join(seg_list))  


Default Mode: 明天/ 纽约/ 下雨/ 么


In [30]:
# 默认是精确模式

seg_list = jieba.cut("现在天气怎么样")  
print(", ".join(seg_list))


现在, 天气, 怎么样


In [None]:
# 默认是精确模式

seg_list = jieba.cut("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  
print(", ".join(seg_list))


In [31]:
# 搜索引擎模式
# 在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词    

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造") 
print(", ".join(seg_list))

小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, ，, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造


In [10]:
# 看看网络上的段子，分词带来的烦恼

seg_list = jieba.cut_for_search("黑夜总会过去") 
print(", ".join(seg_list))
seg_list = jieba.cut("黑夜总会过去", cut_all = True)
print(", ".join(seg_list))

黑夜, 总会, 过去
黑夜, 夜总会, 总会, 过去


In [32]:
# 默认是精确模式
seg_list = jieba.cut("2016年第一季度支付事业部交易量报表")  
print(','.join(seg_list))

2016,年,第一季度,支付,事业部,交易量,报表


In [33]:
# 默认是精确模式
seg_list = jieba.cut("2016年第一季度支付事业部交易量报表")  
for i in seg_list:
    print(i)

2016
年
第一季度
支付
事业部
交易量
报表


In [34]:
import jieba.posseg as pseg
words = pseg.cut("我爱北京天安门")

for word, flag in words:
    print('%s %s' % (word, flag))

我 r
爱 v
北京 ns
天安门 ns


#### 词性

北大词性标注集

* Ag     形语素     形容词性语素。形容词代码为a，语素代码ｇ前面置以A。
* a       形容词      取英语形容词adjective的第1个字母。
* ad 副形词 直接作状语的形容词。形容词代码a和副词代码d并在一起。
* an 名形词 具有名词功能的形容词。形容词代码a和名词代码n并在一起。
* b       区别词      取汉字“别”的声母。
* c       连词        取英语连词conjunction的第1个字母。
* Dg     副语素     副词性语素。副词代码为d，语素代码ｇ前面置以D。
* d       副词     取adverb的第2个字母，因其第1个字母已用于形容词。
* e       叹词     取英语叹词exclamation的第1个字母。
* f        方位词      取汉字“方”的声母。
* g  语素    绝大多数语素都能作为合成词的“词根”，取汉字“根”的声母。
* h       前接成分   取英语head的第1个字母。
* i        成语        取英语成语idiom的第1个字母。
* j        简称略语  取汉字“简”的声母。
* k       后接成分
* l        习用语     习用语尚未成为成语，有点“临时性”，取“临”的声母。
* m       数词     取英语numeral的第3个字母，n，u已有他用。
* Ng     名语素     名词性语素。名词代码为n，语素代码ｇ前面置以N。
* n   名词        取英语名词noun的第1个字母。
* nr  人名        名词代码n和“人(ren)”的声母并在一起。
* ns      地名     名词代码n和处所词代码s并在一起。
* nt      机构团体    “团”的声母为t，名词代码n和t并在一起。
* nz     其他专名    “专”的声母的第1个字母为z，名词代码n和z并在一起。 
* o       拟声词     取英语拟声词onomatopoeia的第1个字母。
* p       介词     取英语介词prepositional的第1个字母。
* q       量词        取英语quantity的第1个字母。
* r       代词        取英语代词pronoun的第2个字母,因p已用于介词。
* s       处所词     取英语space的第1个字母。
* Tg     时语素      时间词性语素。时间词代码为t,在语素的代码g前面置以T。
* t     时间词      取英语time的第1个字母。
* u       助词        取英语助词auxiliary 的第2个字母,因a已用于形容词。
* Vg     动语素      动词性语素。动词代码为v。在语素的代码g前面置以V。
* v       动词        取英语动词verb的第一个字母。
* vd     副动词      直接作状语的动词。动词和副词的代码并在一起。
* vn     名动词      指具有名词功能的动词。动词和名词的代码并在一起。
* w      标点符号   
* x       非语素字    非语素字只是一个符号，字母x通常用于代表未知数、符号。
* y       语气词      取汉字“语”的声母。
* z      状态词      取汉字“状”的声母的前一个字母。


#### 思考：

* 做一个简单的对话机器人，有了上面的分词工具，是不是有一些思路？