# 第6章 组合数据类型
## 6.1 组合数据类型概述
* 从**对单个变量表示的数据进行处理**到**对一组数据进行批量处理**
    * 给定一组单词{python, data, function, list, loop}，计算出输出每个单词的长度。
    * 给定一个学院的学生信息，统计男女生比例。
    * 一次实验产生了很多组数据，对这些大量数据进行分析。

* 组合数据类型能够将多个同类型或不同类型的数据组织起来，通过单一的表示使数据操作更有序、更容易。
    * **序列类型**：是一个元素向量，元素之间存在先后关系，通过序号访问，元素之间不排他。
    * **集合类型**：是一个元素集合，元素之间无序，相同元素在集合中唯一存在。
    * **映射类型**：“键-值”数据项的组合，每个元素是一个键值对，表示为`(key, value)`。
    
### 6.1.1 序列类型
* 序列是具有先后关系的一组元素。
    * 序列是一维元素向量，元素类型可以不同。
    * 类似数学元素序列：$s_{0}, s_{1}, \dots , s_{n-1}$。
    * 元素间由序号引导，通过下标访问序列的特定元素。
* 序列类型是一个基类类型

![xuliejilei](../picture/xuliejilei.png)

* 当需要访问序列中某个特定值时，只需要通过下表标出即可。

![xuliexuhao](../picture/xuliexuhao.png)

* 序列类型通用操作符

|操作符|描述|
|:-:|:-:|
|`x in s`|如果`x`是`s`的元素，返回`True`，否则返回`False`|
|`x not in s`|如果`x`是`s`的元素，返回`False`，否则返回`True`|
|`s + t`|连接`s`和`t`|
|`s * n`或`n * s`|将`s`复制`n`次|
|`s[i]`|索引，返回`s`中的第`i`个元素，`i`是序列的序号|
|`s[i:j]`|切片，返回包含序列`s`第`i`到`j`个元素的子序列（不包含第`j`个元素）|
|`s[i:j:k]`|步骤切片，返回包含序列`s`第`i`到`j`个元素以`k`为步数的子序列|

In [1]:
ls = ["python", 123, ".io"]
ls[::-1]

['.io', 123, 'python']

In [2]:
s = "python123.io"
s[::-1]

'oi.321nohtyp'

* 序列类型的通用函数和方法

|函数|描述|
|:-:|:-:|
|`len(s)`|序列`s`的元素个数（长度）|
|`min(s)`|序列`s`中的最小元素|
|`max(s)`|序列`s`中的最大元素|
|`s.index(x)`或`s.index(x, i, j)`|序列`s`中从`i`开始到`j`位置中第一次出现元素`x`的位置|
|`s.count(x)`|序列`s`中出现`x`的总次数|

In [3]:
ls = ["python", 123, ".io"]
len(ls)

3

In [4]:
s = "python123.io"
max(s)

'y'

* 元组类型：是序列类型的一种扩展。
    * 一旦创建就不能被修改。
    * 使用小括号`()`或`tuple()`创建，元素间用逗号分隔。
    * 可以使用或不适用小括号
* 元组类型的使用场景：
    * 固定数据项
    * 函数多返回值
    * 多变量同步赋值
    * 循环遍历

In [8]:
creature = "cat", "dog", "tiger", "human"
print(creature)
color = ("red", 0x001100, "blue", creature)
print(color)
print(color[2])
print(color[-1][2])

('cat', 'dog', 'tiger', 'human')
('red', 4352, 'blue', ('cat', 'dog', 'tiger', 'human'))
blue
tiger


* 函数多返回值

In [9]:
def func(x):
    return x, x ** 3
print(func(3))

(3, 27)


* 多变量同步赋值

In [11]:
a, b = "dog", "tiger"
a, b = (b, a)
print(a, b)

tiger dog


* 循环遍历

In [12]:
import math
for x, y in ((1, 0), (2, 5), (3, 8)):
    print(math.hypot(x, y))

1.0
5.385164807134504
8.54400374531753


### 6.1.2 集合类型
* **集合类型**：与数学中集合的概念一致，即包含0个或多个数据项的无序组合。
    * 集合中的元素不可重复
    * 元素类型只能是固定数据类型：整数、浮点数、字符串和元组等。
    * 列表、字典和集合类型本身都是可变数据类型，不能作为集合的元素出现。**Python编译器中判断是否为固定数据类型，主要考察该类型是否能够进行哈希运算**。
    * 集合用大括号`{}`表示，元素间用逗号分隔。
    * 建立集合类型用`{}`或`set()`。
    * 建立空集合类型，必须使用`set()`。

In [16]:
A = {"python", 123, ("python",123)}
print(A)

{123, 'python', ('python', 123)}


In [17]:
B = set("pypy123")
print(B)

{'y', '1', '2', '3', 'p'}


In [19]:
C = set(("cata", "dog", "tiger", "human"))
print(C)

{'dog', 'cata', 'tiger', 'human'}


In [20]:
D = {"python", 123, "python",123}
print(D)

{123, 'python'}


* 集合类型的操作符

|操作符|描述|
|:-:|:-:|
|`S\|T`|返回一个新集合，包括在集合`S`和`T`中的所有元素|
|`S - T`|返回一个新集合，包括在集合`S`但不在`T`中的元素|
|`S & T`|返回一个新集合，包括同时在集合`S`和`T`中的元素|
|`S^T`|返回一个新集合，包括集合`S`和`T`中的非相同元素|
|`S <= T` 或 `S < T`|返回`True`/`False`，判断`S`和`T`的子集关系|
|`S >= T` 或 `S > T`|返回`True`/`False`，判断`S`和`T`的包含关系|
|`S \|= T`|更新集合`S`，包括在集合`S`和`T`中的所有元素|
|`S -= T`|更新集合`S`，包括在集合`S`但不在`T`中的元素|
|`S &= T`|更新集合`S`，包括同时在集合`S`和`T`中的元素|
|`S ^= T`|更新集合`S`，包括集合`S`和`T`中的非相同元素|

![jihecaozuo](../picture/jihecaozuo.png)

In [21]:
A = {"p", "y", 123}
B = set("pypy123")
print(A - B)
print(A & B)
print(A ^ B)
print(B - A)
print(A | B)

{123}
{'p', 'y'}
{'2', '3', 123, '1'}
{'2', '3', '1'}
{'y', '1', '2', '3', 'p', 123}


* 集合类型的操作函数

|操作函数|描述|
|:-:|:-:|
|`S.add(x)`|如果数据项`x`不在集合`S`中，将`x`增加到`s`|
|`S.clear()`|移除`S`中的所有数据项|
|`S.copy()`|返回集合`S`的一个副本|
|`S.pop()`|随机返回集合`S`中的一个元素，如果`S`为空，产生`KeyError`异常|
|`S.discard(x)`|如果`x`在集合`S`中，移除该元素；如果`x`不在集合`S`中，不报错|
|`S.remove(x)`|如果`x`在集合`S`中，移除该元素；不在则产生`KeyError`异常|
|`S.isdisjoint(T)`|如果集合`S`和`T`没有相同元素，返回`True`|
|`len(S)`|返回集合`S`的元素个数|
|`x in S`|如果`x`是`S`的元素，返回`True`，否则返回`False`|
|`x not in S`|如果`x`不是`S`的元素，返回`True`，否则返回`False`|
|`set(x)`|将其他类型变量`x`转变为集合类型|

In [25]:
A = {"p", "y", 123}
for item in A:
    print(item, end="")

123yp

In [29]:
A = {"p", "y", 123}    
try:
    while True:
        print(A.pop(), end="")
except:
    pass
print("")
print(A)

123yp
set()


* 集合的使用场景：
    * 成员关系测试
    * 元素去重
    * 删除数据项

In [30]:
print("BIT" in {"PYTHON", "BIT", 123, "GOOD"})

True


In [31]:
tup = {"PYTHON", "BIT", 123, "GOOD", 123}
print(set(tup))

{'PYTHON', 123, 'BIT', 'GOOD'}


In [32]:
newtup = tuple(set(tup) - {"PYTHON"})
print(newtup)

(123, 'BIT', 'GOOD')


### 6.1.3 映射类型
* 映射类型是“键-值”数据项的组合，每个元素是一个键值对`(key, value)`，元素之间是无序的。
    * 键值对是一种二元关系，表达属性和值的映射。
    * 键（key）表示一个属性，值（value）是属性的内容，键值对刻画了一个属性和它的值。
    * 键值对将映射关系结构化，用于存储和表达。

![yingsheduiying](../picture/yingsheduiying.png)

![ysdylizi](../picture/ysdylizi.png)

![xulieyingshe](../picture/xulieyingshe.png)

## 6.2 列表类型和操作
### 6.2.1 列表类型的概念
**列表（list）是包含0个或多个对象引用的有序序列，属于序列类型。**
* 列表的长度和内容都是可变的，可以自由对列表中的数据项进行增加、删除或替换。
* 列表没有长度限制，元素类型可以不同，使用非常灵活。
* 列表属于序列类型，支持成员关系操作符`in`，产犊计算函数`len()`，分片`()`。
* 列表可以同时使用正向递增序号和反向递减序号。
* 列表可以采用标准的比较运算符`<`、`<=`、`==`、`!=`、`>=`、`>`进行比较，且比较实际上是单个数据项的逐个比较。
* 列表用中括号`[]`表示，也可以通过`list()`函数将元组和字符串转化成列表，直接使用`list()`函数返回一个空列表。



In [34]:
ls = [425, "BIT", [10, "CS"], 425]
print(ls)
print(ls[2][-1][0])

[425, 'BIT', [10, 'CS'], 425]
C


In [35]:
ls = list((425, "BIT", [10, "CS"], 425))
print(ls)

[425, 'BIT', [10, 'CS'], 425]


In [36]:
ls = list("中国是一个伟大的国家")
print(ls)

['中', '国', '是', '一', '个', '伟', '大', '的', '国', '家']


In [37]:
ls = list()
print(ls)

[]


* 列表必须通过显式的数据赋值才能生成，简单将一个列表赋值给另一个列表不会生成新的列表对象。

In [39]:
ls = ["cat", "dog", "tiger", 1024]
print(ls)
lt = ls
print(lt)
ls[0] = 0
print(lt)

['cat', 'dog', 'tiger', 1024]
['cat', 'dog', 'tiger', 1024]
[0, 'dog', 'tiger', 1024]


![lsltduiying](../picture/lsltduiying.png)

### 6.2.2 列表类型的操作
* 列表类型特有的函数

|函数|描述|
|:-:|:-:|
|`ls[i] = x`|替换列表`ls`第`i`个数据项为`x`|
|`ls[i:j] = lt`|用列表`lt`替换列表`ls`中第`i`到第`j`项数据（不含第`j`项，下同）|
|`ls[i:j:k] = lt`|用列表`lt`替换列表`ls`中第`i`到第`j`项以`k`为步数的数据|
|`del ls[i:j]`|删除列表`ls`第`i`到第`j`项数据，等价于`ls[i:j]=[]`|
|`del ls[i:j:k]`|删除列表`ls`第`i`到第`j`项以`k`为步数的数据|
|`ls += lt`或`ls.extend(lt)`|将列表`lt`元素增加到列表`ls`中|
|`ls *= n`|更新列表`ls`，其元素重复`n`次|
|`ls.append(x)`|在列表`ls`最后增加一个元素`x`|
|`ls.clear()`|删除`ls`中的所有元素|
|`ls.copy()`|生成一个新列表，复制`ls`中的所有元素|
|`ls.insert(i, x)`|在列表`ls`的第`i`位置增加元素`x`|
|`ls.pop(i)`|将列表`ls`中的第`i`项元素取出并删除该元素|
|`ls.remove(x)`|将列表中出现的第一个元素`x`删除|
|`ls.reverse(x)`|列表`ls`中的元素反转|

In [45]:
vlist = list(range(5))
print(vlist)
print(len(vlist[2:]))
print(2 in vlist)

vlist[3] = "python"
print(vlist)

vlist[1:3] = ["bit", "computer"]
print(vlist)

vlist[1:3] = ["new_bit", "new_computer", 123]
print(vlist)

vlist[1:3] = ["fewer"]
print(vlist)

for e in vlist:
    print(e, end=" ")

[0, 1, 2, 3, 4]
3
True
[0, 1, 2, 'python', 4]
[0, 'bit', 'computer', 'python', 4]
[0, 'new_bit', 'new_computer', 123, 'python', 4]
[0, 'fewer', 123, 'python', 4]
0 fewer 123 python 4 

* 当使用一个列表改变另一个列表时，Python不要求两个列表长度一样，要遵循“多增少减”的原则。

* 列表可以通过`for-in`语句对其元素进行遍历，基本语法如下：

```python
for <任意变量名> in <列表名>:
    <语句块>
```

**列表用法总结**：
* 能处理任意长度
* 能处理混合类型数据
* 提供了丰富的基础操作符和方法

## 6.3 实例：基本统计值计算
**问题**：求解一组不定长数据的基本统计值，即**平均值**、**标准差**和**中位数**。
* 一组数据表示为$S = s_{0}, s_{1}, \dots, s_{n-1}$，其算术平均值、标准差分表表示如下：
$$m = \frac{\sum_{i = 0}^{n - 1}s_{i}}{n}$$
$$d = \sqrt{\frac{\sum_{i = 0}^{n - 1}(s_{i} -m)^{2}}{n - 1}}$$
* 中位数指$S$中所有数按照从小到大（或从大到小）顺序排序后，处于最中间位置的数据值。
    * 如果$n$为奇数，则中位数为最中间位置的数$s_{n // 2}(n=0,1,2,\dots)$。
    * 如果$n$为偶数，则中位数为最中间两个数的平均值$\frac{s_{(n // 2) - 1} + s_{n // 2}}{2}$。


In [47]:
#获取用户不定长度的输入
def getNum(): 
    nums = []
    iNumStr = input("请输入数字(回车退出): ")
    while iNumStr != "":
        nums.append(eval(iNumStr))
        iNumStr = input("请输入数字(回车退出): ")
    return nums

#计算平均值
def mean(numbers): 
    s = 0.0
    for num in numbers:
        s = s + num
    return s / len(numbers)

#计算方差
def dev(numbers, mean): 
    sdev = 0.0
    for num in numbers:
        sdev = sdev + (num - mean)**2
    return pow(sdev / (len(numbers)-1), 0.5)

#计算中位数
def median(numbers): 
    sorted(numbers)
    size = len(numbers)
    if size % 2 == 0:
        med = (numbers[size//2-1] + numbers[size//2])/2
    else:
        med = numbers[size//2]
    return med

n = getNum() 
m = mean(n)
print("平均值:{},方差:{:.2},中位数:{}.".format(m, dev(n,m),median(n)))

请输入数字(回车退出): 99
请输入数字(回车退出): 98
请输入数字(回车退出): 97
请输入数字(回车退出): 96
请输入数字(回车退出): 95
请输入数字(回车退出): 
平均值:97.0,方差:1.6,中位数:97.


## 6.4 字典类型和操作
**字典类型是“映射”的体现**
* 键值对：键是数据索引的扩展。
* 字典是键值对的集合，键值对之间无序。
* 采用大括号`{}`和`dict()`创建，键值对用冒号`:`表示。

```python
{<键1>:<值1>, <键2>:<值2>, … , <键n>:<值n>}
```

In [48]:
Dcountry = {"中国":"北京", "美国":"华盛顿", "法国":"巴黎"}
print(Dcountry)

{'中国': '北京', '美国': '华盛顿', '法国': '巴黎'}


>**为什么字典也用`{}`，这不是跟集合一样了吗？**
从Python设计角度考虑，由于大括号`{}`可以表示集合，因此字典类型也具有和集合类似的性质，即键值对之间没有顺序且不能重复。我们可以把字典看成元素是键值对的集合。

* 在字典变量中，通过键获得值，`[]`用来向字典变量中索引或增加元素。

```python
<字典变量> = {<键1>:<值1>, … , <键n>:<值n>}
<值> = <字典变量>[<键>]
<字典变量>[<键>] = <值>
```

In [49]:
Dcountry = {"中国":"北京", "美国":"华盛顿", "法国":"巴黎"}
Dcountry["中国"] = "Beijing"
print(Dcountry)

{'中国': 'Beijing', '美国': '华盛顿', '法国': '巴黎'}


**总结**：
* 字典是存储可变数量键值对的数据结构。
* 键和值可以是任意数据类型，包括程序自定义的类型。
* Python字典效率非常高，可以存储几十万项内容。

### 6.4.2 字典类型的操作
* 使用大括号可以创建字典，并制定初始值。
* 通过中括号可以增加新的元素。

In [51]:
Dcountry = {"中国":"北京", "美国":"华盛顿", "法国":"巴黎"}
print(Dcountry)
Dcountry["英国"] = "伦敦"
print(Dcountry)

{'中国': '北京', '美国': '华盛顿', '法国': '巴黎'}
{'中国': '北京', '美国': '华盛顿', '法国': '巴黎', '英国': '伦敦'}


* 直接使用大括号`{}`可以创建一个空的字典，并通过中括号`[]`向其增加元素。

In [52]:
dp = {}
dp["2^10"] = 1024
print(dp)

{'2^10': 1024}


**特别注意**：
* 生成空的字典，直接使用大括号`{}`。
* 生成空集合，要使用`set()`。

* 字典再Python内部采用面向对象方式实现，字典类型的函数采用`<a>.<b>()`格式。

|函数|描述|
|:-:|:-:|
|`del d[k]`|删除字典`d`中键`k`对应的数据值|
|`k in d`|判断键`k`是否在字典`d`中，如果在返回`True`，否则`False`|
|`d.keys()`|返回字典`d`中所有的键信息|
|`d.values()`|返回字典`d`中所有的值信息|
|`d.items()`|返回字典`d`中所有的键值对信息|
|`d.get(k, <default>)`|键`k`存在，则返回相应值，不在则返回`<default>`值|
|`d.pop(k, <default>)`|键`k`存在，则取出相应值，不在则返回`<default>`值|
|`d.popitem()`|随机从字典`d`中取出一个键值对，以元组形式返回|
|`d.clear()`|删除所有的键值对|
|`len(d)`|返回字典`d`中元素的个数|

In [62]:
Dcountry = {"中国":"北京", "美国":"华盛顿", "法国":"巴黎"}
print(Dcountry.keys())
print(list(Dcountry.keys()))

print(Dcountry.values())
print(list(Dcountry.values()))

print(Dcountry.items())
print(list(Dcountry.items()))

print("中国" in Dcountry)

#"美国"在字典中存在, 返回"美国"这个key对应的value"华盛顿"
print(Dcountry.get("美国", "悉尼"))

#"澳大利亚"不存在, 返回默认值"悉尼"
print(Dcountry.get("澳大利亚", "悉尼"))

dict_keys(['中国', '美国', '法国'])
['中国', '美国', '法国']
dict_values(['北京', '华盛顿', '巴黎'])
['北京', '华盛顿', '巴黎']
dict_items([('中国', '北京'), ('美国', '华盛顿'), ('法国', '巴黎')])
[('中国', '北京'), ('美国', '华盛顿'), ('法国', '巴黎')]
True
华盛顿
悉尼


* 字典可以通过`for-in`语句对其元素进行遍历，基本语法结构如下：
```python
for <变量名> in <字典名>:
    <语句块>
```


In [2]:
Dcountry = {"中国":"北京", "美国":"华盛顿", "法国":"巴黎"}
for key in Dcountry:
    print(key)

for key in Dcountry:
    print(Dcountry[key])

中国
美国
法国
北京
华盛顿
巴黎


**字典用法总结**：
* 字典是一个键值对的集合，该集合以键为索引，一个键信息只对应一个值信息。
* 字典中元素以键信息为索引访问。
* 字典长度是可变的，可以通过对键信息赋值实现增加或修改键值对。

## 6.5 jieba库的使用
### 6.5.1 jieba库概述
* 英文分词：简单易行，使用字符串分隔即可。

In [4]:
s = "China is a great country."
s = s[:-1].split(" ")
print(s)

['China', 'is', 'a', 'great', 'country']


* 中文分词：由于中文单词之前缺少分隔符，所以中文分词还是有一定难度的。
* jieba是Python中一个重要的第三方中文分词函数库。由于不是Python安装包自带的，Anaconda也没有预装，需要我们通过`pip`指令安装。

![installjieba](../picture/installjieba.png)

In [6]:
import jieba
print(jieba.lcut("中国是一个伟大的国家"))

Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\yuang\AppData\Local\Temp\jieba.cache
Loading model cost 1.289 seconds.
Prefix dict has been built successfully.


['中国', '是', '一个', '伟大', '的', '国家']


* jieba库的分词原理：利用一个中文词库，将待分词的内容与分词词库进行比对，通过图结构和动态规划方法找到最大概率的词组。
* jieba库支持的三种分词模式：
    * 精确模式：将句子最精确地切开，适合文本分析。
    * 全模式：把句子中所有可以成词地词语都扫描出来，速度快，但不能消除歧义。
    * 搜索引擎模式：在精确模式地基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。   

### 6.5.2 jieba库解析

* jieba库常用地分词函数

|函数|描述|
|:-:|:-:|
|`jieba.cut(a)`|精确模式，返回一个可迭代的数据类型|
|`jieba.cut(s, cut_all=True)`|全模式，输出文本`s`中所有可能的单词|
|`jieba.cut_for_search(s)`|搜索引擎模式，适合搜索引擎建立索引的分词结果|
|`jieba.lcut(s)`|精确模式，返回一个列表类型，建议使用|
|`jieba.lcut(s, cut_all=True)`|全模式，返回一个列表，建议使用|
|`jieba.lcut_for_search(s)`|搜索引擎模式，返回一个列表类型，建议使用|
|`jieba.add_word(w)`|向分词词典中增加新词`w`|

In [3]:
import jieba
print(jieba.lcut("中华人民共和国是一个伟大的国家"))
print(jieba.lcut("中华人民共和国是一个伟大的国家", cut_all=True))
print(jieba.lcut_for_search("中华人民共和国是一个伟大的国家"))

['中华人民共和国', '是', '一个', '伟大', '的', '国家']
['中华', '中华人民', '中华人民共和国', '华人', '人民', '人民共和国', '共和', '共和国', '国是', '一个', '伟大', '的', '国家']
['中华', '华人', '人民', '共和', '共和国', '中华人民共和国', '是', '一个', '伟大', '的', '国家']


* 对于无法识别的分词，可以通过`jieba.add_word()`函数向分词库添加。

In [4]:
import jieba
print(jieba.lcut("习大大期盼有更好的教育"))
jieba.add_word("习大大")
print(jieba.lcut("习大大期盼有更好的教育"))

['习', '大大', '期盼', '有', '更好', '的', '教育']
['习大大', '期盼', '有', '更好', '的', '教育']


## 6.6 实例：文本词频统计
### 6.6.1 Hamlet英文词频统计
* 第一步：将文本文件中的内容全部变成小写或大写字母，排除原文大小写差异对词频统计的干扰。
* 第二步：将各种特殊字符和标点符号替换成空格再提取单词。
* 第三步：对每个单词进行计数。

In [5]:
def getText():
    txt = open("../file/hamlet.txt", "r").read()
    txt = txt.lower()
    for ch in '!"#$%&()*+,-./:;<=>?@[\\]^_‘{|}~':
        txt = txt.replace(ch, " ")   #将文本中特殊字符替换为空格
    return txt
hamletTxt = getText()
words  = hamletTxt.split()
counts = {}
for word in words:
    counts[word] = counts.get(word,0) + 1
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True) 
for i in range(10):
    word, count = items[i]
    print ("{0:<10}{1:>5}".format(word, count))

the        1138
and         965
to          754
of          669
you         550
i           542
a           542
my          514
hamlet      462
in          436


* 采用集合类型构建一个排除词汇库`excludes`，再输出结果中排除这个词汇库中的内容。

In [3]:
excludes = {"the","and","of","you","a","i","my","in"}
def getText():
    txt = open("../file/hamlet.txt", "r").read()
    txt = txt.lower()
    for ch in '!"#$%&()*+,-./:;<=>?@[\\]^_‘{|}~':
        txt = txt.replace(ch, " ")   #将文本中特殊字符替换为空格
    return txt
hamletTxt = getText()
words  = hamletTxt.split()
counts = {}
for word in words:
    counts[word] = counts.get(word,0) + 1
for word in excludes:
    del(counts[word])    
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True) 
for i in range(10):
    word, count = items[i]
    print ("{0:<10}{1:>5}".format(word, count))

to          754
hamlet      462
it          416
that        391
is          340
not         314
lord        309
his         296
this        295
but         269


### 6.6.2 《三国演义》人物出场统计
* 第一步：使用jieba库对《三国演义》文本内容进行中文分词。
* 第二步：对词汇进行词频统计。

In [1]:
import jieba
excludes = {}#{"将军","却说","丞相"}
txt = open("../file/sanguoyanyi.txt", "r", encoding='utf-8').read()
words  = jieba.lcut(txt)
counts = {}
for word in words:
    if len(word) == 1:  #排除单个字符的分词结果
        continue
    else:
        counts[word] = counts.get(word,0) + 1
for word in excludes:
    del(counts[word])
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True) 
for i in range(15):
    word, count = items[i]
    print ("{0:<10}{1:>5}".format(word, count))

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\TY丶云~1\AppData\Local\Temp\jieba.cache
Loading model cost 0.600 seconds.
Prefix dict has been built successfully.


曹操          953
孔明          836
将军          772
却说          656
玄德          585
关公          510
丞相          491
二人          469
不可          440
荆州          425
玄德曰         390
孔明曰         390
不能          384
如此          378
张飞          358


* 排除一些人名无关的词汇。
* 对于同一个人物有不同名字的情况进行整合处理。

In [4]:
import jieba
excludes = {"将军","却说","荆州","二人","不可","不能","如此"}
txt = open("../file/sanguoyanyi.txt", "r", encoding='utf-8').read()
words  = jieba.lcut(txt)
counts = {}
for word in words:
    if len(word) == 1:
        continue
    elif word == "诸葛亮" or word == "孔明曰":
        rword = "孔明"
    elif word == "关公" or word == "云长":
        rword = "关羽"
    elif word == "玄德" or word == "玄德曰":
        rword = "刘备"
    elif word == "孟德" or word == "丞相":
        rword = "曹操"
    else:
        rword = word
    counts[rword] = counts.get(rword,0) + 1
for word in excludes:
    del(counts[word])
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True) 
for i in range(5):
    word, count = items[i]
    print ("{0:<10}{1:>5}".format(word, count))

曹操         1451
孔明         1383
刘备         1252
关羽          784
张飞          358


## 6.7 实例：Python之禅
* Python解释器内置的“this.py”文件被称为“Python之禅”，其内容如下：

In [9]:
s = """Gur Mra bs Clguba, ol Gvz Crgref
Ornhgvshy vf orggre guna htyl.
Rkcyvpvg vf orggre guna vzcyvpvg.
Fvzcyr vf orggre guna pbzcyrk.
Pbzcyrk vf orggre guna pbzcyvpngrq.
Syng vf orggre guna arfgrq.
Fcnefr vf orggre guna qrafr.
Ernqnovyvgl pbhagf.
Fcrpvny pnfrf nera'g fcrpvny rabhtu gb oernx gur ehyrf.
Nygubhtu cenpgvpnyvgl orngf chevgl.
Reebef fubhyq arire cnff fvyragyl.
Hayrff rkcyvpvgyl fvyraprq.
Va gur snpr bs nzovthvgl, ershfr gur grzcgngvba gb thrff.
Gurer fubhyq or bar-- naq cersrenoyl bayl bar --boivbhf jnl
gb qb vg.
Nygubhtu gung jnl znl abg or boivbhf ng svefg hayrff lbh'er
Qhgpu.
Abj vf orggre guna arire.
Nygubhtu arire vf bsgra orggre guna *evtug* abj.
Vs gur vzcyrzragngvba vf uneq gb rkcynva, vg'f n onq vqrn.
Vs gur vzcyrzragngvba vf rnfl gb rkcynva, vg znl or n tbbq
vqrn.
Anzrfcnprf ner bar ubaxvat terng vqrn -- yrg'f qb zber bs
gubfr!"""
d = {}
for c in (65, 97):
    for i in range(26):
        d[chr(i+c)] = chr((i+13) % 26 + c)
print("".join([d.get(c, c) for c in s]))

The Zen of Python, by Tim Peters
Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way
to do it.
Although that way may not be obvious at first unless you're
Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good
idea.
Namespaces are one honking great idea -- let's do more of
those!


* 通过观察不难发现，这是一个密文到明文的转码程序。
* 将字母循环移动13个位置。