## **一、实验目的**

数据结构和python扩展库练习

本实验首先安装配置好Anaconda以及Python环境，通过代码编写，从而使同学们熟练掌握python的各种数据结构以及库的调用，并学会将其运用到实践中

### **字典**

#### 1. 可变类型与不可变类型

- 序列是以连续的整数为索引，与此不同的是，字典以"关键字"为索引，关键字可以是任意不可变类型，通常用字符串或数值。
- 字典是 Python 唯一的一个 <u>映射类型</u>，字符串、元组、列表属于<u>序列类型</u>。

那么如何快速判断一个数据类型 `X` 是不是可变类型的呢？两种方法：
- 麻烦方法：用 `id(X)` 函数，对 X 进行某种操作，比较操作前后的 `id`，如果不一样，则 `X` 不可变，如果一样，则 `X` 可变。
- 便捷方法：用 `hash(X)`，只要不报错，证明 `X` 可被哈希，即不可变，反过来不可被哈希，即可变。

In [1]:
i = 1
print(id(i))  # 140732167000896
i = i + 2
print(id(i))  # 140732167000960

l = [1, 2]
print(id(l))  # 4300825160
l.append('Python')
print(id(l))  # 4300825160
i

2471701145904
2471701145968
2469636145216
2469636145216


3

- 整数 `i` 在加 1 之后的 `id` 和之前不一样，因此加完之后的这个 `i` (虽然名字没变)，但不是加之前的那个 `i` 了，因此整数是不可变类型。
- 列表 `l` 在附加 `'Python'` 之后的 `id` 和之前一样，因此列表是可变类型。

In [2]:
print(hash('Name'))  # -9215951442099718823

print(hash((1, 2, 'Python')))  # 823362308207799471

3631310864856064769
5582185404231147080


- 数值、字符和元组 都能被哈希，因此它们是不可变类型。

In [5]:
print(hash([1, 2, 'Python']))
# TypeError: unhashable type: 'list'

TypeError: unhashable type: 'list'

In [6]:
print(hash({1, 2, 3}))
# TypeError: unhashable type: 'set'

TypeError: unhashable type: 'set'

- 列表、集合、字典不能被哈希，因此它是可变类型。

#### 2. 字典的定义

字典 是无序的 键:值（`key:value`）对集合，键必须是互不相同的（在同一个字典之内）。

- `dict` 内部存放的顺序和 `key` 放入的顺序是没有关系的。
- `dict` 查找和插入的速度极快，不会随着 `key` 的增加而增加，但是需要占用大量的内存。


字典 定义语法为 `{元素1, 元素2, ..., 元素n}`

- 其中每一个元素是一个「键值对」-- 键:值 (`key:value`)
- 关键点是「大括号 {}」,「逗号 ,」和「冒号 :」
- 大括号 -- 把所有元素绑在一起
- 逗号 -- 将每个键值对分开
- 冒号 -- 将键和值分开


#### 3. 创建和访问字典

In [7]:
brand = ['李宁', '安踏', '匹克']
slogan = ['一切皆有可能', 'keep moving 永不止步', 'I CAN PLAY']
print('安踏的口号是:', slogan[brand.index('安踏')])  

dic = {'李宁': '一切皆有可能', '安踏': 'keep moving 永不止步', '匹克': 'I CAN PLAY'}
print('匹克的口号是:', dic['匹克'])

安踏的口号是: keep moving 永不止步
匹克的口号是: I CAN PLAY


In [9]:
# 通过字符串或数值作为`key`来创建字典

dic1 = {1: 'one', 2: 'two', 3: 'three'}
print(dic1)  # {1: 'one', 2: 'two', 3: 'three'}
print(dic1[1])  # one
print(dic1[4])  # KeyError: 4

{1: 'one', 2: 'two', 3: 'three'}
one


KeyError: 4

注意：如果我们取的键在字典中不存在，会直接报错`KeyError`。

In [10]:
dic2 = {'rice': 35, 'wheat': 101, 'corn': 67}
print(dic2)  # {'wheat': 101, 'corn': 67, 'rice': 35}
print(dic2['rice'])  # 35

{'rice': 35, 'wheat': 101, 'corn': 67}
35


In [11]:
# 通过元组作为`key`来创建字典，但一般不这样使用

dic = {(1, 2, 3): "Tom", "Age": 12, 3: [3, 5, 7]}
print(dic)  # {(1, 2, 3): 'Tom', 'Age': 12, 3: [3, 5, 7]}
print(type(dic))  # <class 'dict'>

{(1, 2, 3): 'Tom', 'Age': 12, 3: [3, 5, 7]}
<class 'dict'>


通过构造函数`dict`来创建字典。

- `dict()` 创建一个空的字典。

通过`key`直接把数据放入字典中，但一个`key`只能对应一个`value`，多次对一个`key`放入 `value`，后面的值会把前面的值冲掉

In [12]:
dic = dict()
dic['a'] = 1
dic['b'] = 2
dic['c'] = 3

print(dic)
# {'a': 1, 'b': 2, 'c': 3}

dic['a'] = 11
print(dic)
# {'a': 11, 'b': 2, 'c': 3}

dic['d'] = 4
print(dic)
# {'a': 11, 'b': 2, 'c': 3, 'd': 4}

{'a': 1, 'b': 2, 'c': 3}
{'a': 11, 'b': 2, 'c': 3}
{'a': 11, 'b': 2, 'c': 3, 'd': 4}


- `dict(mapping)` new dictionary initialized from a mapping object's (key, value) pairs

In [13]:
dic1 = dict([('apple', 4139), ('peach', 4127), ('cherry', 4098)])
print(dic1)  # {'cherry': 4098, 'apple': 4139, 'peach': 4127}

dic2 = dict((('apple', 4139), ('peach', 4127), ('cherry', 4098)))
print(dic2)  # {'peach': 4127, 'cherry': 4098, 'apple': 4139}

{'apple': 4139, 'peach': 4127, 'cherry': 4098}
{'apple': 4139, 'peach': 4127, 'cherry': 4098}


- `dict(**kwargs)` -> new dictionary initialized with the name=value pairs in the keyword argument list.  For example:  dict(one=1, two=2)

这种情况下，键只能为字符串类型，并且创建的时候字符串不能加引号，加上就会直接报语法错误。

In [14]:
dic = dict(name='Tom', age=10)
print(dic)  # {'name': 'Tom', 'age': 10}
print(type(dic))  # <class 'dict'>

{'name': 'Tom', 'age': 10}
<class 'dict'>


#### 4. 字典的内置方法

- `dict.fromkeys(seq[, value])` 用于创建一个新字典，以序列 `seq` 中元素做字典的键，`value` 为字典所有键对应的初始值。

In [15]:
seq = ('name', 'age', 'sex')
dic1 = dict.fromkeys(seq)
print(dic1)
# {'name': None, 'age': None, 'sex': None}

dic2 = dict.fromkeys(seq, 10)
print(dic2)
# {'name': 10, 'age': 10, 'sex': 10}

dic3 = dict.fromkeys(seq, ('小马', '8', '男'))
print(dic3)
# {'name': ('小马', '8', '男'), 'age': ('小马', '8', '男'), 'sex': ('小马', '8', '男')}

{'name': None, 'age': None, 'sex': None}
{'name': 10, 'age': 10, 'sex': 10}
{'name': ('小马', '8', '男'), 'age': ('小马', '8', '男'), 'sex': ('小马', '8', '男')}


- `dict.keys()`返回一个可迭代对象，可以使用 `list()` 来转换为列表，列表为字典中的所有键

In [16]:
dic = {'Name': 'lsgogroup', 'Age': 7}
print(dic.keys())  # dict_keys(['Name', 'Age'])
lst = list(dic.keys())  # 转换为列表
print(lst)  # ['Name', 'Age']

dict_keys(['Name', 'Age'])
['Name', 'Age']


- `dict.values()`返回一个迭代器，可以使用 `list()` 来转换为列表，列表为字典中的所有值。

In [17]:
dic = {'Sex': 'female', 'Age': 7, 'Name': 'Zara'}
print(dic.values())
# dict_values(['female', 7, 'Zara'])

print(list(dic.values()))
# [7, 'female', 'Zara']

dict_values(['female', 7, 'Zara'])
['female', 7, 'Zara']


- `dict.items()`以列表返回可遍历的 (键, 值) 元组数组。

In [18]:
dic = {'Name': 'Lsgogroup', 'Age': 7}
print(dic.items())
# dict_items([('Name', 'Lsgogroup'), ('Age', 7)])

print(tuple(dic.items()))
# (('Name', 'Lsgogroup'), ('Age', 7))

print(list(dic.items()))
# [('Name', 'Lsgogroup'), ('Age', 7)]

dict_items([('Name', 'Lsgogroup'), ('Age', 7)])
(('Name', 'Lsgogroup'), ('Age', 7))
[('Name', 'Lsgogroup'), ('Age', 7)]


- `dict.get(key, default=None)` 返回指定键的值，如果值不在字典中返回默认值。

In [19]:
dic = {'Name': 'Lsgogroup', 'Age': 27}
print("Age 值为 : %s" % dic.get('Age'))  # Age 值为 : 27
print("Sex 值为 : %s" % dic.get('Sex', "NA"))  # Sex 值为 : NA
print(dic)  # {'Name': 'Lsgogroup', 'Age': 27}

Age 值为 : 27
Sex 值为 : NA
{'Name': 'Lsgogroup', 'Age': 27}


- `dict.setdefault(key, default=None)`和`get()`方法 类似, 如果键不存在于字典中，将会添加键并将值设为默认值。

In [None]:
dic = {'Name': 'Lsgogroup', 'Age': 7}
print("Age 键的值为 : %s" % dic.setdefault('Age', None))  # Age 键的值为 : 7
print("Sex 键的值为 : %s" % dic.setdefault('Sex', None))  # Sex 键的值为 : None
print(dic)  
# {'Age': 7, 'Name': 'Lsgogroup', 'Sex': None}

- `key in dict` `in` 操作符用于判断键是否存在于字典中，如果键在字典 dict 里返回`true`，否则返回`false`。而`not in`操作符刚好相反，如果键在字典 dict 里返回`false`，否则返回`true`。

In [None]:
dic = {'Name': 'Lsgogroup', 'Age': 7}

# in 检测键 Age 是否存在
if 'Age' in dic:
    print("键 Age 存在")
else:
    print("键 Age 不存在")

# 检测键 Sex 是否存在
if 'Sex' in dic:
    print("键 Sex 存在")
else:
    print("键 Sex 不存在")

# not in 检测键 Age 是否存在
if 'Age' not in dic:
    print("键 Age 不存在")
else:
    print("键 Age 存在")

# 键 Age 存在
# 键 Sex 不存在
# 键 Age 存在

- `dict.pop(key[,default])`删除字典给定键 `key` 所对应的值，返回值为被删除的值。`key` 值必须给出。若`key`不存在，则返回 `default` 值。
- `del dict[key]` 删除字典给定键 `key` 所对应的值。

In [22]:
dic1 = {1: "a", 2: [1, 2]}
print(dic1.pop(1), dic1)  # a {2: [1, 2]}

# 设置默认值，必须添加，否则报错
print(dic1.pop(3, "nokey"), dic1)  # nokey {2: [1, 2]}

del dic1[2]
print(dic1)  # {}

a {2: [1, 2]}
nokey {2: [1, 2]}
{}


- `dict.popitem()`随机返回并删除字典中的一对键和值，如果字典已经为空，却调用了此方法，就报出KeyError异常。

In [23]:
dic1 = {1: "a", 2: [1, 2]}
print(dic1.popitem())  # (1, 'a')
print(dic1)  # {2: [1, 2]}

(2, [1, 2])
{1: 'a'}


- `dict.clear()`用于删除字典内所有元素。

In [24]:
dic = {'Name': 'Zara', 'Age': 7}
print("字典长度 : %d" % len(dic))  # 字典长度 : 2
dic.clear()
print("字典删除后长度 : %d" % len(dic))  
# 字典删除后长度 : 0

字典长度 : 2
字典删除后长度 : 0


- `dict.copy()`返回一个字典的浅复制。

In [25]:
dic1 = {'Name': 'Lsgogroup', 'Age': 7, 'Class': 'First'}
dic2 = dic1.copy()
print(dic2)  
# {'Age': 7, 'Name': 'Lsgogroup', 'Class': 'First'}

{'Name': 'Lsgogroup', 'Age': 7, 'Class': 'First'}


In [26]:
# 直接赋值和 copy 的区别

dic1 = {'user': 'lsgogroup', 'num': [1, 2, 3]}

# 引用对象
dic2 = dic1  
# 浅拷贝父对象（一级目录），子对象（二级目录）不拷贝，还是引用
dic3 = dic1.copy()  

print(id(dic1))  # 148635574728
print(id(dic2))  # 148635574728
print(id(dic3))  # 148635574344

# 修改 data 数据
dic1['user'] = 'root'
dic1['num'].remove(1)

# 输出结果
print(dic1)  # {'user': 'root', 'num': [2, 3]}
print(dic2)  # {'user': 'root', 'num': [2, 3]}
print(dic3)  # {'user': 'runoob', 'num': [2, 3]}

2577925941912
2577925941912
2577926038136
{'user': 'root', 'num': [2, 3]}
{'user': 'root', 'num': [2, 3]}
{'user': 'lsgogroup', 'num': [2, 3]}


- `dict.update(dict2)`把字典参数 `dict2` 的 `key:value`对 更新到字典 `dict` 里。

In [27]:
dic = {'Name': 'Lsgogroup', 'Age': 7}
dic2 = {'Sex': 'female', 'Age': 8}
dic.update(dic2)
print(dic)  
# {'Sex': 'female', 'Age': 8, 'Name': 'Lsgogroup'}

{'Name': 'Lsgogroup', 'Age': 8, 'Sex': 'female'}


## **collections**

collections在python官方文档中的解释是High-performance container datatypes，直接的中文翻译解释高性能容量数据类型。

它总共包含五种数据类型：

![](https://img-blog.csdn.net/20181022104937979?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3F3ZTEyNTc=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

其中Counter中文意思是计数器，也就是我们常用于统计的一种数据类型，在使用Counter之后可以让我们的代码更加简单易读。

#### 1. Counter

我们先看一个简单的例子：

In [28]:
#统计词频
colors = ['red', 'blue', 'red', 'green', 'blue', 'blue']
result = {}
for color in colors:
    if result.get(color)==None:
        result[color]=1
    else:
        result[color]+=1
print (result)
#{'red': 2, 'blue': 3, 'green': 1}

{'red': 2, 'blue': 3, 'green': 1}


下面我们看用Counter怎么实现：

In [1]:
from collections import Counter
colors = ['red', 'blue', 'red', 'green', 'blue', 'blue']
c = Counter(colors)
print (dict(c))

{'red': 2, 'blue': 3, 'green': 1}


显然代码更加简单了，也更容易读和维护了。

**Counter操作**

可以创建一个空的Counter：

```python
cnt = Counter()
```

之后在空的Counter上进行一些操作。

也可以创建的时候传进去一个迭代器（数组，字符串，字典等）：

In [None]:
c = Counter('gallahad')                 # 传进字符串
c = Counter({'red': 4, 'blue': 2})      # 传进字典
c = Counter(cats=4, dogs=8)             # 传进元组

判断是否包含某元素，可以转化为dict然后通过dict判断，Counter也带有函数可以判断：

In [31]:
c = Counter(['eggs', 'ham'])
c['bacon'] # 不存在就返回0

0

删除元素：

In [None]:
c['sausage'] = 0 # counter entry with a zero count
print(c)

del c['sausage']
print(c)

获得所有元素：

In [35]:
c = Counter(a=4, b=2, c=0, d=-2)
list(c.elements())
#['a', 'a', 'a', 'a', 'b', 'b']

['a', 'a', 'a', 'a', 'b', 'b']

查看最常见出现的k个元素：

In [36]:
Counter('abracadabra').most_common(3)
#[('a', 5), ('r', 2), ('b', 2)]

[('a', 5), ('b', 2), ('r', 2)]

Counter更新：

In [38]:
c = Counter(a=3, b=1)
d = Counter(a=1, b=2)
print(c + d)                       # 相加
#Counter({'a': 4, 'b': 3})
print(c - d)                       # 相减，如果小于等于0，删去
#Counter({'a': 2})
print(c & d)                       # 求最小
#Counter({'a': 1, 'b': 1})
print(c | d)                       # 求最大
#Counter({'a': 3, 'b': 2})

Counter({'a': 4, 'b': 3})
Counter({'a': 2})
Counter({'a': 1, 'b': 1})
Counter({'a': 3, 'b': 2})


例子：读文件统计词频并按照出现次数排序，文件是以空格隔开的单词的诸多句子：

In [None]:
import os
import re
import string
from collections import Counter

def initial_text_file(file_dir='./input.txt'):
    TEXT = '''
        Stray birds of summer come to my window to sing and fly away. And yellow leaves of autumn which have no songs, flutter and fall there with a sign.
        The world puts off its mask of vastness to its lover. It becomes small as one song, as one kiss of the eternal.
        The mighty desert is burning for the love of a blade of grass who shakes her head and laughs and flies away.
    '''
    
    with open(file_dir, 'w', encoding='utf-8') as f:
        f.write(TEXT)
        
file_dir = './input.txt'
if not os.path.exists(file_dir):
    initial_text_file()

lines = open(file_dir, "r").read().splitlines()
lines = [re.sub('[%s]' % re.escape(string.punctuation), '', line).lower().strip().split(" ") for line in lines]
words = []
for line in lines:
    words.extend(line)
result = Counter(words)
print(result.most_common(10))

## **二、实验平台**

1. 操作系统：Windows10；
2. Anaconda 版本：5.3.0； 
3. Python 版本：3.6.8；

## **三、实验内容**

统计中文句子中的词频

**题目内容：**

词频分析是对文章中重要词汇出现的次数进行统计与分析，是文本挖掘的重要手段。它是文献计量学中传统的和具有代表性的一种内容分析方法，基本原理是通过词出现频次多少的变化，来确定热点及其变化趋势。用dict数据结构和collections模块中的Counter()函数方便地统计词频。

现给定输入文本文件《梦里花落知多少》，读取文件，调用jieba扩展库进行分词，并删除标点、回车、空格等非中文词（，。！”“ \n），分别用dict和counter统计中文句子中的词频（非一字词，两字或两字以上），并输出频率最高的10个词及其出现的频率。

**jieba（结巴）是百度工程师Sun Junyi开发的一个开源库，在GitHub上很受欢迎，使用频率也很高。jieba最流行的应用是分词，包括介绍页面上也称之为“结巴中文分词”，但除了分词之外，jieba还可以做关键词抽取、词频统计等。
在conda虚拟环境下可用conda install jieba 安装jieba扩展库，如果conda下载不成功可用pip install**

示例：

In [8]:

import copy 
import collections

s = "我/是/一个/测试/句子/，/大家/赶快/来/统计/我/吧/，/大家/赶快/来/统计/我/吧/，/大家/赶快/来/统计/我/吧/，/重要/事情/说/三遍/！/" 
parameter_template = "\n{:>10}: {}"

s_list = s.split('/')  
# 为避免迭代时修改迭代对象本身，创建一个列表的深拷贝，也可用浅拷贝
s_list_backup = s_list[:]
[s_list.remove(item) for item in s_list_backup  if len(item)==1 or item in '，。！”“ \n'] 
s_dict=collections.Counter(s_list)
for (k,v) in s_dict.most_common(3):  
    print(parameter_template.format(k,v))


        大家: 3

        赶快: 3

        统计: 3


## **四、实验要求**

实验要求大家结合课上所学知识，按照题目内容自行使用python编码。

考查方式：现场运行代码并给助教看运行结果，向助教解释程序逻辑，助教提问有关实验的相关问题。

seg_list = list(jieba.cut(txt))  #注意对文本jieba分词后数据结构转list

In [None]:
'''
code in dict here
'''

In [None]:
'''
code in counter here
'''