# 数据对象

## 概述

无论是哪种语言，Python、R或是其他的，<font color='red' face="微软雅黑" size=5, style="italic">**最好都通过面向数据对象的方法来学习**</font>。数据对象，是学习的重点，至于基本语法、逻辑控制，在学习数据对象的过程中，很自然就掌握了。  就Python机器学习、数据挖掘而言，需要重点掌握的数据对象：  
* built-in
    * sequences
        * list
        * tuple
        * string
    * mapping
        * dict
    * set
        * set
        * frozenset
* numpy
    * ndarray
* pandas
    * Series
    * DataFrame

在学习数据对象相关知识时，也可以温故而知新，相信大家都学习过《数据结构》相关课程。数据结构，旨在将数据有效的组织和存储，可以视为存储数据的容器（container）。  
容器基本上也就是可包含其他对象的对象。两种主要的容器是序列（如列表和元组）和映射（如字典）。在序列中，每个元素都有编号，而在映射中，每个元素都有名称（也叫键）。还有一种既不是序列也不是映射的容器，它就是集合（set），一般使用较少。

In [1]:
#在Jupyter中，除非加上print，每个cell只会显示最后一个输出结果
#通过加上如下代码，使之打印所有的交互式输出，而不仅仅是最后一个
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

## 序列
Python内置了多种序列，最常用的是列表、元组、字符串等。 其中，列表是可以修改的，而元组和字符串不可以修改。

### 序列的通用操作

#### 索引与切片

序列中的所有元素都有编号——从0开始递增至N-1（假如长度为N的话）。你可像下面这样使用编号来访问各个元素：

In [2]:
greeting = 'Hello'
greeting[0]

'H'

也可以使用负数做索引，即从后向前倒过来数：-1是最后一个元素的位置，-N则是第一个元素的位置

In [3]:
greeting[-1]

'o'

除使用索引来访问单个元素外，还可使用切片（slicing）来访问特定范围内的元素

In [4]:
tag = "我爱北京天安门"
tag[2:4]
tag[-5:-3]
tag[2:-3]

'北京'

'北京'

'北京'

In [5]:
numbers = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

容易看出，切片是左闭右开的，第一个索引指定的元素包含在切片内，但第二个索引指定的元素不包含在切片内

左闭右开原则的一些好处：   
1. 当只有最后一个位置信息时，我们也可以快速看出切片和区间里有几个元素：range(3) 和 my_list[:3] 都返回 3 个元素  
2. 当起止位置信息都可见时，我们可以快速计算出切片和区间的长度，用后一个数减去第一个下标（stop - start）即可  
3. 这样做也让我们可以利用任意一个下标来把序列分割成不重叠的两部分，只要写成`my_list[:x]` 和 `my_list[x:]`

In [6]:
#前n个元素
n = 3
numbers[:n]
#后n个元素
numbers[-n:]

[1, 2, 3]

[8, 9, 10]

In [7]:
numbers[0:1]
#注意，左闭右开，证明右边的取不到，比如：
numbers[3:3]

[1]

[]

In [8]:
#假设你要访问前述数字列表中的最后三个元素，显然需要知道整个列表的长度才行：
numbers[7:10]
#更方便的做法是利用负索引
numbers[-3:-1]

[8, 9, 10]

[8, 9]

In [9]:
#如果切片结束于序列末尾，可省略第二个索引。
numbers[-3:]
#同样，如果切片始于序列开头，可省略第一个索引。
numbers[:3]

[8, 9, 10]

[1, 2, 3]

In [10]:
#实际上，要复制整个序列，可将两个索引都省略
numbers[:]

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

In [11]:
#更大的步长
#默认步长为1
numbers[0:10]
numbers[0:10:1]

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

In [12]:
#如果指定的步长大于1，将跳过一些元素。例如，步长为2时，将从起点和终点之间每隔一个元素提取一个元素。
#奇数项
numbers[0:10:2]
numbers[::2]
#偶数项
numbers[1::2]

[1, 3, 5, 7, 9]

[1, 3, 5, 7, 9]

[2, 4, 6, 8, 10]

In [13]:
#步长不能为0，否则无法向前移动
#但可以为负数，即从右向左提取元素
numbers[8:3:-1]
numbers[10:0:-2]
numbers[10::-2]
numbers[:0:-2]

[9, 8, 7, 6, 5]

[10, 8, 6, 4, 2]

[10, 8, 6, 4, 2]

[10, 8, 6, 4, 2]

In [14]:
#负索引与负步长
numbers[-1::-2]
#反向
numbers[-1::-1]

[10, 8, 6, 4, 2]

[10, 9, 8, 7, 6, 5, 4, 3, 2, 1]

#### 序列的“加法”与“乘法”

In [15]:
#序列相加主要是拼接
"hello " + 'world'

'hello world'

In [16]:
#下边这种做法有点费解
[1, 2, 3] + [4, 5, 6]

[1, 2, 3, 4, 5, 6]

In [17]:
#同学们而已做一个简单的对照
import numpy as np
np.array([1, 2, 3]) + np.array([4, 5, 6])

array([5, 7, 9])

将序列与数x相乘时，将重复这个序列n次来创建一个新序列

In [18]:
n = 3
[1] * n
[1, 2, 3] * n
print("\n重要的事情" * n)

[1, 1, 1]

[1, 2, 3, 1, 2, 3, 1, 2, 3]


重要的事情
重要的事情
重要的事情


空列表初始化

In [19]:
n = 10
[] * 10
[None] * 10

[]

[None, None, None, None, None, None, None, None, None, None]

#### 成员资格

In [20]:
#要检查特定的值是否包含在序列中，可使用运算符 in
permissions = 'rw'
'w' in permissions
'write' in permissions

True

False

####  长度、最小值和最大值

In [21]:
#内置函数 len 、 min 和 max 很有用，其中函数 len 返回序列包含的元素个数，而 min 和 max 分别返回序列中最小和最大的元素
numbers = range(10)
len(numbers)
max(numbers)
min(numbers)

10

9

0

### 列表：Python 的主力

列表创建的形式：  
\<list> = \<list>\[from_inclusive : to_exclusive : ±step_size]

#### 函数list

In [22]:
 list('Hello')

['H', 'e', 'l', 'l', 'o']

当然，我们可将任何序列（而不仅仅是字符串）作为 list 的参数

In [23]:
range(9)

list(range(9))

range(0, 9)

[0, 1, 2, 3, 4, 5, 6, 7, 8]

反过来，要将字符列表（如前述代码中的字符列表）转换为字符串，可使用下面的表达式

In [24]:
chars = list('hello')
chars
''.join(chars)

['h', 'e', 'l', 'l', 'o']

'hello'

#### 列表的基本操作

可对列表执行所有的标准序列操作，如索引、切片、拼接和相乘，但列表的有趣之处在于它是可以修改的。本节将介绍一些修改列表的方式：给元素赋值、删除元素、给切片赋值以及使用列表的方法。

In [25]:
#修改列表：给元素赋值
x = [1]*3
x[1] = 2
x

[1, 2, 1]

In [26]:
#删除元素
names = ['张三', '丰', '李四', '赵五']
names
del names[1]
names

['张三', '丰', '李四', '赵五']

['张三', '李四', '赵五']

In [27]:
#给切片赋值
str_list = list('迅雷之速')
str_list

str_list[2:] = list('不及掩耳盗铃')
str_list

str_list[8:8] = list("儿响叮当仁不让之势")
str_list

['迅', '雷', '之', '速']

['迅', '雷', '不', '及', '掩', '耳', '盗', '铃']

['迅',
 '雷',
 '不',
 '及',
 '掩',
 '耳',
 '盗',
 '铃',
 '儿',
 '响',
 '叮',
 '当',
 '仁',
 '不',
 '让',
 '之',
 '势']

In [28]:
#给切片赋值
str_list = list('迅雷之速')
str_list

str_list[2:] = list('不及掩耳盗铃')
str_list

str_list[-1:-1] = list("儿响叮当仁不让之势")
str_list

['迅', '雷', '之', '速']

['迅', '雷', '不', '及', '掩', '耳', '盗', '铃']

['迅',
 '雷',
 '不',
 '及',
 '掩',
 '耳',
 '盗',
 '儿',
 '响',
 '叮',
 '当',
 '仁',
 '不',
 '让',
 '之',
 '势',
 '铃']

#### 列表的方法

方法是与对象（列表、数、字符串等）联系紧密的函数。通常，像下面这样调用方法：  
`object.method(arguments)`  
方法调用与函数调用很像，只是在方法名前加上了对象和句点

In [29]:
lst = [1, 2, 3]
lst.append(4)
lst

[1, 2, 3, 4]

In [30]:
#clear
lst.clear()
lst

[]

In [31]:
#copy
a = [1, 2, 3]

In [32]:
b = a

In [33]:
id(a)
id(b)

1169081223552

1169081223552

In [34]:
a, b
b[0] = 3
a, b

([1, 2, 3], [1, 2, 3])

([3, 2, 3], [3, 2, 3])

In [35]:
a = [1, 2, 3]
b = a.copy()
a, b
b[0] = 3
a, b

([1, 2, 3], [1, 2, 3])

([1, 2, 3], [3, 2, 3])

In [36]:
print('id of a is {}, and id of b is {}'.format(id(a), id(b)))

id of a is 1169080768384, and id of b is 1169080845760


In [37]:
# count
['to', 'be', 'or', 'not', 'to', 'be'].count('to')

2

In [38]:
#extend
a = [1, 2, 3]
b = [4, 5, 6]
a.extend(b)
a

[1, 2, 3, 4, 5, 6]

In [39]:
a = [1, 2, 3]
b = [4, 5, 6]
a + b

[1, 2, 3, 4, 5, 6]

In [40]:
# index
tobe = ['to', 'be', 'or', 'not', 'to', 'be']
tobe.index('be')

1

In [41]:
# insert
numbers = [1, 2, 3, 5, 6, 7]
numbers.insert(3, 'four')
numbers

[1, 2, 3, 'four', 5, 6, 7]

In [42]:
#pop
x = [1, 2, 3]
x.pop()

3

In [43]:
#pop 是唯一既修改列表又返回一个非 None 值的列表方法
x = [1, 2, 3]
y = x.pop()
x, y

([1, 2], 3)

In [44]:
#remove
x = ['to', 'be', 'or', 'not', 'to', 'be']
x.remove('be')
x

['to', 'or', 'not', 'to', 'be']

In [45]:
#reverse
x = [1, 2, 3]
x.reverse()
x

[3, 2, 1]

In [46]:
#sort
x = [3, 1, 4, 1, 5, 9, 2, 6]
x.sort()
x

[1, 1, 2, 3, 4, 5, 6, 9]

In [47]:
x.sort

<function list.sort(*, key=None, reverse=False)>

In [48]:
x = [3, 1, 4, 1, 5, 9]
sorted(x)
x

[1, 1, 3, 4, 5, 9]

[3, 1, 4, 1, 5, 9]

In [49]:
y = x.sort()
print(y)

None


In [50]:
y = sorted(x)
print(y)

[1, 1, 3, 4, 5, 9]


In [51]:
banks = ['ICBC', 'BC', 'ABC', 'CDB']
banks.sort(key = len)
banks

['BC', 'ABC', 'CDB', 'ICBC']

In [52]:
x.sort(reverse = True)
x

[9, 5, 4, 3, 1, 1]

由于列表是可修改的，前述的lst.append()、x.sort()都没有返回值，都是就地（inplace）修改——pop是为数不多的例外，既有返回值，又就地修改。为了加深印象，联想成把原对象就地正法、然后洗心革面也可以。

### 元组：不可修改的序列

与列表一样，元组也是序列，唯一的差别在于元组是不能修改的（字符串也不能修改）。元组语法很简单，只要将一些值用逗号分隔，就能自动创建一个元组。

In [53]:
tup = 4, 5, 6
tup

(4, 5, 6)

In [54]:
tup_x = 1,
tup_x
type(tup_x)
x = 1
x
type(x)

(1,)

tuple

1

int

In [55]:
#元组还可用圆括号括起（这也是通常采用的做法）
(1, 2, 3)

(1, 2, 3)

空元组用两个不包含任何内容的圆括号表示

In [56]:
x = ()
x

()

In [57]:
x = (None)
x

In [58]:
#如何表示只包含一个值的元组呢？这有点特殊：虽然只有一个值，也必须在它后面加上逗号
2012,
(2012,)
(2012)

(2012,)

(2012,)

2012

函数 tuple 的工作原理与 list 很像：它将一个序列作为参数，并将其转换为元组。如果参数已经是元组，就原封不动地返回它。

In [59]:
tuple([1, 2, 3])

tuple((1, 2, 3))

tuple('我爱北京天安门')

tuple((1, 2, 3))

(1, 2, 3)

(1, 2, 3)

('我', '爱', '北', '京', '天', '安', '门')

(1, 2, 3)

In [60]:
#元组并不太复杂，而且除创建和访问其元素外，可对元组执行的操作不多。元组的创建及其元素的访问方式与其他序列相同。
x = 1, 2, 3
x[1]
x[0:2]

2

(1, 2)

### 列表与元组对比

相同点：<br>
* both lists and tuples are containers, a sequence of objects
* Either can have elements of any type, even within a single sequence.
* Both maintain the order of the elements (unlike sets and dicts)

不同点：<br>
* Technical Difference between lists and tuples is that lists are mutable (can be changed) and tuples are immutable (cannot be changed). 
* The Cultural Difference is about how lists and tuples are actually used: lists are used where you have a homogenous sequence of unknown length; tuples are used where you know the number of elements in advance because the position of the element is semantically significant.
* a list is an arbitrary number of similar things; a tuple is one thing with a known number of (possibly dissimilar) parts.
* lists are like arrays, tuples are like structs

---

For the most part, you should choose whether to use a list or a tuple based on the Cultural Difference. Think about what your data means. If it can have different lengths based on what your program encounters in the real world, then it is probably a list. If you know when you write the code what the third element means, then it is probably a tuple.

### 字符串

所有标准序列操作（索引、切片、乘法、成员资格检查、长度、最小值和最
大值）都适用于字符串，但别忘了字符串是不可变的，因此所有的元素赋值和切片赋值都是非
法的。

In [61]:
website = 'http://www.python.org'
website[-3:]

'org'

In [62]:
len(website)

21

#### 设置字符串的格式：

将值转换为字符串并设置其格式是一个重要的操作，Python提供了多种字符串格式设置方法。<font color ="red">*以前*</font>，主要的解决方案是使用字符串格式设置运算符——百分号。这个运算符的行为类似于C语言中的经典函数 printf ：在 % 左边指定一个字符串（格式字符串），并在右边指定要设置其格式的值。指定要设置其格式的值时，可使用单个值（如字符串或数字），可使用元组（如果要设置多个值的格式），还可使用字典，其中最常见的是元组。

In [63]:
format = "Hello, %s. %s enough for you?"
values = ('world', 'Hot')
format % values

'Hello, world. Hot enough for you?'

上述格式字符串中的 s % 称为转换说明符，指出了要将值插入什么地方。 s 意味着将值视为字
符串进行格式设置。如果指定的值不是字符串，将使用 str 将其转换为字符串。其他说明符将导
致其他形式的转换。例如， .3f % 将值的格式设置为包含3位小数的浮点数。

另一种解决方案是所谓的模板字符串

In [64]:
from string import Template
tmpl = Template("Hello, $who! $what enough for you?")
tmpl.substitute(who="Mars", what="Dusty")

'Hello, Mars! Dusty enough for you?'

前面这两段代码，大家只要能看懂就行，即便不会使用，关系也不大，但是现在用得更多的是字符串方法format ，它融合并强化了早期方法的优点。使用这种方法时，每个替换字段都用花括号括起，其中可能包含名称，还可能包含有关如何对相应的值进行转换和格式设置的信息

In [65]:
"{}, {} and {}".format("first", "second", "third")

'first, second and third'

In [66]:
"{3} {0} {2} {1} {3} {0}".format("be", "not", "or", "to")

'to be or not to be'

In [67]:
from math import pi
"{name} is approximately {value:.2f}.".format(value=pi, name="π")

'π is approximately 3.14.'

如果变量与替换字段同名，还可使用一种简写。在这种情况下，可使用 f 字符串——在字符串前面加上 f

In [68]:
from math import e

In [69]:
f"Euler's constant is roughly {e}."

"Euler's constant is roughly 2.718281828459045."

在最简单的情况下，只需向 format 提供要设置其格式的未命名参数，并在格式字符串中使用
未命名字段。此时，将按顺序将字段和参数配对。你还可给参数指定名称，这种参数将被用于相
应的替换字段中。你可混合使用这两种方法。

In [70]:
"{foo} {} {bar} {}".format(1, 2, bar=4, foo=3)

'3 1 4 2'

还可通过索引来指定要在哪个字段中使用相应的未命名参数，这样可不按顺序使用未命名
参数

In [71]:
"{foo} {1} {bar} {0}".format(1, 2, bar=4, foo=3)

'3 2 4 1'

设置浮点数（或其他更具体的小数类型）的格式时，默认在小数点后面显示6位小数，并根据需要设置字段的宽度，而不进行任何形式的填充。当然，这种默认设置可能不是你想要的，在这种情况下，可根据需要在格式说明中指定宽度和精度。

In [72]:
"{num:10}".format(num=3)

'         3'

In [73]:
"{name:10}".format(name="Bob")

'Bob       '

精度也是使用整数指定的，但需要在它前面加上一个表示小数点的句点。

In [74]:
"Pi day is {pi:.2f}".format(pi=pi)

'Pi day is 3.14'

当然，可同时指定宽度和精度

In [75]:
"{pi:10.2f}".format(pi=pi)

'      3.14'

可使用逗号来指出要添加千位分隔符

In [76]:
'One googol is {:,}'.format(10**100)

'One googol is 10,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000'

在指定宽度和精度的数前面，可添加一个标志。这个标志可以是零、加号、减号或空格，其中零表示使用0来填充数字。

In [77]:
'{:010.2f}'.format(pi)

'0000003.14'

要指定左对齐、右对齐和居中，可分别使用 < 、 > 和 ^ 

In [78]:
print('{0:<10}\n{1:^10}\n{2:>10}'.format('left', "middle", "right"))

left      
  middle  
     right


可以使用填充字符来扩充对齐说明符，这样将使用指定的字符而不是默认的空格来填充

In [79]:
"{:$^15}".format(" WIN BIG ")

'$$$ WIN BIG $$$'

如果要给正数加上符号，可使用说明符 + （将其放在对齐说明符后面），而不是默认的 - 。如
果将符号说明符指定为空格，会在正数前面加上空格而不是 + 

In [80]:
print('{0:-.2}\n{1:-.2}'.format(pi, -pi)) #默认设置

3.1
-3.1


In [81]:
 print('{0:+.2}\n{1:+.2}'.format(pi, -pi))

+3.1
-3.1


In [82]:
print('{0: .2}\n{1: .2}'.format(pi, -pi))

 3.1
-3.1


#### 字符串方法

In [83]:
# center - 通过在两边添加填充字符（默认为空格）让字符串居中
"The Middle by Jimmy Eat World".center(39)

'     The Middle by Jimmy Eat World     '

In [84]:
# find - 在字符串中查找子串。如果找到，就返回子串的第一个字符的索引，否则返回 -1
"With a moo-moo here, and a moo-moo there".find("moo")

7

In [85]:
# join: 一个非常重要的字符串方法，其作用与 split 相反，用于合并序列的元素
seq = ["1", "2", "3", "4", "5"]
sep = "+"
sep.join(seq)  # 合并一个字符串列表

'1+2+3+4+5'

In [86]:
seq = ['1', '2', '3', '4', '5']
sep = ''
sep.join(seq) # 合并一个字符串列表

'12345'

In [87]:
dirs = '', 'usr', 'bin', 'env'
'/'.join(dirs)

'/usr/bin/env'

In [88]:
print('C:' + '\\'.join(dirs))

C:\usr\bin\env


In [89]:
#lower:  返回字符串的小写版本
'Trondheim Hammer Dance'.lower()

'trondheim hammer dance'

In [90]:
#title: 将字符串转换为词首大写，即所有单词的首字母都大写，其他字母都小写
"that's all folks".title()

"That'S All Folks"

另一种方法是使用模块 string 中的函数 capwords

In [91]:
import string
string.capwords("that's all, folks")

"That's All, Folks"

In [92]:
#replace:  将指定子串都替换为另一个字符串，并返回替换后的结果
'This is a test'.replace('is', 'eez')

'Theez eez a test'

In [93]:
#split: 一个非常重要的字符串方法,用于将字符串拆分为序列
'1+2+3+4+5'.split('+')

['1', '2', '3', '4', '5']

In [94]:
'/usr/bin/env'.split('/')

['', 'usr', 'bin', 'env']

In [95]:
#strip: 将字符串开头和末尾的空白（但不包括中间的空白）删除，并返回删除后的结果
' internal whitespace is kept '.strip()

'internal whitespace is kept'

判断字符串是否满足特定的条件： isalnum 、 isalpha 、 isdecimal 、 isdigit 、 isidentifier 、 islower 、 isnumeric 、isprintable 、 isspace 、 istitle 、 isupper 

In [96]:
'3.14159'.isalnum()

False

In [97]:
'314159'.isalnum()

True

算术运算，一般都是用于数值，比如"1" / "2"显然是不允许的。不过Python里边，+和*对于字符串而言是有意义的

In [98]:
'我爱你，' + "中国"

'我爱你，中国'

In [99]:
print('重要的事情说三遍\n'*3)

重要的事情说三遍
重要的事情说三遍
重要的事情说三遍



显然，这里的加号和乘号，无非是拼接和重复而已，与算术运算并无关系。

### 可变与不可变对象

In [100]:
x = 1
y = x
x = 2
print(y)

1


In [101]:
x = [1]*3
y = x
x[1] = 2
print(y)

[1, 2, 1]


In [102]:
x = (1,) * 3
y = x
x = x + (2,) * 3
print(x)
print(y)

(1, 1, 1, 2, 2, 2)
(1, 1, 1)


<font color='white'>上述代码容易让人误以为对于可变和不可变对象而言，赋值操作是不一样的。实际上，赋值只是把左侧的name与右侧的value进行了绑定而已，对于可变或是不可变对象而言，完全一样。不一样的地方，是右侧的value是否就地进行了修改，若是就地修改的话，则y和x都指向同一个value，这个value变了，透过x和y这两双眼睛都能看到在变；若不是就地修改，显然这两双眼睛看到的是不一样的。</font>

## 映射

字典是Python中唯一的内置映射类型，其中的值不按顺序排列，而是存储在键下。键可能是数、字符串或元组。  
字典的名称指出了这种数据结构的用途。普通图书适合按从头到尾的顺序阅读，如果你愿意，可快速翻到任何一页，这有点像Python中的列表。字典（日常生活中的字典和Python字典）旨在让你能够轻松地找到特定的单词（键），以获悉其定义（值）。  

---

在很多情况下，使用字典都比使用列表更合适。下面是Python字典的一些用途：
* 表示棋盘的状态，其中每个键都是由坐标组成的元组；
* 存储文件修改时间，其中的键为文件名；
* 数字电话/地址簿。

假设有如下名单：

In [103]:
names = ['Alice', 'Beth', 'Cecil', 'Dee-Dee', 'Earl']

如果要创建一个小型数据库，在其中存储这些人的电话号码，该如何办呢？一种办法是再创建一个列表。假设只存储四位的分机号，这个列表将类似于：

In [104]:
numbers = ['2341', '9102', '3158', '0142', '5551']

创建这些列表后，就可像下面这样查找Cecil的电话号码：

In [105]:
numbers[names.index('Cecil')]

'3158'

这可行，但不太实用。实际上，你希望能够像下面这样做：  
\>>> phonebook['Cecil']  
'3158'  
如何达成这个目标呢？只要 phonebook 是个字典就行了。

### 创建和使用字典

字典由键及其相应的值组成，这种键-值对称为项（item）。在前面的示例中，键为名字，而值为电话号码。每个键与其值之间都用冒号（ : ）分隔，项之间用逗号分隔，而整个字典放在花括号内。空字典（没有任何项）用两个花括号表示，类似于下面这样： {} 。

In [106]:
phonebook = {'Alice': '2341', 'Beth': '9102', 'Cecil': '3258'}

可使用函数 dict从其他映射（如其他字典）或键值对序列创建字典。  
> 与 list、tuple 和 str 一样， dict 其实根本就不是函数，而是一个类


In [107]:
items = [('name', 'Gumby'), ('age', 42)]
d = dict(items)
d

{'name': 'Gumby', 'age': 42}

In [108]:
d['name']

'Gumby'

还可使用关键字实参来调用这个函数，如下所示：

In [109]:
d = dict(name='Gumby', age=42)
d

{'name': 'Gumby', 'age': 42}

### 字典的基本操作

字典的基本行为在很多方面都类似于序列。  
* len(d) 返回字典 d 包含的项（键-值对）数。
* d[k] 返回与键 k 相关联的值。
* d[k] = v 将值 v 关联到键 k 。
* del d[k] 删除键为 k 的项。
* k in d 检查字典 d 是否包含键为 k 的项。

虽然字典和列表有多个相同之处，但也有一些重要的不同之处。
* 键的类型：字典中的键可以是整数，但并非必须是整数。字典中的键可以是任何不可变的类型，如浮点数（实数）、字符串或元组。
* 自动添加：即便是字典中原本没有的键，也可以给它赋值，这将在字典中创建一个新项。然而，如果不使用 append 或其他类似的方法，就不能给列表中没有的元素赋值。
* 成员资格：表达式 k in d （其中 d 是一个字典）查找的是键而不是值，而表达式 v in l （其中 l 是一个列表）查找的是值而不是索引。这看似不太一致，但你习惯后就会觉得相当自然。毕竟如果字典包含指定的键，检查相应的值就很容易。

In [110]:
x = {}
x[42] = 'Foobar'
x

{42: 'Foobar'}

### 将字符串格式设置功能用于字典

可使用字符串格式设置功能来设置值的格式，这些值是作为命名或非命名参数提供给方法 format 的。在有些情况下，通过在字典中存储一系列命名的值，可让格式设置更容易些。例如，可在字典中包含各种信息，这样只需在格式字符串中提取所需的信息即可。为此，必须使用 format_map 来指出你将通过一个映射来提供所需的信息。

In [111]:
phonebook

{'Alice': '2341', 'Beth': '9102', 'Cecil': '3258'}

In [112]:
"Cecil's phone number is {Cecil}.".format_map(phonebook)

"Cecil's phone number is 3258."

### 字典方法

In [113]:
#clear：方法 clear 删除所有的字典项，这种操作是就地执行
d = {}
d['name'] = 'Gumby'
d['age'] = 42
d

{'name': 'Gumby', 'age': 42}

In [114]:
returned_value = d.clear()
d

{}

In [115]:
print(returned_value)

None


In [116]:
x = {}
y = x
x['key'] = 'value'
x = {}
y

{'key': 'value'}

In [117]:
x = {}
y = x
x['key'] = 'value'
x.clear()
y

{}

In [118]:
#copy:方法 copy 返回一个新字典，其包含的键-值对与原来的字典相同（这个方法执行的是浅复制，因为值本身是原件，而非副本）
x = {'username': 'admin', 'machines': ['foo', 'bar', 'baz']}
y = x.copy()
y['username'] = 'mlh'
y['machines'].remove('bar')
x

{'username': 'admin', 'machines': ['foo', 'baz']}

当替换副本中的值时，原件不受影响。然而，如果修改副本中的值（就地修改而
不是替换），原件也将发生变化，因为原件指向的也是被修改的值（如这个示例中的 'machines'列表所示）。  
为避免这种问题，一种办法是执行深复制，即同时复制值及其包含的所有值，等等。为此，可使用模块 copy 中的函数 deepcopy 。

In [119]:
from copy import deepcopy
d = {}
d['names'] = ['Alfred', 'Bertrand']
c = d.copy()
dc = deepcopy(d)
d['names'].append('Clive')

In [120]:
c

{'names': ['Alfred', 'Bertrand', 'Clive']}

In [121]:
dc

{'names': ['Alfred', 'Bertrand']}

In [122]:
#fromkeys: 创建一个新字典，其中包含指定的键，且每个键对应的值都是 None
{}.fromkeys(['name', 'age'])

{'name': None, 'age': None}

In [123]:
dict.fromkeys(['name', 'age'])

{'name': None, 'age': None}

如果你不想使用默认值 None ，可提供特定的值

In [124]:
dict.fromkeys(['name', 'age'], 'unknown')

{'name': 'unknown', 'age': 'unknown'}

In [125]:
#通常，如果你试图访问字典中没有的项，将引发错误。
d = {'name': 'kitty', 'sex':'female'}
print(d['name'])

kitty


执行下述代码：
```
d = {'name': 'kitty', 'sex':'female'}
print(d['axb'])
```
错误信息如下：
```
---------------------------------------------------------------------------
KeyError                                  Traceback (most recent call last)
<ipython-input-233-717968216ad4> in <module>
      1 d = {'name': 'kitty', 'sex':'female'}
----> 2 print(d['axb'])

KeyError: 'axb'
```

In [126]:
#get: 方法 get 为访问字典项提供了宽松的环境
d = {'name': 'kitty', 'sex':'female'}
print(d.get('axb'))

print(d.get('name'))

d.get('name', 'N/A')

d['name'] = 'Eric'
d.get('name')

None
kitty


'kitty'

'Eric'

In [127]:
#items: 返回一个包含所有字典项的列表，其中每个元素都为 (key, value) 的形式。字典项在列表中的排列顺序不确定
d = {'title': 'Python Web Site', 'url': 'http://www.python.org', 'spam': 0}

d.items()

dict_items([('title', 'Python Web Site'), ('url', 'http://www.python.org'), ('spam', 0)])

返回值属于一种名为字典视图的特殊类型。字典视图可用于迭代

另外，你还可确定其长度以及对其执行成员资格检查。

In [128]:
it = d.items()
len(it)

('spam', 0) in it

3

True

In [129]:
#keys:方法 keys 返回一个字典视图，其中包含指定字典中的键
d.keys()

dict_keys(['title', 'url', 'spam'])

In [130]:
#pop:用于获取与指定键相关联的值，并将该键值对从字典中删除
d = {'x': 1, 'y': 2}
d.pop('x')

1

In [131]:
#pitem: 类似于 list.pop
#list.pop 弹出列表中的最后一个元素，
#popitem 随机地弹出一个字典项
#字典项的顺序是不确定的，
#“最后一个元素”的概念。
#你要以高效地方式逐个删除并处理所有字典项，
#能很有用，因为这样无需先获取键列表
d = {'url': 'http://www.python.org', 
     'spam': 0, 
     'title': 'Python Web Site'}

d.popitem()
d

('title', 'Python Web Site')

{'url': 'http://www.python.org', 'spam': 0}

* 

In [132]:
#update:  使用一个字典中的项来更新另一个字典
d = {
    'title': 'Python Web Site',
    'url': 'http://www.python.org',
    'changed': 'Mar 14 22:09:15 MET 2016'
}

x = {'title': 'Python Language Website'}

d.update(x)

d

{'title': 'Python Language Website',
 'url': 'http://www.python.org',
 'changed': 'Mar 14 22:09:15 MET 2016'}

In [133]:
#values: 方法 values 返回一个由字典中的值组成的字典视图
#不同于方法 keys ，方法 values 返回的视图可能包含重复的值
d = {}
d[1] = 1
d[2] = 2
d[3] = 3
d[4] = 1
d.values()

dict_values([1, 2, 3, 1])

## 集合

很久以前，集合是由模块 sets 中的 Set 类实现的。在较新的版本中，集合是由内置类 set 实现的，这意味着你可直接创建集合，而无需导入模块 sets 。

In [134]:
set(range(10))

{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}

可使用序列（或其他可迭代对象）来创建集合，也可使用花括号显式地指定。请注意，不能仅使用花括号来创建空集合，因为这将创建一个空字典。

In [135]:
type({})

dict

相反，必须在不提供任何参数的情况下调用 set 。集合主要用于成员资格检查，因此将忽略重复的元素：

In [136]:
{0, 1, 2, 3, 0, 1, 2, 3, 4, 5}

{0, 1, 2, 3, 4, 5}

In [137]:
my_set = {1, 2, 1, 2, 3, 4}
my_set

{1, 2, 3, 4}

与字典一样，集合中元素的排列顺序是不确定的，因此不能依赖于这一点。

In [138]:
{'fee', 'fie', 'foe'}

{'fee', 'fie', 'foe'}

除成员资格检查外，还可执行各种标准集合操作，如并集和交集。例如，要计算两个集合的并集，可对其中一个集合调用方法 union ，也可使用按位或运算符 | 。

In [139]:
a = {1, 2, 3}
b = {2, 3, 4}

a.union(b)

a | b

{1, 2, 3, 4}

{1, 2, 3, 4}

还有其他一些方法和对应的运算符：

In [140]:
c = a & b
c

{2, 3}

In [141]:
a.intersection(b)

{2, 3}

In [142]:
c.issubset(a)

True

In [143]:
c.issuperset(a)

False

In [144]:
c >= a

False

In [145]:
a.difference(b)

{1}

In [146]:
a - b

{1}

In [147]:
a.symmetric_difference(b)

{1, 4}

In [148]:
a.copy()

{1, 2, 3}

In [149]:
a.copy() is a

False

集合是可变的，因此不能用作字典中的键。另一个问题是，集合只能包含不可变（可散列）的值，因此不能包含其他集合。由于在现实世界中经常会遇到集合的集合，因此这可能是个问题。所幸还有 frozenset 类型，它表示不可变（可散列）的集合。

In [150]:
a = set()
b = set()
# 以下代码有误
#a.add(b)

In [151]:
a.add(frozenset(b))

In [152]:
a

{frozenset()}