# 第4章 数据结构与列表
* 在Python基本库中，**序列**是最常见也是最主要的数据结构类型。
* **序列(sequence)：表示由多个元素组成的一列数据**。
* 常见的序列数据结构类型有：
    1. **数字**(number)：用于存储数值；
    * **字符串**(string)：由数字、字母、下划线组成的一串字符；
    * **列表**(list)：一维序列，变长、**可变**，内容可修改，用“[]”来标识；
    * **元组**(tuple)：一维序列，定长、**不可变**，内容不能修改，用“()”来标识；
    * **字典**(dict)：最重要的内置结构之一，大小**可变**的**键值对集**。其中键(key)和值(value)都是Python对象，用“{}”标识；
    * **集合**(set)：由唯一元素组成的**无序集**，可看作只有键没有值的字典。
* 列表、集合以及字典都可以用**推导式**来生成，这是Python最具特色的语言特性之一。
#### 表4-1 可以执行序列类型转换的内置函数

|函数|作用|
|--|--|
|tuple(s)|将序列s转换为**元组**|
|list(s)|将序列s转换为**列表**|
|dict(d)|创建一个**字典**，d必须是一个序列(key,value)元组|
|set(s)|转换为**可变集合**|
|frozenset(s)|转换为**不可变集合**|

## 4.1. 列表
* 列表(list)：是一种**有序序列**，各元素**用逗号分隔**，用“[]”来标识。

In [4]:
name=['David','Morgan','John','Jun']
name

['David', 'Morgan', 'John', 'Jun']

* 列表也可以用**list函数**来定义，可随时添加和删除其中的元素。

In [None]:
list("Hello, world!")

### 4.1.1 列表索引和切片
* Python中用索引运算符“[]”来访问列表中每一个位置的元素。
* **索引**有两种运算方式：
    * 从左到右：从0开始，为0,1,2,$\cdots$；
    * 从右到左：从-1开始，为-1,-2,-3,$\cdots$。

In [5]:
print(name)
name[1]

['David', 'Morgan', 'John', 'Jun']


'Morgan'

In [6]:
name[-1]

'Jun'

* **列表切片**可以通过“:”隔开的**两个索引**来实现。
* 如果提供两个索引作为边界，则
    * 第一个索引：作为**起始点**，其元素**包含**在切片内；
    * 第二个索引：作为**结束点**，其元素**不包含**在切片内。

In [8]:
print(name)
name[1:2]

['David', 'Morgan', 'John', 'Jun']


['Morgan']

In [None]:
name[:2]  #起始点缺失，默认起始点为0

In [None]:
name[1:]  #结束点缺失，默认结束点为列表最后一个元素的索引加一

In [None]:
name[:]  #起始点与结束点均缺失，表示列表内所有元素

* 列表切片时除了可以指定索引位置的上下界，还可以通过第二个“:”来**指定切片步长**。

In [10]:
n=[1,2,3,4,5,6,7,8,9,10]
n[0:10:2]

[1, 3, 5, 7, 9]

In [None]:
n[::3]

In [11]:
n[::-1]  #将列表元素倒序

[10, 9, 8, 7, 6, 5, 4, 3, 2, 1]

### 4.1.2 列表操作
* 列表可以进行“+”和“\*”的基本操作，但要**注意这些符号不是运算**。
* “+”指把不同的列表合并起来成为一个新的列表。
* “\*”指重复列表元素的次数。

In [12]:
n1=[1,2,3]; n2=[4,5,6]
n1+n2

[1, 2, 3, 4, 5, 6]

In [14]:
n3=list('Python')
print("n3=",n3)
n1+n3

n3= ['P', 'y', 't', 'h', 'o', 'n']


[1, 2, 3, 'P', 'y', 't', 'h', 'o', 'n']

In [15]:
n1*2

[1, 2, 3, 1, 2, 3]

* 可以使用“in”成员运算符检查一个元素是否在列表中，即**判断列表的成员资格**。

In [17]:
print(name)
"morgan" in name

['David', 'Morgan', 'John', 'Jun']


False

In [18]:
"Morgan" in name

True

* 列表还可以**删除**和**分片赋值**。

In [19]:
print(name)
del name[1:]
name

['David', 'Morgan', 'John', 'Jun']


['David']

In [20]:
name[1:]=list('apple')
name

['David', 'a', 'p', 'p', 'l', 'e']

* 列表还可以通过“=”来实现**引用传递**和**浅复制**。(参考第3.2.4小节)

In [21]:
a=[1,2,3]
b=a
a.append(4)
print("a=",a)
print("b=",b)

a= [1, 2, 3, 4]
b= [1, 2, 3, 4]


In [22]:
a=[1,2,3]
b=a
a=a+[4]  #对a用'='重新赋值，则a与b的绑定自动解除
print("a=",a)
print("b=",b)

a= [1, 2, 3, 4]
b= [1, 2, 3]


### 4.1.3 内置列表函数
* Python基本库中内置了一些对列表进行操作的函数，可以进行列表比较、元素统计等基本操作；
* 这些函数也可对其他类型的序列进行操作。
#### 表4-2 常用的内置列表函数

In [None]:
len(name)

#### 补充：range()函数
* range()可创建一个整数列表，一般用在for循环中。
* 函数语法：range(start, stop[, step])
* 参数说明：
    * start：计数从start开始。默认是从0开始。例如range(5)等价于range(0,5)；
    * stop：计数到stop结束，但不包括stop，**不可缺失**。例如：range(0,5)是[0, 1, 2, 3, 4]没有5。
    * step：步长，默认为1。例如：range(0,5)等价于range(0,5,1)。

### 4.1.4 列表方法
* 列表方法可以通过“**列表对象.列表方法(参数)**”的方式进行调用。
#### 表4-3 常用列表方法及其作用

## 4.2 元组
* 元组(tuple)与列表一样，也是一种序列。
    * 但是元组是不可变的，即不能修改的；
    * 用“,”分隔，通常用“()”括起来。

In [None]:
(1,2,3)

In [None]:
1,2,3

* **元组切片**：可以用**tuple函数**创建元组和访问元组元素。

In [None]:
t=tuple("Python!")
t

In [None]:
t1=t+([1,2],)
t1

* **元组是不可变的**，不能对其中的元素进行增、删、插、改等操作。
* 但元组对象中的可变元素(如列表)是可以进行更改的，如：

In [None]:
t1[-1].append(3)
t1

* **元组拆包**：当对元组型变量表达式进行赋值时，Python就会尝试将“=”右侧的值进行拆包复制给相应的对象。

In [None]:
country=('China','USA','UK','Japan')
a1,a2,a3,a4=country
a2

In [None]:
a1,a4

## 4.3 字典
* 字典(dict)使用**键-值**(key-value)存储，具有较快的查找速度，是大数据分析过程中最常见的数据结构之一。
* 字典使用“{}”将字典元素(即**项**，item)括起来，用“:”分隔键和值，并用“,”分隔项来定义。
* 字典的值可以通过键来引用。

In [None]:
d={'Name':'Michael','Gender':'Male','Age':35}  #包含3项
d['Name']

* 可以使用**dict()函数**根据序列来创建字典。

In [None]:
items=[('Name','Michael'),('Gender','Male'),('Age',35)]
dict(items)

In [None]:
dict([('Name','Michael'),('Gender','Male'),('Age',35)])

* **字典的基本操作**在很多方面与序列类似。
* d[k]：返回d中项(键-值对)的数量。

In [None]:
len(d)

* d[k]：返回关联到键k上的值。

In [None]:
d['Name']

* d[k]=v：将值v关联到键k上；
* 即使键在字典中并不存在，也可以为它赋值，这样字典就会建立新的项。

In [None]:
d['Name']='Tom'
d

In [None]:
d[23]="Hello, world!"
d

* del d[k]：删除键为k的项；

In [None]:
del d[23]
d

* k in d：检测d中是否含有键为k的项。
* **注意：成员资格查找的是键，而不是值**。

In [None]:
'Tom' in d

In [None]:
'Name' in d

* 字典中的**键是唯一的**，但值不一定是唯一的。
    * 字典的**键必须是不可变类型**，如数字、字符串或元组。
    * 字典值可以无限制的取任何Python对象，既可以是标准的对象，也可以是用户自定义的对象。

In [None]:
d['Name']=['Tom','Tom','Jerry']  #字典的一键多值
d

#### 表4-4 常用字典方法
* items：将字典所有的**项**以列表方式返回，列表中的每一项都表示为(键，值)对的形式。
* keys：将字典中的所有**键**以列表形式返回。
* values：将字典中的所有**值**以列表形式返回。

In [None]:
print(d)
d.items()

In [None]:
d.keys()

In [None]:
d.values()

## 4.4 集合
* 集合(set)是由唯一元素组成的无序集，支持**并**、**交**、**差**和**对称差集**等运算。
    * 对称差集：相当于布尔逻辑中的异或。
* 集合包含两种类型：**可变集合**(set)和**不可变集合**(frozenset)。
* 集合是**无序集**，不记录元素位置。
    * 不支持索引、分片等类似序列的操作；
    * 只能遍历或使用in、not in来访问或判断集合元素。
* **集合的创建方式**：
    * 可以通过set()、frozenset()等函数来创建；
    * 也可以通过用“{}”把元素括起来创建。

In [None]:
s1=set([1,2]); s1

* 集合中的元素不能重复。

In [None]:
s2={3,4,3}; s2

In [None]:
s1,s2

In [None]:
s1.union(s2)  #集合的并运算

In [None]:
s1|s2   #集合的并运算

* 如果需要创建空集合，必须使用set和frozenset函数来创建。

In [None]:
s=set()
type(sk)

In [None]:
s=frozenset()
type(s)

In [None]:
s={}
type(s)

#### 表4-5 常用集合方法
* difference：集合的差，用符号“-”表示。
* intersection：集合的交，用符号“&”表示。
* union：集合的并，用符号“|”表示，或直接用“集合1.union(集合2)”。

In [None]:
s1={1,2,3,4}
s2={1,3}
s1-s2  #差

In [None]:
s1&s2  #交

In [None]:
s1|s2  #并

## 4.5 推导式
* 推导式(comprehensions)是一种将for循环、if表达式以及赋值语句放到**单一语句**中产生序列的一种方法。

### （1）列表推导式
* 列表推导式只需一条表达式就能非常简洁地构造一个新列表；
* 其**基本形式**为：[expression **for** value **in** collection **if** condition]
    * **注意：if语句可以缺失**。
* 其主要目的是根据一定条件生成列表。

In [None]:
string=['china','japan','USA','uk','France','Germany']
[x.upper() for x in string if len(x)>2]

#### 问题：如果仅想把列表中各字符串的首字母改成大写，该如何写相应的列表推导式？

In [None]:
string=['china','japan','USA','uk','France','Germany']
[x[0].upper()+x[1:] for x in string]  #if语句可以缺失

* **嵌套列表推导式**：可以编写任意多层的推导式嵌套。

In [None]:
names=[['Abby','Angelia','Tammy','Barbara'],['Hannah','Ishara','Heidi','Tiffany']]
[x for string in names for x in string if x.count('a')>=2]

In [None]:
names=['Abby','Angelia','Tammy','Barbara','Hannah','Ishara','Heidi','Tiffany']
[x for x in names if x.count('a')>=2]

#### 练习：快速创建一个包含1-10之间所有偶数的列表。

In [None]:
[i for i in range(1,11) if i%2==0]

#### 练习：现有一列表lst = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]，要求使用列表推导式从中取出1/4/7和1/5/9元素。

In [None]:
lst=[[1,2,3], [4,5,6], [7,8,9]]
lst1=[lst[i][0] for i in range(len(lst))]
print(lst1)
lst2=[lst[i][i] for i in range(len(lst))]
print(lst2)

### （2）集合推导式
* 集合推导式与列表推导式的**唯一区别**就是它用的是花括号“{}”。
* 其**基本形式**为：{expression **for** value **in** collection **if** condition}
* 其主要目的是根据一定条件生成集合。

In [None]:
string=['china','japan','USA','uk','France','Germany']
{len(x) for x in string}  #if语句可以缺失

### （3）字典推导式
* 字典推导式是列表推导式的自然延伸，生成的是字典。
* 其基本形式如下：  
{key_expression: value_expression **for** value **in** collection **if** condition}
* 同样，if语句可以缺失。
* 例如，为字符串创建一个指向其列表位置的映射：

In [None]:
print(string)
{val:index for index,val in enumerate(string)}

* 也可以通过dict()函数构造上述映射：

In [None]:
dict((val,index) for index,val in enumerate(string))

#### 练习：现有一字典d={'Name':'Michael','Gender':'Male','Age':35}，要求使用字典推导式将字典中的key和value进行对换。
* 提示：可考虑采用字典的items方法。

In [None]:
d={'Name':'Michael','Gender':'Male','Age':35}
{value:key for key,value in d.items()}