本章介绍 Python 语言中的列表类型

## 列表是一个序列

和字符串类似，**列表**(list) 是值的序列。在字符串中，这些值是字符；在列表中，它可以是任何类型。列表中的值称为**元素**(element)，有时也称为**列表项**(item)。

创建一个列表有许多种方式，其中最简单的方式是使用方括号 `[]` 将元素括起来。

In [1]:
[10,20,30,40]

[10, 20, 30, 40]

In [2]:
['crunchy flog','ram bladder','lark vomit']

['crunchy flog', 'ram bladder', 'lark vomit']

上面两个列表中，所有元素都是同一类型的，不过列表中的元素并不一定非得是同一类型的。例如:

In [3]:
['spam',2.0,5,[10,20]]

['spam', 2.0, 5, [10, 20]]

上面的列表包含了4种不同的数据类型，甚至包括列表类型。在列表中出现列表，我们称其为**嵌套**(nested)。

不包含任何元素的列表称为空列表，可以使用空方括号 `[]` 来创建空列表

另外，列表可以赋值给变量

In [9]:
cheeses = ['Cheddar','Edam','Gouda']
numbers = [42,123]
empty = []
print(cheeses,numbers,empty)

['Cheddar', 'Edam', 'Gouda'] [42, 123] []


## 列表是可变的

访问列表元素的语法和访问字符串中字符的语法是一样的，即使用方括号操作符，方括号中的表达式指定下标。注意，在 Python 中，下标从0开始:

In [10]:
cheeses[0]

'Cheddar'

上一章中学到，字符串是不可变的。和字符串不同，**列表是可变的**。当方括号操作符出现在赋值语句的左侧时，它用于指定列表中哪个元素会被赋值。

In [11]:
numbers = [42,123]
numbers[1] = 5
numbers

[42, 5]

`numbers` 的第 1 位元素，原先的值是 123，现在是 5 了。

列表下标和字符串下标工作方式相同:
* 任何整型的表达式都可以被用作下标;
* 如果尝试读写一个不存在的元素，会得到 `IndexError`
* 如果下标是负数，则从列表的结尾处反过来数下标访问。

`in` 操作符也可以用于列表。

In [12]:
cheeses = ['Cheddar','Edam','Gouda']
'Edam' in cheeses

True

In [13]:
'Brie' in cheeses

False

## 遍历一个列表

遍历一个列表元素的最常见方式是使用 `for` 循环。语法和字符串的遍历相同: 

In [14]:
for cheese in cheeses:
    print(cheese)

Cheddar
Edam
Gouda


在只需要读取列表的元素本身时，这样的遍历方式很好。但如果需要写入或者更新元素时，则需要下标。一个常见的方式是使用内置函数 `range` 和 `len`:

In [19]:
numbers = [11,23]
for i in range(len(numbers)):
    numbers[i] = numbers[i]*2
print(numbers)

[22, 46]


这个循环遍历列表，并更新每个元素。 `len` 返回列表中元素的个数。`range` 返回一个下标的列表，从 0 到 `n-1`，其中 `n` 是列表的长度。每次迭代时，`i` 获得下一个元素的下标。循环体中的赋值语句使用 `i` 来读取元素的旧值并赋值为新值。

在空列表上使用 `for` 循环，则循环体从不会被运行:

In [20]:
for x in []:
    print('This never happens.')

另外，虽然列表可以包含其他列表，但嵌套的列表仍然被看作是一个单独的元素，例如下面的列表长度为 4:

In [21]:
l = ['spam',1,['abc','acd','mcn'],[1,2,3]]
len(l)

4

## 列表操作

我们可以使用 `+` 操作符拼接列表:

In [23]:
a = [1,2,3]
b = [4,5,6]
c = a + b
print(c)

[1, 2, 3, 4, 5, 6]


可以使用 `*` 操作符重复一个列表多次:

In [24]:
[0]*4

[0, 0, 0, 0]

In [25]:
[1,2,3]*3

[1, 2, 3, 1, 2, 3, 1, 2, 3]

## 列表切片

切片操作符也可以用于列表:

In [26]:
t = ['a','b','c','d','e','f']
t[1:3]

['b', 'c']

In [27]:
t[:4]

['a', 'b', 'c', 'd']

In [30]:
t[3:]

['d', 'e', 'f']

In [31]:
t[-3:-1]

['d', 'e']

如果省略掉第一个下标，则切片从列表开头开始。如果省略掉第二个下标，则切片至列表结尾结束。如果两个下标都省略，则切片就是整个列表的副本。

In [29]:
t[:]

['a', 'b', 'c', 'd', 'e', 'f']

我们还可以使用切片跳跃选取元素:

In [32]:
t[::2]

['a', 'c', 'e']

In [33]:
t[::3]

['a', 'd']

In [36]:
t[1::2]

['b', 'd', 'f']

In [37]:
t[0:4:2]

['a', 'c']

这种方式中，第一个冒号两侧输入切片的范围，第二个冒号后面输入跳跃的元素个数。

如果切片操作符出现在赋值语句的左侧，则可以更新多个元素:

In [39]:
t = ['a','b','c','d','e','f']
t[1:3] = ['x','y']
print(t)

['a', 'x', 'y', 'd', 'e', 'f']


## 列表方法

Python 为列表提供了不少操作方法。例如，`append` 可以在列表尾部添加新的元素:

In [40]:
t = ['a','b','c']
t.append('d')
t

['a', 'b', 'c', 'd']

`extend` 方法接收一个列表作为参数，并将其所有的元素附加于列表中:

In [42]:
t1 = ['a','b','c']
t2 = ['d','e']
t1.extend(t2)
print(t1)

['a', 'b', 'c', 'd', 'e']


上述例子中，`t2` 没有被修改

`sort` 方法将列表中的元素从低到高重新排列:

In [49]:
t = ['d','c','e','b','a']
t.sort()
print(t)

['a', 'b', 'c', 'd', 'e']


列表的大多数方法是无返回值的。他们修改列表，并返回 `None`。

In [50]:
t = t.sort()
print(t)

None


## 映射、过滤和化简

如果想把列表中的所有元素加起来，可以使用下面这样的循环:

In [51]:
def add_all(t):
    total = 0
    for x in t:
        total += x
    return total

`total` 被初始化为 0。每次循环中，`x` 获取列表中的一个元素。`+=` 操作符为更新变量提供了一个简洁的方式:

```python
total +=x
```

上述语句称为**增加赋值语句**，它等价于:

```python
total = total + x
```

随着循环的运行，`total` 会累积列表中的值的和; 这样使用一个变量有时称为**累加器**(accumulator)。

对列表元素累加这种操作较为常见，因此 Python 提供了一个内置函数 `sum`:

In [53]:
t = [1,2,3]
sum(t)

6

类似这样，将一个序列的元素值合起来到一个单独的变量的操作，有时称为**化简**(reduce)。

有时，我们想在遍历一个列表的同时构建另一个列表。例如，下面的函数接收一个字符串列表，并返回一个新列表，其元素是大写的字符串:

In [1]:
def capitalize_all(t):
    res = []
    for s in t:
        res.append(s.capitalize())
    return res

`res` 初始化为一个空列表;每次循环，我们给它附加一个元素。所以 `res` 也是一种累加器。

像 `capitalize_all` 这样的操作，有时被称为**映射**，因为它将一个函数"映射"到一个序列的每个元素上。

另一个常见的操作是选择列表中的某些元素，并返回一个子列表。例如，下面的函数接收一个字符串列表，并返回那些只包含大写字母的字符串:

In [2]:
def only_upper(t):
    res = []
    for s in t:
        if s.isupper():
            res.append(s)
    return res

其中 `isupper` 是一个字符串方法，当字符串中只包含大写字母时返回 `True`。

类似 `only_upper` 这样的操作称为**过滤**，因为它选择列表中的某些元素，并过滤掉其他的元素。

列表的绝大多数常用操作都可以用**映射、过滤和简化**的组合来表达。

## 删除元素

有多种方法可以从列表中删除元素。如果知道元素的下标，则可以使用 `pop` 方法:

In [4]:
t = ['a','b','c']
x = t.pop(1)
print('t:',t)
print('x:',x)

t: ['a', 'c']
x: b


`pop` 修改列表，并返回被删除掉的值。如果不提供下标，它会删除并返回最后一个元素。

如果不需要使用删除的值，则可以使用 `del` 操作符:

In [5]:
t = ['a','b','c']
del t[1]
print(t)

['a', 'c']


如果知道要删除的元素(而不是下标)，可以使用 `remove`:

In [6]:
t = ['a','b','c']
t.remove('b')
print(t)

['a', 'c']


若要删除多个元素，可以使用 `del` 和切片下标:

In [8]:
t = ['a','b','c','d','e','f']
del t[1:5]
print(t)

['a', 'f']


## 列表和字符串

字符串是字符的序列，列表是值的序列，但字符串的列表和字符串并不相同。若要将一个字符串转换为一个字符的列表，可以使用函数 `list`:

In [9]:
s = 'spam'
t = list(s)
print(t)

['s', 'p', 'a', 'm']


`list` 函数会将字符串拆成单个的字母。如果想要将字符串拆成单词，可以使用 `split` 方法:

In [10]:
s = 'pining for the fjords'
t = s.split()
print(t)

['pining', 'for', 'the', 'fjords']


`split` 还可以接收一个可选的形参，称为**分隔符**，用于指定用哪个字符来分隔单词。例如，下面的例子使用连字符(-)作为分隔符:

In [11]:
s = 'spam-spam-spam'
delimiter = '-'
t = s.split(delimiter)
print(t)

['spam', 'spam', 'spam']


`join` 是 `split` 的逆操作。它接收字符串列表，并拼接每个元素。`join` 是字符串的方法，所以必须在分隔符上调用它，并传入列表作为实参:

In [12]:
t = ['pining','for','the','fjords']
delitmiter = ' '
s = delimiter.join(t)
print(s)

pining-for-the-fjords


我们采用空格作为分隔符，所以 `join` 会在每个单词之间放一个空格。若想不用空格，而是直接连接字符串，可以使用空字符串 `''` 作为分隔符。

## 对象和值

如果运行下面的赋值语句:

In [1]:
a = 'banana'
b = 'banana'

`a` 和 `b` 都是一个字符的引用，但我们不知道它们是否指向同一个字符串。有两种可能的状态:
1. `a` 和 `b` 引用着不同的对象
2. `a` 和 `b` 指向同一个对象

要检查两个变量是否引用同一个对象，可以使用 `is` 操作符。

In [2]:
a = 'banana'
b = 'banana'
a is b

True

在上面的例子中，Python 只建立了一个字符串对象，而 `a` 和 `b` 都引用它。

但当新建两个列表时，会得到两个对象:

In [4]:
a = [1,2,3]
b = [1,2,3]
a is b

False

在本例子中，两个列表是**相等的**(equivalent)，因为它们有相同的元素，但它们不是**相同的**(identical)，因为它们并不是同一个对象。如果两个对象相同，则必定相等;如果两个对象相等，不一定相同。

在此之前，我们并没有区分"对象" 和 "值"，但更精确的说法是对象有一个值。

**如果求值 `[1,2,3]`，会得到一个列表对象，它的值是一个整数的序列。**

如果另一个列表包含相同的元素，我们说它有相同的值，但它们不是同一个对象。

## 别名

如果 `a` 引用一个对象，而我们赋值 `b=a`，则两个变量都会引用同一个对象:

In [5]:
a = [1,2,3]
b = a 
b is a

True

变量和对象之间的关联关系称为**引用**(reference)。在这个例子中，有两个指向同一对象的引用。

当一个对象有多个引用，并且引用有不同的名称时，则说这个对象有**别名**(aliased)。

如果有别名的对象是可变的，则对一个别名的修改会影响另一个:

In [6]:
b[0] = 42
a

[42, 2, 3]

这种行为虽然可能很有用，但它也容易导致错误。通常来说，当处理可变对象时，避免使用别名会更安全。

而对于类似字符串这样的不可变对象，别名则不会产生问题。

## 列表参数

当将一个列表传递给函数中，函数会得到列表的一个引用。如果函数中修改了列表，则调用者也会看到这个修改。例如，下面的函数 `delete_head` 删除列表中的第一个元素:

In [7]:
def delete_head(t):
    del t[0]

In [8]:
letters = ['a','b','c']
delete_head(letters)
letters

['b', 'c']

其中，参数 `t` 和变量 `letters` 是同一个对象的别名。栈图如下所示:

<img src='figures/栈图10-1.jpg'>

区分修改列表的操作和新建列表的操作十分重要。例如，`append` 方法修改列表，但是 `+` 操作符新建一个列表:

In [9]:
t1 = [1,2]
t2 = t1.append(3)
print(t1)

[1, 2, 3]


In [10]:
print(t2)

None


`append` 修改列表，返回 `None`。

操作符 `+` 创建一个新列表，而原始的列表不改变。

这个区别，在编写希望修改列表的函数时十分重要。例如，下面的函数并不会删除列表的开头:

In [11]:
def bad_delete_head(t):
    t = t[1:]

切片操作会新建一个列表，而赋值操作会让 `t` 引用指向这个新的列表，但这些操作对调用者没有影响。

In [13]:
t4 = [1,2,3]
bad_delete_head(t4)
print(t4)

[1, 2, 3]

在 `bad_delete_head` 的开头，`t` 和 `t4` 指向同一个列表。在函数最后， `t` 指向了一个新的列表，但 `t4` 仍然指向原先的那个没有改变的列表。

我们还可以编写函数创建并返回一个新的列表。例如，下面的函数 `tail` 返回除了第一个以外所有的元素的列表:

In [14]:
def tail(t):
    return t[1:]

这个函数不会修改原始列表:

In [15]:
letters = ['a','b','c']
rest = tail(letters)
print(rest)

['b', 'c']


## 调试

对列表(以及其他可变对象)的不慎使用，可能会导致长时间的调试。下面介绍一些常见的陷阱，以及如何避免它们。

1. 大部分列表方法都是修改参数并返回 `None` 的，而字符串方法是新建一个字符串，并留着原始的字符串不动。
   
   对字符串来说，下面的代码是没有问题的:
   ```python
   word = word.strip()
   ```
   而对列表来说，这种方式是有问题的:
   ```python
   t = t.sort()
   ```
   因为 `sort` 返回 `None`，接下来对 `t` 进行的操作很可能会失败。
   
   在使用列表方法和操作符之前，应该仔细阅读文档，并在交互模式中测试它们。

2. 选择一种风格，并坚持不变
   
   列表的问题之一是同样的事情有太多种可用的做法。例如，要从列表中删除一个元素，可以使用 `pop`,`remove`,`del` 甚至切片赋值。
   
   要添加一个元素，可以使用 `append` 方法或 `+` 操作符。假设 `t` 是一个列表，`x` 是一个列表元素，下面的操作是正确的:
   ```python
   t.append(x)
   t = t+[x]
   t += [x]
   ```
   而下面的操作是错误的:
   ```python
   t.append(x)
   t = t + [x]
   t = t + x
   ```
   在交互模式中试验这些例子，理解它们的运行细节。注意只有最后一个会导致运行时错误; 其他的三个都是合法的，但结果不正确

3. 通过复制来避免别名
   
   如果想要使用类似 `sort` 的方法来修改参数，但又要保留原先的列表，可以复制一个副本

In [17]:
t = [3,1,2]
t2 = t[:]
t2.sort()
print('t:',t)
print('t2:',t2)

t: [3, 1, 2]
t2: [1, 2, 3]


    在这个例子里也可以使用内置函数 `sorted`，它会返回一个新的排好序的列表，并且留着原先的列表不动。

In [18]:
t2 = sorted(t)
print('t:',t)
print('t2:',t2)

t: [3, 1, 2]
t2: [1, 2, 3]
