字符串和整数、浮点数以及布尔类型都不同。字符串是一个**序列**，即它是一个由其他值组成的有序集合。

## 字符串是一个序列

字符串是一个字符的**序列**，可以使用方括号操作符来访问字符串中单独的字符:

In [2]:
fruit = 'banana'
letter = fruit[1]
letter

'a'

方括号中的表达式称为**下标(index)** 。下标表示想要序列中的哪一个字符。在 Python 中，下标表示的是离字符串开头的偏移量，而第一个字母的偏移量是 0。所以 `'b'` 是 `'banana'` 的第0个字符，`'a'` 是第1个，`'n'` 是第 2 个。

可以使用包括变量和操作符的表达式作为下标，但下标的值必须是整数。

In [3]:
i = 2
fruit[2]

'n'

In [4]:
fruit[1.5]

TypeError: string indices must be integers

## len

`len` 是一个内置函数，返回字符串中字符的个数:

In [4]:
fruit = 'banana'
len(fruit)

6

不过注意，若想获得字符串的最后一个，下列想法是不行的:

In [5]:
length = len(fruit)
last = fruit[length]

IndexError: string index out of range

这是因为 'banana' 中没有下标为 6 的字母。因为我们是从 0 开始计算的，6 个字母的下标是 0，6 个字母的下标是 0 到 5.要获得最后一个字符，需要 `length` 里减 1:

In [12]:
last = fruit[length-1]
last

'a'

或者可以使用负数下标。负数下标从字符串结尾倒着放。表达式 `fruit[-1]` 返回最后一个字母，表达式 `fruit[-2]` 返回倒数第二个字母，依次类推。

In [13]:
fruit[-1]

'a'

In [14]:
fruit[-2]

'n'

## 使用for循环进行遍历

**遍历:** 迭代访问序列中的每一个元素，并对每个元素进行相似的操作。

编写遍历逻辑的方法之一是使用 `while` 循环:

In [15]:
index = 0
while index < len(fruit):
    letter = fruit[index]
    print(letter)
    index = index + 1

b
a
n
a
n
a


这个循环遍历字符串，并将每个字符显示在单独的一行。循环的结束条件是 `index<len(fruit)`，所以当index等于字符串的长度时，条件为假，循环体不被运行。最后访问的字符下标为 `len(fruit)-1`，正好是字符串最后一个字符。

编写遍历逻辑的另一个方式是使用 `for` 循环:

In [16]:
for letter in fruit:
    print(letter)

b
a
n
a
n
a


每次迭代之中，字符串中的下一个字符会被赋值给变量 `letter`。循环会继续直到没有剩余的字符为止。

## 字符串切片

字符串中的一段称为一个**切片**。选择一个切片和选择一个字符类似:

In [2]:
s = 'Monty Python'
s[0:5]

'Monty'

In [3]:
s[6:12]

'Python'

操作符 `[n:m]` 返回字符串从第 `n` 个字符到第 `m` 个字符的部分，包含第 `n` 个字符，但不包含第 `m` 个字符，拿数学类比一下，就是左闭右开。

如果省略掉第一个下标(冒号之前的那个)，切片会从字符串开头开始。如果省略掉第二个下标，切片会继续到字符串的结尾。

In [5]:
fruit = 'banana'
fruit[:3]

'ban'

In [6]:
fruit[3:]

'ana'

如果第一个下标大于或等于第二个下标，则结果是空字符串，用两个引号表示:

In [8]:
fruit = 'banana'
fruit[3:3]

''

空字符串不包含任何字符，长度为 0，但除此以外，它和其他字符串一样。

如果只输入一个冒号不输入任何字符，则会输出整个字符串

In [12]:
fruit = 'banana'
fruit[:]

'banana'

0 代表第 0 个字符，而 -1 代表最后一个字符，-2 代表倒数第二个字符，以此类推

In [13]:
fruit='banana'
fruit[-4:-1]

'nan'

还可以将非负数和负数一起放在切片中

In [14]:
fruit='banana'
fruit[1:-1]

'anan'

## 字符串是不可变的

若想要修改字符串的某个字符，尝试采用以下方法:

In [15]:
greeting = 'Hello,world!'
greeting[0] = 'J'

TypeError: 'str' object does not support item assignment

这个例子里的"对象"是字符串，而"项"指想要赋值的那个字符。就现在来说，一个**对象**和值是差不多的东西。

这个错误产生的原因是字符串是**不可变**的，也就是说，不能修改一个已经存在的字符串。

## 搜索

In [17]:
def find(word,letter):
    index = 0
    while index <len(word):
        if word[index] == letter:
            return index
        index = index + 1
    return -1

`find()` 函数根据一个字符查找其出现在字符串中的下标。如果没有找到字符，函数返回 -1。

从函数中可以看到，在循环内部出现了 `return` 语句。如果 `word[index]==letter`，函数直接跳出循环并立即返回。如果字符没有出现在字符串中，程序正常退出循环，并返回 -1。

**遍历一个序列，并当找到我们寻找的目标时返回这种计算模式，称之为搜索。**

## 循环和计数

In [18]:
word = 'banana'
count = 0
for letter in word:
    if letter in word:
        if letter =='a':
            count = count + 1
print(count)

3


这个程序展示了另一种计算模式，称为**计数器**。变量 `count` 初始化为 0，接着每次找到一个 `a` 时计数器加1。当循环结束时，`count` 保存着结果————`a` 出现的总次数。

## 字符串方法

**字符串提供了很多完成各种操作的有用的方法。方法**和函数很相似————它接收形参并返回值————但语法有所不同。我们以方法 `upper()` 为例

和函数的语法 `upper(word)` 不同，它使用方法的调用语法 `word.upper()`。

In [19]:
word = 'banana'
new_word = word.upper()
new_word

'BANANA'

这种句点表示法指定了方法的名称，以及方法应用到的字符串的名称 `word`。空的括号表示这个方法没有任何参数。

方法的调用称为 `invocation`；在这个例子里，我们说我们在 `word` 字符串上调用方法 `upper`。

我们上面写了 `find` 函数，不过字符串本身就有一个方法`find`:

In [21]:
word = 'banana'
index = word.find('a')
index

1

`find` 方法更加通用，它可以用来查找字符串，而不仅仅是字符:

In [26]:
word.find('na')

2

默认情况下，`find` 在字符串的开始启动，但它还可以接受第二个实参，表示从哪一个下标开始查找:

In [25]:
word.find('na',3)

4

`find` 还可以接收第三个实参，表示查找到哪个下标就结束:

In [27]:
name = 'bob'
name.find('b',1,2)

-1

这个搜索失败，因为 `'b'` 并没有在字符串的下标 1 到 2 之间(不包括 2)出现。`find` 在搜索时只搜索到第二个(但不包括第二个)下标为止，这使 `find()` 和切片操作符的行为一致。

## 操作符in

`in` 是一个布尔操作符，操作于两个字符串上，如果第一个是第二个的子串，则返回 `True`，否则返回 `False`:

In [28]:
'a' in 'banana'

True

In [29]:
'seed' in 'banana'

False

例如下面的函数打印出 `word1` 中出现且出现在 `word2` 中的所有字母:

In [30]:
def in_both(word1,word2):
    for letter in word1:
        if letter in word2:
            print(letter)

下面是用这个函数比较单词 `apples` 和 `oranges` 的结果:

In [31]:
in_both('apples','oranges')

a
e
s


## 字符串比较

关系操作符也可以用在字符串上。例如，可以检查两个字符串是否相等:

In [32]:
if word=='banana':
    print('All right,bananas.')

All right,bananas.


其他的关系操作符在将单词按照字符顺序比较时有用:

In [34]:
word = 'Pineapple'
if word<'banana':
    print('Your word,'+word+',comes before banana.')
elif word>'banana':
    print('Your word,'+word+',comes after banana.')
else:
    print('All right,bananas.')

Your word,Pineapple,comes before banana.


Python 处理大小写字母时和人处理时不一样。所有的大写字母都在小写字母之前。因此，遇到这种情况时，常用的办法是先将字符串都转换为标准的形式，如都转换成全小写字母的形式，再进行比较。

## 调试

当使用下标来遍历序列中的值时，要正确实现遍历的开端和结尾并不容易。下面是一个函数，能够比较两个单词，如果它们互为倒序，则返回 `True`，但这个函数包含了两个错误

In [3]:
def is_reverse(word1,word2):
    if len(word1) != len(word2):
        return False
    
    i = 0
    j = len(word2)
    
    while j>0:
        if word1[i] != word2[j]:
            return False
        i = i+1
        j = j-1
    return True

第一个 `if` 语句检查两个单词是否长度相同。如果不同，就立刻返回 `False`,否则在后面整个函数中，都可以认为两个单词是相同长度的。这是之前降到的守卫模式的一个实例。

`i` 和 `j` 是下标: `i` 用于正向遍历 `word1`，而j用于反向遍历 `word2`。如果我们找到两个不匹配的字母，则可以立刻返回 `False`。如果完成整个循环后所有的字母仍然都相等，返回 `True`。

如果使用单词 `"pots"` 和 `"stop"` 来测试这个函数，我们会预期返回值是 `True`，但实际上会得到一个 `IndexError`:

In [4]:
is_reverse('pots','stop')

IndexError: string index out of range

为了调试这类错误，第一步可以在发生错误的哪行代码之前打出索引的值

In [7]:
def is_reverse(word1,word2):
    if len(word1) != len(word2):
        return False
    
    i = 0
    j = len(word2)
    
    while j>0:
        print(i,j)
        if word1[i] != word2[j]:
            return False
        i = i+1
        j = j-1
    return True

In [8]:
is_reverse('pots','stop')

0 4


IndexError: string index out of range

因此可以发现，第一次迭代时，`j` 的值是 4，超出了 `'pots'` 的范围。最后一个字符的下标是3，所以 `j` 的初始值应该是 `len(word2)-1`。

修改这个错误并重新运行程序，可以得到

In [9]:
def is_reverse(word1,word2):
    if len(word1) != len(word2):
        return False
    
    i = 0
    j = len(word2)-1
    
    while j>0:
        print(i,j)
        if word1[i] != word2[j]:
            return False
        i = i+1
        j = j-1
    return True

In [10]:
is_reverse('pots','stop')

0 3
1 2
2 1


True

不过，字符长度为 4，但循环看起来只进行了 3 次。为了对具体发生了什么有更清晰的印象，可以画一个状态图。第一个迭代中，`is_reverse` 的帧显示如下:

<img src='figures/状态图8-1.jpg'>

在纸上画出每一步后，可得到，当 `i` 为 3 时，`j` 为 0，此时还应进行一次循环，但由于条件是 `j>0` 时进行循环，因此在 `j=0` 时跳出循环，因此我们需要修改循环条件

In [11]:
def is_reverse(word1,word2):
    if len(word1) != len(word2):
        return False
    
    i = 0
    j = len(word2)-1
    
    while j>=0:
        print(i,j)
        if word1[i] != word2[j]:
            return False
        i = i+1
        j = j-1
    return True

In [12]:
is_reverse('pots','stop')

0 3
1 2
2 1
3 0


True