<!--BOOK_INFORMATION-->
<img align="left" style="padding-right:10px;" src="fig/cover-small.jpg">

*本文摘自 Jake VanderPlas 的 [Python 之旅](http://www.oreilly.com/programming/free/a-whirlwind-tour-of-python.csp )；内容可在 [GitHub](https://github.com/jakevdp/WhirlwindTourOfPython) 上找到。*

*文本和代码根据 [CC0](https://github.com/jakevdp/WhirlwindTourOfPython/blob/master/LICENSE) 许可证发布；另请参阅配套项目，[Python 数据科学手册](https://github.com/jakevdp/PythonDataScienceHandbook)。*

*中文翻译由 [ZhangCongke](https://ckeyzhang.github.io/) 提供，项目可在 [GitHub](https://github.com/CKeyZhang/WhirlwindTourOfPython-CN) 上找到。*


<!--NAVIGATION-->
< [模块和包](13-Modules-and-Packages.ipynb) | [目录](Index.ipynb) | [数据科学工具预览](15-Preview-of-Data-Science-Tools.ipynb) >

# 字符串操作与正则表达式

Python 在字符串操作方面表现出色，是语言的一大亮点。
本节将介绍 Python 的一些内置字符串方法和格式化操作，然后快速浏览正则表达式这一极具实用性的主题。
在数据科学工作中，这类字符串操作模式经常出现，这也是 Python 在此背景下的一个大优势。

在 Python 中，字符串可以用单引号或双引号定义（它们的功能是等价的）：

In [63]:
x = 'a string'
y = "a string"
x == y

True

此外，还可以使用三引号语法定义多行字符串：

In [64]:
multiline = """
one
two
three
"""

有了这些，让我们快速浏览一下 Python 的一些字符串操作工具。

## Python 中的简单字符串操作

对于基本的字符串操作，Python 的内置字符串方法非常方便。
如果你有在 C 或其他低级语言中工作的背景，你会发现 Python 方法的简洁性令人耳目一新。
我们之前已经介绍了 Python 的字符串类型和其中一些方法；这里我们将深入探讨。

### 格式化字符串：调整大小写

Python 让调整字符串的大小写变得非常容易。
这里我们将查看 ``upper()``, ``lower()``, ``capitalize()``, ``title()`` 和 ``swapcase()`` 方法，以以下杂乱的字符串为例：

In [65]:
fox = "tHe qUICk bROWn fOx."

要将整个字符串转换为大写或小写，可以分别使用 ``upper()`` 或 ``lower()`` 方法：

In [66]:
fox.upper()

'THE QUICK BROWN FOX.'

In [67]:
fox.lower()

'the quick brown fox.'

一个常见的格式化需求是仅将每个单词或每个句子的首字母大写。
这可以通过 ``title()`` 和 ``capitalize()`` 方法实现：

In [68]:
fox.title()

'The Quick Brown Fox.'

In [69]:
fox.capitalize()

'The quick brown fox.'

可以使用 ``swapcase()`` 方法交换大小写：

In [70]:
fox.swapcase()

'ThE QuicK BrowN FoX.'

### 格式化字符串：添加和删除空格

另一个常见需求是从字符串的开头或结尾移除空格（或其他字符）。
移除字符的基本方法是 ``strip()`` 方法，它从行的开头和结尾移除空白：

In [71]:
line = '         this is the content         '
line.strip()

'this is the content'

要仅移除右侧或左侧的空格，可以分别使用 ``rstrip()`` 或 ``lstrip()``：

In [72]:
line.rstrip()

'         this is the content'

In [73]:
line.lstrip()

'this is the content         '

要移除空格以外的字符，可以将所需字符传递给 ``strip()`` 方法：

In [74]:
num = "000000000000435"
num.strip('0')

'435'

与移除操作相反，添加空格或其他字符的操作可以通过 ``center()``, ``ljust()``, 和 ``rjust()`` 方法完成。

例如，我们可以使用 ``center()`` 方法将给定字符串居中放置在指定数量的空格内：

In [75]:
line = "this is the content"
line.center(30)

'     this is the content      '

同样，``ljust()`` 和 ``rjust()`` 将分别左对齐或右对齐字符串，填充指定长度的空格：

In [76]:
line.ljust(30)

'this is the content           '

In [77]:
line.rjust(30)

'           this is the content'

所有这些方法还可以接受任何字符，用于填充空格。
例如：

In [78]:
'435'.rjust(10, '0')

'0000000435'

由于零填充是一个常见需求，Python 还提供了 ``zfill()``，这是一个特殊的用于右填充字符串的零的方法：

In [79]:
'435'.zfill(10)

'0000000435'

### 查找和替换子字符串

如果你想在字符串中查找某个特定字符的出现位置，``find()``/``rfind()``, ``index()``/``rindex()``, 和 ``replace()`` 方法是最好的内置方法。

``find()`` 和 ``index()`` 非常相似，它们搜索字符串中第一个出现的字符或子字符串，并返回子字符串的索引：

In [80]:
line = 'the quick brown fox jumped over a lazy dog'
line.find('fox')

16

In [81]:
line.index('fox')

16

``find()`` 和 ``index()`` 的唯一区别在于它们在未找到搜索字符串时的行为；``find()`` 返回 ``-1``，而 ``index()`` 抛出一个 ``ValueError``：

In [82]:
line.find('bear')

-1

In [83]:
line.index('bear')

ValueError: substring not found

相关的 ``rfind()`` 和 ``rindex()`` 方法类似，但它们是从字符串的末尾而不是开头开始搜索第一个出现的位置：

In [84]:
line.rfind('a')

35

对于检查子字符串是否出现在字符串开头或结尾的特殊情况，Python 提供了 ``startswith()`` 和 ``endswith()`` 方法：

In [85]:
line.endswith('dog')

True

In [86]:
line.startswith('fox')

False

要进一步替换给定的子字符串，可以使用 ``replace()`` 方法。
这里，我们将 ``'brown'`` 替换为 ``'red'``：

In [87]:
line.replace('brown', 'red')

'the quick red fox jumped over a lazy dog'

``replace()`` 函数返回一个新字符串，并且会替换所有出现的输入：

In [88]:
line.replace('o', '--')

'the quick br--wn f--x jumped --ver a lazy d--g'

对于更灵活的 ``replace()`` 功能，请参阅 [正则表达式的灵活模式匹配](#Flexible-Pattern-Matching-with-Regular-Expressions) 中的讨论。

### 分割和划分字符串

如果你希望找到一个子字符串 *并* 根据其位置分割字符串，那么 ``partition()`` 和/或 ``split()`` 方法正是你需要的。
两者都会返回子字符串序列。

``partition()`` 方法返回一个包含三个元素的元组：分割点之前的子字符串、分割点本身以及分割点之后的子字符串：

In [89]:
line.partition('fox')

('the quick brown ', 'fox', ' jumped over a lazy dog')

``rpartition()`` 方法类似，但会从字符串的末尾开始搜索。

``split()`` 方法或许更有用；它会找到 *所有* 分割点的实例，并返回分割点之间的子字符串。
默认情况下，它会在任何空白处分割，返回字符串中各个单词的列表：

In [90]:
line.split()

['the', 'quick', 'brown', 'fox', 'jumped', 'over', 'a', 'lazy', 'dog']

一个相关的方法是 ``splitlines()``，它会在换行符处分割。
让我们用一首俳句来演示一下，这首俳句通常被归功于 17 世纪的诗人松尾芭蕉：

In [91]:
haiku = """matsushima-ya
aah matsushima-ya
matsushima-ya"""

haiku.splitlines()

['matsushima-ya', 'aah matsushima-ya', 'matsushima-ya']

请注意，如果你希望撤销 ``split()`` 的操作，可以使用 ``join()`` 方法，它会根据分割点和可迭代对象构建一个字符串：

In [92]:
'--'.join(['1', '2', '3'])

'1--2--3'

一个常见的模式是使用特殊字符 ``"\n"``（换行符）将之前分割的行重新连接起来，恢复输入：

In [93]:
print("\n".join(['matsushima-ya', 'aah matsushima-ya', 'matsushima-ya']))

matsushima-ya
aah matsushima-ya
matsushima-ya


## 格式化字符串

在前面的方法中，我们已经了解了如何从字符串中提取值，以及如何将字符串本身格式化为所需格式。
当然，可以使用 ``str()`` 函数找到任何其他类型值的字符串表示形式；例如：

In [94]:
pi = 3.14159
str(pi)

'3.14159'

对于更复杂的格式，你可能会被引诱使用字符串运算，如在 [基本 Python 语义：运算符](04-Semantics-Operators.ipynb) 中介绍的：

In [95]:
"The value of pi is " + str(pi)

'The value of pi is 3.14159'

更灵活的方法是使用 *格式化字符串*，这些字符串是带有特殊标记（由花括号表示）的字符串，字符串格式化的值将被插入其中。
这里是一个基本示例：

In [96]:
"The value of pi is {}".format(pi)

'The value of pi is 3.14159'

在 ``{}`` 标记内，你还可以包含确切的 *内容*，你希望在那里出现。
如果你包含一个数字，它将引用要插入的参数的索引：

In [97]:
"""First letter: {0}. Last letter: {1}.""".format('A', 'Z')

'First letter: A. Last letter: Z.'

如果你包含一个字符串，它将引用任何关键字参数的键：

In [98]:
"""First letter: {first}. Last letter: {last}.""".format(last='Z', first='A')

'First letter: A. Last letter: Z.'

最后，对于数值输入，你可以在其中包含格式代码，这些代码控制值如何转换为字符串。
例如，要以浮点数格式打印一个数字，并保留小数点后三位数字，可以使用以下方法：

In [99]:
"pi = {0:.3f}".format(pi)

'pi = 3.142'

正如前面提到的，这里的 "``0``" 引用了要插入的值的索引。
"``:``" 表示格式代码将紧随其后。
"``.3f``" 编码了所需的精度：小数点后三位数字，浮点数格式。

这种格式化字符串的语法非常灵活，这里的示例只是触及了可用格式化选项的表面。
有关这些格式化字符串语法的更多信息，请参阅 Python 在线文档的 [格式说明](https://docs.python.org/3/library/string.html#formatspec) 部分。

## 使用正则表达式进行灵活的模式匹配

Python 的 ``str`` 类型的方法为你提供了格式化、分割和操作字符串数据的强大工具集。
但是，Python 内置的 *正则表达式* 模块提供了更强大的工具。
正则表达式是一个庞大主题；有整整几本书都是关于这个主题的（包括 Jeffrey E.F. Friedl 的 [*精通正则表达式，第 3 版*](http://shop.oreilly.com/product/9780596528126.do)），因此很难在短短一个小节中讲清楚。

我的目标是让你了解可以用正则表达式解决的问题类型，以及如何在 Python 中使用它们。
我将在 [正则表达式的进一步资源](#Further-Resources-on-Regular-Expressions) 中建议一些参考资料，供你进一步学习。

从根本上说，正则表达式是一种用于字符串中 *灵活模式匹配* 的方法。
如果你经常使用命令行，你可能熟悉这种使用 "``*``" 字符的灵活匹配方式，它充当通配符。
例如，我们可以使用 "``*``" 通配符匹配任意字符，列出所有包含 "Python" 的 IPython 笔记本文件（即扩展名为 *.ipynb* 的文件）：

In [100]:
# 若你使用Windows，请使用dir命令
!dir *Python*.ipynb /B

# 若你使用Linux或OS X，请使用ls命令
# !ls *Python*.ipynb

01-How-to-Run-Python-Code.ipynb
02-Basic-Python-Syntax.ipynb


正则表达式将这种 "通配符" 思想推广到一系列灵活的字符串匹配语法。
Python 的正则表达式接口包含在内置的 ``re`` 模块中；作为一个简单示例，让我们使用它来复制字符串 ``split()`` 方法的功能：

In [101]:
import re
regex = re.compile('\s+')
regex.split(line)

['the', 'quick', 'brown', 'fox', 'jumped', 'over', 'a', 'lazy', 'dog']

这里我们首先 *编译* 了一个正则表达式，然后使用它来 *分割* 一个字符串。
正如 Python 的 ``split()`` 方法返回一个在空白处的子字符串列表一样，正则表达式的 ``split()`` 方法返回一个在输入模式匹配处的子字符串列表。

在这种情况下，输入是 ``"\s+"``："``\s``" 是一个特殊字符，匹配任何空白（空格、制表符、换行符等），而 "``+``" 是一个字符，表示 *一个或多个* 前面的实体。

因此，正则表达式匹配由一个或多个空格组成的任意子字符串。

这里的 ``split()`` 方法基本上是一个基于 *模式匹配* 行为的便捷例程；更基本的是 ``match()`` 方法，它会告诉你字符串的开头是否匹配模式：

In [102]:
for s in ["     ", "abc  ", "  abc"]:
    if regex.match(s):
        print(repr(s), "matches")
    else:
        print(repr(s), "does not match")

'     ' matches
'abc  ' does not match
'  abc' matches


像 ``split()`` 一样，还有类似的便捷例程用于查找第一个匹配项（类似于 ``str.index()`` 或 ``str.find()``）或查找和替换（类似于 ``str.replace()``）。
我们再次使用之前的那行：

In [103]:
line = 'the quick brown fox jumped over a lazy dog'

有了这个，我们可以看到 ``regex.search()`` 方法的行为与 ``str.index()`` 或 ``str.find()`` 非常相似：

In [104]:
line.index('fox')

16

In [105]:
regex = re.compile('fox')
match = regex.search(line)
match.start()

16

同样，``regex.sub()`` 方法的行为与 ``str.replace()`` 非常相似：

In [106]:
line.replace('fox', 'BEAR')

'the quick brown BEAR jumped over a lazy dog'

In [107]:
regex.sub('BEAR', line)

'the quick brown BEAR jumped over a lazy dog'

稍加思考后，其他原生字符串操作也可以用正则表达式表示。

### 一个更复杂的示例

但是，你可能会问，为什么你会想使用更复杂且冗长的正则表达式语法，而不是更直观、更简单的字符串方法呢？
优势在于正则表达式提供了 *远* 更多的灵活性。

这里我们将考虑一个更复杂的示例：匹配电子邮件地址这一常见任务。
我将首先简单地写出一个（有些难以理解的）正则表达式，然后逐步解释它是如何工作的。
让我们开始吧：

In [108]:
email = re.compile('\w+@\w+\.[a-z]{3}')

使用这个正则表达式，如果我们从文档中得到一行，我们可以快速提取看起来像电子邮件地址的内容。

In [109]:
text = "To email Guido, try guido@python.org or the older address guido@google.com."
email.findall(text)

['guido@python.org', 'guido@google.com']

（请注意，这些地址是完全虚构的；可能还有更好的方法与 Guido 取得联系）。

我们还可以进行进一步的操作，比如将这些电子邮件地址替换为另一个字符串，也许是为了隐藏输出中的地址：

In [110]:
email.sub('--@--.--', text)

'To email Guido, try --@--.-- or the older address --@--.--.'

最后，请注意，如果你真的想匹配 *任何* 有效的电子邮件地址，前面的正则表达式过于简单。
例如，它只允许由字母数字字符组成的地址，并且以几个常见的域名后缀结尾。
因此，例如，这里使用的点号意味着我们只能找到部分地址：

In [111]:
email.findall('barack.obama@whitehouse.gov')

['obama@whitehouse.gov']

这表明正则表达式如果使用不当，可能会非常严格！
如果你在网上搜索，可以找到一些建议的正则表达式，用于匹配 *所有* 有效的电子邮件地址，但请注意：它们比这里使用的简单表达式要复杂得多！

### 正则表达式语法基础

正则表达式的语法是一个非常大的主题，本小节无法涵盖。
尽管如此，对一些基础知识的了解可以让你有效地使用这些资源。
我希望以下快速入门能让你有效地使用这些资源。

#### 简单字符串直接匹配

如果你用简单的字符或数字字符串构建正则表达式，它将直接匹配那个确切的字符串：

In [112]:
regex = re.compile('ion')
regex.findall('Great Expectations')

['ion']

#### 某些字符具有特殊含义

尽管简单的字母或数字是直接匹配的，但有一些字符在正则表达式中具有特殊含义。它们是：
```
. ^ $ * + ? { } [ ] \ | ( )
```
我们稍后会讨论其中一些的含义。
与此同时，如果你希望直接匹配这些特殊字符中的任何一个，可以使用反斜杠 *转义* 它们：

In [113]:
regex = re.compile(r'\$')
regex.findall("the cost is $20")

['$']

这里的 ``r`` 前缀在 ``r'\$'`` 中表示一个 *原始字符串*；在标准 Python 字符串中，反斜杠用于表示特殊字符。
例如，制表符用 ``"\t"`` 表示：

In [114]:
print('a\tb\tc')

a	b	c


在原始字符串中不会进行这样的替换：

In [115]:
print(r'a\tb\tc')

a\tb\tc


因此，每当在正则表达式中使用反斜杠时，使用原始字符串是一个好习惯。

#### 特殊字符可以匹配字符组

正如 ``"\"`` 字符在正则表达式中可以转义特殊字符，使其变成普通字符一样，它也可以用来给普通字符赋予特殊含义。
这些特殊字符匹配指定的字符组，我们之前已经见过。
在前面的电子邮件地址正则表达式中，我们使用了字符 ``"\w"``，这是一个特殊标记，匹配 *任何字母数字字符*。同样，在简单的 ``split()`` 示例中，我们也看到了 ``"\s"``，这是一个特殊标记，表示 *任何空白字符*。

将这些组合起来，我们可以创建一个正则表达式，匹配 *任意两个字母/数字之间有空白的字符串*：

In [116]:
regex = re.compile(r'\w\s\w')
regex.findall('the fox is 9 years old')

['e f', 'x i', 's 9', 's o']

这个示例开始暗示正则表达式的强大和灵活性。

下表列出了一些常用的特殊字符：

| 字符       | 描述                     | 字符       | 描述                         |
|------------|--------------------------|------------|------------------------------|
| ``"\d"``   | 匹配任何数字             | ``"\D"``   | 匹配任何非数字               |
| ``"\s"``   | 匹配任何空白字符         | ``"\S"``   | 匹配任何非空白字符           |
| ``"\w"``   | 匹配任何字母数字字符     | ``"\W"``   | 匹配任何非字母数字字符       |

这不是一个完整的列表或描述；有关更多详细信息，请参阅 Python 的 [正则表达式语法文档](https://docs.python.org/3/library/re.html#re-syntax)。

#### 方括号匹配自定义字符组

如果内置的字符组还不够具体，你可以使用方括号指定任何你感兴趣的字符集。
例如，以下将匹配任何小写元音：

In [117]:
regex = re.compile('[aeiou]')
regex.split('consequential')

['c', 'ns', 'q', '', 'nt', '', 'l']

同样，你可以使用破折号指定范围：例如，``"[a-z]"`` 将匹配任何小写字母，而 ``"[1-3]"`` 将匹配 ``"1"``、``"2"`` 或 ``"3"``。
例如，你可能需要从文档中提取特定的数字代码，这些代码由一个大写字母后跟一个数字组成。你可以这样操作：

In [118]:
regex = re.compile('[A-Z][0-9]')
regex.findall('1043879, G2, H6')

['G2', 'H6']

#### 通配符匹配重复字符

如果你希望匹配一个包含，比如说，三个连续字母数字字符的字符串，可以写成 ``"\w\w\w"``。
因为这是一个非常常见的需求，所以有一个特定的语法来匹配重复项——带有数字的大括号：

In [119]:
regex = re.compile(r'\w{3}')
regex.findall('The quick brown fox')

['The', 'qui', 'bro', 'fox']

还有一个标记可用于匹配任意数量的重复项——例如，``"+"`` 字符将匹配前面内容的 *一个或多个* 重复项：

In [120]:
regex = re.compile(r'\w+')
regex.findall('The quick brown fox')

['The', 'quick', 'brown', 'fox']

下表列出了正则表达式中可用的重复标记：

| 字符 | 描述 | 示例 |
|-----------|-------------|---------|
| ``?`` | 匹配前面内容的零次或一次重复 | ``"ab?"`` 匹配 ``"a"`` 或 ``"ab"`` |
| ``*`` | 匹配前面内容的零次或多次重复 | ``"ab*"`` 匹配 ``"a"``、``"ab"``、``"abb"``、``"abbb"``... |
| ``+`` | 匹配前面内容的一次或多次重复 | ``"ab+"`` 匹配 ``"ab"``、``"abb"``、``"abbb"``... 但不匹配 ``"a"`` |
| ``{n}`` | 匹配前面内容的 ``n`` 次重复 | ``"ab{2}"`` 匹配 ``"abb"`` |
| ``{m,n}`` | 匹配前面内容的 ``m`` 到 ``n`` 次重复 | ``"ab{2,3}"`` 匹配 ``"abb"`` 或 ``"abbb"`` |

了解这些基础知识后，让我们回到电子邮件地址匹配器：

In [121]:
email = re.compile(r'\w+@\w+\.[a-z]{3}')

我们现在可以理解它的含义：我们希望有一个或多个字母数字字符（``"\w+"``），后面跟着一个 *at 符号*（``"@"``），后面跟着一个或多个字母数字字符（``"\w+"``），后面跟着一个点（``"\."``——注意需要反斜杠转义），后面跟着正好三个小写字母。

如果我们希望修改它，以便奥巴马的电子邮件地址能够匹配，可以使用方括号表示法：

In [122]:
email2 = re.compile(r'[\w.]+@\w+\.[a-z]{3}')
email2.findall('barack.obama@whitehouse.gov')

['barack.obama@whitehouse.gov']

我们将 ``"\w+"`` 改为 ``"[\w.]+"``，因此我们将匹配任何字母数字字符 *或* 一个点。
通过这种更灵活的表达式，我们可以匹配更广泛的电子邮件地址（尽管仍然不是全部——你能识别出这个表达式的其他不足之处吗？）。

#### 括号表示 *提取组*

对于像我们的电子邮件匹配器这样的复合正则表达式，我们通常希望提取它们的组成部分，而不是完整的匹配项。这可以通过使用括号来 *分组* 结果来完成：

In [123]:
email3 = re.compile(r'([\w.]+)@(\w+)\.([a-z]{3})')

In [124]:
text = "To email Guido, try guido@python.org or the older address guido@google.com."
email3.findall(text)

[('guido', 'python', 'org'), ('guido', 'google', 'com')]

正如我们所见，这种分组实际上提取了电子邮件地址的子组件列表。

我们可以更进一步，使用 ``"(?P<name> )"`` 语法 *命名* 提取的组件，这样就可以将组作为 Python 字典提取：

In [125]:
email4 = re.compile(r'(?P<user>[\w.]+)@(?P<domain>\w+)\.(?P<suffix>[a-z]{3})')
match = email4.match('guido@python.org')
match.groupdict()

{'user': 'guido', 'domain': 'python', 'suffix': 'org'}

结合这些想法（以及我们这里没有涵盖的一些强大的正则表达式语法），可以让你灵活且快速地在 Python 中提取字符串信息。

### 正则表达式的进一步资源

上述讨论只是一个非常简短（而且远非完整）的介绍。
如果你还想了解更多，我建议以下资源：

- [Python 的 ``re`` 模块文档](https://docs.python.org/3/library/re.html)：我发现每次使用正则表达式时都会忘记如何使用它们。现在我掌握了基础知识后，我发现这个页面是一个非常宝贵的资源，可以回忆正则表达式中每个特定字符或序列的含义。
- [Python 的官方正则表达式 HOWTO](https://docs.python.org/3/howto/regex.html)：一种更叙述性的方法，介绍 Python 中的正则表达式。
- [精通正则表达式（O'Reilly，2006）](http://shop.oreilly.com/product/9780596528126.do) 是一本 500 多页的书。如果你想对这个主题有一个完整的了解，这就是你的资源。

有关字符串操作和正则表达式在更大规模上的应用示例，请参阅 [Pandas：标记化的列式数据](15-Preview-of-Data-Science-Tools.ipynb#Pandas:-Labeled-Column-oriented-Data)，在那里我们查看了在 Pandas 包中对 *字符串数据表* 应用这些表达式。

<!--NAVIGATION-->
< [模块和包](13-Modules-and-Packages.ipynb) | [目录](Index.ipynb) | [数据科学工具预览](15-Preview-of-Data-Science-Tools.ipynb) >