# 字符串处理和正则表达式

Python 语言突出的一个特性是能对字符串的进行轻松的处理。
在本章中，我们将会涉及 Python 内置的字符串处理函数以及字符串格式化操作。之后我们将会简略地介绍一个非常实用的主题——*正则表达式 (regular expressions)*。
这种字符串处理的模式经常在数据科学的工作中出现，并且也是 Python 中非常活跃的一个主题。

Python 中的字符串可以用单引号或者双引号成对引用来定义（从功能上说这两种是等价的）：

In [1]:
x = 'a string'
y = "a string"
x == y

True

除此之外，也可以用三重引号来定义跨行字符串：

In [2]:
multiline = """
one
two
three
"""

有了这些作为基础，我们来快速浏览一下 Python 中对字符串进行操作的一些工具。

## Python 简易字符串操作

对于字符串的基础操作，Python 内置的字符串处理函数极其地方便。
如果你有一定的 C 语言或者其他低级语言的基础，你一定会觉得 Python 提供的这些函数非常简便。
我们已经介绍了 Python 的字符串类型和一些字符串函数，在这一节中我们将会更加深入地介绍字符串处理的函数。

### 字符串格式化：大小写转换

Python 可以很容易地调整字符串的大小写。
这里我们通过几个杂乱的例子来看一下 ``upper()``、``lower()``、``capitalize()``、``title()`` 和 ``swapcase()`` 这几个函数：

In [3]:
fox = "tHe qUICk bROWn fOx."

要将整个字符串转换为大写或者小写，你可以分别使用 ``upper()`` 和 ``lower()`` 函数：

In [4]:
fox.upper()

'THE QUICK BROWN FOX.'

In [5]:
fox.lower()

'the quick brown fox.'

一个常见格式化的需求是将字符串中每一个单词的首字母大写，或者每一个段落的首字母大写，这个时候你可以使用 ``title()`` 和 ``capitalize()`` 函数：

In [6]:
fox.title()

'The Quick Brown Fox.'

In [7]:
fox.capitalize()

'The quick brown fox.'

``swapcase()`` 函数可以将大小写颠倒：

In [8]:
fox.swapcase()

'ThE QuicK BrowN FoX.'

### 格式化字符串：添加和删除空格

另一个常见的需要是在字符串的头部或者尾部删除空格（或者其他字符）。
删除字符的基本方法是通过 ``strip()`` 函数，这个函数会将头部和尾部的空白字符删去：

In [9]:
line = '         this is the content         '
line.strip()

'this is the content'

如果只需要删除右边或者左边的空格，可以分别使用 ``rstrip()`` 或 ``lstrip()``：

In [10]:
line.rstrip()

'         this is the content'

In [11]:
line.lstrip()

'this is the content         '

如果要删除的不是空格而是其他字符，向 ``strip()`` 函数传递你需要删除的字符作为参数：

In [12]:
num = "000000000000435"
num.strip('0')

'435'

删除空格的反向操作可以通过 ``center()``、``ljust()`` 和 ``rjust()`` 三个函数实现。

举例来说，我们可以使用 ``center()`` 函数来以一定数量的空格中心对齐一个给定的字符串：

In [13]:
line = "this is the content"
line.center(30)

'     this is the content      '

类似地，``ljust()`` 和 ``rjust()`` 将会以一定长度的空格左对齐或者右对齐字符串：

In [14]:
line.ljust(30)

'this is the content           '

In [15]:
line.rjust(30)

'           this is the content'

除此以外，所有这些函数都支持以任意的字符填充空白。比如：

In [16]:
'435'.rjust(10, '0')

'0000000435'

因为填充 0 是一种常见需求，Python 也提供了 ``zfill()`` 函数。这个特殊的函数会在字符串左边填充一个全为“0”的字符串：

In [17]:
'435'.zfill(10)

'0000000435'

### 寻找和替换子字符串

如果你需要查找一个特定字符在一个字符串出现的次数，Python 内置的 ``find()``/``rfind()``、``index()``/``rindex()`` 和 ``replace()`` 是最好的选择。

``find()`` 和 ``index()`` 函数相似，他们都在一个字符串中搜索一个字符或者一个子串首次出现的情况，并且返回子串的索引：

In [18]:
line = 'the quick brown fox jumped over a lazy dog'
line.find('fox')

16

In [19]:
line.index('fox')

16

``find()`` 和 ``index()`` 唯一的区别是当要搜索的字符串不存在时这两个函数的行为不同。``find()`` 返回 ``-1``，而 ``index()`` 将会抛出一个 ``ValueError`` 异常：

In [20]:
line.find('bear')

-1

In [21]:
line.index('bear')

ValueError: substring not found

与之相关的 ``rfind()`` 和 ``rindex()`` 函数与上面两个函数类似的，它们会从字符串尾部开始搜索第一次出现的子串，而不是从头部：

In [22]:
line.rfind('a')

35

对于字符串开头或结尾的子串的检查的特殊情况，Python 提供了两个函数 ``startswith()`` 和 ``endswith()``：

In [23]:
line.endswith('dog')

True

In [24]:
line.startswith('fox')

False

进一步地，你可以使用 ``replace()`` 函数将一个给定的子串替换为另外一个。
在这里我们将 ``'brown'`` 替换为 ``'red'``：

In [25]:
line.replace('brown', 'red')

'the quick red fox jumped over a lazy dog'

``replace()`` 函数返回一个新的字符串，并且会替换输入中的所有出现的字符串：returns a new string, and will replace all occurrences of the input:

In [26]:
line.replace('o', '--')

'the quick br--wn f--x jumped --ver a lazy d--g'

对于 ``replace()`` 函数的更为灵活的用法，请参阅后面关于正则表达式的讨论：[使用正则表达式灵活地匹配字符串模式](#使用正则表达式灵活地匹配字符串模式)。

### 拆分和分割字符串

如果您需要寻找一个子串，**然后**在子串的位置进行字符串分割，``partition()`` 和/或 ``split()`` 函数是你需要寻找的解决方法、
这两个函数都会返回一个子串序列。

``partition()`` 函数返回一个三个元素的元祖：在待寻找的子串第一次出现的位置（拆分位置）之前的子字符串、拆分位置本身以及后面的子字符串：

In [27]:
line.partition('fox')

('the quick brown ', 'fox', ' jumped over a lazy dog')

``rpartition()`` 函数与之类似，但是是从右往左搜索字符串。

``split()`` 函数可能更加实用。这个函数寻找**所有**分割位置的实例并且返回它们之间的子串。
默认调用这个函数时它以任意空白字符作为分割的依据，返回一个包含字符串中的所有单词的列表：

In [28]:
line.split()

['the', 'quick', 'brown', 'fox', 'jumped', 'over', 'a', 'lazy', 'dog']

与之相关的一个函数是 ``splitlines()``，它对换行符进行分割。
让我们对 17 世纪著名的俳句诗人松尾芭蕉（Matsuo Bashō）的一首俳句进行分割：

In [29]:
haiku = """matsushima-ya
aah matsushima-ya
matsushima-ya"""

haiku.splitlines()

['matsushima-ya', 'aah matsushima-ya', 'matsushima-ya']

注意到，如果你希望撤销 ``split()`` 的结果，你可以使用 ``join()`` 函数，这个函数将返回一个由一个分割位置和一个可迭代对象组成的字符串：

In [30]:
'--'.join(['1', '2', '3'])

'1--2--3'

一个常见的模式是使用换行符 ``"\n"`` 来连接之前分割过的字符串，这样可以恢复原始输入：

In [31]:
print("\n".join(['matsushima-ya', 'aah matsushima-ya', 'matsushima-ya']))

matsushima-ya
aah matsushima-ya
matsushima-ya


## 字符串格式化

在对上述函数的讨论中，我们已经学会了如何从字符串中提取值，并对字符串进行操作，转换为需要的格式。
另外一个字符串函数的使用是对字符串其他类型的值的*表示 (representations)*进行操作。
当然，字符串表示总是可以通过 ``str()`` 函数建立，比如：

In [32]:
pi = 3.14159
str(pi)

'3.14159'

对于更加复杂的格式，你可以使用之前章节 [基础 Python 语法：运算符](04-Semantics-Operators.ipynb) 中概述过的字符串的算术运算符：

In [33]:
"The value of pi is " + str(pi)

'The value of pi is 3.14159'

一个更加灵活的方法是使用*格式化字符串 (format strings)*。这是由花括号表示的特殊标记组成的字符串，代表将要插入字符串格式化后的值。
这里有一个简单的例子：

In [34]:
"The value of pi is {}".format(pi)

'The value of pi is 3.14159'

在 ``{}`` 标记内部你也可以包括希望在那里出现的确切的信息。如果你包括了一个数字，它指向的是带插入的参数的索引：

In [35]:
"""First letter: {0}. Last letter: {1}.""".format('A', 'Z')

'First letter: A. Last letter: Z.'

如果你在大括号中包括了一个字符串，它会指向任何关键字参数的键：

In [36]:
"""First letter: {first}. Last letter: {last}.""".format(last='Z', first='A')

'First letter: A. Last letter: Z.'

最后，对于数字的输入，你可以包括格式化代码来控制数字转换为字符串的格式。
比如，打印一个小数点后保留 3 位的浮点数，你可以使用如下格式化字符串：

In [37]:
"pi = {0:.3f}".format(pi)

'pi = 3.142'

像之前讨论的那样，这里的“``0``”指的是将要插入的参数的索引。
“``:``”标记了后面将会跟着格式化代码。
“``.3f``”编码了需要的精度信息：小数点后保留 3 位小数的浮点数。

这种指明格式化的风格非常灵活，我们在这里举的例子还不足以介绍全部的字符串格式化的语法。对于更多信息，请查阅 Python 在线文档中[字符串格式化格式说明](https://docs.python.org/3/library/string.html#formatspec)一节。

## 使用正则表达式灵活地匹配字符串模式

Python 的 ``str`` 类型给你提供了一系列强大的字符串格式化、分割和操作字符串数据的函数。但是 Python 还有更强大的工具，这就是*正则表达式 (regular expression)* 模块。
正则表达式是一个很庞大的话题。有许多书整本都是围绕这个话题进行展开（比如 Jeffrey E.F. Friedl 的 [精通正则表达式 (OReilly, 2006)](http://shop.oreilly.com/product/9780596528126.do)），因此在短短一节内讲完全部的知识是非常困难的。
本节我的目标是介绍一些可以通过正则表达式解决的问题，以及一些如何在 Python 中解决它们的基本的方法。
在本章最后，我将为之后的学习提供一些参考资料，请参阅[关于正则表达式的更多资源](#关于正则表达式的更多资源)。

从根本上说，正则表达式是一种解决在字符串中进行灵活的模式匹配的方法。如果你经常使用命令行，你可能会对带“``*``”字符进行灵活的字符串匹配有印象。在这里“``*``”是一个*通配符 (wildcard)*。举例来说，我们可以列出所有文件名中带有 “Python” 的 IPython 记事本（即带有 *.ipynb* 扩展名的文件），这可以通过使用“``*``”通配符来匹配文件名中的其他字符：

In [38]:
!ls *Python*.ipynb

01-How-to-Run-Python-Code.ipynb 02-Basic-Python-Syntax.ipynb


正则表达式扩展了“通配符”这一个概念，形成了一套更广泛的灵活字符串匹配的语法。
Python 支持正则表达式的接口存在在内置的 ``re`` 模块中。我们首先来举一个简单的例子，这个例子实现了和字符串 ``split()`` 函数相同的功能：

In [39]:
import re
regex = re.compile('\s+')
regex.split(line)

['the', 'quick', 'brown', 'fox', 'jumped', 'over', 'a', 'lazy', 'dog']

在这里，我们首先*编译 (compile)* 了一个正则表达式，然后用它来分割字符串。
和 Python 的 ``split()`` 函数一样，它返回了一个包含所有空格之间的子串的列表，正则表达式的 ``split()`` 函数返回了一个包含所有匹配给定输入模式串的子串的列表。

在这个例子中，输入串是 ``"\s+"``：其中“``\s``”是一个特殊的字符，它匹配了所有空白字符（包含空格、TAB、换行符等等），“``+``”指明了在它前面的实体出现**一次或多次**。
因此，上述正则表达式匹配了任何包含一个或多个空格的子串。

在这里 ``split()`` 函数基本上是一个基于这种*模式匹配 (pattern matching)*行为的简便函数。更加基础的则是 ``match()`` 函数，这个函数会告诉你一个字符串的开头是否匹配了模式串：

In [40]:
for s in ["     ", "abc  ", "  abc"]:
    if regex.match(s):
        print(repr(s), "matches")
    else:
        print(repr(s), "does not match")

("'     '", 'matches')
("'abc  '", 'does not match')
("'  abc'", 'matches')


像 ``split()`` 一样，Python 有类似的方便的函数来寻找首次匹配（类似 ``str.index()`` 或 ``str.find()``）或者寻找后匹配（类似 ``str.replace()``）。
我们会再次使用之前用过的这行字符串：

In [41]:
line = 'the quick brown fox jumped over a lazy dog'

有了这行字符串，我们可以来看看 ``regex.search()`` 函数的行为非常像 ``str.index()`` 或 ``str.find()`` 函数：

In [42]:
line.index('fox')

16

In [43]:
regex = re.compile('fox')
match = regex.search(line)
match.start()

16

类似地，``regex.sub()`` 函数的行为很像 ``str.replace()``：

In [44]:
line.replace('fox', 'BEAR')

'the quick brown BEAR jumped over a lazy dog'

In [45]:
regex.sub('BEAR', line)

'the quick brown BEAR jumped over a lazy dog'

你可能会有一点这样的想法：其他简单的字符串操作也可以转换为正则表达式进行操作。

### 一个更加复杂的操作

但是，你可能会稳，为什么要用这种相对来说更复杂、更啰嗦的正则表达式语法，而不是用更符合直觉、更简单的字符串操作呢？
正则表达式的优点是它提供的**远不止**灵活性这么简单。

这里我们将会再考虑一个更加复杂的例子：一个非常常见的任务——匹配电子邮件地址。
我将从粗暴地写一个难以理解的正则表达式开始，然后一步一步地理解其中的内涵。这个复杂的表达式如下：

In [46]:
email = re.compile('\w+@\w+\.[a-z]{3}')

如果从文档中有一行文字，那么你可以使用这个正则表达式迅速提取看上去像电子邮件地址的内容：

In [47]:
text = "To email Guido, try guido@python.org or the older address guido@google.com."
email.findall(text)

['guido@python.org', 'guido@google.com']

（请注意，这些地址完全是瞎编的。也许有更好的方法与 Guido 取得联系……）

我们可以进一步做更多的操作，比如将这些电子邮件地址替换为其他的字符串，可以达到在输出中隐藏地址，保护个人信息的作用：

In [48]:
email.sub('--@--.--', text)

'To email Guido, try --@--.-- or the older address --@--.--.'

最后，请注意，如果你真的需要匹配**任意**电子邮件地址，之前这个正则表达式太过于简单了。比如，它只允许由数字和字母组成的地址，并且要求以常见的几个域名后缀结尾。因此，举例来说，我们目前使用的时候只是意味着我们暂时只能找到符合要求地址的一部分：

In [49]:
email.findall('barack.obama@whitehouse.gov')

['obama@whitehouse.gov']

这个例子表明如果你不小心的话，一个错误的正则表达式将带来不可饶恕的错误！如果你在互联网上进行查找，你会找到不少匹配**全部**合法电子邮件地址的正则表达式的建议，但是需要小心：他们比这里用到的例子要复杂太多！

### 正则表达式语法基础

正则表达式的语法比本节讨论的要复杂许多。我仍然认为熟悉一部分能够给今后的学习打下基础。因此我将在这里介绍一些基本的结构，然后列出一些更完整的资源，从中你可以了解更多信息。我希望下面的这个初学者入门指引能使你高效地利用这些资源。

#### 简单的字符串直接匹配

如果你直接用简单的字母或者数字构建正则表达式的话，它会直接精确匹配对应的字符串：

In [50]:
regex = re.compile('ion')
regex.findall('Great Expectations')

['ion']

#### 一些字符有特殊含义

尽管一些字符或者数字是直接匹配的，有一些字符在正则表达式里是有特殊含义的。它们是：
```
. ^ $ * + ? { } [ ] \ | ( )
```
我们马上会开始讨论其中一些字符的含义。同时，你需要知道如果你希望直接匹配这其中任何一个字符，你可以使用一个反斜线*转义 (escape)*它们：

In [51]:
regex = re.compile(r'\$')
regex.findall("the cost is $20")

['$']

``r'\$'`` 的 ``r`` 前缀表明这是一个*原始字符串 (raw string)*。在 Python 标准字符串中，反斜线用来表示特殊的字符。举例来说，TAB 制表符是用“``\t``”来代表的：

In [52]:
print('a\tb\tc')

a	b	c


这样的替换不会在原始字符串中进行：

In [53]:
print(r'a\tb\tc')

a\tb\tc


基于这样一种原因考虑，无论何时在正则表达式中使用反斜杠，最好使用原始字符串。

#### 特殊字符可以匹配字符组

就像在正则表达式中“``\``”字符可以转义特殊的字符，使它们变成普通的字符，它也可以用来赋予普通字符意义。这些特殊的字符可以匹配指定的字符组，我们已经见到了它们的作用。在电子邮件匹配的正则表达式中，我们使用“``\w``”标记匹配**任意数字或者字母**。类似地，在简单的 ``split()`` 例子中，我们也见到了“``\s``”，这是一个特殊的标记，匹配**任意空白字符**。

把这些组合在一起，我们可以构造一个匹配**任何两个字母/数字之间有空格**字符串的正则表达式：

In [54]:
regex = re.compile(r'\w\s\w')
regex.findall('the fox is 9 years old')

['e f', 'x i', 's 9', 's o']

这个例子开始正则表达式的强大和灵活性渐渐开始显现。

下表列出了一些通常比较有用的字符和它们对应的意义：

|    字符    | 描述                        ||    字符    | 描述                             |
|-----------|-----------------------------||-----------|---------------------------------|
| ``\d``  | 匹配任意数字                    ||  ``\D``   | 匹配任意非数字                     |
| ``\s``  | 匹配任意空白字符                 ||  ``\S``   | 匹配任意非空白字符                 |
| ``\w``  | 匹配任意字母和数字               ||  ``\W``   | 匹配任意非字母和数字                |

这个表格并**不是**一个完整的例子，也不没有提供完整的描述。如果需要获得更多细节，请查阅 Python 官方[正则表达式语法文档](https://docs.python.org/3/library/re.html#re-syntax)。

#### 方括号匹配自定义字符组

如果内置的字符组不能满足你的定制需求，你可以使用方括号来指定任意字符的集合。举例来说，下列正则表达式可以匹配任意小写元音字符：

In [55]:
regex = re.compile('[aeiou]')
regex.split('consequential')

['c', 'ns', 'q', '', 'nt', '', 'l']

类似地，你可以使用短横线（``-``）来指定字符的范围：比如，“``[a-z]``”匹配任意小写字母，“``[1-3]``”匹配任意数字``1``、``2`` 和 ``3``。

例如，你可能需要从文档中提取特定的数字代码，包含一个大写字母后跟一个数字。你可以这样书写正则表达式：

In [56]:
regex = re.compile('[A-Z][0-9]')
regex.findall('1043879, G2, H6')

['G2', 'H6']

#### 通配符匹配重复字符

如果你需要匹配一个一行中有三个字母或数字的字符串，你也许会这样构造正则表达式：“``\w\w\w``”。但是，由于这是一个普遍的需要，有更具体的语法支持这一重复匹配的需要——用花括号括起一个数字：

In [57]:
regex = re.compile(r'\w{3}')
regex.findall('The quick brown fox')

['The', 'qui', 'bro', 'fox']

同样，可以使用另外一些标记来匹配任意数量的重复字符——比如，“``+``”字符将会匹配前面字符出现** 1 次或多次**重复：

In [58]:
regex = re.compile(r'\w+')
regex.findall('The quick brown fox')

['The', 'quick', 'brown', 'fox']

下表总结了正则表达式中的重复标记：

| 字符 | 描述 | 举例 |
|-----------|-------------|---------|
| ``?`` | 匹配前面字符 0 次或 1 次重复  | “``ab?``”匹配 ``"a"`` 或 ``"ab"`` |
| ``*`` | 匹配前面字符 0 次或多次重复 | “``ab*``”匹配 ``"a"``、``"ab"``、``"abb"``、``"abbb"``…… |
| ``+`` | 匹配前面字符 1 次或多次重复  | “``ab+``”匹配 ``"ab"``、``"abb"``、``"abbb"``……但是不匹配 ``"a"`` |
| ``{n}`` | 匹配前面字符 ``n`` 次重复 | “``ab{2}``” 匹配 ``"abb"`` |
| ``{m,n}`` | 匹配前面字符 ``m`` 次到 ``n`` 次重复 | “``ab{2,3}``” 匹配 ``"abb"`` 或 ``"abbb"`` |

脑海中有了这些内容作为基础，我们回到之前邮件地址匹配的那个正则表达式：

In [59]:
email = re.compile(r'\w+@\w+\.[a-z]{3}')

我们现在能够理解这意味着什么：我们需要一个或者多个数字或字母（``"\w+"``）后跟 at 符号（``"@"``），然后接一个或者多个数字或字母（``"\w+"``），跟着一个句号（``"\."``，注意这里需要一个反斜杠转义），最后跟恰好三个小写字母（``"[a-z]{3}"``）。

如果我们要修改这个正则表达式，使得 Obama 的邮件地址能够得到匹配，我们可以使用方括号记号：

In [60]:
email2 = re.compile(r'[\w.]+@\w+\.[a-z]{3}')
email2.findall('barack.obama@whitehouse.gov')

['barack.obama@whitehouse.gov']

我们将 ``"\w+"`` 改为 ``"[\w.]+"``，这样我们就能匹配任意字母或者数字**或者**一个句号。有了这个更为灵活的表达式，我们能够匹配更广范围的邮件地址（尽管仍然不是全部——你能找出这个正则表达式的其他不足吗？

#### 通过小括号进行分组提取

对于复合正则表达式，比如我们的邮件匹配器，我们经常需要提取它们的一部分，而不是全部匹配内容。这可以通过*分组 (group)*实现：

In [61]:
email3 = re.compile(r'([\w.]+)@(\w+)\.([a-z]{3})')

In [62]:
text = "To email Guido, try guido@python.org or the older address guido@google.com."
email3.findall(text)

[('guido', 'python', 'org'), ('guido', 'google', 'com')]

正如我们所看到的这样，这个分组恰好提取出了一个包含所有邮件子部件的列表。

我们可以进一步地使用 ``"(?P<name> )"`` 语法给提取的组*命名 (name)*，在这种情况下组别被提取为 Python 的字典：

In [63]:
email4 = re.compile(r'(?P<user>[\w.]+)@(?P<domain>\w+)\.(?P<suffix>[a-z]{3})')
match = email4.match('guido@python.org')
match.groupdict()

{'domain': 'python', 'suffix': 'org', 'user': 'guido'}

结合这些想法（以及我们未在这里介绍的一些强大的正则表达式语法），你可以灵活快速地从 Python 中的字符串中提取信息。

### 关于正则表达式的更多资源

之前我们对于正则表达式的讨论仅仅只是一个快速的概览，对于这个庞大的主题远远不够。如果你对此有兴趣并且想知道更多的内容，我推荐了如下的资源：

- 《[Python ``re`` 库函数文档](https://docs.python.org/3/library/re.html)》：我发现我每次需要使用正则表达式的时候都会忘记如何使用它们。既然我已经对这些内容有一些基本的了解，我发觉这个文档对我来说非常有价值。通过这个文档我可以迅速回忆起来正则表达式中一个特定的符号或者序列的意义。
- 《[Python 官方正则表达式入门手册](https://docs.python.org/3/howto/regex.html)》：这个页面提供了一个更加直白的方法来介绍 Python 中的正则表达式。
- 《[精通正则表达式 (OReilly, 2006)](http://shop.oreilly.com/product/9780596528126.do)》：这本书 500 余页，完整详细地介绍了正则表达式的内容。如果你需要一个完整的解决方案，这本书是你的不二之选。

对于更大范围内字符串操作和正则表达式实际使用的一些例子，可以看第 15 章《[Pandas：标签化面向行数据存储](15-Preview-of-Data-Science-Tools.ipynb#Pandas:-Labeled-Column-oriented-Data)》一小节。在这一节中我们利用 Pandas 库，会看到应用这些表达式在*表格 (tables)*之间处理字符串数据。