# 使用字符串

## 字符串的基本操作

所有标准序列操作（索引、切片、乘法、成员资格检查、长度、最小值和最大值）都适用于字符串，但别忘了字符串是不可变的，因此所有的元素赋值和切片赋值都是非法的。

In [1]:
website = 'http://www.python.org'
website[-3:] = 'com'

TypeError: 'str' object does not support item assignment

## 设置字符串格式

### 精减版

In [2]:
format = "Hello, %s, %s enough for ya?"
values = ('world', 'Hot')
format % values

'Hello, world, Hot enough for ya?'

上述格式字符串中的%s称为转换说明符，指出了要将值插入什么地方。 s意味着将值视为字
符串进行格式设置。如果指定的值不是字符串，将使用str将其转换为字符串。其他说明符将导
致其他形式的转换。例如， %.3f将值的格式设置为包含3位小数的浮点

可能遇到的另一种解决方案是所谓的模板字符串。它使用类似于UNIX shell的语法，旨在简化基本的格式
设置机制，如下所示：

In [4]:
from string import Template
tmpl = Template("Hello, $who! $what enough for ya?")
tmpl.substitute(who="Mars", what="Dusty")

'Hello, Mars! Dusty enough for ya?'

包含等号的参数称为关键字参数`!`在字符串格式设置中，可将关键字参数视为一种向命名替换字段提供值的方式

In [None]:
编写新代码时，应选择使用字符串方法`format`，它融合并强化了早期方法的优点。使用这种
方法时，每个替换字段都用花括号括起，其中可能包含名称，还可能包含有关如何对相应的值进
行转换和格式设置的信息

In [None]:
在最简单的情况下，替换字段没有名称或将索引用作名称

In [5]:
"{}, {} and {}".format("first", "second", "third")

'first, second and third'

In [6]:
"{0}, {1} and {2}".format("first", "second", "third")

'first, second and third'

In [None]:
然而，索引无需像上面这样按顺序排列。

In [8]:
"{3} {0} {2} {1} {3} {0}".format("be","not", "or", "to")

'to be or not to be'

命名字段的工作原理与你预期的完全相同

In [11]:
from math import pi

"{name} is appproximately {value:.2f}.".format(value=pi, name="pi")

'pi is appproximately 3.14.'

In [None]:
当然，关键字参数的排列顺序无关紧要。在这里，我还指定了格式说明符.2f，并使用冒号
将其与字段名隔开。它意味着要使用包含2位小数的浮点数格式。如果没有指定.2f，结果将如下：

In [12]:
"{name} is approximately {value}.".format(value=pi, name="pi")

'pi is approximately 3.141592653589793.'

当然，关键字参数的排列顺序无关紧要。在这里，我还指定了格式说明符`.2f`，并使用冒号
将其与字段名隔开。它意味着要使用包含2位小数的浮点数格式。如果没有指定.2f，结果将如下：

In [13]:
from math import e

f"Euler's constant is roughly {e}"

"Euler's constant is roughly 2.718281828459045"

在这里，创建最终的字符串时，将把替换字段e替换为变量e的值。这与下面这个更明确一些
的表达式等价：

In [14]:
"Euler's constant is roughly {e}.".format(e=e)

"Euler's constant is roughly 2.718281828459045."

### 完整版

这里的基本思想是对字符串调用方法format，并提供要设置其格式的值。字符串包含有关如何设置格式的信息，而这些信息是使用一种微型格式指定语言（ mini-language）指定的。每个值都被插入字符串中，以替换用花括号括起的**替换字段** 。要在最终结果中包含花括号，可在格式字符串中使用两个花括号（即{{或}}）来指定

In [15]:
"{{ceci n'net pas une replacement field}}".format()

"{ceci n'net pas une replacement field}"

在格式字符串中，最激动人心的部分为替换字段。替换字段由如下部分组成，其中每个部分
都是可选的。

- **字段名**: 索引或标识符，指出要设置哪个值的格式并使用结果来替换该字段。除指定值
外，还可指定值的特定部分，如列表的元;
- **转换标志**: 跟在叹号后面的单个字符。当前支持的字符包括r（表示repr）、 s（表示str）和a（表示ascii）。如果你指定了转换标志，将不使用对象本身的格式设置机制，而是使用指定的函数将对象转换为字符串，再做进一步的格式设置;
- **格式说明符**: 跟在冒号后面的表达式（这种表达式是使用微型格式指定语言表示的）。格式说明符让我们能够详细地指定最终的格式，包括格式类型（如字符串、浮点数或十六
进制数），字段宽度和数的精度，如何显示符号和千位分隔符，以及各种对齐和填充方式。

#### 替换字段名

在最简单的情况下，只需向format提供要设置其格式的未命名参数，并在格式字符串中使用
未命名字段。此时，将按顺序将字段和参数配对。你还可给参数指定名称，这种参数将被用于相
应的替换字段中。你可混合使用这两种方法。

In [52]:
"{foo} {} {bar} {}".format(1, 2, bar=4, foo=3)

'3 1 4 2'

还可通过索引来指定要在哪个字段中使用相应的未命名参数，这样可不按顺序使用未命名参数

In [17]:
"{foo} {1} {bar} {0}".format(1, 2, bar=4, foo=3)

'3 2 4 1'

然而，不能同时使用手工编号和自动编号，因为这样很快会变得混乱不堪。
你并非只能使用提供的值本身，而是可访问其组成部分（就像在常规Python代码中一样），
如下所示：

In [19]:
fullname = ['Alfred', 'Smoketoomuch']
"Mr {name[1]}".format(name=fullname)

'Mr Smoketoomuch'

In [20]:
import math

tmpl = "The {mod.__name__} module defines the value {mod.pi} for pi"
tmpl.format(mod=math)

'The math module defines the value 3.141592653589793 for pi'

如你所见，可使用索引，还可使用句点表示法来访问导入的模块中的方法、属性、变量和函
数（看起来很怪异的变量`__name__`包含指定模块的名称）

#### 基本转换

指定要在字段中包含的值后，就可添加有关如何设置其格式的指令了。首先，可以提供一个转换标志

In [22]:
print("{pi!s} {pi!r} {pi!a}".format(pi="Π"))

Π 'Π' '\u03a0'


上述三个标志（ s、 r和a）指定分别使用str、 repr和ascii进行转换。函数str通常创建外观
普通的字符串版本（这里没有对输入字符串做任何处理）。函数repr尝试创建给定值的Python表示（这里是一个字符串字面量）。函数ascii创建只包含ASCII字符的表示，类似于Python 2中的repr。

你还可指定要转换的值是哪种类型，更准确地说，是要将其视为哪种类型。例如，你可能提
供一个整数，但将其作为小数进行处理。为此可在格式说明（即冒号后面）使用字符f（表示定
点数）

In [23]:
"The number is {num}".format(num=42)

'The number is 42'

In [59]:
"The number is {num:f}".format(num=42)

'The number is 42.000000'

In [60]:
"The number is {num:b}".format(num=42)

'The number is 101010'

| 类型 | 含义 |
| :-- | :---- |
| b | 将整数表示为二进制数 |
| c | 将整数解读为Unicode码点 |
| d | 将整数视为十进制数进行处理，这是整数默认使用的说明符 |
| e | 使用科学表示法来表示小数（用e来表示指数）|
| E | 与e相同，但使用E来表示指数 |
| f | 将小数表示为定点数 |
| F | 与f相同，但对于特殊值（ nan和inf），使用大写表示 |
| g | 自动在定点表示法和科学表示法之间做出选择。这是默认用于小数的说明符，但在默认情况下至少有1位小数 |
| G | 与g相同，但使用大写来表示指数和特殊值 |
| n | 与g相同，但插入随区域而异的数字分隔符 |
| o | 将整数表示为八进制数 |
| s | 保持字符串的格式不变，这是默认用于字符串的说明符 |
| x | 将整数表示为十六进制数并使用小写字母 |
| X | 与x相同，但使用大写字母 |
| % | 将数表示为百分比值（乘以100，按说明符f设置格式，再在后面加上%）|

### 宽度、精度和千分位分隔符

设置浮点数（或其他更具体的小数类型）的格式时，默认在小数点后面显示6位小数，并根
据需要设置字段的宽度，而不进行任何形式的填充。当然，这种默认设置可能不是你想要的，在这种情况下，可根据需要在格式说明中指定宽度和精度。

In [62]:
"{num:10}".format(num=3)

'         3'

In [63]:
"{name:10}".format(name="Bob")

'Bob       '

如你所见，数和字符串的对齐方式不同。

精度也是使用整数指定的，但需要在它前面加上一个表示小数点的句点。

In [64]:
"Pi day is {pi:.2f}".format(pi=pi)

'Pi day is 3.14'

这里显式地指定了类型f，因为默认的精度处理方式稍有不同.当然，可同时指定宽度和精度.

In [65]:
"{pi:10.2f}".format(pi=pi)

'      3.14'

实际上，对于其他类型也可指定精度，但是这样做的情形不太常.

In [66]:
"{:.5}".format("Guido van Rossum")

'Guido'

可使用逗号来指出你要添加千位分隔符

In [67]:
'One google is {:,}'.format(10**100)

'One google is 10,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000'

同时指定其他格式设置元素时，这个逗号应放在宽度和表示精度的句点之间

### 符合、对齐和用0填充

在一栏中同时包含字符串和数时，你可能想修改默认对齐方式。在指定宽度和精度的数前面，可添加一个标志。这个标志可以是零、加号、减号或空格，其中零表示使用0来填充数字

In [69]:
"{:010.2f}".format(pi) # 2位精度，10个宽度, 用0填充

'0000003.14'

要指定左对齐、右对齐和居中，可分别使用<、 >和^。

In [70]:
# 2个精度, 10个宽度, 左对齐，居中，右对齐
print("{0:<10.2f}\n{0:^10.2f}\n{0:10.2f}".format(pi))

3.14      
   3.14   
      3.14


可以使用填充字符来扩充对齐说明符，这样将使用指定的字符而不是默认的空格来填充

In [71]:
# 15个宽度、居中、$填充
"{:$^15}".format("WIN BIG")

'$$$$WIN BIG$$$$'

还有更具体的说明符=，它指定将填充字符放在符号和数字之间

In [39]:
# 浮点、2位精度、10个宽度、索引指定
print("{0:10.2f}\n{1:10.2f}".format(pi, -pi))

      3.14
     -3.14


In [72]:
# 浮点、2位精度、10个宽度、填充字符放在符合和数字之间、索引指定
print("{0:10.2f}\n{1:=10.2f}".format(pi, -pi))

      3.14
-     3.14


如果要给正数加上符号，可使用说明符+（将其放在对齐说明符后面），而不是默认的-

In [74]:
print("{0:-.2}\n{1:-.2}".format(pi, -pi)) # 默认设置

3.1
-3.1


In [75]:
print("{0:+.2}\n{1:+.2}".format(pi, -pi))

+3.1
-3.1


如果将符号说明符指定为空格，会在正数前面加上空格而不是+

In [76]:
print("{0: .2}\n{1: .2}".format(pi, -pi))

 3.1
-3.1


需要介绍的最后一个要素是井号（ #）选项，你可将其放在符号说明符和宽度之间（如果指
定了这两种设置）。这个选项将触发另一种转换方式，转换细节随类型而异。例如，对于二进制、八进制和十六进制转换，将加上一个前缀

In [77]:
"{:b}".format(42)

'101010'

In [78]:
"{:#b}".format(42)

'0b101010'

In [None]:
对于各种十进制数，它要求必须包含小数点（对于类型g，它保留小数点后面的零）

In [79]:
"{:g}".format(42)

'42'

In [80]:
"{:#g}".format(42)

'42.0000'

在代码清单3-1所示的示例中，我分两次设置了字符串的格式，其中第一次旨在插入最终将
作为格式说明符的字段宽度。这是因为这些信息是由用户提供的，我无法以硬编码的方式指定字段宽度

In [83]:
'{{:{}}}{{:>{}}}'.format(25, 10)

'{:25}{:>10}'

In [84]:
"{{:{}}} {{:>{}.2f}}".format(25, 10)

'{:25} {:>10.2f}'

In [81]:
# 根据指定的宽度打印格式良好的价格列表
width = int(input('Please enter width: '))
price_width = 10
item_width = width - price_width
header_fmt = '{{:{}}}{{:>{}}}'.format(item_width, price_width)
fmt = '{{:{}}}{{:>{}.2f}}'.format(item_width, price_width)

print('=' * width)
print(header_fmt.format('Item', 'Price'))
print('-' * width)
print(fmt.format('Apples', 0.4))
print(fmt.format('Pears', 0.5))
print(fmt.format('Cantaloupes', 1.92))
print(fmt.format('Dried Apricots (16 oz.)', 8))
print(fmt.format('Prunes (4 lbs.)', 12))
print('=' * width)

Please enter width: 35
Item                          Price
-----------------------------------
Apples                         0.40
Pears                          0.50
Cantaloupes                    1.92
Dried Apricots (16 oz.)        8.00
Prunes (4 lbs.)               12.00


In [82]:
## 字符串方法

'{:25}{:>10}'

前面介绍了列表的方法，而字符串的方法要多得多，因为其很多方法都是从模块string那里
“继承”而来的。

- center
- find
- join
- lower
- replace
- split
- strip
- translate
- 判断字符串是否满足特定条件

In [None]:
### center

方法center通过在两边添加填充字符（默认为空格）让字符串居中。

相关函数

1. ljust
2. rjust
3. zfill

In [85]:
"The Middle by Jimmy Eat World".center(39)

'     The Middle by Jimmy Eat World     '

In [86]:
"The Middle by Jimmy Eat World".center(39, "*")

'*****The Middle by Jimmy Eat World*****'

### find

方法find在字符串中查找子串。如果找到，就返回子串的第一个字符的索引，否则返回-1。

相关函数:
    
1. rfind
2. index
3. rindex
4. count
5. startswith
6. endswith

In [87]:
"With a moo-moo here, and a moo-moo there".find("moo")

7

In [88]:
title = "Monty Python's Flying Circus"
title.find("Monty")

0

In [89]:
title.find("Python")

6

In [90]:
title.find("Zirquss")

-1

我们在垃圾邮件过滤器中检查主题是否包含'$$$'。这种检查也可使用find来执行。

In [91]:
subject = '$$$ Get rich now!!! $$$'
subject.find('$$$')

0

你还可指定搜索的起点和终点（它们都是可选的）

In [92]:
subject.find("$$$", 1)

20

In [94]:
subject.find("!!!", 0, 16)

-1

请注意，起点和终点值（第二个和第三个参数）指定的搜索范围包含起点，但不包含终点。这是Python惯常的做法

### join

join是一个非常重要的字符串方法，其作用与split相反，用于合并序列的元素。

相关函数:

1. split

In [95]:
seq = [1, 2, 3, 4, 5]
sep = '+'
sep.join(seq) #尝试合并一个数字列表

TypeError: sequence item 0: expected str instance, int found

In [96]:
seq = ['1', '2', '3', '4', '5']
sep = '+'
sep.join(seq) #尝试合并一个字符串列表

'1+2+3+4+5'

In [97]:
dirs = '', 'usr', 'bin', 'env'
'/'.join(dirs)

'/usr/bin/env'

In [98]:
print('C:' + '\\'.join(dirs))

C:\usr\bin\env


如你所见，所合并序列的元素必须都是字符串

### lower

方法lower返回字符串的小写版本。

相关函数:
    
1. islower
2. istitle
3. isupper
4. translate
5. capitalize
6. casefold
7. swapcase
8. title
9. upper

In [100]:
'Tondheim Hammer Dance'.lower()

'tondheim hammer dance'

假设你要检查列表中是否包含指定的用户名。如果列表包含字符串'gumby'，而指定的用户
名为'Gumby'，你将找不到它。当然，如果列表包含'Gumby'，而指定的用户名为'gumby'或'GUMBY'，结果同样找不到。对于这种问题，一种解决方案是在存储和搜索时，将所有的用户名都转换为小写。这样做的代码类似于下面这样：

In [101]:
name = "Gumby"
names = ['gumby', 'smith', 'jones']
if name.lower() in names:
    print('Found it!')

Found it!


一个与lower相关的方法是title。它将字符串转换为词首大写，即所有单词的首字母都大写，其他字母都小写。然而，它确定单词边界的方式可能导致结果不合理

In [102]:
"that's all, folks".title()

"That'S All, Folks"

另一种方法是使用模块string中的函数capwords:

In [103]:
import string
string.capwords("that's all, folks!")

"That's All, Folks!"

### replace

方法replace将指定子串都替换为另一个字符串，并返回替换后的结果

相关函数:

1. translate
2. expandtabs

In [105]:
"This is a test".replace("is", "ees")

'Thees ees a test'

如果你使用过字处理程序的“查找并替换”功能，一定知道这个方法很有用

### split

split是一个非常重要的字符串方法，其作用与join相反，用于将字符串拆分为序列

相关函数:

1. join
2. partition
3. rpartition
4. rsplit
5. splitlines

In [106]:
"1+2+3+4+5".split("+")

['1', '2', '3', '4', '5']

In [107]:
"/usr/bin/env".split("/")

['', 'usr', 'bin', 'env']

In [108]:
"Using the default".split()

['Using', 'the', 'default']

注意，如果没有指定分隔符，将默认在单个或多个连续的空白字符（空格、制表符、换行符
等）处进行拆分

In [None]:
### strip

方法strip将字符串开头和末尾的空白（但不包括中间的空白）删除，并返回删除后的结果

In [109]:
"     internal whitespace is kept   ".strip()

'internal whitespace is kept'

与lower一样，需要将输入与存储的值进行比较时， strip很有用。回到前面介绍lower时使用
的用户名示例，并假定用户输入用户名时不小心在末尾加上了一个空格。

In [111]:
names = ['gumby', 'smith', 'jones']
name = 'gumby '

if name in names:
    print("Found it!")

In [112]:
if name.strip() in names:
    print("Found it")

Found it


你还可在一个字符串参数中指定要删除哪些字符

In [113]:
"*** SPAM * for * everyone!!! ***".strip("*!")

' SPAM * for * everyone!!! '

这个方法只删除开头或末尾的指定字符，因此中间的星号未被删除

### translate

相关函数:

1. replace
2. lower

方法translate与replace一样替换字符串的特定部分，但不同的是它只能进行单字符替换。
这个方法的优势在于能够同时替换多个字符，因此效率比replace高。

这个方法的用途很多（如替换换行符或其他随平台而异的特殊字符），但这里只介绍一个比
较简单（也有点傻）的示例。假设你要将一段英语文本转换为带有德国口音的版本，为此必须将字符c和s分别替换为k和

然而，使用translate前必须创建一个转换表。这个转换表指出了不同Unicode码点之间的转
换关系。要创建转换表，可对字符串类型str调用方法maketrans，这个方法接受两个参数：两个长度相同的字符串，它们指定要将第一个字符串中的每个字符都替换为第二个字符串中的相应字符。就这个简单的示例而言，代码类似于下面这样：

In [114]:
table = str.maketrans('cs', 'kz')
table

{99: 107, 115: 122}

In [115]:
'this is an incredible test'.translate(table)

'thiz iz an inkredible tezt'

调用方法maketrans时，还可提供可选的第三个参数，指定要将哪些字母删除。例如，要模
仿语速极快的德国口音，可将所有的空格都删除

In [116]:
table = str.maketrans('cs', 'kz', ' ')
"this is an incredible test".translate(table)

'thizizaninkredibletezt'

### 判断字符串是否满足特定的条件

很多字符串方法都以is打头，如isspace、 isdigit和isupper，它们判断字符串是否具有特定
的性质（如包含的字符全为空白、数字或大写）。如果字符串具备特定的性质，这些方法就返回
True，否则返回False。

相关函数: isalnum、 isalpha、 isdecimal、 isdigit、 isidentifier、 islower、 isnumeric、
isprintable、 isspace、 istitle、 isupper