# 字符串

## 四种表示方法

### 单行字符串

`'x'`和`"x"`

### 多行字符串

`'''x'''`和`"""x"""`，可以保持格式

1.  若字符串中既有单引号也有双引号，则只能用三个引号这种方法来表示字符串，如

In [6]:
print('''He said, "she shouted 'Oh my God!' that time."''')

He said, "she shouted 'Oh my God!' that time."


2.  多行字符串可以保留换行等格式

In [7]:
print('''我愿意留在汤婆婆的澡堂里工作两年，
第一年在锅炉房和锅炉爷爷一起烧锅炉水，
将在这个世界变成一头猪。''')

我愿意留在汤婆婆的澡堂里工作两年，
第一年在锅炉房和锅炉爷爷一起烧锅炉水，
将在这个世界变成一头猪。



## 原始字符串

以 r 开头的原始字符串，反斜杠只转义引号，而不再转义其他字符

如 Windows 系统中的文件路径，正确表达时为了不大量加入转义符 `\`，可以使用原始字符串

In [8]:
print('G:\publish\codes\02\2.4\n\d') # 普通字符串，反斜杠转义各种字符，如\n

G:\publish\codes.4
\d


In [9]:
print(r'G:\publish\codes\02\2.4\n\d') # 原始字符串，反斜杠不再转义其他符号

G:\publish\codes\02\2.4\n\d


In [10]:
print(r'G:\publish\codes\02\2.4\n\d\') # 但扔转义引号，所以这样写会报错

SyntaxError: unterminated string literal (detected at line 1) (954033306.py, line 1)

In [11]:
print(r'G:\publish\codes\02\2.4\n\d' + '\\') # 如果想在原始字符串结尾使用反斜杠，要单独写反斜杠

G:\publish\codes\02\2.4\n\d\


## 索引和切片

-   `0:N-1`：正序
-   `-1:-N`：逆序
-   `[M:N:K]`：从 M 到 <font color="red">N-1</font>，根据步长 K 对字符串切片，M 和 N 可以缺失，其默认值分别为<font color="red"> 0 </font>和<font color="red">字符串长度值</font>
-   `[::-1]`：字符串取逆序

## 特殊字符

-   `"\b"` backspace, 退格
-   `'\t'` 制表符
-   `"\n"` newline, 换行，光标移动到下行首
-   `"\r"` return, 回车，光标移动到本行首

## 处理字符串的函数

| 函数名             | 说明                                         |
|--------------------|----------------------------------------------|
| `len(x)`           | 返回字符串长度                               |
| `str(x)`           | 将任何类型转换为字符串                       |
| `eval()`           | 去掉一个字符串两端的引号，变为相应类型       |
| `hex(x)`, `oct(x)` | 将整数转换为对应的十六进制或八进制小写字符串 |
| `chr(u)`           | 返回 Unicode 编码对应的字符                  |
| `ord(x)`           | 返回字符对应的 Unicode 编码                  |


In [12]:
## 特殊符号
print('1 + 1 = 2 ' + chr(10004) + '\n') # "10004"在 Unicode 中表示对勾

for i in range(12): # 打印十二星座符号
    n = 9800 + i # 12星座符号对应的 Unicode 编码
    print(chr(n)+' ', end='')

1 + 1 = 2 ✔

♈ ♉ ♊ ♋ ♌ ♍ ♎ ♏ ♐ ♑ ♒ ♓ 

## 字符串对象的方法

| 方法名                                                       | 说明                                                         |
| :----------------------------------------------------------- | :----------------------------------------------------------- |
| **转换大小写字母**                                           |                                                              |
| str.lower(), str.upper()                                     | 转换为全小写和全大写                                         |
| str.isupper(),str.islower()                                  | 字符串是否为全大写和全小写                                   |
| str.isalpha(), str.isalnum(), str.isdecimal(), str.isspace(), str.istitle() | 字符串是否符合以下特征：全字母，全字母或数字，全数字，全空格、制表符或换行，仅包含首字母大写的单词，**这些函数用于判断用户的输入** |
| str.title()                                                  | 每个单词的首字母大写                                         |
| **分割/连接**                                                 |                                                              |
| str.split(sep=None)                                          | 返回一个由参数分割而成的列表，常用于字符串分割               |
| str.join(iter)                                               | 将 iter 序列中所有元素用 str 连接起来，如`', '.join('12345')`的结果为 ‘1, 2, 3, 4, 5’，主要用于**序列合并为字符串** |
| **格式化字符串**                                             |                                                              |
| str.center(width[, fillchar])                                | 根据宽度 width 在一行中居中，fillchar 为可选的填充字符，默认为空格。如`"python".center(20, '=')` |
| str.rjust(width[, fillchar])                                 | 根据宽度 width 右对齐                                        |
| str.ljust(width[, fillchar])                                 | 根据宽度 width 左对齐                                        |
| str.strip(chars), str.lstrip(chars), str.rstrip(chars)       | 去掉两侧/左侧/右侧**连续**任意多个包含在 chars 中的字符，如果不指定参数，则为删除 whitespace |
| **查找替换**                                                 |                                                              |
| str.startswith(sub), str.endswith(sub)                       | 判断字符串是否以参数字符串开头、截尾                         |
| str.find(sub)                                                | 返回参数子串在 str 中的出现位置，若无则返回-1                |
| str.find(sub)                                                | 返回参数子串在 str 中的出现位置，若无则引发 ValueError 错误  |
| str.count(sub)                                               | 返回参数在 str 中的出现次数                                  |
| str.replace(old, new)                                        | 将 str 中的 old 子串替换为 new                               |
| str.translate()                                              | 使用指定的翻译映射表对字符串执行替换                         |
| str.maketrans()                                              | 创建翻译映射表                                               |

In [13]:
s = 'crazyit.org is a good site'
print(s.split()) # 默认用空白（参数为None）分割，不管空白具体是什么字符，连续有多少个
print(s.split(None, 2)) # 使用空白对字符串进行分割，且最多只分割出前2个单词，其余部分不再分割，而作为一个整体列出
print(s.split('.')) 
mylist = s.split()
print('/'.join(mylist)) # 使用'/'为分割符，将mylist连接成字符串
print(','.join(mylist)) # 使用','为分割符，将mylist连接成字符串

s2 = 'i think it is a scarecrow'
print(s2.lstrip('itow')) # 删除左边任意多个i、t、o、w字符
print(s2.rstrip('itow')) # 删除右边任意多个i、t、o、w字符
print(s2.strip('itow')) # 删除两边任意多个i、t、o、w字符

s = 'crazyit.org is a good site'
print(s.startswith('crazyit'))
print(s.endswith('site'))
print(s.find('org')) # 查找s中'org'的出现位置
print(s.index('org')) # 8
print(s.find('org', 9)) # 从索引为9处开始查找'org'的出现位置
# print(s.index('org', 9)) # 从索引为9处开始查找'org'的出现位置，引发错误
print(s.replace('it', 'xxxx')) # 将字符串中所有it替换成xxxx
print(s.replace('it', 'xxxx', 1)) # 将字符串中1个it替换成xxxx
table = {97: 945, 98: 946, 116: 964}  # 定义替换表：97（a）->945（α）,98（b）->945（β）,116（t）->964（τ）,
print(s.translate(table))
table2 = str.maketrans('abt', 'αβτ')
print(s.translate(table2))

['crazyit.org', 'is', 'a', 'good', 'site']
['crazyit.org', 'is', 'a good site']
['crazyit', 'org is a good site']
crazyit.org/is/a/good/site
crazyit.org,is,a,good,site
 think it is a scarecrow
i think it is a scarecr
 think it is a scarecr
True
True
8
8
-1
crazyxxxx.org is a good sxxxxe
crazyxxxx.org is a good site
crαzyiτ.org is α good siτe
crαzyiτ.org is α good siτe


## 字符串类型的格式化

### f 表达式

`f"{x}"`，在字符串中插入变量

In [21]:
name = "John"
print(f"His name is {name}")

His name is John


### format 方法

`<模板字符串>.format(<要格式化的内容参数（若为序列，以逗号分隔）>)`

其中，`{}`为模板中的槽，槽内部的参数形如：

| <参数序号>                 | :      | <填充符>                                   | <对齐方式>                            | <输出宽度>   | <,>              | <.精度>                          | <类型>                                     |
| :------------------------- | :----- | :----------------------------------------- | :------------------------------------ | :----------- | :--------------- | :------------------------------- | :----------------------------------------- |
| 表示各参数分别放在哪个槽中 | 引导符 | 若还有空余空间，用什么字符填充，默认为空格 | “<”左对齐，默认 “>”右对齐“ ^”居中对齐 | 槽的输出宽度 | 是否用千位分隔符 | 小数的精度或字符串的最大输出长度 | 整数类型`b/c/d/o/x/X`或浮点数类型`e/E/f/%` |



这种方法的缺点在于，输出宽度、精度等参数必须是确定的常数，而不能是变量。因此当这些数值必须取变量时，仍要使用`.rjust()`、`.ljust()`和`.center()`方法。

In [14]:
"{0:=^20}".format("Python") # 用 '=' 填充，居中对齐，槽宽度为20



In [15]:
"{:=^20}".format("Python") # 参数索引0可以省略



In [16]:
"{:*>20}".format("BIT") # 用 '*' 填充，右对齐，槽宽度为20

'*****************BIT'

In [17]:
"{:10}".format("BIT") # 默认左对齐，空格填充

'BIT       '

In [18]:
"{0:,.2f}".format(12345.6789) # 使用千位分隔符，保留两位小数的浮点型

'12,345.68'

In [19]:
"{0:b}, {0:c}, {0:d}, {0:o}, {0:x}, {0:X}".format(425) # 分别转换为：二进制，Unicode 编码，十进制，八进制，十六进制，大写的十六进制

'110101001, Ʃ, 425, 651, 1a9, 1A9'

In [20]:
"{0:.2e}, {0:.2E}, {0:.2f}, {0:.2%}".format(3.14) # 分别转换为：科学记数法，大写科学记数法，浮点数，百分数

'3.14e+00, 3.14E+00, 3.14, 314.00%'