# 1. 字符串基础  
Python字符串是一个有序的字符的集合，被划分为不可变序列（immutable sequence）这一类别，用来存储和表现基于文本的信息。  
在Python 3.x中有三种字符串类型：  
- ***str***：用于Unicode文本（包括ASCII）
- ***bytes***：用于二进制数据（包括已编码文本）
- ***bytearray***：是bytes的一种可变的变体  

文件在两种模式下工作：  
- ***text***：内容为str格式，执行Unicode编码
- ***binary***：处理原始bytes数据，不进行数据编译  

**常见字符串常量和表达式**：

In [None]:
S = ''                      #空字符串
S = "spam's"                #双引号和单
S = 's\np\ta\x00m'          #转义序列
S = '''...多行字符串...'''    #三重引号字符串块
S = r'\temp\spam'           #Raw字符串引号相同（无转义）
B = b'sp\xc4m'              #字节字符串
U = u'sp\u00c4m'            #Unicode字符串
S1 + S2                     #合并（concatenate）
S * 3                       #重复
S[i]                        #索引
S[i:j]                      #分片（slice）
len(S)                      #求长度
"a %s parrot" % kind        #字符串格式表达式
"a {0} parrot".format(kind) #字符串格式化方法
S.find('pa')                #字符串方法调用：搜索
S.rstrip()                  #移除空格
S.replace('pa', 'xx')       #替换
S.split(',')                #用分隔符（delimiter）分割
S.isdigit()                 #内容测试
S.lower()                   #字体转换
S.endswith('spam')          #结束测试
'spam'.join(strlist)        #插入分隔符
S.encode('latin-1')         #Unicode编码
B.decode('utf8')            #Unicode解码
for x in S: print(x)        #迭代
'spam' in S
[c * 2 for c in S]
map(ord, S)                 #成员关系

# 2. 字符串常量  
字符串的编写方式有很多：  
- 单引号：`'spa"m'`
- 双引号：`"spa'm"`
- 三引号：`'''...spam...''',"""...spam..."""`
- 转义字符：`"s\tp\na\0m"`
- Raw字符串：`r"C:\new\test.spm"`
- bytes字符串：`b'sp\x01am'`
- Unicode字符串：`u'eggs\u0020spam'`  

最常见的是单引号和双引号，使用两种引号可以不使用反斜杠转义字符就可以实现在一个字符串中包含其余种类的引号。

In [1]:
"knight's",'knight"s'

("knight's", 'knight"s')

Python会自动在任意的表达式中合并相邻的字符串常量，也可以简单地在它们之间增加+操作符来明确地表示这是一个合并操作。

In [2]:
"Meaning "'of'" Life"

'Meaning of Life'

在字符串中间增加逗号会创建一个元组，而不是一个字符串。Python 倾向于以单引号打印字符串，除非字符串内已有单引号。

In [3]:
'knight\'s',"knight\"s"

("knight's", 'knight"s')

## 2.1 转义序列（Escape sequences） 
转义序列可以在字符串中嵌入不容易通过键盘输入的字节。  
转义序列以反斜杠 \ 开头，后面接一个或多个字符，在最终的字符串对象中会被一个单个字符替代。  

**字符串反斜杠字符**：

**转义**|**意义**
:-------|:------
\newline|忽视（连续换行）
\\|反斜杠（保留\）
\'|单引号（保留'）
\"|双引号（保留"）
\a|响铃
\b|退格
\f|换页（formfeed）
\n|换行 Newline（linefeed）
\r|返回
\t|水平制表符
\v|垂直制表符
\N{id}|Unicode数据库ID
\uhhhh|Unicode 16位的十六进制值
\Uhhhhhhhh|Unicode 32位的十六进制值
\xhh|十六进制值hh
\ooo|八进制值ooo
\0|Null：二进制0字符（不是字符串结尾）
\other|不转义（保留 \ 和other）

Python以十六进制显示非打印的字符。

In [4]:
s = '\001\001\x03'
s

'\x01\x01\x03'

### raw字符串  
当字母r（大写或小写）出现在字符串的第一个引号前则该字符串为一个raw字符串，raw字符串会关闭转义机制，raw字符串还可用于正则表达式。  
raw字符串不能以单个的反斜杠结尾，若要用单个反斜杠结束一个raw字符串，有如下两个办法：
1. 用两个反斜杠并切片掉第二个反斜杠：`r'1\nb\tc\\'[:-1]`
2. 手动添加一个反斜杠：`r'1\nb\tc' + '\\'`

### 三重引号  
又称块字符串，可以编写多行文本数据，以三重引号开始（单引号和双引号都可以），并紧跟任意行数的文本，再以开始时同样的三重引号结尾。  
三重引号字符串会保留所有引号内的字符串，包括代码右侧的注释，所以不要在引号内添加注释。  
三重引号字符串常用于文档字符串，当它出现在文件的特定地点时，将被当作注释一样的字符串常量。  
三重引号字符串还可用于临时废除一些代码，对于大段的代码，这比手动在每一行之前加入#号，之后再删除它们要容易得多。

In [None]:
x = 1
"""
import os
print(os.getcwd())
"""
y = 2

## 字符串操作  
### 字符串拼接  

In [3]:
s = 'spam''eggs''food'
print(s)

spameggsfood


In [4]:
s = 'spam' + 'eggs' + 'food'
print(s)

spameggsfood


### 切片  
切片可以让我们从一整个字符串中分离提取出一部分内容。python中偏移为左闭右开形式。

In [5]:
s = 'spam'
print(s[1:3])
print(s[1::2])
print(s[::-1])

pa
pm
maps


### 字符串转换  
可以用int，float函数将字符串转换为数字或浮点数。str函数可以将数字转换为字符串表达式。  

In [6]:
int('22')+32

54

In [7]:
str(33.0)+'2'

'33.02'

### 字符串代码转换  
单个字符可以通过将其传给内置的ord函数转换为其对应的ASCII码。chr函数执行相反的操作。

In [8]:
ord('a')

97

In [9]:
chr(120)

'x'

由于字符串是不可变对象，因此要改变一个字符串，需要利用合并、切片这样的工具来建立并赋值给一个新的字符串。  
可以通过字符串格式化表达式来创建新的文本值。

In [10]:
'That is %d %s bird!'%(1, 'dead')

'That is 1 dead bird!'

In [11]:
'That is {0} {1} bird!'.format(1, 'dead')

'That is 1 dead bird!'

## 字符串格式化表达式  
字符串格式化允许在一个单个的步骤中对一个字符串执行多个特定类型的替换。  
Python中的字符串格式化可以以三种形式实现：  
- 字符串格式化表达式：'...%s...'%(values)  
  从Python诞生的时候就有的最初的技术，基于C语言的“printf”模型，并且在大多数现有代码中使用。
- 字符串格式化方法调用：'...{}...'.format(values)
  Python独有的方法，并且和字符串格式化表达式功能有很大的重叠。
- 使用特殊的`{}`序列，将想要打印的变量放入`{}`中，字符串以 f 字母开始，即`f"Hello {somevar}"`。

### 格式化表达式  
Python在对字符串操作的时候定义了%二进制操作符，%提供了简单的方法对字符串的值进行格式化，这一操作取决于格式化定义的字符串。  

1. 在%操作符的左侧放置一个需要进行格式化的字符串，这个字符串带有一个或多个嵌入的转换目标，都以%开头（例如，%d）。
2. 在%操作符右侧放置一个（或多个，嵌入到元组中）对象，这些对象将会插入到左侧想让Python进行格式化字符串的一个（或多个）转换目标的位置上去。

%s表示把它们都转换成字符串，一般只需用%s，格式化总是会返回新的字符串作为结果而不是对左侧的字符串进行修改。

In [12]:
"%s -- %s -- %s"%(42, 3.1415, [1, 2, 3])

'42 -- 3.1415 -- [1, 2, 3]'

对更高级的特定类型的格式化来说，可以使用格式化表达式中列出的任何一个转换代码。

**代码**|**意义**
:-------|:------
`s`|字符串（或任何对象）
`r`|s，但使用repr，而不是str
`c`|字符
`d`|十进制（整数）
`i`|整数
`u`|无号（整数）
`o`|八进制整数
`x`|十六进制整数
`X`|x，但打印大写
`e`|浮点指数
`E`|e，但打印大写
`f`|浮点十进制
`F`|浮点十进制
`g`|浮点e或f
`G`|浮点E或F
`%`|常量%

在格式化字符串中，表达式左侧的转换目标支持多种转换操作，通用结构为：  
`%[(keyname)][flags][width][.precision]typecode`  
typecode为格式化表达式转换代码，在%和字符码之间，可以进行以下任何操作：  

- 放置一个字典的键
- 罗列出左对齐（-）、正号（+）、正数前补空格负数前补 - （一个空格）和补零（0）的标志位
- 给出数字的整体长度和小数点后的位数

width和precision都可以编码为一个\*，以指定它们应该从输入值的下一项中取值

In [13]:
x = 1.23456
a = "%d...|%-6d...|%06d"%(x, x, x)
b = '%e | %E | %f | %F | %g | %G'%(x, x, x, x, x, x)
c = '%-6.2f | %05.2f | %+06.1f'%(x, x, x)
d = '%f, %.2f, %.*f'%(1/3.0, 1/3.0, 4, 1/3.0)
print(a)
print(b)
print(c)
print(d)

1...|1     ...|000001
1.234560e+00 | 1.234560E+00 | 1.234560 | 1.234560 | 1.23456 | 1.23456
1.23   | 01.23 | +001.2
0.333333, 0.33, 0.3333


### 基于字典的字符串格式化

In [14]:
'%(n)d %(x)s'%{'n':1, 'x':'spam'}

'1 spam'

格式化字符串里（n）和（x）引用右边字典中的键，并提取它们相应的值。  
常与内置函数vars配合使用，这个函数返回的字典包含了所有在本函数调用时存在的变量。

In [15]:
food = 'fish'
age = 40
vars()
'%(age)d %(food)s'%vars()

'40 fish'

## 字符串格式化调用方法
format方法使用主体字符作为模板，接受任意多个表示将要根据模板替换的值的参数。  
在主体字符串中，花括号通过位置、关键字或者相对位置指出替换目标及将要插入的参数。

In [16]:
template = '{0}, {1} and {2}'
template.format('spam', 'ham', 'eggs')

'spam, ham and eggs'

In [17]:
template = '{motto}, {pork} and {food}'
template.format(motto = 'spam', pork = 'ham', food = 'eggs')

'spam, ham and eggs'

In [18]:
template = '{}, {} and {}'
template.format('spam', 'ham', 'eggs')

'spam, ham and eggs'

**千位分隔符**

In [5]:
format(1234567, ',d')

'1,234,567'

## 新字符串格式方法

In [1]:
var = 'spam'
print(f"the string is {var}")

the string is spam
