# 基本数据类型-字符串(str)

![到此一游](../images/real_word_string.gif)

在 Python 中，对于这类文本信息，通常使用字符串(str)对象来实现。

## 创建对象

字面字符串常数有三种定义方法：
- 单引号(`'`)
- 双引号(`"`)
- 三引号(`'''`或`"""`)

例如，使用单引号来定义字符串变量：

In [1]:
s1 = 'spam eggs'
print(s1)

spam eggs


有人会问，字符串包含单引号咋办？用双引号来定义：

In [2]:
s2 = "I doesn't like it"
print(s2)

I doesn't like it


反过来，如果字符串包含双引号，还是使用单引号来定义：

In [3]:
s3 = '"Yes, Sir", he said'
print(s3)

"Yes, Sir", he said


有人又问，如果字符串中包含单引号和双引号，那又咋办呢？没关系，可以使用三引号定义：

In [4]:
s4 = ''' "It isn't true", she said.'''
print(s4)

 "It isn't true", she said.


三引号最大的优势是方便输入多行字符串，下面用`"""`来存放 Python 之禅文本：

In [5]:
s5 = """
The Zen of Python, by Tim Peters

Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!
"""

In [6]:
print(s5)


The Zen of Python, by Tim Peters

Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!



**转义符**

在字符中有时会包含一些特殊字符时，这是可以用反斜杠(`\`)转义字符，下表列出一些常见转义符：

| 转义字符   |     含义   |
|:------------|:--------------|
|`\newline`  | 忽略换行     |
|`\\`      | 反斜杠（`\`）  |
|`\'`      | 单引号（`'`）  |
|`\"`      | 双引号（`"`）  |
|`\a`      | 响铃       |
|`\b`      | 退格(Backspace) |
|`\e`      |转义   |
|`\000`    | 空   |
|`\n`      | 换行  |
|`\v`      | 垂直制表符 |
|`\t`      | 水平制表符 |
|`\r`      | 回车符 |
|`\f`      | 换页 |

反斜杠(\)是转义字符，如果字符串中要使用反斜杠，就可以使用转义符号`\\`来实现：

In [7]:
s8 = '\\,\',\",\a,2xx\b\e\000\n\v\t\r\f'
print(s8)

\,',",,2xx\e 
	


In [8]:
s8

'\\,\',",\x07,2xx\x08\\e\x00\n\x0b\t\r\x0c'

有时候字符串中的转义符号太多，嫌输入转义符麻烦，可以使用原始字符串`r`或`R`来表示：

In [9]:
s9a = 'C:\\Windows\\System32'
s9b = r'C:\Windows\System32'
print(s9a, s9b)

C:\Windows\System32 C:\Windows\System32


## 自省

### 对象的特性

字符串对象是 Python 内置类`str`的实例：

In [10]:
print(type('spam eggs'), type(s1), type(s2), type(s3))

<class 'str'> <class 'str'> <class 'str'> <class 'str'>


字符串对象是不可变对象，意味着不能改变对象。

### 属性和方法

使用`dir()`函数列出字符串的属性与方法：

In [11]:
print(dir(s1))

['__add__', '__class__', '__contains__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__getnewargs__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__len__', '__lt__', '__mod__', '__mul__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__rmod__', '__rmul__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'capitalize', 'casefold', 'center', 'count', 'encode', 'endswith', 'expandtabs', 'find', 'format', 'format_map', 'index', 'isalnum', 'isalpha', 'isascii', 'isdecimal', 'isdigit', 'isidentifier', 'islower', 'isnumeric', 'isprintable', 'isspace', 'istitle', 'isupper', 'join', 'ljust', 'lower', 'lstrip', 'maketrans', 'partition', 'replace', 'rfind', 'rindex', 'rjust', 'rpartition', 'rsplit', 'rstrip', 'split', 'splitlines', 'startswith', 'strip', 'swapcase', 'title', 'translate', 'upper', 'zfill']


#### 魔术方法

字符串定义了`__add__`等魔术方法，尽管字符串不是数值，但照样可以使用`+`、`*`等操作，这就是Python 一致性的体现。

**算术操作**

|运算符 | 魔术方法    |  说明   |
| :----:|:-------------| -------: |
| `+`  | `__add__`    | 连接字符串 |
| `*`  | `__mul__`    | 重复字符串 |

In [12]:
print('I love ' + 'Python')

I love Python


In [13]:
print('I love Python\n' * 3)

I love Python
I love Python
I love Python



**比较运算**

字符串是由多个字符有序组成，支持比较运算。在进行比较运算时，会依次对每个元素进行比较：

In [14]:
print('abc' == 'abc', 'Abc' == 'abc', ' ' == '')
print('abc' != 'abc', 'Abc' != 'abc')

True False False
False True


#### 序列操作

字符串是一个序列（Sequence）对象。字符串是由多个字符组成，每个字符为序列的元素，字符串的字符是按照一定顺序存放的且不能更改。当一个对象实现了`__getitem__()`魔术方法，就称其为序列对象。与序列有关的魔术方法及其对应操作如下：

|运算符  | 魔术方法    |  说明   |
| :-----:|:-------------| -------: |
|`len()` | `__len__`    | 获得字符串长度  |
|`in`   | `__contains__` | 成员 |
|`s[k]`  | `__getitem__`  | 返回序列内容  |

使用Python内置的 `len()` 函数来返回序列元素的数目：

In [15]:
s = 'Hello World'
print(len(s))
print(len('0123456789'))

11
10


对于序列，可以使用成员操作符`in`来检查当字符或子字符串是否属于字符串：

In [16]:
s = '0123456789'
print('0' in s, '123' in s, '245' in s)

True True False


字符串是个序列（Sequence），其元素是按照一定顺序进行存储的。例如对于字符串`Hello World`，各个元素的排列如下如下图。
![字符串序列](../images/positive_and_negative_indices_of_strings.png)

在 Python 中，可以按照序号来访问该字符。要记住，序号是从 0 开始。为了方便，Python 还用负数来提供倒数的方法，例如`-1`表示倒数第1个，也就是最后一个字符。例如下面示例代码：

In [17]:
print(s[0], s[5], s[6], s[10])
print(s[-1], s[-5], s[-11])

IndexError: string index out of range

**序列的分片**

除了使用序号来访问某个位置的字符外，还可以使用切片的方式获得从指定序号到某个序号之间的子字符串，同时还提供了跳着选择的方法，切片的语法有如下：
```
seq[start]
seq[start:end]
seq[start:end:step]
```

In [20]:
s = '0123456789'
print(s[2:5], s[2:10], s[2:-1], s[2:])
print(s[2:5:2], s[2:10:2], s[2:-1:2], s[2::3])

234 23456789 2345678 23456789
24 2468 2468 258


> 注意，切片范围是左闭右开！

一个序列有一定的范围，故用超出范围的序号来查看字符时，会报索引错误(`IndexError`):

In [21]:
# IndexError: index out of range
print(s[11])

IndexError: string index out of range

字符串对象是不可变对象（immutable），这意味着字符串中的内容不能更改。例如下面代码试图修改指定序号的字符，结果会报类型异常（`TypeError`），即字符串类型不支持序列元素更改：

In [None]:
# 更改字符串值会报错
s = 'Hello World'
s[0] = 'x'

字符串对象是不可变对象，当执行字符串连接，倒序时会创建新的字符串对象；不过使用`s[:]`操作时，变量会引用原对象。使用下面代码来查看Python 对字符串的操作：

In [None]:
s = 'Hello World'
s2 = s[:]
s3 = s[:6] + 'Python'
s4 = s[::-1]

![可视化字符串对象](../images/visual_str01.png)

#### 常规方法

字符串提供了一些常规方法，实现字符串的大小写转换、输出对齐，搜索、替换、合并、分隔与检查等操作。

##### 字符串中字符大小写的变换

|方法         |  说明      |
|:--------------:|-------------: |
|`s.lower()`    | 转换字符为小写 |
|`s.upper()`    | 转换字符为大写 |
|`s.swapcase()`  | 大小写互换 |
|`s.capitalize()`| 首字母大写 |
|`s.title()`    | 对字符串标题化 |

##### 字符串在输出时的对齐


|方法         |  说明      |
|:--------------:|-------------: |
|`s.ljust()`     | 左对齐 |
|`s.rjust()`     | 右对齐 |
|`s.center()`     |居中 |
|`s.zfill()`     | 右对齐，用0补齐 |

##### 字符串中的搜索

|方法         |  说明      |
|:--------------:|-------------: |
|`s.find()`     | 搜索字符串 |
|`s.rfind()`    | 从右边搜索字符串 |
|`s.index()`    | 搜索字符串 |
|`s.rindex()`    | 从右边搜索字符串 |
|`s.count()`    | 计算子字符串出现次数 |

##### 字符串中的替换

|方法         |  说明      |
|:--------------:|-------------: |
|`s.strip()`    | 去除首尾字符 |
|`s.lstrip()`    | 去除首字符 |
|`s.rstrip()`    | 去除尾字符 |
|`s.replace()`   | 替换字符串  |
|`s.expandtabs()` | 替换Tab符  |

##### 字符串分割和合并

|方法         |  说明      |
|:--------------:|-------------: |
|`s.split()`    | 拆分字符串 |
|`s.rsplit()`    | 从右拆分字符串 |
|`s.splitlines()` | 拆分行 |
|`s.partition()` |  分割字符串 |
|`s.rpartition()` | 从右分割字符串 |
|`s.join()`    | 连接序列 |

##### 字符串的测试方法


|方法         |  说明      |
|:--------------:|-------------: |
|`s.startswith()`| 检查字符串开头 |
|`s.endswith()`  | 检查字符串结尾 |
|`s.isalpha()`  | 检查是否全是字母 |
|`s.isdigit()`  | 检查是否全是数字 |
|`s.isalnum()`  | 检查是否全是字母和数字 |
|`s.isspace()`  | 检查是否全是空白字符|
|`s.ispritable()`  | 检查是否全是可打印字符|
|`s.islower()`  | 检查字符是否全是小写 |
|`s.isupper()`  | 检查字符全是大写 |
|`s.istitle()`  | 检查是否是标题 |

**字符串的mapping**

|方法         |  说明      |
|:--------------:|-------------: |
|`s.maketrans()`    | |
|`s.translate()`    | |

##### 字符串编码和解码

|方法         |  说明      |
|:--------------:|-------------: |
|`s.encode()`    | |
|`s.decode()`    | |

## 字符串操作和方法示例

对于数据结构来说，常用的操作有：
- 增加
- 删除
- 修改
- 查询

#### 转换字符为小写
```
    S.lower() -> str
```

In [None]:
# String Lower Method
s = "THIS IS STRING EXAMPLE....WOW!!!"
print(s.lower())

搜索字符串是否包含指定子字符串，可以指定搜索范围，成功返回开始的索引值，否则返回-1
```
    S.find(sub[, start[, end]]) -> int
```    

In [22]:
# string find method
s1 = 'this is a string example...wow!!!'
s2 = 'exam'
print(s1.find(s2))
print(s1.find(s2, 10))
print(s1.find(s2, 40))

17
17
-1


删除字符串前后的空格，也可以指定字符
```
   S.strip([chars]) -> str
    
    Return a copy of the string S with leading and trailing
    whitespace removed.
    If chars is given and not None, remove characters in chars instead.
```

In [23]:
# String Strip Method
s = "    this is string example....wow!!!   "
print(s.strip())

s = "*****this is string example....wow!!!*****"
print(s.strip('*'))

this is string example....wow!!!
this is string example....wow!!!


替换指定子字符串，可以指定替换次数。
```
    S.replace(old, new[, count]) -> str
    
    Return a copy of S with all occurrences of substring
    old replaced by new.  If the optional argument count is
    given, only the first count occurrences are replaced.
```

In [24]:
# String Replace Method
s = "this is string example....wow!!! this is really string"
print(s.replace("is", "was"))
print(s.replace("is", "was", 3))

thwas was string example....wow!!! thwas was really string
thwas was string example....wow!!! thwas is really string


通过指定分隔符对字符串进行拆分，返回分割后的字符串列表（见后续章节）。可指定拆分最大数。
```
    S.split(sep=None, maxsplit=-1) -> list of strings
```    

In [25]:
# String Split Method
s = "this is string example....wow!!!"
print(s.split())
print(s.split('w'))
s = "300302,10.0,12.0"
print(s.split(','))

['this', 'is', 'string', 'example....wow!!!']
['this is string example....', 'o', '!!!']
['300302', '10.0', '12.0']


与`s.split()`类似，只是从右边开始拆分
```
    S.rsplit(sep=None, maxsplit=-1) -> list of strings
```

In [26]:
# String Rsplit Method
s = "this is string example....wow!!!"
print(s.rsplit())
print(s.rsplit('w'))
print(s.rsplit('i', 1))

['this', 'is', 'string', 'example....wow!!!']
['this is string example....', 'o', '!!!']
['this is str', 'ng example....wow!!!']


把字符串作为分隔符，将序列中的所有元素(字符串表示)合并为新字符串
```
    S.join(iterable) -> str
```    

In [27]:
# String Join Method
seq = ('I', 'Love', 'Python')
print(' '.join(seq))
print('-'.join(seq))

I Love Python
I-Love-Python


## 字符串格式化

- `str.format`方法格式化
- `f-string`格式化

### `str.format()`方法


在Python中，可以使用字符串的方法`str.format()`来实现字符串的格式化

对于`str.format()`格式化方法，其占位符形式为`{0}`、`{1}`,把传入的参数进行适当格式化，然后替换对应的占位符，最后返回一个新的字符串。

In [28]:
print('Hello {0}'.format('Python'))

Hello Python


字符串中有多个占位符，那么值必须是元组形式。参数多了不影响，少了参数就会抛出索引异常IndexError。

In [29]:
print('我是{0},学历是{1}，{2}'.format('老王', '博士', '已婚'))

我是老王,学历是博士，已婚


In [30]:
print('我是{0},学历是{1}，{2}'.format('老王', '博士'))

IndexError: tuple index out of range

对于整数、浮点数、字符串，可以使用辅助指令，实现更多格式化。语法约定：
```
:[[fill]align][sign][#][0][width][grouping_option][.precision][type]
```
- `fill`，填充字符，任意字符
- `align`，对齐字符，`"<" | ">" | "=" | "^"`；
- `sign`，符号，` "+" | "-" | " "`
- `width`，宽度，数字
- `precision`，精度，数字
- `type`，类型，`b,c,d,e,E,f,F,g,G,n,o,s,x,X,%`，参见上节介绍

In [31]:
num = 12345
pi = 3.1415926535
print('Format type: {0:d}, {1:f}'.format(num, pi))
print('Format width: {0:16d}, {1:16f}'.format(num, pi))
print('Format precision: {0:16d}, {1:16.8f}'.format(num, pi))
print('Format precision: {0:#b}, {1:#o}, {2:#x}, {2:#X}'.format(0o377, 0o377, 0xff))

Format type: 12345, 3.141593
Format width:            12345,         3.141593
Format precision:            12345,       3.14159265
Format precision: 0b11111111, 0o377, 0xff, 0XFF


参数除了按照位置传入外，还可以按照名字来传入：

In [32]:
print('当前坐标：{latitude}, {longitude}'.format(longitude='-115.81W', latitude='37.24N'))

当前坐标：37.24N, -115.81W


In [33]:
coord = {'latitude': '37.24N', 'longitude': '-115.81W'}
print('当前坐标：{latitude}, {longitude}'.format(**coord))

当前坐标：37.24N, -115.81W


## 转换

- 使用内置`str`类构造对象

In [34]:
print(str())
print(str(True))
print(str(1024))
print(str(3.1416926))


True
1024
3.1416926


调用`str(obj)`时，该对象对应有`__str__`特殊方法:

|操作符 | 特殊方法    |  说明   |
| :----:|:-------------| -------: |
| `str()`  | `__str__`    | 返回字符串表示   |

Python 中还提供了`repr()`函数来显示对象，调用`repr(obj)`时，该对象对应有`__repr__`模式方法:

|操作符 | 特殊方法    |  说明   |
| :----:|:-------------| -------: |
| `repr()`  | `__repr__`    | 返回字符串表示   |

对于一些对象来说，使用`str()`与`repr()`没有什么差别，有时候显示也不同，这取决于`__str__`与`__repr__`的实现。通常前者面向用户，显示的简单一些，后者则面向开发人员，显示的内容更多。

## 与现实世界的差异

世界上大多数名族都有哦自己的语言和文字，而计算机尝试来抽象表现这些语言文字和文本。同样，要完美表现还是要付出努力的，有时候并不那么完美。

### 编码格式

- 计算机内部是二进制

- 二进制与文本之间使用映射表来编码

- ASCII编码（American Standard Code for Information Interchange，美国信息交换标准代码）。

在[ASCII](https://baike.baidu.com/item/ASCII/309296)表中，从0到127分别代表不同的字符。
- 内置函数`chr()`可以得到数字对应字符，下面打印出所有ASCII字符：
- 内置函数`ord()`用来获取单个字符对应编码的整数

In [35]:
for i in range(128):
    print(i, bin(i), chr(i))

0 0b0  
1 0b1 
2 0b10 
3 0b11 
4 0b100 
5 0b101 
6 0b110 
7 0b111 
8 0b1000 
9 0b1001 	
10 0b1010 

11 0b1011 
12 0b1100 
13 0b1101 
14 0b1110 
15 0b1111 
16 0b10000 
17 0b10001 
18 0b10010 
19 0b10011 
20 0b10100 
21 0b10101 
22 0b10110 
23 0b10111 
24 0b11000 
25 0b11001 
26 0b11010 
27 0b11011 
28 0b11100 
29 0b11101 
30 0b11110 
31 0b11111 
32 0b100000  
33 0b100001 !
34 0b100010 "
35 0b100011 #
36 0b100100 $
37 0b100101 %
38 0b100110 &
39 0b100111 '
40 0b101000 (
41 0b101001 )
42 0b101010 *
43 0b101011 +
44 0b101100 ,
45 0b101101 -
46 0b101110 .
47 0b101111 /
48 0b110000 0
49 0b110001 1
50 0b110010 2
51 0b110011 3
52 0b110100 4
53 0b110101 5
54 0b110110 6
55 0b110111 7
56 0b111000 8
57 0b111001 9
58 0b111010 :
59 0b111011 ;
60 0b111100 <
61 0b111101 =
62 0b111110 >
63 0b111111 ?
64 0b1000000 @
65 0b1000001 A
66 0b1000010 B
67 0b1000011 C
68 0b1000100 D
69 0b1000101 E
70 0b1000110 F
71 0b1000111 G
72 0b1001000 H
73 0b1001001 I
74 0b1001010 J
75 0b100101

美国标准 ASCII 编码是无法容纳中国的汉字，所以中国制定了 GB2312、GBK、[GB18030编码](https://baike.baidu.com/item/gb18030)，包含了中文字符。相应的，各个国家都有自己的编码标准。如果是多语言混合的文本，映射表不同，显示结果就有所不同，可能就会出现乱码。

为此，提出了Unicode编码。顾名思义，Unicode就是地球统一的编码，也就是万国码。为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。Unicode可以用两个字节表示，也可以用4个字节表示。

当文本只有英文时，使用Unicode编码有些浪费存储空间。所以又提出了UTF-8编码，也就是“可变长编码”。UTF-8编码会根据字符的不同，编码成1-6个字节。常用的英文字母编码成1个字节。汉字通常是3个字节，很生僻的字符可能会编码成更多字节。

| 字符 | ASCII编码   |  Unicode编码   | UTF-8 |
|:----:|:-------------| -------: | -------: |
| `A`  | `0b01000001`    | `0b0000000001000001`  | `0b01000001`  |
| `中`  | 无  | `0b01001110 00101101`  | `0b111001001011100010101101`  |

从上可知，ASCII编码实际上时UTF-8编码的一部分。大量支持ASCII编码的软件仍然可以在UTF-8编码下进行工作。

Python推荐源码文件使用utf-8编码。在源码文件中，通常添加一行
```
# -*- coding: utf-8 -*-  
```

In [36]:
%%writefile helloutf8.py
#!/usr/bin/env python
# -*- coding: utf-8 -*-  
print('Hello')
print('您好')

Writing helloutf8.py


In [37]:
%run helloutf8.py

Hello
您好


### 内存与硬盘中的字符串

在计算机内存中，统一使用 Unicode 编码来进行文本处理。当需要保存到硬盘时，会保存为 ASCII、UTF-8 或 GB2312 等编码。反之，从硬盘读取这些编码的文件时，要对文本进行解码为 Unicode 编码。Python 推荐使用UTF-8编码来保存源码文件。

在需要通过网络传输时，也需要进行数据的编码与解码。