# 基本数据类型-字符串(str)

不论到那里去旅游观光，都会看到各种各样的“到此一游”文字。只不过古人的“到此一游”成为墨宝，进入的成为涂鸦。不过，一个登上四大名著的“到此一游”是孙大圣留下的：
![到此一游](../images/real_word_string.gif)

在 Python 中，对于这类文本信息，通常使用字符串(str)对象来实现。本节将介绍字符串对象。

## 创建对象

字面字符串常数有三种定义方法：
- 单引号(`'`)
- 双引号(`"`)
- 三引号(`'''`或`"""`)

例如，使用单引号来定义字符串变量：

In [2]:
s1 = 'spam eggs'
print(s1)

spam eggs


有人会问，字符串包含单引号咋办？用双引号来定义：

In [3]:
s2 = "I doesn't like it"
print(s2)

I doesn't like it


反过来，如果字符串包含双引号，还是使用单引号来定义：

In [4]:
s3 = '"Yes, Sir", he said'
print(s3)

"Yes, Sir", he said


有人又问，如果字符串中包含单引号和双引号，那又咋办呢？没关系，可以使用三引号定义：

In [5]:
s4 = ''' "It isn't true", she said.'''
print(s4)

 "It isn't true", she said.


三引号最大的优势是方便输入多行字符串，下面用`"""`来存放 Python 之禅文本：

In [6]:
s5 = """
The Zen of Python, by Tim Peters

Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!
"""

In [7]:
print(s5)


The Zen of Python, by Tim Peters

Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!



基于三引号的好处，通常会用在程序使用说明上：

In [7]:
s6 = """
Usage: thingy [OPTIONS]
     -h                        Display this usage message
     -H hostname               Hostname to connect to
"""
print(s6)


Usage: thingy [OPTIONS]
     -h                        Display this usage message
     -H hostname               Hostname to connect to



在一些编码规范要求一行长度有限，如果自己的文本又很长，可以使用如下解决方案：

In [8]:
s7 = ('long line part1 '
      'long line part2 '
      'long line part3')
s7

'long line part1 long line part2 long line part3'

**转义符**

在字符中有时会包含一些特殊字符时，这是可以用反斜杠(`\`)转义字符，下表列出一些常见转义符：

| 转义字符   |     含义   |
|:------------|:--------------|
|`\newline`  | 忽略换行     |
|`\\`      | 反斜杠（`\`）  |
|`\'`      | 单引号（`'`）  |
|`\"`      | 双引号（`"`）  |
|`\a`      | 响铃       |
|`\b`      | 退格(Backspace) |
|`\e`      |转义   |
|`\000`    | 空   |
|`\n`      | 换行  |
|`\v`      | 垂直制表符 |
|`\t`      | 水平制表符 |
|`\r`      | 回车符 |
|`\f`      | 换页 |

反斜杠(\)是转义字符，如果字符串中要使用反斜杠，就可以使用转义符号`\\`来实现：

In [14]:
s8 = '\\,\',\",\a,2xx\b\e\000\n\v\t\r\f'
print(s8)

\,',",,2xx\e 
	


In [15]:
s8

'\\,\',",\x07,2xx\x08\\e\x00\n\x0b\t\r\x0c'

有时候字符串中的转义符号太多，嫌输入转义符麻烦，可以使用原始字符串`r`或`R`来表示：

In [17]:
s9a = 'C:\\Windows\\System32'
s9b = r'C:\Windows\System32'
print(s9a, s9b)

C:\Windows\System32 C:\Windows\System32


最后输入孙大圣的墨宝：

In [18]:
s10 = '齐天大圣到此一游'
print(s10)

齐天大圣到此一游


## 自省

### 对象的特性

字符串对象是 Python 内置类`str`的实例：

In [19]:
print(type('spam eggs'), type(s1), type(s2), type(s3))

<class 'str'> <class 'str'> <class 'str'> <class 'str'>


字符串对象是不可变对象，意味着不能改变对象。

### 属性和方法

使用`dir()`函数列出字符串的属性与方法：

In [21]:
print(dir(s1))

['__add__', '__class__', '__contains__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__getnewargs__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__len__', '__lt__', '__mod__', '__mul__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__rmod__', '__rmul__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'capitalize', 'casefold', 'center', 'count', 'encode', 'endswith', 'expandtabs', 'find', 'format', 'format_map', 'index', 'isalnum', 'isalpha', 'isdecimal', 'isdigit', 'isidentifier', 'islower', 'isnumeric', 'isprintable', 'isspace', 'istitle', 'isupper', 'join', 'ljust', 'lower', 'lstrip', 'maketrans', 'partition', 'replace', 'rfind', 'rindex', 'rjust', 'rpartition', 'rsplit', 'rstrip', 'split', 'splitlines', 'startswith', 'strip', 'swapcase', 'title', 'translate', 'upper', 'zfill']


#### 魔术方法

字符串定义了`__add__`等魔术方法，尽管字符串不是数值，但照样可以使用`+`、`*`等操作，这就是Python 一致性的体现。

**算术操作**

|运算符 | 魔术方法    |  说明   |
| :----:|:-------------| -------: |
| `+`  | `__add__`    | 连接字符串 |
| `*`  | `__mul__`    | 重复字符串 |

In [22]:
print('I love ' + 'Python')

'I love Python'

In [24]:
print('I love Python\n' * 3)

I love Python
I love Python
I love Python



**比较运算**

字符串是由多个字符有序组成，支持比较运算。在进行比较运算时，会依次对每个元素进行比较：

In [1]:
print('a' < 'b', '' < 'a', 'A' < 'a')
print('aa' < 'ab', 'abc' < 'abca', 'aA' < 'aa')

True True True
True True True


In [2]:
print('abc' == 'abc', 'Abc' == 'abc', ' ' == '')
print('abc' != 'abc', 'Abc' != 'abc')

True False False
False True


#### 序列操作

字符串是一个序列（Sequence）对象。字符串是由多个字符组成，每个字符为序列的元素，字符串的字符是按照一定顺序存放的且不能更改。当一个对象实现了`__getitem__()`魔术方法，就称其为序列对象。与序列有关的魔术方法及其对应操作如下：

|运算符  | 魔术方法    |  说明   |
| :-----:|:-------------| -------: |
|`len()` | `__len__`    | 获得字符串长度  |
|`in`   | `__contains__` | 成员 |
|`s[k]`  | `__getitem__`  | 返回序列内容  |

使用Python内置的 `len()` 函数来返回序列元素的数目：

In [27]:
s = 'Hello World'
print(len(s))
print(len('0123456789'))

11
10


对于序列，可以使用成员操作符`in`来检查当字符或子字符串是否属于字符串：

In [28]:
s = '0123456789'
print('0' in s, '123' in s, '245' in s)

True True False


字符串是个序列（Sequence），其元素是按照一定顺序进行存储的。例如对于字符串`Hello World`，各个元素的排列如下如下图。
![字符串序列](../images/positive_and_negative_indices_of_strings.png)

在 Python 中，可以按照序号来访问该字符。要记住，序号是从 0 开始。为了方便，Python 还用负数来提供倒数的方法，例如`-1`表示倒数第1个，也就是最后一个字符。例如下面示例代码：

In [19]:
print(s[0], s[5], s[6], s[10])
print(s[-1], s[-5], s[-11])

H   W d
d W H


**序列的分片**

除了使用序号来访问某个位置的字符外，还可以使用切片的方式获得从指定序号到某个序号之间的子字符串，同时还提供了跳着选择的方法，切片的语法有如下：
```
seq[start]
seq[start:end]
seq[start:end:step]
```

In [29]:
s = '0123456789'
print(s[2:5], s[2:10], s[2:-1], s[2:])
print(s[2:5:2], s[2:10:2], s[2:-1:2], s[2::3])

234 23456789 2345678 23456789
24 2468 2468 258


> 注意，切片范围是左闭右开！

一个序列有一定的范围，故用超出范围的序号来查看字符时，会报索引错误(`IndexError`):

In [30]:
# IndexError: index out of range
print(s[11])

IndexError: string index out of range

前面提过，字符串对象是不可变对象（immutable），这意味着字符串中的内容不能更改。例如下面代码试图修改指定序号的字符，结果会报类型异常（`TypeError`），即字符串类型不支持序列元素更改：

In [31]:
# 更改字符串值会报错
s = 'Hello World'
s[0] = 'x'

TypeError: 'str' object does not support item assignment

字符串对象是不可变对象，当执行字符串连接，倒序时会创建新的字符串对象；不过使用`s[:]`操作时，变量会引用原对象。使用下面代码来查看Python 对字符串的操作：

In [34]:
s = 'Hello World'
s2 = s[:]
s3 = s[:6] + 'Python'
s4 = s[::-1]

![可视化字符串对象](../images/visual_str01.png)

#### 常规方法

字符串提供了一些常规方法，实现字符串的大小写转换、输出对齐，搜索、替换、合并、分隔与检查等操作。

##### 字符串中字符大小写的变换

|方法         |  说明      |
|:--------------:|-------------: |
|`s.lower()`    | 转换字符为小写 |
|`s.upper()`    | 转换字符为大写 |
|`s.swapcase()`  | 大小写互换 |
|`s.capitalize()`| 首字母大写 |
|`s.title()`    | 对字符串标题化 |

##### 字符串在输出时的对齐


|方法         |  说明      |
|:--------------:|-------------: |
|`s.ljust()`     | 左对齐 |
|`s.rjust()`     | 右对齐 |
|`s.center()`     |居中 |
|`s.zfill()`     | 右对齐，用0补齐 |

##### 字符串中的搜索

|方法         |  说明      |
|:--------------:|-------------: |
|`s.find()`     | 搜索字符串 |
|`s.rfind()`    | 从右边搜索字符串 |
|`s.index()`    | 搜索字符串 |
|`s.rindex()`    | 从右边搜索字符串 |
|`s.count()`    | 计算子字符串出现次数 |

##### 字符串中的替换

|方法         |  说明      |
|:--------------:|-------------: |
|`s.strip()`    | 去除首尾字符 |
|`s.lstrip()`    | 去除首字符 |
|`s.rstrip()`    | 去除尾字符 |
|`s.replace()`   | 替换字符串  |
|`s.expandtabs()` | 替换Tab符  |

##### 字符串分割和合并

|方法         |  说明      |
|:--------------:|-------------: |
|`s.split()`    | 拆分字符串 |
|`s.rsplit()`    | 从右拆分字符串 |
|`s.splitlines()` | 拆分行 |
|`s.partition()` |  分割字符串 |
|`s.rpartition()` | 从右分割字符串 |
|`s.join()`    | 连接序列 |

##### 字符串的测试方法


|方法         |  说明      |
|:--------------:|-------------: |
|`s.startswith()`| 检查字符串开头 |
|`s.endswith()`  | 检查字符串结尾 |
|`s.isalpha()`  | 检查是否全是字母 |
|`s.isdigit()`  | 检查是否全是数字 |
|`s.isalnum()`  | 检查是否全是字母和数字 |
|`s.isspace()`  | 检查是否全是空白字符|
|`s.ispritable()`  | 检查是否全是可打印字符|
|`s.islower()`  | 检查字符是否全是小写 |
|`s.isupper()`  | 检查字符全是大写 |
|`s.istitle()`  | 检查是否是标题 |

**字符串的mapping**

|方法         |  说明      |
|:--------------:|-------------: |
|`s.maketrans()`    | |
|`s.translate()`    | |

##### 字符串编码和解码

|方法         |  说明      |
|:--------------:|-------------: |
|`s.encode()`    | |
|`s.decode()`    | |

下面一节通过实例来介绍这些字符串方法和操作。

## 字符串操作和方法示例

### 序列操作

Python 提供了一些内置的函数，实现序列对象的一些操作：
- `len()`，返回字符串的长度
- `max()`，返回最大的字符
- `min()`，返回最小的字符

In [442]:
# string __len__ method
s = "this is string example....wow!!!"
print(len(s), len(''))

32 0


In [443]:
# string max
s = "this is a string example....really!!!"
print(max(s))

s = "this is a string example....wow!!!"
print(max(s))

y
x


In [32]:
# String Min Method
s = "www.tutorialspoint.com"
print(min(s))

s = "TUTORIALSPOINT"
print(min(s))

.
A


### 字符串大小写变换

#### 转换字符为小写
```
    S.lower() -> str
```

In [33]:
# String Lower Method
s = "THIS IS STRING EXAMPLE....WOW!!!"
print(s.lower())

this is string example....wow!!!


#### 转换字符为大写
```
    S.upper() -> str
```    

In [447]:
# String Upper Method
s = "this is string example....wow!!!"
print(s.upper())

THIS IS STRING EXAMPLE....WOW!!!


#### 大小写互换
```
    S.swapcase() -> str
```

In [449]:
# String Swapcase Method
s = "this is string example....wow!!!"
print(s.swapcase())

s = "This Is String Example....WOW!!!"
print(s.swapcase())

THIS IS STRING EXAMPLE....WOW!!!
tHIS iS sTRING eXAMPLE....wow!!!


#### 首字母大写
```
    S.capitalize() -> str
```    

In [451]:
# string captalize method
s = "this is string example....wow!!!"
print(s.capitalize())

This is string example....wow!!!


#### 字符串标题化
```
    S.title() -> str
```    

In [34]:
# String Title Method
s = "this is string example....wow!!!"
print(s.title())

This Is String Example....Wow!!!


### 字符串在输出时的对齐

返回指定长度(`width`)字符串，原字符串左对齐，不足部分用空格或指定字符补齐 

```
    S.ljust(width[, fillchar]) -> str
```

In [455]:
# String Ljust Method
s = "this is string example....wow!!!"
print(s.ljust(50))
print(s.ljust(50, '#'))

this is string example....wow!!!                  
this is string example....wow!!!##################


返回指定长度字符串，原字符串右对齐，不足部分用空格或指定字符补齐

```
    S.rjust(width[, fillchar]) -> str
```    

In [456]:
# String Rjust Method
s = "this is string example....wow!!!"
print(s.rjust(50))
print(s.rjust(50, '#'))

                  this is string example....wow!!!
##################this is string example....wow!!!


返回指定长度字符串，原字符串居中
```
    S.center(width[, fillchar]) -> str
```

In [457]:
# String Center Method
s = "this is string example....wow!!!"
print(s.center(50))
print(s.center(50, '#'))

         this is string example....wow!!!         
#########this is string example....wow!!!#########


返回指定长度字符串，原字符串右对齐，不足部分用0补齐
```
    S.zfill(width) -> str
```

In [35]:
# String Zfill Method
s = "3.1415926"
print(s.zfill(40))
print(s.zfill(50))

00000000000000000000000000000003.1415926
000000000000000000000000000000000000000003.1415926


### 字符串中的搜索

搜索字符串是否包含指定子字符串，可以指定搜索范围，成功返回开始的索引值，否则返回-1
```
    S.find(sub[, start[, end]]) -> int
```    

In [460]:
# string find method
s1 = 'this is a string example...wow!!!'
s2 = 'exam'
print(s1.find(s2))
print(s1.find(s2, 10))
print(s1.find(s2, 40))

17
17
-1


与`s.find()`方法类似，只是从右边开始查找
```
    S.rfind(sub[, start[, end]]) -> int
```

In [465]:
# String Rfind Method
s1 = "This is really a string example..another example"
s2 = "exam"

print(s1.rfind(s2))
print(s1.rfind(s2, 0, 10))
print(s1.rfind(s2, 10, 30))

41
-1
24


与`s.find()`方法类似，只不过失败时报一个异常`ValueError`。
```
    S.index(sub[, start[, end]]) -> int
```

In [466]:
# string index method
s1 = 'this is a string example...wow!!!'
s2 = 'exam'
print(s1.index(s2))
print(s1.index(s2, 10))
print(s1.index(s2, 40))

17
17


ValueError: substring not found

与`s.index()`方法类似，只是从右边开始搜索。
```
    S.rindex(sub[, start[, end]]) -> int
```

In [467]:
# String Rindex Method
s1 = "this is really a string example....wow!!!"
s2 = "is"
print(s1.rindex(s2))
print(s1.rindex(s2, 10))

5


ValueError: substring not found

计算子字符串出现次数，可以指定搜索范围。
```
    S.count(sub[, start[, end]]) -> int
```

### 字符串替换

In [468]:
# string count method
s = "this is string example....another example!!!"
print(s.count('no'))
print(s.count('is'))
print (s.count('exam', 10, 40))

1
2
2


删除字符串前后的空格，也可以指定字符
```
   S.strip([chars]) -> str
    
    Return a copy of the string S with leading and trailing
    whitespace removed.
    If chars is given and not None, remove characters in chars instead.
```

In [471]:
# String Strip Method
s = "    this is string example....wow!!!   "
print(s.strip())

s = "*****this is string example....wow!!!*****"
print(s.strip('*'))

this is string example....wow!!!
this is string example....wow!!!


与`s.strip`类似，只是截断后面
```
    S.rstrip([chars]) -> str
    
    Return a copy of the string S with trailing whitespace removed.
    If chars is given and not None, remove characters in chars instead.
```

In [472]:
# String Rstrip Method
s = "     this is string example....wow!!!     "
print(s.rstrip())

s = "*****this is string example....wow!!!*****"
print(s.rstrip('*!'))

     this is string example....wow!!!
*****this is string example....wow


与`s.strip`类似，只是截断前面
```
    S.lstrip([chars]) -> str
    
    Return a copy of the string S with leading whitespace removed.
    If chars is given and not None, remove characters in chars instead.
```

In [473]:
# String Lstrip Method
s = "     this is string example....wow!!!"
print(s.lstrip())

s = "*****this is string example....wow!!!*****"
print(s.lstrip('*'))

this is string example....wow!!!
this is string example....wow!!!*****


替换指定子字符串，可以指定替换次数。
```
    S.replace(old, new[, count]) -> str
    
    Return a copy of S with all occurrences of substring
    old replaced by new.  If the optional argument count is
    given, only the first count occurrences are replaced.
```

In [474]:
# String Replace Method
s = "this is string example....wow!!! this is really string"
print(s.replace("is", "was"))
print(s.replace("is", "was", 3))

thwas was string example....wow!!! thwas was really string
thwas was string example....wow!!! thwas is really string


把字符串的Tab字符替换为空格，默认空格数是8个
```
    S.expandtabs(tabsize=8) -> str
    
    Return a copy of S where all tab characters are expanded using spaces.
    If tabsize is not given, a tab size of 8 characters is assumed.
```

In [36]:
# string expandtabs method
s = 'this is\tstring example\twow!!!'
print(s)
print(s.expandtabs())
print(s.expandtabs(16))

this is	string example	wow!!!
this is string example  wow!!!
this is         string example  wow!!!


### 字符串分割和合并

通过指定分隔符对字符串进行拆分，返回分割后的字符串列表（见后续章节）。可指定拆分最大数。
```
    S.split(sep=None, maxsplit=-1) -> list of strings
```    

In [478]:
# String Split Method
s = "this is string example....wow!!!"
print(s.split())
print(s.split('w'))
s = "300302,10.0,12.0"
print(s.split(','))

['this', 'is', 'string', 'example....wow!!!']
['this is string example....', 'o', '!!!']
['300302', '10.0', '12.0']


与`s.split()`类似，只是从右边开始拆分
```
    S.rsplit(sep=None, maxsplit=-1) -> list of strings
```

In [479]:
# String Rsplit Method
s = "this is string example....wow!!!"
print(s.rsplit())
print(s.rsplit('w'))
print(s.rsplit('i', 1))

['this', 'is', 'string', 'example....wow!!!']
['this is string example....', 'o', '!!!']
['this is str', 'ng example....wow!!!']


返回字符串的所有行，可以指定最大行数目。
```
    S.splitlines([keepends]) -> list of strings
```    

In [480]:
# String Splitlines Method
s = "this is \nstring example....\nwow!!!"
print(s)
print(s.splitlines())

this is 
string example....
wow!!!
['this is ', 'string example....', 'wow!!!']


根据指定的分隔符将字符串进行分割，返回一个3元的元组（参见后续章节）
```
    S.partition(sep) -> (head, sep, tail)
```

In [482]:
# String Partition Method
s = 'zipfile.tar.gz'
print(s.partition('.'))
print(s.partition('-'))
s = 'https://isciencehub.com/'
print(s.partition('://'))

('zipfile', '.', 'tar.gz')
('zipfile.tar.gz', '', '')
('https', '://', 'isciencehub.com/')


与`s.partition()`类似，只是从右边开始
```
    S.rpartition(sep) -> (head, sep, tail)
```    

In [309]:
# String Partition Method
s = 'zipfile.tar.gz'
print(s.rpartition('.'))
print(s.rpartition('-'))
s = 'https://isciencehub.com/'
print(s.rpartition('://'))

('zipfile.tar', '.', 'gz')
('', '', 'zipfile.tar.gz')
('https', '://', 'isciencehub.com/')


把字符串作为分隔符，将序列中的所有元素(字符串表示)合并为新字符串
```
    S.join(iterable) -> str
```    

In [37]:
# String Join Method
seq = ('I', 'Love', 'Python')
print(' '.join(seq))
print('-'.join(seq))

I Love Python
I-Love-Python


### 字符串的测试方法

检查字符串开头是否是指定字符串，可以用元组指定多个字符串
```
    S.startswith(prefix[, start[, end]]) -> bool
```

In [483]:
# string startswith
s = "x-file"
print(s.startswith('x-'))
print(s.startswith('z-'))
print(s.startswith(('x-', 'z-')))

True
False
True


与`s.startswith`类似，只是检查字符串结尾
```
    S.endswith(suffix[, start[, end]]) -> bool
```    

In [484]:
# string endswith method
s = 'images.jpg'
suffix = 'jpg'
print(s.endswith(suffix))
suffix = ('png', 'jpeg', 'jpg')
print(s.endswith(suffix))

True
True


检查字符串是否全是字母
```
    S.isalpha() -> bool
```    

In [485]:
# string isalpha method
s = "this"
print(s.isalpha())

s = "this is string example....wow!!!"
print(s.isalpha())

True
False


检查字符串的字符全是数字
```
    S.isnumeric() -> bool
```

In [328]:
# String Isnumeric Method
s = "this2016"  
print(s.isnumeric())

s = "23443434"
print(s.isnumeric())

False
True


检查字符串的字符全是数字
```
    S.isdigit() -> bool
```

In [330]:
# String Isdigit Method
s = "123456";  # Only digit in this string
print(s.isdigit())

s = "this is string example....wow!!!"
print(s.isdigit())

True
False


检查字符串的字符全是数字
```
    S.isdecimal() -> bool
```

In [332]:
# string isdecimal method
s = "this2016"
print(s.isdecimal())

s = "23443434"
print(s.isdecimal())

False
True


数字检查区别

|  数字     |  `s.numeric` | `s.isdigit` | `s.isdecimal` |
|:-----------:|:----------:|:--------------:|:-------------:|
| Unicode数字|  True    | True     | True  |       
| 汉字数字  | True     |  False   | False  |               
| 罗马数字  |      |    |   |
| 全角数字 |      |    |   |                                   
| byte数字 |      |    |   |                                   


In [342]:
s = "123"
print(s.isnumeric(), s.isdigit(), s.isdecimal())
s = "四五"
print(s.isnumeric(), s.isdigit(), s.isdecimal())
s = "Ⅳ"
print(s.isnumeric(), s.isdigit(), s.isdecimal())

True True True
True False False
True False False


检查字符串是否数字和字母组成
```
    S.isalnum() -> bool
```

In [486]:
# String Isalnum Method
s = "this2016"  # No space in this string
print(s.isalnum())

s = "this is string example....wow!!!"
print(s.isalnum())

True
False


检查字符串全部是空格符
```
    S.isspace() -> bool
```

In [487]:
# string isspace method
print(' \t\v\n'.isspace())

print('word x'.isspace())

True
False


判断字符串的所有字符都是可打印字符或字符串为空
```
    S.isprintable() -> bool
```

In [488]:
# string isprintable method
print(' \t\v\n'.isprintable())

print('word x  '.isprintable())

False
True


检查字符串全部是小写字符
```
    S.islower() -> bool
```

In [489]:
# string islower method
print("word string example\twow!!!".islower())

print("Word String example\twow!!!".islower())

True
False


检查字符串全部是大写字符
```
    S.isupper() -> bool
```

In [362]:
# String Isupper Method
print("BIG STRING\tWOW!!!".isupper())

print("Big string\tWOW!!!".isupper())

True
False


检查字符串是否是标题型字符串
```
    S.istitle() -> bool
```

In [367]:
# string istitle method
print("This Is A Title!".istitle())

print("This is not a title!".istitle())

True
False


## 字符串格式化

- printf类型格式化
- `str.format`方法格式化
- `f-string`格式化

### `printf`格式化方法

在Python中，可以使用C语言风格的字符串格式化方法，用`%`操作符来实现。在`%`操作符后跟格式化字符串，即类似`%?`的形式，称为格式转换符，也是占位符。字符串格式化的语法就是将值进行转换并在占位符处进行替换。

如果只有一个占位符`%?`，那么对应的值必须是单个的非元组对象；

In [26]:
print('Hello %s' % ('Python'))

Hello Python


In [639]:
print('Hello %s' % ('Python',))

Hello Python


字符串中有多个占位符，那么值必须是元组形式，而且要一一对应。如果数目不匹配，就会抛出TypeError异常。

In [27]:
print('我是%s,学历是%s，%s' % ('老王', '博士', '已婚'))

我是老王,学历是博士，已婚


占位符，也就是格式转换符，支持替换多种类型数据：

|占位符 | 描述 |
| :----:|:------------- |
| `%d`  | 有符号整数      |
| `%i`  | 有符号整数      |
| `%o`  | 有符号8进制整数     |
| `%x`  | 有符号16进制整数（小写）      |
| `%X`  | 有符号16进制整数（大写）      |
| `%e`  | 浮点数（小写）       |
| `%E`  | 浮点数（大写）       |
| `%g`  | 浮点数，科学记数法（小写）      |
| `%G`  | 浮点数，科学记数法（小写）      |
| `%c`  | 单个字符 |    
| `%r`  | 字符串（`repr()`）     |
| `%s`  | 字符串（`str()`）     |
| `%a`  | 字符串（`ascii()`）    |
| `%a`  | 字符串（`ascii()`）    |
| `%p`  | 用十六进制数格式化变量的地址     |

### `str.format()`方法

`printf`方法进行字符串格式化非常容易出错。

在Python中，可以使用字符串的方法`str.format()`来实现字符串的格式化

对于`str.format()`格式化方法，其占位符形式为`{0}`、`{1}`,把传入的参数进行适当格式化，然后替换对应的占位符，最后返回一个新的字符串。

In [28]:
print('Hello {0}'.format('Python'))

Hello Python


字符串中有多个占位符，那么值必须是元组形式。参数多了不影响，少了参数就会抛出索引异常IndexError。

In [655]:
print('我是{0},学历是{1}，{2}'.format('老王', '博士', '已婚'))

我是老王,学历是博士，已婚


In [656]:
print('我是{2},学历是{0}，{1}'.format('博士', '已婚', '老王'))

我是老王,学历是博士，已婚


In [657]:
print('我是{0},学历是{1}，{2}'.format('老王', '博士', '已婚', '多参数'))

我是老王,学历是博士，已婚


In [29]:
print('我是{0},学历是{1}，{2}'.format('老王', '博士'))

IndexError: tuple index out of range

对于整数、浮点数、字符串，可以使用辅助指令，实现更多格式化。语法约定：
```
:[[fill]align][sign][#][0][width][grouping_option][.precision][type]
```
- `fill`，填充字符，任意字符
- `align`，对齐字符，`"<" | ">" | "=" | "^"`；
- `sign`，符号，` "+" | "-" | " "`
- `width`，宽度，数字
- `precision`，精度，数字
- `type`，类型，`b,c,d,e,E,f,F,g,G,n,o,s,x,X,%`，参见上节介绍

In [660]:
num = 12345
pi = 3.1415926535
print('Format type: {0:d}, {1:f}'.format(num, pi))
print('Format width: {0:16d}, {1:16f}'.format(num, pi))
print('Format precision: {0:16d}, {1:16.8f}'.format(num, pi))
print('Format precision: {0:#b}, {1:#o}, {2:#x}, {2:#X}'.format(0o377, 0o377, 0xff))

Format type: 12345, 3.141593
Format width:            12345,         3.141593
Format precision:            12345,       3.14159265
Format precision: 0b11111111, 0o377, 0xff, 0XFF


In [573]:
print('Format sign: {0:+16d}, {1:+6f}'.format(num, pi))
print('Format sign: {0:-16d}, {1:-6f}'.format(-num, -pi))
print('Format align: {0:<16d}, {1:<16f}'.format(num, pi))
print('Format align: {0:>16d}, {1:>16f}'.format(num, pi))
print('Format align: {0:^16d}, {1:^16f}'.format(num, pi))

Format sign:           +12345, +3.141593
Format sign:           -12345, -3.141593
Format align: 12345           , 3.141593        
Format align:            12345,         3.141593
Format align:      12345      ,     3.141593    


In [592]:
print('Format fill: {0:016d}, {1:016f}'.format(num, pi))
print('Format fill: {0:0<16d}, {1:0<16f}'.format(num, pi))
print('Format fill: {0:#>16d}, {1:#>16f}'.format(num, pi))
print('Format fill: {0:#<16d}, {1:#<16f}'.format(num, pi))
print('Format fill: {0:#^16d}, {1:#^16f}'.format(num, pi))

Format fill: 0000000000012345, 000000003.141593
Format fill: 1234500000000000, 3.14159300000000
Format fill: ###########12345, ########3.141593
Format fill: 12345###########, 3.141593########
Format fill: #####12345######, ####3.141593####


参数除了按照位置传入外，还可以按照名字来传入：

In [661]:
print('当前坐标：{latitude}, {longitude}'.format(longitude='-115.81W', latitude='37.24N'))

当前坐标：37.24N, -115.81W


In [662]:
coord = {'latitude': '37.24N', 'longitude': '-115.81W'}
print('当前坐标：{latitude}, {longitude}'.format(**coord))

当前坐标：37.24N, -115.81W


### f-string

从Python3.6开始，新增了`f-string`字符串格式化方法。

f-string 的语法非常简单,即把格式化字符串的占位符`{expr}`，当作python代码求值替换。

In [663]:
a = 'Hello'
b = 'Python'
print(f'a + b is {a + b}')

a + b is HelloPython


In [664]:
name = '老王'
education = '博士'
print('我是{name},学历是{education}')

我是{name},学历是{education}


## 转换

- 使用内置`str`类构造对象

如果不指定参数，返回空字符串；传入对象，则返回对象的字符串表示。
```
str(object='') -> str
str(bytes_or_buffer[, encoding[, errors]]) -> str
```

In [666]:
print(str())
print(str(True))
print(str(1024))
print(str(3.1416926))


True
1024
3.1416926


调用`str(obj)`时，该对象对应有`__str__`特殊方法:

|操作符 | 特殊方法    |  说明   |
| :----:|:-------------| -------: |
| `str()`  | `__str__`    | 返回字符串表示   |

In [38]:
z = 3+4j
str(z), z.__str__()

('(3+4j)', '(3+4j)')

Python 中还提供了`repr()`函数来显示对象，调用`repr(obj)`时，该对象对应有`__repr__`模式方法:

|操作符 | 特殊方法    |  说明   |
| :----:|:-------------| -------: |
| `repr()`  | `__repr__`    | 返回字符串表示   |

对于一些对象来说，使用`str()`与`repr()`没有什么差别，有时候显示也不同，这取决于`__str__`与`__repr__`的实现。通常前者面向用户，显示的简单一些，后者则面向开发人员，显示的内容更多。

## 与现实世界的差异

世界上大多数名族都有哦自己的语言和文字，而计算机尝试来抽象表现这些语言文字和文本。同样，要完美表现还是要付出努力的，有时候并不那么完美。

### 编码格式

在现实世界中，一个字符串最小单位是一个字符。在活字印刷术中，就是一个字块。中国的汉字数量并没有准确数字，大约将近有十万个。也就是在印刷术中，就需要十万个字块。

而在计算机中内部数据存储最小单位是字节（byte），一个字节有8个位（bit），也就是0或1。在计算机中，数字使用位与字节来表示的。字节数不同表示的数字范围就不同。例如1个字节能表示的最大整数是`255(0b11111111)`，2个字节能表示的最大整数是`65535(0b1111111111111111)`，4个字节能表示的最大整数是`4294967295(0b11111111111111111111111111111111)`。

而对于文本，计算机需要事先进行编码。编码实际上就是做一个映射表，规定哪个整数对应哪个字符。由于是美国人最先发明的计算机，所以最早只编码美国人常用的128个字符，也就是大小写英文字母、数字和一些符号。这个编码表就是ASCII编码（American Standard Code for Information Interchange，美国信息交换标准代码）。

在[ASCII](https://baike.baidu.com/item/ASCII/309296)表中，从0到127分别代表不同的字符。例如0表示空字符(NUL)，48表示字符'1'，65表示`A`等。Python 内置函数`chr()`可以得到数字对应字符，下面打印出所有ASCII字符：

In [30]:
for i in range(128):
    print(i, bin(i), chr(i))

0 0b0  
1 0b1 
2 0b10 
3 0b11 
4 0b100 
5 0b101 
6 0b110 
7 0b111 
8 0b1000 
9 0b1001 	
10 0b1010 

11 0b1011 
12 0b1100 
13 0b1101 
14 0b1110 
15 0b1111 
16 0b10000 
17 0b10001 
18 0b10010 
19 0b10011 
20 0b10100 
21 0b10101 
22 0b10110 
23 0b10111 
24 0b11000 
25 0b11001 
26 0b11010 
27 0b11011 
28 0b11100 
29 0b11101 
30 0b11110 
31 0b11111 
32 0b100000  
33 0b100001 !
34 0b100010 "
35 0b100011 #
36 0b100100 $
37 0b100101 %
38 0b100110 &
39 0b100111 '
40 0b101000 (
41 0b101001 )
42 0b101010 *
43 0b101011 +
44 0b101100 ,
45 0b101101 -
46 0b101110 .
47 0b101111 /
48 0b110000 0
49 0b110001 1
50 0b110010 2
51 0b110011 3
52 0b110100 4
53 0b110101 5
54 0b110110 6
55 0b110111 7
56 0b111000 8
57 0b111001 9
58 0b111010 :
59 0b111011 ;
60 0b111100 <
61 0b111101 =
62 0b111110 >
63 0b111111 ?
64 0b1000000 @
65 0b1000001 A
66 0b1000010 B
67 0b1000011 C
68 0b1000100 D
69 0b1000101 E
70 0b1000110 F
71 0b1000111 G
72 0b1001000 H
73 0b1001001 I
74 0b1001010 J
75 0b100101

显然用美国标准 ASCII 编码是无法容纳中国的汉字，所以中国制定了 GB2312、GBK、[GB18030编码](https://baike.baidu.com/item/gb18030)，包含了中文字符。相应的，各个国家都有自己的编码标准。如果是多语言混合的文本，映射表不同，显示结果就有所不同，可能就会出现乱码。

为此，提出了Unicode编码。顾名思义，Unicode就是地球统一的编码，也就是万国码。为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。Unicode可以用两个字节表示，也可以用4个字节表示。

这又出现了新的问题，当文本只有英文时，使用Unicode编码有些浪费存储空间。所以又提出了UTF-8编码，也就是“可变长编码”。UTF-8编码会根据字符的不同，编码成1-6个字节。常用的英文字母编码成1个字节。汉字通常是3个字节，很生僻的字符可能会编码成更多字节。

| 字符 | ASCII编码   |  Unicode编码   | UTF-8 |
|:----:|:-------------| -------: | -------: |
| `A`  | `0b01000001`    | `0b0000000001000001`  | `0b01000001`  |
| `中`  | 无  | `0b01001110 00101101`  | `0b111001001011100010101101`  |

从上可知，ASCII编码实际上时UTF-8编码的一部分。大量支持ASCII编码的软件仍然可以在UTF-8编码下进行工作。

Python推荐源码文件使用utf-8编码。在源码文件中，通常添加一行
```
# -*- coding: utf-8 -*-  
```

在第 1 章中，编写的Python程序都增加了这一行。下面编写一个带有中文字符串的程序：

In [43]:
%%writefile helloutf8.py
#!/usr/bin/env python
# -*- coding: utf-8 -*-  
print('Hello')
print('您好')

Writing helloutf8.py


In [44]:
%run helloutf8.py

Hello
您好


### 字符串编码与解码

在Python 2 中，普通字符串 ASCII 编码；Unicode字符串是在字符串前面加上前缀`u`。

在Python 3 中，字符串都是以 Unicode 编码，字符串支持多语言。

In [45]:
%%python2
print type('ASCII')
print type(u'ASCII')

Couldn't find program: 'python2'


In [46]:
print(type('Hello'), 'Hello')
print(type('您好'), '您好')
print('안녕하세요')
print('Привет')
print('こんにちは')

<class 'str'> Hello
<class 'str'> 您好
안녕하세요
Привет
こんにちは


Python 内置函数`ord()`用来获取单个字符对应编码的整数，内置函数`chr()`则把编码转换为对应的字符：

In [48]:
print(bin(ord('A')), bin(ord('中')), bin(ord('こ')))

0b1000001 0b100111000101101 0b11000001010011


In [47]:
print(chr(65), chr(20013), chr(12371))

A 中 こ


Python 3 中的字符串是 Unicode 字符串，有时候需要将其转换为字节，也就是`bytes`类型。可以使用`S.encode()`方法，按照`utf-8`来进行编码。
```
S.encode(encoding='utf-8', errors='strict') -> bytes
```

In [49]:
s = 'ASCII'
b = s.encode(encoding='utf-8')
type(b), b

(bytes, b'ASCII')

如果字符串是中文，编码成'utf-8'，则一个中文字符会占用3个字节：

In [678]:
s = '您好'
b = s.encode(encoding='utf-8')
type(b), b, len(b), len(s)

(bytes, b'\xe6\x82\xa8\xe5\xa5\xbd', 6, 2)

如果要把字节组成的数据流转换为 Unicode 字符串，需要使用`decode`方法
```
decode(encoding='utf-8', errors='strict')
```

In [50]:
s_str = b.decode(encoding='utf-8')
print(type(b), type(s_str), s_str)

<class 'bytes'> <class 'str'> ASCII


In [680]:
# 完整示例
s = 'Python-中文'
print(type(s), s)
b = s.encode('utf-8')
print(type(b), b)
print(b.decode('utf-8'))

<class 'str'> Python-中文
<class 'bytes'> b'Python-\xe4\xb8\xad\xe6\x96\x87'
Python-中文


> 注意：Unicode 编码不一定包含所有字符。

### 内存与硬盘中的字符串

在计算机内存中，统一使用 Unicode 编码来进行文本处理。当需要保存到硬盘时，会保存为 ASCII、UTF-8 或 GB2312 等编码。反之，从硬盘读取这些编码的文件时，要对文本进行解码为 Unicode 编码。Python 推荐使用UTF-8编码来保存源码文件。

在需要通过网络传输时，也需要进行数据的编码与解码。

## 错误与异常

> 像硬币一样，任何事物都具有两重性或两面性。

在前面示例中，演示了字符串在使用中会遇到一些错误异常：
- 索引错误
- 搜索错误
- 匹配错误

## 小结

本节介绍了 Python 内置数据类型字符串，介绍了序列的一些运算操作。

本节还新介绍了一些 Python 内置函数   
- 类型函数
    - `str()`，创建整数对象
    
- 序列操作
    - `len()`， 返回序列元素数目
    - `max()`， 返回序列最大值
    - `min()`， 返回序列最小值
- 字符操作
    - `ord()`， 返回字符对应的编码数字
    - `chr()`， 返回数字对应的字符
    - `repr()`，创建对象的字符串描述