# 字符串方法

对于单个字符，`ord()`获取字符的整数表示，`chr()`把编码转换为对应的字符：

In [1]:
ord('中')

20013

In [2]:
chr(20013)

'中'

In [3]:
# 如果知道字符的整数编码，还可以用十六进制写str
'\u4e2d\u6587'

'中文'

## 字符串拼接

Python中拼接（连接）字符串可以直接将两个字符串紧挨着写在一起，具体格式为`strname = 'str1' 'str2'`，  
其中strname是拼接后的字符串变量名，str1和str2是要拼接的字符串内容。

In [4]:
str0 = '优质的''Python教程'
print(str0)

优质的""Python教程


这种写法只能拼接字符串常量，变量得借助`+`运算符来拼接，即`strname = str1 + str2`。  
当然，+运算符也能拼接字符串常量。

In [5]:
name = '微软中国'
url = 'https://www.microsoft.com/zh-cn/'
info = name + '的官网是：' + url
print(info)

微软中国的官网是：https://www.microsoft.com/zh-cn/


注意Python不允许直接拼接数字和字符串，可以先借助`str()`函数和`repr()`函数将数字转换为字符串：

In [6]:
name = 'C语言中文网'
age = 8
course = 30
info = name + '已经' + str(age) + '岁了，共发布了' + repr(course) + '套教程。'
print(info)

C语言中文网已经8岁了，共发布了30套教程。


str()和repr()虽然都可以将数字转换成字符串，但它们之间是有区别的。  
str()将数据转换成适合人类阅读的字符串形式；repr()将数据转换成适合解释器阅读的字符串形式（Python表达式形式），  
repr()适合在开发和调试阶段使用，但如果没有等价的语法，会发生`SyntaxError`异常。

## 字符串截取

字符串是由多个字符构成的，字符之间有顺序，这个顺序号就称为索引（index）。  
在方括号`[]`中使用索引可访问字符串的字符，格式为`strname[index]`，其中strname是字符串名字，index是索引值。

以字符串的左端为起点时，索引是从0开始计数的，第二个字符的索引为1，依次类推；  
以字符串的右端为起点时，索引是从-1开始计数的，倒数第二个字符的索引为-2，依次类推。

In [7]:
info = '123456789'
print(info[7])
print(info[-6])

8
4


使用[]也可以获取多个字符，也就是一个子串，格式为`strname[start : end : step]`，具体说明如下：  
start是要截取的第一个字符所在的索引（截取时包含该字符），不指定则默认为0，也就是从字符串的开头截取；  
end是要截取的最后一个字符所在的索引（截取时不包含该字符），不指定则默认为字符串的长度；  
从start索引处的字符开始，每step个距离获取一个字符，直至end索引出的字符。step默认值为1，省略不写该值时最后的冒号也可以省略。

In [8]:
info = 'https://www.microsoft.com/zh-cn/'
# 从索引3开始，每隔4个字符取出一个字符，直到索引22为止
print(url[3: 22: 4])

p/.rf


## 字符串长度

定义一个字符串，然后用`len()`函数计算该字符串的长度，示例如下：

In [9]:
info = 'https://www.microsoft.com/zh-cn/'
len(info)

32

实际开发中，除了要获取字符串长度外，有时还要获取字符串的字节数。可以使用`encode()`将字符串进行编码后再获取它的字节数。  
Python中不同的字符所占的字节数取决于采用的编码方式，比如汉字在GBK/GB2312编码中占2个字节，而在UTF-8编码中一般占3个字节。  

In [10]:
str1 = '人生苦短，我用Python'
len(str1.encode())

27

In [11]:
str2 = '人生苦短，我用Python'
len(str2.encode('gbk'))

20

## 大小写转换

`title()`用于将字符串中每个单词的首字母转为大写，其他字母转为小写；  
`lower()`用于将字符串中的所有大写字母转换为小写字母；  
`upper()`用于将字符串中的所有小写字母转换为大写字母。  
以上三个函数都会返回转换后的新字符串，但是不会修改原字符串。

In [12]:
str3 = 'I LOve pyTHon'
print(str3.title())
print(str3.lower())
print(str3.upper())
print(str3)

I Love Python
i love python
I LOVE PYTHON
I LOve pyTHon


## 删除空格和特殊字符

Python提供了三个函数来删除字符串中多余的空格和特殊字符（指制表符（\t）、回车符（\r）、换行符（\n）等）：  
`strip()`可以删除字符串左右两侧的空格或特殊字符；  
`lstrip()`可以删除字符串左侧的空格或特殊字符；  
`rstrip()`可以删除字符串右侧的空格或特殊字符。

Python的str类型是不可变的（换言之，字符串一旦形成，它所包含的字符序列就不能发生任何改变），  
因此这三个函数只会返回字符串经过该删除操作后的副本，并不会修改原字符串。

In [13]:
str4 = '  python.study.net\t'
print(str4.strip())
print(str4.lstrip())
print(str4.rstrip())
print(str4)

python.study.net
python.study.net	
  python.study.net
  python.study.net	


## 编码转换

Python3默认采用UTF-8编码，有两种常用的字符串类型，分别为str和bytes类型，  
其中str用来表示Unicode字符，bytes用来表示二进制数据，二者用`encode()`和`decode()`进行转换。

encode()用于将str类型转换成bytes类型，这个过程也称为编码；    
decode()用于将bytes类型转换为str类型，这个过程也称为解码。  
使用encode()编码不会修改原字符串。  
如果编码时采用的不是默认的UTF-8编码，则解码时要选择和编码时一样的格式，否则会抛出异常。

In [None]:
# 以下格式中用[]括起来的参数为可选参数
'''
第一个可选参数指定采用的字符编码，不写则默认采用UTF-8编码
第二个可选参数指定错误处理方式，其可选择值包括：
strict（遇到非法字符就抛出异常）、ignore（忽略非法字符）、
replace（用？替换非法字符）、xmlcharrefreplace（使用xml的字符引用）。
不写则该参数取默认值strict。
只使用第一个参数时，可以省略'encoding='，直接写编码方式即可。
'''
str.encode([encoding='utf-8'][,errors='strict'])
bytes.decode([encoding='utf-8'][,errors='strict'])

In [14]:
str5 = '自由生长'
bytes0 = str5.encode('GBK')
print(bytes0)
print(bytes0.decode('GBK'))

b'\xd7\xd4\xd3\xc9\xc9\xfa\xb3\xa4'
自由生长


## 学会查询

字符串相关的函数和方法远不止以上这些，例如格式化字符串函数`format()`。  
可以用`dir()`函数列出某个类或某个模块中的全部内容，包括变量、函数、方法和类等；  
可以用`help()`函数查看某个函数或者模块的帮助文档。

In [None]:
# obj表示要查看的对象，不写obj则dir()会列出当前范围内的全部内容。
dir(obj)
# obj表示要查看的对象，不写obj则help()会进入帮助子程序。
help(obj)

In [15]:
# 查看str类型支持的所有函数和方法
dir(str)

['__add__',
 '__class__',
 '__contains__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__getnewargs__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__mod__',
 '__mul__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__rmod__',
 '__rmul__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 'capitalize',
 'casefold',
 'center',
 'count',
 'encode',
 'endswith',
 'expandtabs',
 'find',
 'format',
 'format_map',
 'index',
 'isalnum',
 'isalpha',
 'isascii',
 'isdecimal',
 'isdigit',
 'isidentifier',
 'islower',
 'isnumeric',
 'isprintable',
 'isspace',
 'istitle',
 'isupper',
 'join',
 'ljust',
 'lower',
 'lstrip',
 'maketrans',
 'partition',
 'removeprefix',
 'removesuffix',
 'replace',
 'rfind',
 'rindex',
 'rjust',
 'rpartition',
 'rsplit',
 'rstrip',
 'split',
 'splitlines',
 'startswith',
 'strip',
 'swapcase',


In [16]:
# 查看格式化字符串函数str.format()的用法
help(str.format)

Help on method_descriptor:

format(...)
    S.format(*args, **kwargs) -> str
    
    Return a formatted version of S, using substitutions from args and kwargs.
    The substitutions are identified by braces ('{' and '}').

