## Chapter 2: 字符串(Strings) 和 文本(Text)

在实际的使用中几乎所有的程度都会涉及到字符串和文本处理，Python提供了很多内置的方法来处理字符串和文本。在这一章节中，我们将学习如何使用这些方法来处理字符串和文本。

字符串常见的处理方式包括：
1. 提取字符串
2. 搜索
3. 替换
4. 解析

除了字符串内建的方法之外，还包括正则表达式的使用

In [1]:
# Python 字符串常见的内建函数
# Python 的字符串常见的内建函数如下：
# 1、capitalize()：将字符串的第一个字符转换为大写。
# 2、center(width, fillchar)：返回一个指定的宽度 width 居中的字符串，fillchar 为填充的字符，默认为空格。
# 3、count(str, beg= 0,end=len(string))：返回 str 在 string 里面出现的次数，如果 beg 或者 end 指定则返回指定范围内 str 出现的次数。
# 4、bytes.decode(encoding="utf-8", errors="strict")：Python3 中没有 decode 方法，但我们可以使用 bytes 对象的 decode() 方法来解码给定的 bytes 对象，这个 bytes 对象可以由 str.encode() 来编码返回。
# 5、encode(encoding='UTF-8',errors='strict')：以 encoding 指定的编码格式编码字符串，如果出错默认报一个ValueError 的异常，除非 errors 指定的是'ignore'或者'replace'。
# 6、endswith(suffix, beg=0, end=len(string))：检查字符串是否以 obj 结束，如果 beg 或者 end 指定则检查指定的范围内是否以 obj 结束，如果是，返回 True,否则返回 False。
# 7、expandtabs(tabsize=8)：把字符串 string 中的 tab 符号转为空格，tab 符号默认的空格数是 8。
# 8、find(str, beg=0 end=len(string))：检测 str 是否包含在字符串中，如果 beg 和 end 指定范围，则检查是否包含在指定范围内，如果包含，返回开始的索引值，否则返回-1。
# 9、index(str, beg=0, end=len(string))：跟 find() 方法一样，只不过如果 str 不在字符串中会报一个异常。
# 10、isalnum()：如果字符串至少有一个字符并且所有字符都是字母或数字则返回 True,否则返回 False。
# 11、isalpha()：如果字符串至少有一个字符并且所有字符都是字母则返回 True,否则返回 False。
# 12、isdigit()：如果字符串只包含数字则返回 True 否则返回 False。
# 13、islower()：如果字符串中包含至少一个区分大小写的字符，并且所有这些(区分大小写的)字符都是小写，则返回 True，否则返回 False。
# 14、isnumeric()：如果字符串中只包含数字字符，则返回 True，否则返回 False。
# 15、isspace()：如果字符串中只包含空白，则返回 True，否则返回 False。
# 16、istitle()：如果字符串是标题化的(见 title())则返回 True，否则返回 False。
# 17、isupper()：如果字符串中包含至少一个区分大小写的字符，并且所有这些(区分大小写的)字符都是大写，则返回 True，否则返回 False。
# 18、join(seq)：以指定字符串作为分隔符，将 seq 中所有的元素(的字符串表示)合并为一个新的字符串。
# 19、len(string)：返回字符串长度。
# 20、ljust(width[, fillchar])：返回一个原字符串左对齐，并使用 fillchar 填充至长度 width 的新字符串。
# 21、lower()：转换字符串中所有大写字符为小写。
# 22、lstrip()：截掉字符串左边的空格或指定字符。
# 23、maketrans()：创建字符映射的转换表，对于接受两个参数的最简单的调用方式，第一个参数是字符串，表示需要转换的字符，第二个参数也是字符串表示转换的目标。
# 24、max(str)：返回字符串 str 中最大的字母。
# 25、min(str)：返回字符串 str 中最小的字母。
# 26、replace(old, new [, max])：把 将字符串中的 old 替换成 new,如果 max 指定，则替换不超过 max 次。
# 27、rfind(str, beg=0,end=len(string))：类似于 find()函数，不过是从右边开始查找。
# 28、rindex( str, beg=0, end=len(string))：类似于 index()，不过是从右边开始。
# 29、rjust(width,[, fillchar])：返回一个原字符串右对齐，并使用 fillchar(默认空格）填充至长度 width 的新字符串。
# 30、rstrip()：删除字符串字符串末尾的空格。
# 31、split(str="", num=string.count(str))：num=string.count(str))：以 str 为分隔符截取字符串，如果 num 有指定值，则仅截取 num 个子字符串。
# 32、splitlines([keepends])：按照行('\r', '\r\n', \n')分隔，返回一个包含各行作为元素的列表，如果参数 keepends 为 False，不包含换行符，如果为 True，则保留换行符。
# 33、startswith(substr, beg=0,end=len(string))：检查字符串是否是以指定子字符串 substr 开头，是则返回 True，否则返回 False。如果 beg 和 end 指定值，则在指定范围内检查。
# 34、strip([chars])：在字符串上执行 lstrip()和 rstrip()。
# 35、swapcase()：将字符串中大写转换为小写，小写转换为大写。
# 36、title()：返回"标题化"的字符串，就是说所有单词都是以大写开始，其余字母均为小写(见 istitle())。
# 37、translate(table, deletechars="")：根据 str 给出的表(包含 256 个字符)转换 string 的字符, 要过滤掉的字符放到 deletechars 参数中。
# 38、upper()：转换字符串中的所有小写字符为大写。
# 39、zfill (width)：返回长度为 width 的字符串，原字符串右对齐，前面填充0。
# 40、isdecimal()：检查字符串是否只包含十进制字符，如果是返回 true，否则返回 false。
# 41、partition()：方法用来根据指定的分隔符将字符串进行分割。
# 42、rpartition()：方法类似于 partition() 方法，不过是从右边开始查找。
# 43、split()：通过指定分隔符对字符串进行切片，如果第二个参数 num 有指定值，则分隔 num+1 个子字符串。
# 44、rsplit()：类似于 split() 方法，只不过是从右边开始。
# 45、splitlines()：按照行('\r', '\r\n', \n')分隔，返回一个包含各行作为元素的列表。
# 46、isidentifier()：判断字符串是不是一个合法的标识符，即判断是不是一个合法的变量名。
# 47、isprintable()：检测字符串是否只包含可打印字符。

In [4]:
lines = "Python is a programming language. Python is a scripting language. Python is a high-level language."

# 使用某种界定符号对字符串进行分割
res = lines.split(" ")
print(res)

# 检验字符串开头或者结束是否是某个字符串
res_start_with_python = filter(lambda x: x.startswith("Python"), res)
print(list(res_start_with_python))

res_end_with_language = filter(lambda x: x.endswith("language."), res)
print(list(res_end_with_language))

['Python', 'is', 'a', 'programming', 'language.', 'Python', 'is', 'a', 'scripting', 'language.', 'Python', 'is', 'a', 'high-level', 'language.']
['Python', 'Python', 'Python']
['language.', 'language.', 'language.']


In [6]:
# 字符串匹配

# 利用regex expression 来匹配字符串 re
import re
pattern = re.compile(r'Python')
res = pattern.match(lines)
print(res)

<re.Match object; span=(0, 6), match='Python'>


In [7]:
# 字符串搜索
res = pattern.search(lines)
print(res)

<re.Match object; span=(0, 6), match='Python'>


In [8]:
# 字符串的特殊标识符有哪些
# \n 换行符
# \r 回车符
# \t 制表符
# \b 退格符
# \f 换页符
# \v 纵向制表符
# \a 响铃符
# \0 空字符
# \xhh 十六进制数 hh 表示的字符
# \ooo 八进制数 ooo 表示的字符

# 字符串的格式化
# 字符串的格式化可以使用 % 来进行格式化，也可以使用 format() 方法进行格式化，下面是两种格式化的方式：
# 使用 % 进行格式化
name = "Tom"
age = 20
print("Name: %s, Age: %d" % (name, age))

# 使用 format() 方法进行格式化
print("Name: {}, Age: {}".format(name, age))
print("Name: {0}, Age: {1}".format(name, age))
print("Name: {name}, Age: {age}".format(name=name, age=age))


Name: Tom, Age: 20
Name: Tom, Age: 20
Name: Tom, Age: 20
Name: Tom, Age: 20


In [9]:
# 以指定的列宽格式化字符串
import textwrap
s = "Python is a programming language. Python is a scripting language. Python is a high-level language."
print(textwrap.fill(s, width=20))

Python is a
programming
language. Python is
a scripting
language. Python is
a high-level
language.


In [1]:
# 合并一个列表中的字符串
s = ["Python", "is", "a", "programming", "language."]
print(" ".join(s))

Python is a programming language.
