# 字符串类


在Python中，字符串是一种不可变的数据类型，表示由字符组成的序列。字符串类提供了许多内置变量和函数来对字符串进行操作和处理。下面详细介绍字符串类以及常用的内置变量和函数，以及它们的使用案例。

- 字符串的内置变量
- 字符串的内置函数
- 字符串之间的常用操作
- 高级操作：字符串的正则匹配



### 字符串类（str）

字符串是Python中的一个内置类，可以用于表示由字符组成的文本数据。字符串是不可变的，意味着一旦创建，就不能修改其内容。

### 字符串的内置变量

1. `str`: 表示字符串本身的值。

### 字符串的内置函数

1. `len()`: 返回字符串的长度。

```python
s = "Hello, World!"
print(len(s))  # 输出: 13
```

2. `upper()`: 将字符串转换为大写。

```python
s = "Hello, World!"
print(s.upper())  # 输出: "HELLO, WORLD!"
```

3. `lower()`: 将字符串转换为小写。

```python
s = "Hello, World!"
print(s.lower())  # 输出: "hello, world!"
```

4. `capitalize()`: 将字符串的第一个字符转换为大写，其他字符转换为小写。

```python
s = "hello, world!"
print(s.capitalize())  # 输出: "Hello, world!"
```

5. `title()`: 将字符串中每个单词的首字母转换为大写。

```python
s = "hello, world!"
print(s.title())  # 输出: "Hello, World!"
```

6. `replace()`: 替换字符串中的指定子串。

```python
s = "Hello, World!"
new_s = s.replace("Hello", "Hi")
print(new_s)  # 输出: "Hi, World!"
```

7. `count()`: 统计指定子串在字符串中出现的次数。

```python
s = "Hello, Hello, Hello!"
print(s.count("Hello"))  # 输出: 3
```

8. `find()`: 查找指定子串在字符串中的位置，返回第一次出现的索引。

```python
s = "Hello, World!"
print(s.find("World"))  # 输出: 7
```

9. `index()`: 与`find()`类似，但是如果子串不存在会抛出异常。

```python
s = "Hello, World!"
print(s.index("World"))  # 输出: 7
print(s.index("Python"))  # 抛出ValueError: substring not found
```

10. `join()`: 将一个字符串列表按照指定的分隔符连接成一个字符串。

```python
words = ["Hello", "World", "Python"]
s = ", ".join(words)
print(s)  # 输出: "Hello, World, Python"

nums = [1, 2, 3, 4]
print(", ".join(nums)) # 会报错，因为不能join非字符串的可迭代对象

str_nums = [str(e) for e in nums]
print(", ".join(str_nums))
```

11. `startswith()`: 判断字符串是否以指定子串开头。

```python
s = "Hello, World!"
print(s.startswith("Hello"))  # 输出: True
print(s.startswith("Hi"))  # 输出: False
print(s.startswith("World", 7)) # 输出：True
print(s.startswith("Hello", 0, 3)) # 输出：False
```

12. `endswith()`: 判断字符串是否以指定子串结尾。

```python
s = "Hello, World!"
print(s.endswith("World!"))  # 输出: True
print(s.endswith("Python"))  # 输出: False
```

13. `isdigit()`: 判断字符串是否只包含数字。

```python
s1 = "12345"
s2 = "Hello"
print(s1.isdigit())  # 输出: True
print(s2.isdigit())  # 输出: False
```

14. `isalpha()`: 判断字符串是否只包含字母。

```python
s1 = "Hello"
s2 = "12345"
print(s1.isalpha())  # 输出: True
print(s2.isalpha())  # 输出: False
```

15. `isalnum()`: 判断字符串是否只包含字母和数字。

```python
s1 = "Hello123"
s2 = "Hello, World!"
print(s1.isalnum())  # 输出: True
print(s2.isalnum())  # 输出: False
```

16. `isspace()`: 判断字符串是否只包含空格。

```python
s1 = "   "
s2 = "Hello, World!"
print(s1.isspace())  # 输出: True
print(s2.isspace())  # 输出: False
```

17. `strip()`: 去除字符串两端的空格。

```python
s = "  Hello, World!  "
print(s.strip())  # 输出: "Hello, World!"
```

18. `lstrip()`: 去除字符串左边的空格。

```python
s = "  Hello, World!  "
print(s.lstrip())  # 输出: "Hello, World!  "
```

19. `rstrip()`: 去除字符串右边的空格。

```python
s = "  Hello, World!  "
print(s.rstrip())  # 输出: "  Hello, World!"
```

这些内置函数可以帮助开发者对字符串进行各种操作和处理。

## `replace()`

`str.replace(old, new[, count])` 是 Python 字符串的内置方法，用于将字符串中的指定子串 `old` 替换为新的子串 `new`。

参数：
- `old`: 要被替换的子串。
- `new`: 替换后的新子串。
- `count` (可选): 指定替换的次数，默认为全部替换。

返回值：
- 返回替换后的新字符串。

示例：
```python
text = "hello world"
new_text = text.replace("hello", "hi")
print(new_text)  # Output: "hi world"

text = "apple apple orange apple"
new_text = text.replace("apple", "banana", 2)
print(new_text)  # Output: "banana banana orange apple"
```

在这个示例中，`replace()` 方法将字符串中的子串 "hello" 替换为 "hi"，并将字符串中的前两个 "apple" 替换为 "banana"。

## 搜索子串位置 find()函数与index()函数

`find()` 和 `index()` 都是 Python 字符串的内置方法，用于查找指定子串在字符串中的位置。

区别在于，当查找的子串不存在时，`find()` 方法返回 -1，而 `index()` 方法会抛出 ValueError 异常。

### `find(sub[, start[, end]])`：
- `sub`: 要查找的子串。
- `start` (可选): 指定查找的起始位置，默认为 0。
- `end` (可选): 指定查找的结束位置，默认为字符串的长度。

返回值：
- 若找到子串，返回子串的起始索引；若未找到，返回 -1。

示例：
```python
text = "hello world"
index = text.find("world")
print(index)  # Output: 6

index = text.find("python")
print(index)  # Output: -1
```

### `index(sub[, start[, end]])`：
- `sub`: 要查找的子串。
- `start` (可选): 指定查找的起始位置，默认为 0。
- `end` (可选): 指定查找的结束位置，默认为字符串的长度。

返回值：
- 若找到子串，返回子串的起始索引；若未找到，抛出 ValueError 异常。

示例：
```python
text = "hello world"
index = text.index("world")
print(index)  # Output: 6

try:
    index = text.index("python")
except ValueError as e:
    print("Substring not found:", e)  # Output: Substring not found: substring not found
```

## `count()`

`count(sub[, start[, end]])` 是 Python 字符串的内置方法，用于统计字符串中某个子串出现的次数。

参数：
- `sub`: 要搜索的子串。
- `start` (可选): 指定搜索的起始位置，默认为 0。
- `end` (可选): 指定搜索的结束位置，默认为字符串的长度。

返回值：
- 返回子串在字符串中出现的次数。

示例：
```python
text = "apple apple orange apple"
count = text.count("apple")
print(count)  # Output: 3

text = "hello world"
count = text.count("o")
print(count)  # Output: 2
```

在这个示例中，`count()` 方法统计了字符串中子串 "apple" 和字符 "o" 的出现次数。

## `center()`

`center()` 是 Python 字符串的内置方法，用于将原字符串居中，并使用指定字符进行填充。

参数说明：
- `width`：指定字符串的总宽度，即将原字符串居中后的总长度。
- `fillchar`（可选）：用于填充的字符，默认为空格。

返回值：
- 返回居中后的新字符串。

示例：
```python
text = "Python"
width = 10
print(text.center(width))  # '  Python  '

print(text.center(10, "-"))  # '--Python--'
```

在这个示例中，`center()` 方法将字符串 `"Python"` 居中，并在两侧填充空格，使得总长度为 10。如果指定了 `fillchar` 参数，将使用指定字符进行填充。

## `startswith()`

`startswith()`是Python字符串的内置方法，用于判断字符串是否以指定的前缀开头。该方法的详细参数如下：

```python
str.startswith(prefix[, start[, end]])
```

参数说明：
- `prefix`：要检查的前缀，可以是一个字符串或一个元组。
    - 如果是一个字符串，则表示要检查该字符串是否是原字符串的前缀。
    - 如果是一个元组，则表示要检查原字符串是否以元组中的任意一个字符串为前缀。
- `start`（可选）：指定搜索的起始位置，默认为0，表示从字符串的开头开始搜索。
- `end`（可选）：指定搜索的结束位置，默认为字符串的长度，表示在整个字符串中搜索。

返回值：
- 如果字符串以指定的前缀开头，则返回`True`，否则返回`False`。

示例：
```python
text = "Hello, world!"
print(text.startswith("Hello"))  # True
print(text.startswith("world"))  # False
print(text.startswith(("Hello", "Python")))  # True
print(text.startswith("world", 7))  # True (从索引7开始检查)
print(text.startswith("world", 0, 7))  # False (只在索引0到6范围内检查)
```

在这个示例中，`startswith()`方法判断了字符串`text`是否以指定的前缀开头，并返回相应的结果。

## `endswith()`
`endswith()`是Python字符串的内置方法，用于判断字符串是否以指定的后缀结尾。该方法的详细参数如下：

```python
str.endswith(suffix[, start[, end]])
```

参数说明：
- `suffix`：要检查的后缀，可以是一个字符串或一个元组。如果是一个字符串，则表示要检查该字符串是否是原字符串的后缀。如果是一个元组，则表示要检查原字符串是否以元组中的任意一个字符串为后缀。
- `start`（可选）：指定搜索的起始位置，默认为0，表示从字符串的开头开始搜索。
- `end`（可选）：指定搜索的结束位置，默认为字符串的长度，表示在整个字符串中搜索。

返回值：
- 如果字符串以指定的后缀结尾，则返回`True`，否则返回`False`。

示例：
```python
text = "Hello, world!"
print(text.endswith("world!")) # True
print(text.endswith("Hello"))  # False
print(text.endswith(("world!", "Python!")))  # True
```

在这个示例中，`endswith()`方法判断了字符串`text`是否以指定的后缀结尾，并返回相应的结果。

# join()函数

`join()` 是 Python 字符串的内置方法，用于将一个**可迭代对象中的字符串元素**连接成一个新的字符串。

`str.join(iterable)`：
- `str`: 用于连接字符串的字符串（连接符）。
- `iterable`: 可迭代对象，其中包含要连接的字符串元素。

返回值：
- 返回一个新的字符串，其中包含将可迭代对象中的字符串元素按照连接符连接而成的结果。

示例：
```python
words = ['Hello', 'World', 'Python']
result = ' '.join(words)
print(result)  # Output: Hello World Python

numbers = ['1', '2', '3', '4', '5']
result = '-'.join(numbers)
print(result)  # Output: 1-2-3-4-5
```

在上面的示例中，我们使用了空格 `' '` 和连字符 `'-'` 作为连接符来连接字符串元素。你可以根据需要选择不同的连接符。注意，连接符是作为调用 `join()` 方法的字符串（即前面的 `str` 参数），而不是作为可迭代对象中的元素。

## upper() 和 lower()

字符串的字母大小写转换，主要使用场景是大小写不敏感的字符统计之类。


## capitalize() 和 title()

首字母大小，或者每个单词的首字母大写

## isalpha, isdigit, isalnum, islower, isupper, isspace

判断字符串里字符的类型

## 字符串之间的操作

Python中字符串之间的操作包括连接、格式化和切片等。

1. 字符串连接：使用`+`运算符将两个字符串连接在一起。
```python
str1 = "Hello"
str2 = "World"
result = str1 + " " + str2
print(result)  # Output: "Hello World"
```

2. 字符串格式化：使用字符串的`format()`方法或f-string来格式化字符串，可以将变量的值插入到字符串中。
```python
name = "Alice"
age = 30
message1 = "My name is {} and I am {} years old.".format(name, age)
message2 = f"My name is {name} and I am {age} years old."
print(message1)  # Output: "My name is Alice and I am 30 years old."
print(message2)  # Output: "My name is Alice and I am 30 years old."
```

3. 字符串切片：使用切片操作来获取字符串中的子串。
```python
text = "Hello World"
substring1 = text[0:5]  # 获取从索引0开始到索引4的子串，不包含索引5
substring2 = text[6:]  # 获取从索引6开始到字符串末尾的子串
substring3 = text[:5]  # 获取从字符串开头到索引4的子串，不包含索引5
print(substring1)  # Output: "Hello"
print(substring2)  # Output: "World"
print(substring3)  # Output: "Hello"
print(text[::-1])  # Output: "dlroW olleH" 字符串反转
```

这些操作可以用于处理和修改字符串，使得字符串处理更加灵活和方便。

`format_map()`方法是Python中的一个字符串方法，它允许您使用字典进行字符串格式化。它类似于`format()`方法，但只接受一个参数 - 一个包含要替换到字符串中的值的字典。

以下是`format_map()`方法的基本语法：

```python
str.format_map(mapping)
```

在这个语法中：
- `字符串`：要进行格式化的字符串。
- `映射`：一个包含键和值的字典，用于进行字符串替换。

`format_map()`方法通过将字符串中的占位符用字典中的相应值替换来完成字符串格式化。字符串中的占位符用大括号`{}`表示。

以下是使用`format_map()`方法的示例：

```python
# 定义一个包含要替换到字符串中的值的字典
data = {'姓名': '小明', '年龄': 25, '城市': '北京'}

# 包含占位符的字符串
template = "我叫{name}，今年{age}岁，住在{city}。"

# 使用format_map()方法进行字符串格式化
result = template.format_map(data)

# 打印格式化后的字符串
print(result)
```

输出：
```
我叫小明，今年25岁，住在北京。
```

在这个例子中，`模板`字符串中的`{name}`、`{age}`和`{city}`占位符被`数据`字典中对应的值替换，使用了`format_map()`方法进行格式化。

值得注意的是，如果传递给`format_map()`方法的字典中不包含与字符串中的占位符对应的键，将会引发`KeyError`。因此，请确保字典中包含了字符串中所有占位符所需的键。

## 字符串与其他数值型的转换

1. 字符串转为整数 

```python
s = "123"
a = int(s)
```

2. 字符串转为浮点数

```
s = '123.3'
d = float(s)
```

3. 字符串转为布尔型

```
s='True'
t = bool(s)
```

## 高阶操作：字符串的正则匹配

### 正则表达式的概念
正则表达式（Regular Expression，简称为Regex或RegExp）是一种用于描述字符串模式的工具。它是一种文本匹配技术，用于在文本中查找、匹配和替换符合特定模式的字符串。正则表达式是由一系列字符和特殊字符组成的表达式，可以用来灵活地匹配和处理各种复杂的字符串。

正则表达式的基本思想是通过使用特定的语法规则，将要匹配的模式定义成一个字符串，然后使用这个字符串去匹配其他的文本。正则表达式可以用于以下操作：

1. 查找：在文本中搜索匹配特定模式的字符串。
2. 匹配：判断一个字符串是否符合特定的模式。
3. 替换：使用特定的字符串替换匹配到的字符串。
4. 分割：根据特定的模式将字符串分割成子串。

在Python中，可以使用`re`模块来进行正则表达式的操作。`re`模块提供了各种函数和方法，用于执行正则表达式的匹配和操作。

正则表达式是一种强大而灵活的工具，适用于处理各种复杂的文本处理需求，如数据提取、数据清洗、字符串匹配等。但是正则表达式的语法较为复杂，需要一定的学习和理解，但一旦掌握，就可以提高文本处理的效率和准确性。

### 模式的规则定义

在正则表达式中，模式是由一系列字符和特殊字符组成的字符串，用于描述要匹配的文本模式。模式可以包含普通字符和特殊字符，普通字符表示匹配该字符本身，而特殊字符用于表示匹配特定模式的规则。

以下是正则表达式中常用的一些特殊字符和它们的含义：

1. `.`：匹配除换行符外的任意单个字符。
2. `*`：匹配前面的字符零次或多次。
3. `+`：匹配前面的字符一次或多次。
4. `?`：匹配前面的字符零次或一次。
5. `[]`：用于定义一个字符集，匹配括号内的任意一个字符。
6. `[^]`：用于定义一个否定字符集，匹配不在括号内的任意一个字符。
7. `|`：用于匹配两个或多个模式中的任意一个。
8. `()`：用于分组，将其中的模式看作一个整体。
9. `\`：用于转义字符，将特殊字符转义为普通字符。
10. `\d`: 是一个特殊字符组合，用于匹配数字。它等价于匹配任意一个数字字符，即0到9之间的任何一个数字

例如，正则表达式`ab*`表示匹配一个字符`a`后面跟着零个或多个字符`b`，`[a-z]+`表示匹配一个或多个小写字母，`(\d{3})-\d{4}`表示匹配一个三位数字后跟着一个连字符再跟着四位数字的模式。

正则表达式的模式可以根据实际需求进行灵活组合和使用，用于实现各种复杂的文本匹配和处理操作。但由于正则表达式的语法较为复杂，需要谨慎使用，并仔细检查和测试模式的正确性。

### re库

字符串的正则匹配是指使用正则表达式对字符串进行模式匹配的过程。Python中可以使用`re`模块来进行正则匹配操作。`re`模块提供了各种函数和方法，用于执行正则表达式的匹配和操作。

下面是一些常用的`re`模块函数和方法：

1. `re.match(pattern, string)`: 从字符串的开头开始匹配，如果匹配成功，则返回一个匹配对象；如果匹配失败，则返回`None`。
```python
import re

pattern = r"hello"
text = "hello world"
result = re.match(pattern, text)
print(result)  # Output: <re.Match object; span=(0, 5), match='hello'>
```

2. `re.search(pattern, string)`: 在整个字符串中搜索，如果找到匹配的子串，则返回一个匹配对象；如果没有找到，则返回`None`。
```python
import re

pattern = r"world"
text = "hello world"
result = re.search(pattern, text)
print(result)  # Output: <re.Match object; span=(6, 11), match='world'>
```

3. `re.findall(pattern, string)`: 返回所有匹配的子串组成的列表。
```python
import re

pattern = r"\d+"
text = "I have 3 apples and 5 bananas"
result = re.findall(pattern, text)
print(result)  # Output: ['3', '5']
```

4. `re.sub(pattern, replacement, string)`: 将匹配的子串替换为指定的字符串。
```python
import re

pattern = r"\d+"
text = "I have 3 apples and 5 bananas"
replacement = "X"
result = re.sub(pattern, replacement, text)
print(result)  # Output: "I have X apples and X bananas"
```

5. `re.split(pattern, string)`: 使用正则表达式进行字符串分割。
```python
import re

pattern = r"\s+"
text = "Hello World"
result = re.split(pattern, text)
print(result)  # Output: ['Hello', 'World']
```

正则表达式是一种强大的字符串匹配工具，可以用于处理各种复杂的字符串匹配和替换操作。但同时也需要注意正则表达式的语法和性能，避免出现不必要的错误和效率问题。

### re.Match

在Python的re模块中，当使用re.match或re.search方法进行正则匹配后，会返回一个匹配对象，该对象属于re.Match类，可以使用以下成员和方法：

1. group()：返回匹配的字符串。
2. start()：返回匹配字符串在原始字符串中的起始位置。
3. end()：返回匹配字符串在原始字符串中的结束位置。
4. span()：返回一个包含匹配字符串起始和结束位置的元组。
5. groups()：返回一个包含所有捕获组的元组。
6. groupdict()：返回一个包含所有捕获组的字典，以组名为键，组匹配的字符串为值。

以下是一个简单的示例：

```python
import re

pattern = r'\d+'
text = 'The price is $20 and the quantity is 5.'

match = re.search(pattern, text)
if match:
    print("Matched string:", match.group())       # 输出: Matched string: 20
    print("Start position:", match.start())       # 输出: Start position: 12
    print("End position:", match.end())           # 输出: End position: 14
    print("Start and end positions:", match.span())  # 输出: Start and end positions: (12, 14)
```

如果在正则表达式中使用了捕获组，那么还可以使用groups()和groupdict()方法获取捕获组的匹配结果。例如：

```python
import re

pattern = r'(\d+)-(\d+)'
text = 'The range is 10-20.'

match = re.search(pattern, text)
if match:
    print("Group 1:", match.group(1))           # 输出: Group 1: 10
    print("Group 2:", match.group(2))           # 输出: Group 2: 20
    print("Groups:", match.groups())            # 输出: Groups: ('10', '20')

    # 注意，此处捕获组的命名是用 ?P<name> 的形式，名称为"start"和"end"
    pattern_named = r'(?P<start>\d+)-(?P<end>\d+)'
    match_named = re.search(pattern_named, text)
    if match_named:
        print("Named group 'start':", match_named.group('start'))  # 输出: Named group 'start': 10
        print("Named group 'end':", match_named.group('end'))      # 输出: Named group 'end': 20
        print("Named groups:", match_named.groupdict())           # 输出: Named groups: {'start': '10', 'end': '20'}
```

以上就是re.Match类的常用成员和方法，它们可以帮助我们在正则表达式匹配时获取匹配的详细信息。

## 测试题

选择题：

1. 下面哪个字符串方法可以将字符串的首字母转换为大写？

   a) upper()
   
   b) capitalize()
   
   c) title()
   
   d) first_upper()

2. 以下哪个字符串方法可以将字符串按照指定的分隔符分割成列表？

   a) split()
   
   b) join()
   
   c) replace()
   
   d) index()

3. 下面哪个字符串方法可以判断字符串是否以指定的子串开头？

   a) startswith()
   
   b) endswith()
   
   c) contains()
   
   d) match()

4. 以下哪个字符串方法可以删除字符串两端的空白字符（空格、换行等）？

   a) strip()
   
   b) lstrip()
   
   c) rstrip()
   
   d) trim()

5. 下面哪个字符串方法可以将字符串中的所有字符转换为小写？

   a) lower()
   
   b) upper()
   
   c) casefold()
   
   d) capitalize()

判断题：

1. 字符串是Python中不可变的数据类型。（True/False）

2. `join()`方法用于将一个列表的字符串元素合并成一个字符串。（True/False）

3. `find()`方法用于返回字符串中指定子串的第一个出现的索引位置。（True/False）

4. `replace()`方法可以用于替换字符串中的指定子串。（True/False）

5. 字符串的索引是从1开始的。（True/False）

编程题：

1. 编写一个函数`reverse_string(s)`，接受一个字符串作为参数，返回该字符串的反转字符串。

2. 编写一个函数`count_vowels(s)`，接受一个字符串作为参数，返回该字符串中元音字母（a、e、i、o、u）的个数。

3. 编写一个函数`is_palindrome(s)`，判断一个字符串是否是回文字符串（正读和反读都一样）。

4. 编写一个函数`remove_duplicates(s)`，接受一个字符串作为参数，返回一个去除重复字符的新字符串。

5. 编写一个函数`word_frequency(s)`，接受一个字符串作为参数，返回一个字典，其中键是字符串中的单词，值是该单词在字符串中出现的次数。


### 编程题：统计代词频率

请统计以下段落中，各类人称代词出现的频次，比如I, you, he, she, they, his, her, my, me等，注意I和i都是第一人称代词。(即大小写不敏感)
并将结果写入到文件pronouns.txt，格式如下：

```txt
i,10
she,5
you,1
my,1
me,19
```

注意：

- 大小写处理
- 标点符号处理


```python
article = '''Once upon a time in a remote village, there lived four friends named Alice, Bob, Sarah, and Tom. They were known for their strong bond and shared a deep friendship.

One day, they heard about a mysterious treasure hidden in a far-off land. Excited and curious, they decided to embark on a thrilling adventure together. Each of them had their reasons for seeking the treasure – Alice wanted to prove her bravery, Bob wished to make his family proud, Sarah sought answers to her life's questions, and Tom desired to help his struggling village.

As they journeyed through dense forests and crossed treacherous rivers, they encountered various challenges. The village they left behind became anxious about their safety, hoping for their return.

In their quest, they faced not only physical obstacles but also emotional turmoil. At times, they got angry with each other due to disagreements and misunderstandings. However, their bond of friendship and love for one another prevailed, and they resolved their conflicts to continue their journey together.

As they neared the treasure's location, they discovered a hidden cave filled with ancient artifacts and jewels. Their excitement knew no bounds, but they also felt a sense of responsibility to preserve the treasure's history.

In the end, they decided to share the treasure's wealth with their village, ensuring its prosperity and happiness. The villagers rejoiced, grateful for their friends' return and the newfound prosperity.

Through their adventure, they learned valuable life lessons about friendship, trust, and the power of love to overcome any challenge. They returned to their village as heroes, forever cherishing the memories of their journey and the bond that brought them closer together.

And so, the four friends lived happily ever after, inspiring generations in their village with their tale of courage, love, and the spirit of adventure.'''

'''

