# 第05章：字符串详解

字符串（String）是Python中最常用的数据类型之一，用来处理文本。简单来说，字符串就是一系列字符的组合，比如你的名字、一段话、一个句子，都可以用字符串来表示。

在日常生活中，我们经常需要处理文本信息：输入用户名、显示消息、处理文件内容等等。Python提供了丰富的字符串操作方法，让我们能够轻松地处理各种文本任务。

---

## 创建字符串

在Python中，创建字符串非常简单，只需要用引号把文字包起来就可以了。Python支持多种创建字符串的方式，每种方式都有其适用场景。

---

### 单引号和双引号

单引号和双引号在Python中是完全等价的，你可以选择任意一种使用。选择的原则是：如果字符串里包含单引号，就用双引号包裹；如果包含双引号，就用单引号包裹。这样就不需要转义字符了。

**使用建议**：虽然两种引号都可以，但建议在同一个项目中保持一致的风格。如果字符串里包含单引号，用双引号包裹会更方便；如果包含双引号，用单引号包裹会更方便。

In [None]:
name = 'Python'
message = "Hello, World!"

text1 = "I'm a student"
text2 = 'He said "Hello"'


---

### 三引号（多行字符串）

当你需要创建一个包含多行内容的字符串时，可以使用三个单引号或三个双引号。这种方式会保留字符串中的所有格式，包括换行和空格。这在写文档字符串、多行注释或者格式化文本时非常有用。

**实际应用**：三引号常用于函数或类的文档说明（docstring），也适合存储需要保持格式的文本内容，比如邮件模板、报告格式等。

In [None]:
poem = '''
床前明月光，
疑是地上霜。
举头望明月，
低头思故乡。
'''

doc = """
这是多行字符串
可以写很多行
保留所有格式
"""


---

### 转义字符

有时候，我们需要在字符串中表示一些特殊字符，比如换行、制表符、引号等。这些字符不能直接输入，需要使用反斜杠（\）进行转义。转义字符就是告诉Python："接下来的字符有特殊含义，不要按字面意思理解"。

**理解转义**：转义字符就像是一个"翻译器"，把特殊字符转换成Python能理解的格式。比如 `\n` 表示换行，`\t` 表示制表符（相当于按一下Tab键）。

In [None]:
print("第一行\n第二行")
print("姓名\t年龄\t城市")
print("张三\t18\t北京")
print("C:\\Users\\Desktop")
print("He said \"Hello\"")
print('I\'m happy')


---

### 原始字符串

如果你不想让反斜杠被转义，可以在字符串前面加一个 `r` 或 `R`，这样Python就会把字符串当作原始字符串处理，所有的反斜杠都会按字面意思保留。这在处理文件路径、正则表达式时特别有用。

**使用场景**：原始字符串主要用于Windows文件路径和正则表达式。在Windows系统中，文件路径使用反斜杠，如果不使用原始字符串，就需要写成 `"C:\\new\\test.txt"`，比较麻烦。

In [None]:
path = r"C:\new\test.txt"
print(path)

pattern = r"\d+\.\d+"


---

## 字符串操作

创建了字符串之后，我们经常需要对它们进行操作：拼接、格式化、查找、替换等等。Python提供了丰富的字符串操作方法，让我们能够轻松完成各种文本处理任务。

---

### 拼接

字符串拼接就是把多个字符串连接在一起，形成一个新的字符串。Python提供了两种拼接方式：使用加号（+）进行拼接，使用乘号（*）进行重复。

**注意事项**：字符串只能和字符串拼接，如果要把数字或其他类型的数据拼接到字符串中，需要先用 `str()` 函数转换成字符串。这是初学者常犯的错误。

In [None]:
first_name = "张"
last_name = "三"
full_name = first_name + last_name
print(full_name)

laugh = "哈" * 5
print(laugh)

age = 18
message = "我今年" + str(age) + "岁"


---

### 格式化

格式化就是把变量的值插入到字符串的指定位置，生成一个包含实际数据的字符串。这在输出信息、生成报告、创建消息时非常常用。Python提供了三种格式化方式，其中f-string是最推荐的方式。

---

#### f-string（推荐！）

f-string是Python 3.6引入的新特性，是目前最推荐使用的字符串格式化方式。它的语法简洁明了，在字符串前面加一个 `f`，然后在字符串中用 `{}` 包裹变量或表达式即可。

**为什么推荐f-string**：f-string不仅语法简洁，而且性能更好，可读性更强。你可以在 `{}` 中直接写Python表达式，非常灵活。

In [None]:
name = "小明"
age = 18
score = 95.5

message = f"我叫{name}，今年{age}岁，考了{score}分"
print(message)

print(f"明年我{age + 1}岁")
print(f"平均分：{(90 + 95 + 88) / 3:.2f}")

print(f"|{name:10}|")
print(f"|{name:<10}|")
print(f"|{name:>10}|")
print(f"|{name:^10}|")
print(f"|{name:*^10}|")


---

#### format()方法

`format()` 方法是Python 2.7引入的格式化方式，虽然不如f-string简洁，但在一些场景下仍然有用。它支持按位置、按索引、按名称等多种方式传递参数。

**使用场景**：虽然f-string更推荐，但在一些需要动态构建格式字符串的场景中，`format()` 方法仍然有其优势。

In [None]:
text = "我叫{}，今年{}岁".format("小红", 18)
text = "我叫{0}，今年{1}岁，{0}很高兴".format("小红", 18)
text = "我叫{name}，今年{age}岁".format(name="小红", age=18)


---

#### %格式化（老方法）

`%` 格式化是Python最古老的字符串格式化方式，类似于C语言的printf。虽然现在不推荐使用，但在一些旧代码中仍然可以看到，了解它有助于阅读老代码。

**为什么不推荐**：`%` 格式化语法不够直观，容易出错，而且功能不如f-string强大。新代码应该使用f-string。

---

In [None]:
name = "小明"
age = 18
score = 95.5

text = "我叫%s，今年%d岁，考了%.1f分" % (name, age, score)
print(text)


## 索引和切片

字符串是由一个个字符组成的序列，我们可以通过索引来访问单个字符，通过切片来获取子字符串。这是字符串操作的基础，理解索引和切片对于后续学习列表、元组等数据结构也非常重要。

---

### 索引（单个字符）

索引就是通过位置编号来访问字符串中的某个字符。Python中的索引从0开始，也就是说第一个字符的索引是0，第二个字符的索引是1，以此类推。Python还支持负数索引，从-1开始表示最后一个字符，-2表示倒数第二个，非常方便。

**理解索引**：可以把字符串想象成一排房子，每个字符就是一栋房子，索引就是门牌号。正向索引从左边开始编号（0, 1, 2...），负向索引从右边开始编号（-1, -2, -3...）。

In [None]:
text = "Python"

print(text[0])
print(text[1])
print(text[5])

print(text[-1])
print(text[-2])
print(text[-6])


---

### 切片（多个字符）

切片就是获取字符串的一部分，通过指定起始位置和结束位置来截取子字符串。切片的基本语法是 `[起始:结束]`，注意结束位置是不包含的。切片还支持步长参数，可以每隔几个字符取一个。

**切片规则**：切片遵循"左闭右开"原则，即包含起始位置，但不包含结束位置。这就像数学中的区间 [a, b)，包含a但不包含b。

In [None]:
text = "Hello, World!"

print(text[0:5])
print(text[7:12])
print(text[:5])
print(text[7:])
print(text[:])

print(text[0:10:2])
print(text[::2])
print(text[::-1])


---

### 切片技巧

掌握一些常用的切片技巧，可以让你在处理字符串时事半功倍。比如取前几个字符、取后几个字符、去掉首尾字符、反转字符串等。

**实用技巧**：这些切片技巧在实际编程中经常用到，比如处理文件名、提取日期、反转字符串等。记住这些常用模式，可以大大提高编程效率。

---

In [None]:
text = "Python Programming"

print(text[:5])
print(text[-5:])
print(text[1:-1])
print(text[::-1])


## 字符串方法

Python为字符串提供了大量的内置方法，这些方法可以帮我们完成各种常见的文本处理任务。字符串方法不会修改原字符串（因为字符串是不可变的），而是返回一个新的字符串。

---

### 大小写转换

大小写转换在处理用户输入、格式化输出时经常用到。Python提供了多个方法来实现不同的大小写转换需求。

**使用场景**：比如验证码通常不区分大小写，可以先把输入转换成小写再比较；标题需要每个单词首字母大写，可以使用 `title()` 方法。

In [None]:
text = "Hello World"

print(text.upper())
print(text.lower())
print(text.capitalize())
print(text.title())
print(text.swapcase())


---

### 查找和替换

查找和替换是字符串操作中最常用的功能之一。Python提供了 `find()`、`index()`、`count()`、`replace()` 等方法来实现这些功能。

**find vs index**：`find()` 和 `index()` 功能类似，但 `find()` 找不到时返回-1，`index()` 找不到时会抛出异常。如果不确定字符串是否存在，建议使用 `find()`。

In [None]:
text = "Hello, World! Hello, Python!"

print(text.find("World"))
print(text.find("Java"))
print(text.index("World"))

print(text.count("Hello"))

new_text = text.replace("Hello", "Hi")
print(new_text)

new_text = text.replace("Hello", "Hi", 1)
print(new_text)


---

### 判断

判断方法用于检查字符串是否符合某些条件，比如是否以某个字符串开头、是否包含某个子字符串、是否全是数字等。这些方法在数据验证、条件判断时非常有用。

**实际应用**：这些判断方法在表单验证、文件类型检查、数据清洗等场景中经常用到。比如检查文件名是否以 `.py` 结尾，检查用户输入是否全是数字等。

In [None]:
text = "hello.py"
print(text.startswith("hello"))
print(text.endswith(".py"))

print("llo" in text)
print("abc" in text)
print("abc" not in text)

print("123".isdigit())
print("abc".isalpha())
print("abc123".isalnum())
print("   ".isspace())
print("Hello".isupper())
print("hello".islower())


---

### 分割和连接

分割和连接是处理结构化文本的常用操作。分割是把一个字符串按照指定的分隔符拆分成多个部分，连接是把多个字符串用指定的分隔符连接成一个字符串。

**split vs splitlines**：`split()` 可以指定任意分隔符，`splitlines()` 专门用于按行分割，会自动处理不同操作系统的换行符（\n、\r\n等）。

In [None]:
text = "apple,banana,orange"
fruits = text.split(",")
print(fruits)

text = "第一行\n第二行\n第三行"
lines = text.splitlines()
print(lines)

fruits = ['apple', 'banana', 'orange']
text = ",".join(fruits)
print(text)

text = " | ".join(fruits)
print(text)


---

### 去除空格

去除空格是数据清洗中的常见操作。用户输入的数据经常包含多余的空格，需要清理后才能使用。Python提供了 `strip()`、`lstrip()`、`rstrip()` 三个方法来去除空格。

**使用场景**：处理用户输入时，经常需要去除首尾空格。比如用户输入用户名时可能不小心加了空格，需要先去除再验证。

In [None]:
text = "  Hello World  "

print(text.strip())
print(text.lstrip())
print(text.rstrip())

text = "***Hello***"
print(text.strip("*"))


---

### 对齐

对齐方法用于格式化输出，让文本按照指定的宽度和对齐方式显示。这在生成表格、格式化报告时非常有用。

**格式化输出**：对齐方法配合f-string使用，可以生成格式整齐的表格和报告，让输出更加美观易读。

---

In [None]:
text = "Python"

print(text.center(20))
print(text.center(20, "*"))
print(text.ljust(20, "-"))
print(text.rjust(20, "-"))


## 字符串是不可变的

这是Python字符串的一个重要特性：字符串一旦创建就不能修改。如果你想要修改字符串，只能创建一个新的字符串。这个特性初看起来可能不太方便，但实际上它带来了很多好处，比如线程安全、可以作为字典的键等。

**为什么不可变**：字符串不可变的设计让Python可以优化内存使用，相同的字符串可以共享内存。同时，这也让字符串操作更加安全，不会意外修改数据。

---

In [None]:
text = "Hello"

text = "h" + text[1:]
print(text)

text = text.replace("H", "h")


## 实战例子

理论知识学完了，让我们通过一些实际的例子来巩固所学内容。这些例子都是日常编程中经常遇到的问题，掌握它们对提高编程能力很有帮助。

---

### 例子1：验证密码强度

在注册账号时，我们经常需要验证用户输入的密码是否符合要求。这个例子展示了如何使用字符串方法来判断密码的强度。

**思路分析**：这个例子使用了多个字符串判断方法，逐步检查密码是否符合各项要求。`any()` 函数用于检查是否至少有一个字符满足条件。

In [None]:
password = input("请输入密码：")

# 检查长度
if len(password) < 8:
    print("密码太短，至少8位")
elif not any(c.isdigit() for c in password):
    print("密码必须包含数字")
elif not any(c.isalpha() for c in password):
    print("密码必须包含字母")
elif password.islower() or password.isupper():
    print("密码必须包含大小写字母")
else:
    print("密码强度：强")


---

### 例子2：格式化输出表格

在显示数据时，我们经常需要以表格的形式输出，让数据更加清晰易读。这个例子展示了如何使用字符串格式化来生成表格。

**格式化技巧**：使用制表符（\t）可以让列对齐，使用字符串乘法（"-" * 40）可以快速生成分隔线。


In [None]:
# 学生成绩表
students = [
    ("张三", 90, 85, 92),
    ("李四", 88, 92, 87),
    ("王五", 95, 89, 91)
]

print("姓名\t语文\t数学\t英语\t平均分")
print("-" * 40)

for name, chinese, math, english in students:
    avg = (chinese + math + english) / 3
    print(f"{name}\t{chinese}\t{math}\t{english}\t{avg:.1f}")


---

### 例子3：提取文件名和扩展名

在处理文件时，我们经常需要分离文件名和扩展名。这个例子展示了两种常用的方法。

**方法选择**：`rsplit()` 从右边开始分割，适合处理可能有多个点号的文件名；`rfind()` 找到最后一个点号的位置，然后用切片提取。


In [None]:
filename = "document.pdf"

# 方法1：split
name, ext = filename.rsplit(".", 1)
print(f"文件名：{name}")  # document
print(f"扩展名：{ext}")  # pdf

# 方法2：rfind
dot_index = filename.rfind(".")
name = filename[:dot_index]
ext = filename[dot_index+1:]


---

### 例子4：敏感词过滤

在内容审核系统中，我们需要过滤掉敏感词汇。这个例子展示了如何使用字符串替换来实现敏感词过滤。

**实现思路**：遍历敏感词列表，把每个敏感词替换成相同长度的星号。这样既隐藏了敏感内容，又保持了文本的长度。


In [None]:
text = "这是一条包含敏感词的评论"
sensitive_words = ["敏感词", "不良信息", "违规"]

# 替换敏感词
for word in sensitive_words:
    text = text.replace(word, "*" * len(word))

print(text)  # 这是一条包含***的评论


---

### 例子5：简单的文本分析

有时候我们需要分析一段文本的基本信息，比如字符数、单词数等。这个例子展示了如何进行简单的文本分析。

**分析方法**：使用 `len()` 获取长度，使用 `split()` 分割单词，使用生成器表达式和 `sum()` 统计特定类型的字符。

---


In [None]:
text = input("输入一段文字：")

print(f"字符总数：{len(text)}")
print(f"单词数量：{len(text.split())}")
print(f"字母数量：{sum(c.isalpha() for c in text)}")
print(f"数字数量：{sum(c.isdigit() for c in text)}")
print(f"空格数量：{text.count(' ')}")


## 常见陷阱

在学习字符串操作时，有一些常见的错误和陷阱需要注意。了解这些陷阱可以帮助你避免犯错，写出更健壮的代码。

---

### 陷阱1：字符串是不可变的

初学者经常试图直接修改字符串的某个字符，但这是不允许的。需要记住：字符串是不可变的，只能创建新字符串。


In [None]:
text = "Hello"
# text[0] = "h"  # 错误！

# 正确：创建新字符串
text = text.replace("H", "h")


---

### 陷阱2：字符串乘法

字符串乘法是一个很有用的特性，可以快速生成重复的字符串，比如分隔线、装饰线等。


In [None]:
print("=" * 50)  # 50个等号，很方便


---

### 陷阱3：多行字符串的缩进

在使用三引号创建多行字符串时，要注意缩进也会被包含在字符串中。如果不需要缩进，可以使用 `strip()` 方法去除。

---


In [None]:
# 错误：缩进也会被包含
text = """
    第一行
    第二行
    """
print(text)  # 输出会有很多空格

# 正确：
text = """
第一行
第二行
""".strip()


## 练习题

理论知识学完了，通过练习来巩固所学内容。这些练习题由易到难，涵盖了字符串操作的主要知识点。

---

### 练习1：回文判断

判断一个字符串是否是回文（正着读和倒着读一样）。

```python
# 示例：
# "level" → True
# "hello" → False
```

**提示**：可以使用切片 `[::-1]` 来反转字符串，然后比较原字符串和反转后的字符串是否相等。

---

### 练习2：单词统计

输入一段文字，统计每个单词出现的次数。

**提示**：使用 `split()` 分割单词，使用字典来统计每个单词的出现次数。

---

### 练习3：凯撒密码

实现凯撒密码加密：把每个字母向后移动3位（a→d, b→e）。

**提示**：可以使用 `ord()` 和 `chr()` 函数来处理字符的ASCII码，注意处理字母的边界情况（z后面是a）。

---

### 练习4：格式化手机号

把手机号格式化成 xxx-xxxx-xxxx 的形式。

```python
# 输入：13812345678
# 输出：138-1234-5678
```

**提示**：可以使用切片来提取不同部分的数字，然后用 `-` 连接。

---

## 下一步

学会了字符串操作，下一章我们学习列表（List），Python最常用的数据结构！列表和字符串有很多相似之处，比如都支持索引和切片，但列表是可变的，功能更加强大。

[上一章：第04章 - 数字类型和运算 ←](../04-数字类型和运算/04-数字类型和运算.md)

[下一章：第06章 - 列表 →](../06-列表/06-列表.md)

---

**本章重点**
- 字符串的创建方式（单引号、双引号、三引号、原始字符串）
- 索引和切片（正向索引、负向索引、切片语法）
- f-string格式化输出（最推荐的格式化方式）
- 常用字符串方法（查找、替换、分割、连接等）
- 字符串是不可变的（只能创建新字符串）

**记住**
- 字符串索引从0开始，负向索引从-1开始
- 切片不包括结束位置，遵循"左闭右开"原则
- 字符串不可变，修改字符串只能创建新字符串
- f-string是最推荐的格式化方式，语法简洁性能好
- `[::-1]` 可以反转字符串，这是切片的巧妙应用
