Python 会自动对特定字符串进行驻留处理。

具体来说，所有标识符（变量名、函数名、类名等）都会被驻留（创建单例对象）。

Python 还会对看起来像标识符的字符串字面量进行驻留。

In [1]:
# 定义字符串变量 a，值为 'hello'（符合标识符规则，会被自动驻留）
a = 'hello'
# 定义字符串变量 b，值同样为 'hello'（与 a 指向同一个驻留对象）
b = 'hello'
# 打印 a 的内存地址
print(id(a))
# 打印 b 的内存地址（与 a 地址相同，证明是同一个对象）
print(id(b))

4432558960
4432558960


In [2]:
# 定义字符串变量 a，值为 'hello, world!'（包含逗号和空格，不符合标识符规则）
a = 'hello, world!'
# 定义字符串变量 b，值同样为 'hello, world!'（不会被驻留，创建新对象）
b = 'hello, world!'
# 打印 a 的内存地址
print(id(a))
# 打印 b 的内存地址（与 a 地址不同，是两个独立对象）
print(id(b))

4438370352
4438370288


In [3]:
# 下划线连接的字符串符合标识符规则，自动驻留
a = 'hello_world'
b = 'hello_world'
# 打印 a 和 b 的内存地址（地址相同）
print(id(a))
print(id(b))

4438372208
4438372208


In [4]:
# 超长下划线连接字符串，符合标识符规则，自动驻留
a = '_this_is_a_long_string_that_could_be_used_as_an_identifier'
b = '_this_is_a_long_string_that_could_be_used_as_an_identifier'
# 打印 a 和 b 的内存地址（地址相同）
print(id(a))
print(id(b))

4438410720
4438410720


In [5]:
# 以数字开头但后续为下划线+字母，符合标识符格式，自动驻留
a = '1_hello_world'
b = '1_hello_world'
# 打印 a 和 b 的内存地址（地址相同）
print(id(a))
print(id(b))

4438358064
4438358064


In [6]:
# 数字后接空格，不符合标识符规则，不会自动驻留
a = '1 hello world'
b = '1 hello world'
# 打印 a 和 b 的内存地址（地址不同）
print(id(a))
print(id(b))

4438370992
4438381360


In [7]:
# 符合标识符规则的长字符串，自动驻留
a = 'this_is_a_long_string'
b = 'this_is_a_long_string'
# 使用 == 比较字符串内容（始终有效）
print('a==b:', a == b)
# 使用 is 比较内存地址（仅对驻留字符串有效）
print('a is b:', a is b)

a==b: True
a is b: True


In [8]:
# 包含空格，不符合标识符规则，不会自动驻留
a = 'hello world'
b = 'hello world'
# == 仍能正确比较内容
print('a==b:', a == b)
# is 比较内存地址，因未驻留而返回 False
print('a is b:', a is b)

a==b: True
a is b: False


In [9]:
# 导入 sys 模块，使用其中的 intern 函数强制驻留
import sys

# 强制驻留字符串 'hello world'
a = sys.intern('hello world')
# 强制驻留同一个字符串（与 a 指向同一对象）
b = sys.intern('hello world')
# 未强制驻留，创建新对象
c = 'hello world'

# 打印三个变量的内存地址
print(id(a))
print(id(b))
print(id(c))

4438370288
4438370288
4438381360


In [10]:
# 定义使用 == 比较的函数（未驻留字符串）
def compare_using_equals(n):
    # 创建两个内容相同但未驻留的长字符串
    a = 'a long string that is not interned' * 200
    b = 'a long string that is not interned' * 200
    # 执行 n 次 == 比较
    for i in range(n):
        if a == b:
            pass

# 定义使用 is 比较的函数（强制驻留字符串）
def compare_using_interning(n):
    # 强制驻留两个内容相同的长字符串
    a = sys.intern('a long string that is not interned' * 200)
    b = sys.intern('a long string that is not interned' * 200)
    # 执行 n 次 is 比较（内存地址比对）
    for i in range(n):
        if a is b:
            pass

# 导入时间模块，用于计时
import time

# 测试 == 比较的耗时（1000 万次）
start = time.perf_counter()
compare_using_equals(10000000)
end = time.perf_counter()
print('equality: ', end - start)

# 测试 is 比较的耗时（1000 万次）
start = time.perf_counter()
compare_using_interning(10000000)
end = time.perf_counter()
print('identity: ', end - start)

equality:  2.867295624999997
identity:  0.21879362499998933


### 总结

1. 字符串驻留的核心是 “复用内存对象”，核心收益是提升字符串比较速度、节省内存；
2. Python 自动驻留覆盖合法标识符类字符串，特殊场景可通过 `sys.intern()` 手动驻留；
3. 优化原则：优先依赖 Python 自动机制，手动驻留仅作为性能瓶颈的补充优化手段。