#### <center>**Python内存优化技巧**</center>
一、**避免出现不必要的全局变量**<br>
&emsp;&emsp;全局变量的访问速度比局部变量慢，尽量使用局部变量。<br>
&emsp;&emsp;全局变量可能被任意函数修改，局部变量存储在栈帧中，访问速度快，全局变量需要通过字典查找。（虽然性能差异通常不大，但在循环、数值计算中会体现出来。）全局变量的合理场景有：常量（约定不修改）、配置信息（只读）。<br><br>
二、**减少循环内部的计算**<br>
&emsp;&emsp;将循环内部的计算移到循环外部，减少不必要的重复计算。<br>

In [None]:
# 优化前
for i in range(100):
    result = i * 2 * 3.14

# 优化后
multiplier = 2 * 3.14
for i in range(100):
    result = i * multiplier

三、**使用生成器**<br>
&emsp;&emsp;生成器在需要大量数据处理时可以显著减少内存占用。生成器是一种迭代器，通过yield关键字实现，与列表不同，生成器不一次性将所有元素加载到内存，而是按需要生成元素，适用于处理大数据集。<br>

In [None]:
# 使用列表
squares = [x**2 for x in range(100000)]
# 使用生成器
squares_gen = (x**2 for x in range(100000))

In [None]:
# 使用生成器读取大文件
def read_large_files(file_path):
    with open(file_path, 'r') as file:
        for line in file:
            yield line

# 使用生成器
for line in read_large_files('large_file.txt'):
    process_line(line)

In [3]:
squares = [x**2 for x in range(10)]
squares_gen = (x**2 for x in range(10))
print(squares, squares_gen)
for i in squares_gen:
    print(i)


[0, 1, 4, 9, 16, 25, 36, 49, 64, 81] <generator object <genexpr> at 0x00000231BE7B7D80>
0
1
4
9
16
25
36
49
64
81


四、**使用合适的字符串操作**<br>
&emsp;&emsp;对于字符串拼接，使用join而不是+ 操作

In [None]:
# 优化前
strings = ["hello", "world"]
result = ""
for s in strings:
    result += s
# 优化后
result = "".join(strings)

五、**避免不必要的对象复制**<br>
&emsp;&emsp;在python中，对象的赋值操作实际上是引用传递，而不是创建新对象。因此，避免不必要的对象复制可以节省内存。

In [None]:
# 不推荐：复制列表
a = [1, 2, 3]
b = a[:]
# 推荐：引用列表
b = a

六、**使用数组和Numpy进行高效计算**
Python的内置列表结构虽然灵活，但在处理大规模数值计算时效率不高。使用array模块或者numpy可以显著提高内存和计算效率。

#### <center>**Python中的列表List、元组Tuple、集合Set和字典Dict**</center>
参考连接：https://blog.csdn.net/alva_xu/article/details/146687911<br>
一、**核心特性对比**<br>
|特性|列表|元组|集合|字典|
|---|---|---|---|---|
|**定义语法**|<font color='red'>[ ]</font>或<font color='red'>list()</font>|<font color='red'>( )</font>或<font color='red'>tuple()</font>|<font color='red'>{ }</font>或<font color='red'>set()</font>|<font color='red'>{ }</font>或<font color='red'>dict{}</font>|
|**可变性**| &#x2705;可变（增删改）|&#x274c;不可变| &#x2705;可变（元素不可变）|&#x2705;可变（键不可变，值可变）|
|**有序性**| &#x2705;按插入顺序存储|&#x2705;按插入顺序存储|&#x274c;无序|&#x2705;有序|
|**元素唯一性**|&#x274c;允许重复|&#x274c;允许重复|&#x2705;自动去重|&#x2705;键唯一，值可重复|
|**内存效率**|较低（动态分配）|较高（固定分配）|中等（哈希表存储）|较高（哈希表存储键值对）|
|**典型用途**|动态数据集合|不可变数据存储|去重、集合运算|键值对映射|

二、**操作方法与功能**<br>
1、**列表**<br>
&#8226; 核心特性：<br>
&emsp; &#9642; 可变性：支持增删改操作（如append()、insert()、pop()），**为了支持append和inset操作因此会预分配额外空间，因此内存占用会更多**。<br>
&emsp; &#9642; 有序性：元素按插入顺序存储，支持索引和切片 <br>
&emsp; &#9642; 元素类型：可包含任意数据类型（整数、字符串、列表等）<br>
&#8226; 适用场景：动态数据集合（如用户输入记录、日志分析）

In [6]:
# 标准语法
fruits = ['apple', 'banana', 'cherry']
empty_list = []
# 动态创建
numbers = list(range(10))
# 增删改查
nums = [1, 2, 3, 4, 5]
nums.append(6) # 添加元素 -->[1, 2, 3, 4, 5, 6]
print(nums)
nums.remove(3) # 删除元素 -->[1, 2, 4, 5, 6]
print(nums)
nums[2] = 99 # 修改元素 -->[1, 2, 99, 5, 6] 
print(nums)
nums.pop() # 删除最后一个元素 -->[1, 2, 99, 5]
print(nums)
nums.insert(0, 0) # 在指定位置插入元素 -->[0, 1, 2, 99, 5]
print(nums)

[1, 2, 3, 4, 5, 6]
[1, 2, 4, 5, 6]
[1, 2, 99, 5, 6]
[1, 2, 99, 5]
[0, 1, 2, 99, 5]


2、**元组**<br>
&#8226; 核心特性：<br>
&emsp; &#9642; 不可变性：创建后无法修改元素，没有append、insert这样的方法<br>
&emsp; &#9642; 有序性：元素顺序固定，支持索引和切片 <br>
&emsp; &#9642; 内存效率：因不可变性，创建和访问速度由于列表<br>
&#8226; 适用场景：存储固定数据（如配置参数、数据库查询结果）<br>

In [2]:
# 标准语法
coordinates = (30,25)
single_element = (42,) #单元素需要加逗号，不加的话只是一个数字
# 隐式定义
point = 10,20 # 自动转为元组
letters = tuple("hello")
print(coordinates,single_element,point,letters)
letters[2] = 's'
print(letters)

(30, 25) (42,) (10, 20) ('h', 'e', 'l', 'l', 'o')


TypeError: 'tuple' object does not support item assignment

In [None]:
# 列表和元组内存占用对比
import sys
lst = [1,2,3,4,5]
tup = (1,2,3,4,5)
print(sys.getsizeof(lst)) # 104 bytes
print(sys.getsizeof(tup)) # 80 bytes

104
80


**为什么列表要浪费内存？**<br>
&emsp;&emsp;性能换空间的设计，如果不预分配，每次append都要重新分配内存和拷贝，时间复杂度会退化，牺牲内存换来O(1)平均append。列表灵活但吃内存，元组克制但省内存。在不需要修改的情况下，能用tuple就不用list。

3、**集合**<br>
&#8226; 核心特性：<br>
&emsp; &#9642; 唯一性：自动去除重复元素<br>
&emsp; &#9642; 无序性：元素没有固定顺序，因此也不支持索引 <br>
&emsp; &#9642; 集合运算：支持交、并、差等数学运算<br>
&#8226; 适用场景：数据去重、快速成员检测（如唯一IP统计）<br>

In [4]:
unique_set = {1,2,3,4,5,5,'s'} # 自动去重{1,2,3,4,5}
# 动态创建
letters_set = set("awdfwewww")
empty_set = set()  # 空集合不能用{}创建，因为这是字典的创建方法
print(unique_set,letters_set,empty_set)

{1, 2, 3, 4, 5, 's'} {'f', 'w', 'e', 'a', 'd'} set()


4、**字典**<br>
&#8226; 核心特性：<br>
&emsp; &#9642; 键唯一性：键必须为不可变类型（如字符串、元组），值可以重复（其实可以把集合看作没有值的字典）<br>
&emsp; &#9642; 有序性：保留插入顺序 <br>
&emsp; &#9642; 快速查找：基于哈希表实现，键的查询时间复杂度为O(1)<br>
&#8226; 适用场景：映射关系存储（如缓存系统、配置信息）<br>
&emsp;&emsp;和列表相比，字典查找和插入的速度极快，不会随着key的增加而变慢，需要占用大量内存，内存浪费多。而列表相反，查找和插入的时间随着元素的增加而增加，占用空间小，浪费内存很少。

In [4]:
studen_dict = {"name":"Liu", "age":14}
empty_dict = {}
#动态创建
key_values = [("a",1),("b",2),("a",2)]
my_dict = dict(key_values)
print(studen_dict,my_dict)

# 新增键值对
studen_dict['sex'] = 'female'
print(studen_dict)

{'name': 'Liu', 'age': 14} {'a': 2, 'b': 2}
{'name': 'Liu', 'age': 14, 'sex': 'female'}


三、**性能与优化建议**<br>
1、**查询速度**<br>
&emsp;&emsp;列表和元组的查询都是通过in判断是否存在时，都是O(n)，即最差情况下需要遍历整个容器，所以嘻哈寻速度较慢。集合字典都是使用哈希表实现，查询速度都能达到O(1)，非常高效。<br>
2、**内存占用**<br>
&emsp;&emsp;同样数量的元素，元组<列表<集合<字典<br>
3、**线程安全**<br>
&emsp;&emsp;元组的不可变性天然支持多线程安全，适合共享数据场景。<br><br>
四、**总结**<br>
&emsp;&emsp;&#8226; 列表：灵活的动态数据容器，适合频繁修改的场景。<br>
&emsp;&emsp;&#8226; 元组：轻量级不可变结构，适合固定数据和线程安全需求。<br>
&emsp;&emsp;&#8226; 集合：高效去重数学运算工具，适合唯一性处理。<br>
&emsp;&emsp;&#8226; 字典：键值映射和哈希表实现，适合快速查询和关联数据存储。<br>