## 进阶主题

### 数据类型的底层实现

#### 从奇怪的列表说起

##### 错综复杂的赋值

In [1]:
list_1 = [1,[22, 33, 44], (5, 6, 7), {"Age": 19}]
list_1

[1, [22, 33, 44], (5, 6, 7), {'Age': 19}]

##### 浅拷贝

In [2]:
# list_3 = list_1    #只是给list_1起了一个别名
list_2 = list_1.copy()    #或者 = list_1[:], = list(list_1) 都是浅拷贝

- 对浅拷贝后的列表进行操作

In [3]:
list_2[1].append(55)
print(list_1)
print(list_2)

[1, [22, 33, 44, 55], (5, 6, 7), {'Age': 19}]
[1, [22, 33, 44, 55], (5, 6, 7), {'Age': 19}]


注意list_2中的第一项元素进行了修改，

但是list_1中的第一项元素也进行了修改。

为什么？

我们不是已经进行浅拷贝了吗

##### 列表的底层实现

**引用数组的概念**

列表内的元素可以分散地存储在内存中的不同位置。

列表中存储的，实际上是这些**元素的地址** -**地址的存储在内存中是连续的**

In [4]:
list_1
list_2 = list(list_1)    #浅拷贝

[1, [22, 33, 44, 55], (5, 6, 7), {'Age': 19}]

- 新增元素

In [10]:
list_1.append(100)
list_2.append("Harry Potter")

In [11]:
print(list_1)
print(list_2)

[1, [22, 33, 44, 55], (5, 6, 7), {'Age': 19}, 100]
[1, [22, 33, 44, 55], (5, 6, 7), {'Age': 19}, 'Harry Potter']


- 修改元素

In [12]:
list_1[0] = 10
list_2[0] = 20


In [13]:
print(list_1)
print(list_2)

[10, [22, 33, 44, 55], (5, 6, 7), {'Age': 19}, 100]
[20, [22, 33, 44, 55], (5, 6, 7), {'Age': 19}, 'Harry Potter']


- **对列表型元素进行操作**

In [14]:
list_1[1].remove(44)
list_2[1] += [77, 88]

In [15]:
print(list_1)
print(list_2)

[10, [22, 33, 55, 77, 88], (5, 6, 7), {'Age': 19}, 100]
[20, [22, 33, 55, 77, 88], (5, 6, 7), {'Age': 19}, 'Harry Potter']


- **对元组型元素进行操作**

In [16]:
list_2[2] += (8,9)

In [18]:
print(list_1)
print(list_2)

[10, [22, 33, 55, 77, 88], (5, 6, 7), {'Age': 19}, 100]
[20, [22, 33, 55, 77, 88], (5, 6, 7, 8, 9), {'Age': 19}, 'Harry Potter']


**从结果来看，元组是不可改变的**

**元组如果改变后，就产生了一个新的元组。**

- 对字典元素进行操作

In [19]:
list_2[-2]["Name"] = "Sarah"


In [21]:
print(list_1)
print(list_2)

[10, [22, 33, 55, 77, 88], (5, 6, 7), {'Age': 19, 'Name': 'Sarah'}, 100]
[20, [22, 33, 55, 77, 88], (5, 6, 7, 8, 9), {'Age': 19, 'Name': 'Sarah'}, 'Harry Potter']


- **总结**

列表和字典数据结构是可变类型，地址可以不变，但是内容发生变化。

元组，数字和字符串类型是不可变类型，只要内容发生变化，地址就发生变化。

如果列表中存储了列表或字典这些可变数据类型，又要进行**安全的复制**，就需要**深拷贝**。

##### 深拷贝

深拷贝将所有层级的相关元素全部复制，完全分开，泾渭分明，避免了浅拷贝的问题

In [22]:
import copy

list_1 = [1,[22, 33, 44], (5, 6, 7), {"Age": 19}]
list_2 = copy.deepcopy(list_1)

list_1[-1]["Name"] = "Sarah"
list_2[1].append(55)


In [23]:
print(list_1)
print(list_2)

[1, [22, 33, 44], (5, 6, 7), {'Age': 19, 'Name': 'Sarah'}]
[1, [22, 33, 44, 55], (5, 6, 7), {'Age': 19}]


#### 神秘的字典

##### 快速的查找

In [26]:
import time 
ls_1 = list(range(1000000))
ls_2 = list(range(500)) + [-10]*500

In [27]:
start = time.time()
count = 0

for n in ls_2:
    if n in ls_1:
        count += 1

end = time.time()
print("查找{}个元素，在ls_1中的有{}个，共用时{}秒.".format(len(ls_2), count, round((end - start),2)))

查找1000个元素，在ls_1中的有500个，共用时5.9.


In [30]:
import time

d = {i:1 for i in range(1000000)}
ls_2 = list(range(500)) + [-10]*500

start = time.time()
count = 0

for n in ls_2:
    try:
        d[n]
    except:
        pass
    else:
        count += 1

end = time.time()
print("查找{}个元素，在ls_1中的有{}个，共用时{}秒.".format(len(ls_2), count, round((end - start),5)))

查找1000个元素，在ls_1中的有500个，共用时0.0秒.


##### 字典的底层实现

通过**稀疏数组**来实现值的存储与访问。

**字典的创建过程**

第一步： 创建一个散列表（稀疏数组N>>n)

In [31]:
d = {}

第二步： 通过hash()计算键的散列值

In [34]:
print(hash('python'))
print(hash(1024))    # 整数的散列值就是其本身
print(hash((1,43)))

1554451675669719816
1024
7020746624873249165


In [35]:
d['Age'] = 19    #增加键值对的操作，首先计算键值的散列值hash('Age')
print(hash('Age'))

-4907643244681774107


第二步 根据计算的散列值确定其在散列表中的位置

极个别的时候，散列值会发生冲突，则内部有相应的解决冲突的办法

第三步 在该位置上存入值

**键值对的访问过程**

In [36]:
d['Age']

19

第一步： 计算要访问的键的散列值

第二步： 根据计算的散列值，通过一定的不i则，确定其在散列表中的位置

第三步：读取该位置上存储的值

如果存在，则返回该值

如果步存在，报错KeyError

**小结**

- 字典数据类型，通过空间换时间，实现了快速的数据查找。

也说明了字典的空间利用效率低下

- 因为散列值对应位置的顺序与键在字典中显示的顺序可能不通，因此表现出来的**字典是无序的**。

N >> n, 如果N = n, 会产生很多位置冲突

#### 紧凑的字符串

通过**紧凑数组**实现字符串的存储。

- 数组在内存中是连续存放的，效率更高，节省空间。

- **采用引用数组，字符串采用紧凑数组**

#### 是否可变

- 不可变的类型：数字、字符串和元组

在声明周期中保持内容不变

- 换句话说，改变了就不是它自己了（id变了）

- 不可变对象的 += 操作，实际上创建了一个**新的对象**。

In [1]:
x = 7
y = "Python"

print(id(x))
print(id(y))

140707592381008
2205240823600


In [2]:
x += 3
y += " v3.8"

print(id(x))
print(id(y))

140707592381104
2205299782256


- 元组并不总是不可变的。

当它中的元素是不可变的，元组才是不可变的；如果有元素是可变的，那元组也是可变的。

In [6]:
t = (1,2)
print(id(t))
t += (3,4)
print(id(t))

2205299836872
2205299751816


In [10]:
# mutable tuple
t = (1,[2])
print(id(t))
t[1].append(3)
print(id(t))
print(t)

2205299789448
2205299789448
(1, [2, 3])


#### 可变数据类型： 列表，字典、集合

- id保持不变，但是里面的内容可以变

- 可变对象的+= 操作，实际上再原对象的基础上就地修改

In [11]:
ls = [1,2,3]
d = {'Name':'Sarah', "Age": 18}

print("ls id: ", id(ls))
print("d id: ", id(d))

ls id:  2205300687112
d id:  2205300460664


In [13]:
ls += [4,5]
d_2 = {'Gender': 'Female'}

d.update(d_2)    # 把d_2中的元素更新到d中
print("ls id: ", id(ls))
print("d id: ", id(d))

ls id:  2205300687112
d id:  2205300460664


In [14]:
d 

{'Name': 'Sarah', 'Age': 18, 'Gender': 'Female'}

#### 列表操作的几个例子

##### 例1 删除列表内的特定元素

- 方法一 存在运算删除法

缺点：每次存在运算，都从头对列表进行遍历、查找，效率低。

In [15]:
a_list = ['a', 'b', 'c', 'b', 'd', 'e', 'f', 'b', 'g', 'h', 'b']
s = 'b'
while True:
    if s in a_list:
        a_list.remove(s)
    else:
        break
a_list

['a', 'c', 'd', 'e', 'f', 'g', 'h']

- 方法2： 一次性遍历元素执行删除

In [18]:
a_list = ['b', 'b', 'c', 'b', 'd', 'e', 'f', 'b', 'g', 'h', 'b']
for s in a_list:
    if s == 'b':
        a_list.remove(s)    # 删除列表中第一次出现的元素
a_list 

['c', 'd', 'e', 'f', 'g', 'h', 'b']

列表中还有没有删除完的'b'元素。

正向列表的删除可能导致后一个元素跨过去，造成遗漏

- 方法3： 使用负向索引

In [19]:
a_list = ['b', 'b', 'c', 'b', 'd', 'e', 'f', 'b', 'g', 'h', 'b']

for i in range(-len(a_list), 0):
    if a_list[i] == 'b':
        a_list.remove(a_list[i])
a_list

['c', 'd', 'e', 'f', 'g', 'h']

全部删除完毕 

###### 例2 多维列表的创建

In [25]:
ls = [[0]*2]*3
ls 

[[0, 0], [0, 0], [0, 0]]

In [29]:
ls[0][0] = 1
ls 

[[1, 0], [1, 0], [1, 0]]

因为把\[0,0\]复制了3遍，所以修改一个，其实都修改了