## 进阶主题

### 数据类型的底层实现

#### 从奇怪的列表说起

##### 错综复杂的赋值

In [1]:
list_1 = [1,[22, 33, 44], (5, 6, 7), {"Age": 19}]
list_1

[1, [22, 33, 44], (5, 6, 7), {'Age': 19}]

##### 浅拷贝

In [2]:
# list_3 = list_1    #只是给list_1起了一个别名
list_2 = list_1.copy()    #或者 = list_1[:], = list(list_1) 都是浅拷贝

- 对浅拷贝后的列表进行操作

In [3]:
list_2[1].append(55)
print(list_1)
print(list_2)

[1, [22, 33, 44, 55], (5, 6, 7), {'Age': 19}]
[1, [22, 33, 44, 55], (5, 6, 7), {'Age': 19}]


注意list_2中的第一项元素进行了修改，

但是list_1中的第一项元素也进行了修改。

为什么？

我们不是已经进行浅拷贝了吗

##### 列表的底层实现

**引用数组的概念**

列表内的元素可以分散地存储在内存中的不同位置。

列表中存储的，实际上是这些**元素的地址** -**地址的存储在内存中是连续的**

In [4]:
list_1
list_2 = list(list_1)    #浅拷贝

- 新增元素

In [5]:
list_1.append(100)
list_2.append("Harry Potter")

In [6]:
print(list_1)
print(list_2)

[1, [22, 33, 44, 55], (5, 6, 7), {'Age': 19}, 100]
[1, [22, 33, 44, 55], (5, 6, 7), {'Age': 19}, 'Harry Potter']


- 修改元素

In [7]:
list_1[0] = 10
list_2[0] = 20


In [8]:
print(list_1)
print(list_2)

[10, [22, 33, 44, 55], (5, 6, 7), {'Age': 19}, 100]
[20, [22, 33, 44, 55], (5, 6, 7), {'Age': 19}, 'Harry Potter']


- **对列表型元素进行操作**

In [9]:
list_1[1].remove(44)
list_2[1] += [77, 88]

In [10]:
print(list_1)
print(list_2)

[10, [22, 33, 55, 77, 88], (5, 6, 7), {'Age': 19}, 100]
[20, [22, 33, 55, 77, 88], (5, 6, 7), {'Age': 19}, 'Harry Potter']


- **对元组型元素进行操作**

In [11]:
list_2[2] += (8,9)

In [12]:
print(list_1)
print(list_2)

[10, [22, 33, 55, 77, 88], (5, 6, 7), {'Age': 19}, 100]
[20, [22, 33, 55, 77, 88], (5, 6, 7, 8, 9), {'Age': 19}, 'Harry Potter']


**从结果来看，元组是不可改变的**

**元组如果改变后，就产生了一个新的元组。**

- 对字典元素进行操作

In [13]:
list_2[-2]["Name"] = "Sarah"


In [14]:
print(list_1)
print(list_2)

[10, [22, 33, 55, 77, 88], (5, 6, 7), {'Age': 19, 'Name': 'Sarah'}, 100]
[20, [22, 33, 55, 77, 88], (5, 6, 7, 8, 9), {'Age': 19, 'Name': 'Sarah'}, 'Harry Potter']


- **总结**

列表和字典数据结构是可变类型，地址可以不变，但是内容发生变化。

元组，数字和字符串类型是不可变类型，只要内容发生变化，地址就发生变化。

如果列表中存储了列表或字典这些可变数据类型，又要进行**安全的复制**，就需要**深拷贝**。

##### 深拷贝

深拷贝将所有层级的相关元素全部复制，完全分开，泾渭分明，避免了浅拷贝的问题

In [15]:
import copy

list_1 = [1,[22, 33, 44], (5, 6, 7), {"Age": 19}]
list_2 = copy.deepcopy(list_1)

list_1[-1]["Name"] = "Sarah"
list_2[1].append(55)


In [16]:
print(list_1)
print(list_2)

[1, [22, 33, 44], (5, 6, 7), {'Age': 19, 'Name': 'Sarah'}]
[1, [22, 33, 44, 55], (5, 6, 7), {'Age': 19}]


#### 神秘的字典

##### 快速的查找

In [17]:
import time 
ls_1 = list(range(1000000))
ls_2 = list(range(500)) + [-10]*500

In [18]:
start = time.time()
count = 0

for n in ls_2:
    if n in ls_1:
        count += 1

end = time.time()
print("查找{}个元素，在ls_1中的有{}个，共用时{}秒.".format(len(ls_2), count, round((end - start),2)))

查找1000个元素，在ls_1中的有500个，共用时13.1秒.


In [19]:
import time

d = {i:1 for i in range(1000000)}
ls_2 = list(range(500)) + [-10]*500

start = time.time()
count = 0

for n in ls_2:
    try:
        d[n]
    except:
        pass
    else:
        count += 1

end = time.time()
print("查找{}个元素，在ls_1中的有{}个，共用时{}秒.".format(len(ls_2), count, round((end - start),5)))

查找1000个元素，在ls_1中的有500个，共用时0.0秒.


##### 字典的底层实现

通过**稀疏数组**来实现值的存储与访问。

**字典的创建过程**

第一步： 创建一个散列表（稀疏数组N>>n)

In [20]:
d = {}

第二步： 通过hash()计算键的散列值

In [21]:
print(hash('python'))
print(hash(1024))    # 整数的散列值就是其本身
print(hash((1,43)))

-4016825373593068610
1024
7020746624873249165


In [22]:
d['Age'] = 19    #增加键值对的操作，首先计算键值的散列值hash('Age')
print(hash('Age'))

8337860092475284148


第二步 根据计算的散列值确定其在散列表中的位置

极个别的时候，散列值会发生冲突，则内部有相应的解决冲突的办法

第三步 在该位置上存入值

**键值对的访问过程**

In [23]:
d['Age']

19

第一步： 计算要访问的键的散列值

第二步： 根据计算的散列值，通过一定的不i则，确定其在散列表中的位置

第三步：读取该位置上存储的值

如果存在，则返回该值

如果步存在，报错KeyError

**小结**

- 字典数据类型，通过空间换时间，实现了快速的数据查找。

也说明了字典的空间利用效率低下

- 因为散列值对应位置的顺序与键在字典中显示的顺序可能不通，因此表现出来的**字典是无序的**。

N >> n, 如果N = n, 会产生很多位置冲突

#### 紧凑的字符串

通过**紧凑数组**实现字符串的存储。

- 数组在内存中是连续存放的，效率更高，节省空间。

- **采用引用数组，字符串采用紧凑数组**

#### 是否可变

- 不可变的类型：数字、字符串和元组

在声明周期中保持内容不变

- 换句话说，改变了就不是它自己了（id变了）

- 不可变对象的 += 操作，实际上创建了一个**新的对象**。

In [24]:
x = 7
y = "Python"

print(id(x))
print(id(y))

140712719820768
3141689264432


In [25]:
x += 3
y += " v3.8"

print(id(x))
print(id(y))

140712719820864
3139626289456


- 元组并不总是不可变的。

当它中的元素是不可变的，元组才是不可变的；如果有元素是可变的，那元组也是可变的。

In [26]:
t = (1,2)
print(id(t))
t += (3,4)
print(id(t))

3141731574592
3139626320256


In [27]:
# mutable tuple
t = (1,[2])
print(id(t))
t[1].append(3)
print(id(t))
print(t)

3141692541056
3141692541056
(1, [2, 3])


#### 可变数据类型： 列表，字典、集合

- id保持不变，但是里面的内容可以变

- 可变对象的+= 操作，实际上再原对象的基础上就地修改

In [28]:
ls = [1,2,3]
d = {'Name':'Sarah', "Age": 18}

print("ls id: ", id(ls))
print("d id: ", id(d))

ls id:  3139626288512
d id:  3141732942272


In [29]:
ls += [4,5]
d_2 = {'Gender': 'Female'}

d.update(d_2)    # 把d_2中的元素更新到d中
print("ls id: ", id(ls))
print("d id: ", id(d))

ls id:  3139626288512
d id:  3141732942272


In [30]:
d 

{'Name': 'Sarah', 'Age': 18, 'Gender': 'Female'}

#### 列表操作的几个例子

##### 例1 删除列表内的特定元素

- 方法一 存在运算删除法

缺点：每次存在运算，都从头对列表进行遍历、查找，效率低。

In [31]:
a_list = ['a', 'b', 'c', 'b', 'd', 'e', 'f', 'b', 'g', 'h', 'b']
s = 'b'
while True:
    if s in a_list:
        a_list.remove(s)
    else:
        break
a_list

['a', 'c', 'd', 'e', 'f', 'g', 'h']

- 方法2： 一次性遍历元素执行删除

In [32]:
a_list = ['b', 'b', 'c', 'b', 'd', 'e', 'f', 'b', 'g', 'h', 'b']
for s in a_list:
    if s == 'b':
        a_list.remove(s)    # 删除列表中第一次出现的元素
a_list 

['c', 'd', 'e', 'f', 'g', 'h', 'b']

列表中还有没有删除完的'b'元素。

正向列表的删除可能导致后一个元素跨过去，造成遗漏

- 方法3： 使用负向索引

In [33]:
a_list = ['b', 'b', 'c', 'b', 'd', 'e', 'f', 'b', 'g', 'h', 'b']

for i in range(-len(a_list), 0):
    if a_list[i] == 'b':
        a_list.remove(a_list[i])
a_list

['c', 'd', 'e', 'f', 'g', 'h']

全部删除完毕 

###### 例2 多维列表的创建

In [34]:
ls = [[0]*2]*3
ls 

[[0, 0], [0, 0], [0, 0]]

In [35]:
ls[0][0] = 1
ls 

[[1, 0], [1, 0], [1, 0]]

因为把\[0,0\]复制了3遍，所以修改一个，其实都修改了

#### 解析语法

解决上面的问题

In [36]:
ls = [[0] * 3 for _ in range(5)]
ls 

[[0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0]]

In [37]:
ls[0][0] = 1    # 每次都是独立创建的，所以相互间没有关系
ls 

[[1, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0]]

##### 解析语法的结构 - 以列表解析为例（也称列表解析式）

\[expression for value in iterable if condition]

三要素: 表达式、可迭代对象，if条件（可选）

**执行过程**

(1) 从可迭代对象中拿出一个元素

(2) 通过if条件（如果有），对元素进行筛选

若通过筛选，则把元素传递给表达式；

若未通过，则进入(1)步骤，进入下一次迭代

(3) 将传递给表达式的元素，带入表达式进行处理，产生一个结果

(4)将(3)步产生的结果作为列表的一个元素进行存储

(5) 重复步骤(1)-(4)，直至迭代对象迭代结束，返回新创建的列表

等价如下代码

result = []

for value in iterable:
    if condition:
        result.append(expression(value))

**例**求20以内奇数的平方

In [38]:
ls = [pow(a, 2) for a in range(21) if a % 2 == 1]
ls 

[1, 9, 25, 49, 81, 121, 169, 225, 289, 361]

**支持多变量**

In [39]:
x = [1,2,3]
y = [7,8,9]

results = [i * j for i, j in zip(x, y)]
results

[7, 16, 27]

**支持循环嵌套**

In [40]:
colors = ['black', 'green', 'red']
sizes = ['M', 'S','XX']
tshirts = []
tshirts = ["{} {}".format(color, size) for color in colors for size in sizes]
tshirts

['black M',
 'black S',
 'black XX',
 'green M',
 'green S',
 'green XX',
 'red M',
 'red S',
 'red XX']

##### 字典推导

In [41]:
squares = {i: pow(i, 2) for i in range(6)}
for k, v in squares.items():
    print(k," :",v)

0  : 0
1  : 1
2  : 4
3  : 9
4  : 16
5  : 25


##### 生成器表达式

In [42]:
squares = (pow(i, 2) for i in range(6))
squares 

<generator object <genexpr> at 0x000002DB7DE16510>

In [43]:
# 对生成器类型进行迭代
for i in squares:
    print(i, end=" ")

0 1 4 9 16 25 

#### 条件表达式

expr1 if condition else expr2

**例 将变量n的绝对值赋值给变量x**

In [44]:
n = -8

x = -n if n <= 0 else n 
x 

8

条件表达式和解析语法非常简单实用，运行速度相对较快

#### 三大神器

##### 生成器

In [45]:
ls = [pow(i, 2) for i in range(100)]
for i in ls:
    pass 

缺点： 占用大量内存

**生成器**
(1) 采用惰性计算的方式

(2)无需一次性存储海量数据

(3) 一边执行一边计算，只计算每次需要的值

(4)实际上一直在执行next()操作，知道无值可取

1. 生成器表达式
- 海量数据，不需保存


In [46]:
squares = (pow(i, 2) for i in range(101))
for i in squares:
    pass 

**例 求1到100的和**

无需显示存储全部数据，节省内存

In [47]:
sum((i for i in range(101)))

5050

2. 生成器函数 - yield

产生斐波那契数列

数列前两个元素为1，1，后面的元素为其前两个元素之和

- 显示生成数列列表

In [48]:
def fib(max):
    ls = []
    n, a, b= 0, 1,1
    while n < max:
        ls.append(a)
        a, b = b, a+b 
        n = n + 1
    return ls 

fib(10)

[1, 1, 2, 3, 5, 8, 13, 21, 34, 55]

中间函数


In [49]:
def fib(max):
    ls = []
    n, a, b= 0, 1,1
    while n < max:
        print(a)
        a, b = b, a+b 
        n = n + 1

fib(10)

1
1
2
3
5
8
13
21
34
55


构造生成器函数

在每次调用next()的时候执行，遇到yield语句返回，在此执行时从上次返回的yield语句处继续执行。


In [50]:
def fib(max):
    ls = []
    n, a, b= 0, 1,1
    while n < max:
        yield a
        a, b = b, a+b 
        n = n + 1

fib(10)

<generator object fib at 0x000002DB004D9580>

In [51]:
for i in fib(10):
    print(i, end=" ")

1 1 2 3 5 8 13 21 34 55 

##### 迭代器

1. 可迭代对象

可直接作用于for循环的对象统称为可迭代对象: Iterable.

(1) 列表、元组、字符串、字典、集合、文件

可以使用isinstance()判断一个对象是否是Iterable.



In [52]:
from collections.abc import Iterable

isinstance([1,2,3], Iterable)

True

In [53]:
isinstance({'name': "Sarah"}, Iterable)

True

In [54]:
isinstance("Python", Iterable)

True

(2) 生成器

In [55]:
squares = (pow(i, 2) for i in range(5))
isinstance(squares, Iterable)

True

生成器不但可以用于for循环，还可以被next()函数调用

In [56]:
print(next(squares))
print(next(squares))
print(next(squares))
print(next(squares))
print(next(squares))
#print(next(squares))

0
1
4
9
16


直到没有数据可取，抛出StopIterable

可以被next()函数调用并不断返回下一个值，直至没有数据可取的对象称为迭代器:

(1) 生成器是迭代器

In [57]:
from collections.abc import Iterator

isinstance(squares, Iterator)

True

(2) 列表、元组、字符串、字典、集合不是迭代器

In [58]:
isinstance([1,2,3],Iterator)

False

可以通过iter(Iterable)创建迭代器

In [59]:
isinstance(iter([1,2,3]),Iterator)

True

for item in Iterable 等价于：

- 先通过iter()函数获取可迭代对象Iterable的迭代器；

- 然后对获取的迭代器不断调用next()方法获取下一个值并将其赋值给item

- 当遇到StopIteration的异常后循环结束

（3） zip enumerate等itertools里的函数是迭代器

In [60]:
x = [1,3]
y = ["a", "b"]

print(isinstance(zip(x,y), Iterator))

for i in zip(x,y):
    print(i)

True
(1, 'a')
(3, 'b')


In [61]:
numbers = [1,2,3,4,5]

isinstance(enumerate(numbers), Iterator)

for i in enumerate(numbers):
    print(i)

(0, 1)
(1, 2)
(2, 3)
(3, 4)
(4, 5)


(4) 文件是迭代器

In [62]:
with open("../data/浪淘沙.txt", mode="r", encoding="utf-8") as f:
    print(isinstance(f, Iterator))

True


(5) 迭代器是可耗尽的


In [63]:
squares = [pow(i, 2) for i in range(5)]
for square in squares:
    print(square, end=" ")

0 1 4 9 16 

(6) range()不是迭代器

In [64]:
numbers = range(10)
isinstance(numbers, Iterator)

False

In [65]:
print(len(numbers))    #有长度
print(numbers[0])      #可索引
print(9 in numbers)    #有存在运算
# next(numbers)          #不可被next()调用

10
0
True


In [66]:
# 不可被耗尽
for number in numbers:
    print(number, end=" ")

0 1 2 3 4 5 6 7 8 9 

In [67]:
for number in numbers:
    print(number, end=" ")

0 1 2 3 4 5 6 7 8 9 

可以称range()为懒序列

它是一种序列

但并不包含任何内存中的内容

而是通过计算来回答问题

##### 装饰器

1. 需求的提出

(1) 需要对已开发上线的程序添加某种功能；

(2) 不能对程序中的源代码进行修改

(3) 不能改变程序中函数的调用方式

**例如**统计每个函数的运行时间

In [68]:
def f1():
    pass

def f2():
    pass

def f3():
    pass

f1()
f2()
f3()

用装饰器

In [69]:
def square(x):
    return x ** 2
type(square)    # square是function类的一个实例

function

In [70]:
pow_2 = square    # 给函数square起了一个别名pow_2
print(pow_2(5))
print(square(5))

25
25


可以将函数作为参数进行传递

2. 高阶函数

- 接收函数作为参数

- 或者返回一个函数

**满足上述条件之一的函数称之为高阶函数**。


In [71]:
def square(x):
    return x**2

def pow_2(func):
    return func

f = pow_2(square)
f(8)

64

In [72]:
f==square

True

3. 嵌套函数

在函数内部定义一个函数

In [73]:
def outer():
    print("outer is running.")
    
    def inner():
        print("inner is running")
    
    inner()
    
outer()

outer is running.
inner is running


4. 闭包


In [74]:
def outer():
    x = 1
    z = 10
    
    def inner():
        y = x+100
        return y, z
    
    return inner

f = outer()    #实际上f包含了inner函数本身+ outer函数环境
print(f)
print(f.__closure__)    # __closure__属性中包含了来自外部函数的信息
for i in f.__closure__:
    print(i.cell_contents)    # 包含外部函数定义的参数1，10

<function outer.<locals>.inner at 0x000002DB7DDF33A0>
(<cell at 0x000002DB7DE124F0: int object at 0x00007FFA3BAE2720>, <cell at 0x000002DB7DE12C10: int object at 0x00007FFA3BAE2840>)
1
10


In [75]:
res = f()
res 

(101, 10)

闭包：

延伸了作用域的函数

如果一个函数定义在另一个函数的作用域内，并且引用了外城函数的变量，则称改函数为闭包。

闭包是由函数及其相关的引用环境组合而成的实体（即：闭包= 函数+引用环境）

- 一旦在内层函数重新定义了相同名字的变量，则变量成为局部变量。

In [76]:
def outer():
    x = 1
    
    def inner():
        x = x + 100
        return x 
    
    return inner

f = outer()
#f()    # 报错，因为inner()中的局部变量x未定义

nonlocal允许内嵌的函数来修改闭包变量

In [77]:
def outer():
    x = 1
    
    def inner():
        nonlocal x
        x = x + 100
        return x
    
    return inner

f = outer()
f()

101

5. 一个简单的装饰器


嵌套函数实现 

In [78]:
import time

def timer(func):
    
    def inner():
        print("inner is running.")
        start = time.time()
        func()
        end = time.time()
        print("{} cost {:.2f} seconds.".format(func.__name__, (end-start)))
    
    return inner

def f1():
    print("f1 is running.")
    time.sleep(1)

f1 = timer(f1)    # 包含inner()和timer()环境，如传递过来的参数f1
f1()

inner is running.
f1 is running.
f1 cost 1.01 seconds.


In [79]:
f1_decorated == f1 

NameError: name 'f1_decorated' is not defined

Python 语法糖


In [None]:
import time

def timer(func):
    
    def inner():
        print("inner is running.")
        start = time.time()
        func()
        end = time.time()
        print("{} cost {:.2f} seconds.".format(func.__name__, (end-start)))
    
    return inner

@timer        #相当于上例中的f1=timer(f1)
def f1():
    print("f1 is running.")
    time.sleep(1)

f1()

被修饰函数有参数的情况


In [None]:
import time

def timer(func):
    
    def inner(*args, **kwargs):
        print("inner is running.")
        start = time.time()
        func(*args, **kwargs)
        end = time.time()
        print("{} cost {:.2f} seconds.".format(func.__name__, (end-start)))
    
    return inner

@timer        #相当于上例中的f1=timer(f1)
def f1(n):
    print("f1 is running.")
    time.sleep(n)

f1(2)

被修饰函数有返回值的情况

In [None]:
import time

def timer(func):
    
    def inner(*args, **kwargs):
        print("inner is running.")
        start = time.time()
        res = func(*args, **kwargs)
        end = time.time()
        print("{} cost {:.2f} seconds.".format(func.__name__, (end-start)))
        return res
    
    return inner

@timer        #相当于上例中的f1=timer(f1)
def f1(n):
    print("f1 is running.")
    time.sleep(n)
    return "wake up."

f1(2)

7. 带参数的装饰器

装饰器本身需要传递一些额外的参数

需求：有时要统计绝对时间，有时统计绝对时间的2倍


In [82]:
import time

def timer(method):
    
    def outer(func):
    
        def inner(*args, **kwargs):
            print("inner is running.")
            if method == "original":
                print("origin_inner is running.")
                start = time.time()
                res = func(*args, **kwargs)
                end = time.time()
                print("{} cost {:.2f} seconds.".format(func.__name__, (end-start)))
            elif method == "double":
                print("double_inner is running.")
                start = time.time()
                res = func(*args, **kwargs)
                end = time.time()
                print("{} cost {:.2f} seconds.".format(func.__name__, 2 * (end-start)))
            return res
        return inner
    return outer

@timer(method = "double")        #相当于上例中的timer = timer(method="double") f1=timer(f1)

def f1(n):
    print("f1 is running.")
    time.sleep(n)
    return "wake up."

@timer(method="original")    #相当于timer=timer(method="origin") f2=timer(f2)

def f2(n):
    print("f2 is running.")
    time.sleep(n)
    return "wake up f2."

f1(2)
f2(1)

inner is running.
double_inner is running.
f1 is running.
f1 cost 4.01 seconds.
inner is running.
origin_inner is running.
f2 is running.
f2 cost 1.00 seconds.


'wake up f2.'

8. 何时执行装饰器

一装饰就执行，不必等调用



In [83]:
func_names = []

def find_function(func):
    print("run")
    func_names.append(func)
    return func

@find_function
def f1():
    print("f1 run")

@find_function
def f2():
    print("f2 run")
    
@find_function
def f3():
    print("f3 run")
    

run
run
run


In [86]:
for func in func_names:
    func()

f1 run
f2 run
f3 run


In [87]:
for func in func_names:
    func()

f1 run
f2 run
f3 run


9. 回归本源

原函数的属性被掩盖了

In [89]:
import time

def timer(func):
    def inner():
        print("inner is running.")
        start = time.time()
        func()
        end = time.time()
        print("{} cost {:.2f} seconds.".format(func.__name__,(end - start)))
    return inner

@timer
def f1():
    time.sleep(1)
    print("f1 is running.")

f1()

inner is running.
f1 is running.
f1 cost 1.01 seconds.


In [90]:
f1.__name__

'inner'

将装饰器后的f1还是f1

In [91]:
import time
from functools import wraps

def timer(func):
    @wraps(func)
    def inner():
        print("inner is running.")
        start = time.time()
        func()
        end = time.time()
        print("{} costs {:.2f} seconds.".format(func.__name__,(end - start)))
        
    return inner

@timer
def f1():
    time.sleep(1)
    print("f1 is running.")

print(f1.__name__)
f1()

f1
inner is running.
f1 is running.
f1 costs 1.00 seconds.
