### Numpy 和 Python List 的差别
其实提到 Numpy，我建议你多做一些和 Python 原生 List 的对比， 因为它们从结构和形式上来说，是十分类似的。而且从一个你熟悉的 List 来类比学习 Numpy 也是一件简单的事情。

在这一节内容中，我们主要涉及到的功能有：

### Numpy Array
在 Numpy 中，我们会一直使用到它的一种 Array 数据。这个 Array 的格式和形态多种多样，我们会在后续的教程中更详细的介绍。 现在，你只需要懂得如何 import numpy，并像下面这样定义一个 array 就好了。

In [1]:
import numpy as np

np.array([1,2,3])

array([1, 2, 3])

### List 和 Numpy array 共同点
了解 Python 原生 List 的朋友一定都知道，当你想要存储一些数据的时候， 你很可能想要用一个 list 来存储，并且可以按顺序提取出来。比如下面这样

In [2]:
my_list = [1,2,3]
print(my_list[0])

1


存储和提取就是 List 的最基本用法和功能。而 Numpy Array 也能做这件事。

In [3]:
my_array = np.array([1,2,3])
print(my_array[0])

1


甚至对内部的一个值进行修改也是同样的逻辑。

In [4]:
my_list[0] = -1
my_array[0] = -1
print(my_list)
print(my_array)

[-1, 2, 3]
[-1  2  3]


所以这咋一看起来，Numpy Array 好像也没什么特别的呀，为什么这么多人都爱 Numpy 呢？

### Numpy 的优势
Numpy的核心优势：运算快。用专业的语言描述的话，Numpy 喜欢用电脑内存中连续的一块物理地址存储数据，因为都是连号的嘛，找到前后的号，不用跑很远， 非常迅速。而 Python 的 List 并不是连续存储的，它的数据是分散在不同的物理空间，在批量计算的时候，连号的肯定比不连号的算起来更快。因为找他们的时间更少了。
![image.png](attachment:image.png)

***而且 Numpy Array 存储的数据格式也有限制，尽量都是同一种数据格式***，这样也有利于批量的数据计算。 所以只要是处理大规模数据的批量计算，Numpy 肯定会比 Python 的原生 List 要快。

In [8]:
import time

t0 = time.time()
# python list
l = list(range(100))
for _ in range(10000):
    for i in range(len(l)):
        l[i] += 1

t1 = time.time()
# numpy array
a = np.array(l)
for _ in range(10000):
    a += 1 #整体加1，就是每个元素+1

print("Python list spend {:.3f}s".format(t1-t0))
print("Numpy array spend {:.3f}s".format(time.time()-t1))
print(a)
print(l)

Python list spend 0.226s
Numpy array spend 0.024s
[20000 20001 20002 20003 20004 20005 20006 20007 20008 20009 20010 20011
 20012 20013 20014 20015 20016 20017 20018 20019 20020 20021 20022 20023
 20024 20025 20026 20027 20028 20029 20030 20031 20032 20033 20034 20035
 20036 20037 20038 20039 20040 20041 20042 20043 20044 20045 20046 20047
 20048 20049 20050 20051 20052 20053 20054 20055 20056 20057 20058 20059
 20060 20061 20062 20063 20064 20065 20066 20067 20068 20069 20070 20071
 20072 20073 20074 20075 20076 20077 20078 20079 20080 20081 20082 20083
 20084 20085 20086 20087 20088 20089 20090 20091 20092 20093 20094 20095
 20096 20097 20098 20099]
[10000, 10001, 10002, 10003, 10004, 10005, 10006, 10007, 10008, 10009, 10010, 10011, 10012, 10013, 10014, 10015, 10016, 10017, 10018, 10019, 10020, 10021, 10022, 10023, 10024, 10025, 10026, 10027, 10028, 10029, 10030, 10031, 10032, 10033, 10034, 10035, 10036, 10037, 10038, 10039, 10040, 10041, 10042, 10043, 10044, 10045, 10046, 10047, 100

上面的例子，如果你会 map 的话，即使我用 map 来代替 Python 的原生循环赋值。Numpy 还是要快一些

In [12]:
import time

t0 = time.time()
# python list
l = list(range(100))
for _ in range(10000):
    l = list(map(lambda i: i+1, l))# map函数可以对可迭代对象中所有的元素做指定操作，然后将其添加到一个新的对象返回

t1 = time.time()
# numpy array
a = np.array(l)
for _ in range(10000):
    a += 1

print("Python list with map spend {:.3f}s".format(t1-t0))
print("Numpy array spend {:.3f}s".format(time.time()-t1))
print(a)
print(a[1])
print(l)

Python list with map spend 0.188s
Numpy array spend 0.022s
[20000 20001 20002 20003 20004 20005 20006 20007 20008 20009 20010 20011
 20012 20013 20014 20015 20016 20017 20018 20019 20020 20021 20022 20023
 20024 20025 20026 20027 20028 20029 20030 20031 20032 20033 20034 20035
 20036 20037 20038 20039 20040 20041 20042 20043 20044 20045 20046 20047
 20048 20049 20050 20051 20052 20053 20054 20055 20056 20057 20058 20059
 20060 20061 20062 20063 20064 20065 20066 20067 20068 20069 20070 20071
 20072 20073 20074 20075 20076 20077 20078 20079 20080 20081 20082 20083
 20084 20085 20086 20087 20088 20089 20090 20091 20092 20093 20094 20095
 20096 20097 20098 20099]
20001
[10000, 10001, 10002, 10003, 10004, 10005, 10006, 10007, 10008, 10009, 10010, 10011, 10012, 10013, 10014, 10015, 10016, 10017, 10018, 10019, 10020, 10021, 10022, 10023, 10024, 10025, 10026, 10027, 10028, 10029, 10030, 10031, 10032, 10033, 10034, 10035, 10036, 10037, 10038, 10039, 10040, 10041, 10042, 10043, 10044, 10045, 10

### 总结
Numpy Array 和 Python List 在很多使用场景上是可以互换的，不过在大数据处理的场景下，而且你的数据类型又高度统一， 那么 Numpy 绝对是你不二的人选，能提升的运算速度也是杠杠的~