In [1]:
# NumPy（Numerical Python） 是Python数值计算最重要的基础包
# NumPy的部分功能如下：
#     ndarray， 一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。
#     用于对整组数据进行快速运算的标准数学函数（无需编写循环） 。
#     用于读写磁盘数据的工具以及用于操作内存映射文件的工具。
#     线性代数、 随机数生成以及傅里叶变换功能。
#     用于集成由C、 C++、 Fortran等语言编写的代码的A C API。

# 由于NumPy提供了一个简单易用的C API， 因此很容易将数据传递给由低级语言编写的外部库
# 外部库也能以NumPy数组的形式将数据返回给Python。

# NumPy本身并没有提供多么高级的数据分析功能， 
# 理解NumPy数组以及面向数组的计算将有助于高效地使用诸如pandas之类的工具。

# 最关注的功能主要集中在：
#     用于数据整理和清理、 子集构造和过滤、 转换等快速的矢量化数组运算。
#     常用的数组算法， 如排序、 唯一化、 集合运算等。
#     高效的描述统计和数据聚合/摘要运算。
#     用于异构数据集的合并/连接运算的数据对齐和关系型数据运算。
#     将条件逻辑表述为数组表达式（而不是带有if-elif-else分支的循环） 。
#     数据的分组运算（聚合、 转换、 函数应用等） 。 。

# NumPy之于数值计算特别重要的原因之一， 可以高效处理大数组的数据。
# 这是因为：NumPy是在一个连续的内存块中存储数据， 独立于其他Python内置对象。
# NumPy的C语言编写的算法库可以操作内存， 而不必进行类型检查或其它前期工作。
# 比起Python的内置序列，NumPy数组使用的内存更少。
# NumPy可以在整个数组上执行复杂的计算， 而不需要Python的for循环。

# 要搞明白具体的性能差距， 考察一个包含一百万整数的数组， 和一个等价的Python列表：

import numpy as np

create_array = np.arange(1000000)
create_list = list(range(1000000))

%time for _ in range(10) : array_seq = create_array ** 2

Wall time: 50 ms


In [2]:
%time for _ in range(10) : list_seq = [x ** 2 for x in create_list]

Wall time: 10.3 s
