# 4 numpy 基础：数组与向量化计算
1. 用于数据整理和清理、子集构造和过滤、转换等快速的矢量化数组运算。
2. 常用的数组算法，如排序、唯一化、集合运算等。
3. 高效的描述统计和数据聚合/摘要运算。
4. 用于异构数据集的合并/连接运算的数据对齐和关系型数据运算。
5. 将条件逻辑表述为数组表达式（而不是带有if-elif-else分支的循环）。
6. 数据的分组运算（聚合、转换、函数应用等

In [1]:
import numpy as np

In [3]:
my_arr = np.arange(1000000)
my_arr

array([     0,      1,      2, ..., 999997, 999998, 999999])

In [5]:
my_list = list(range(1000000))
my_list

[0,
 1,
 2,
 3,
 4,
 5,
 6,
 7,
 8,
 9,
 10,
 11,
 12,
 13,
 14,
 15,
 16,
 17,
 18,
 19,
 20,
 21,
 22,
 23,
 24,
 25,
 26,
 27,
 28,
 29,
 30,
 31,
 32,
 33,
 34,
 35,
 36,
 37,
 38,
 39,
 40,
 41,
 42,
 43,
 44,
 45,
 46,
 47,
 48,
 49,
 50,
 51,
 52,
 53,
 54,
 55,
 56,
 57,
 58,
 59,
 60,
 61,
 62,
 63,
 64,
 65,
 66,
 67,
 68,
 69,
 70,
 71,
 72,
 73,
 74,
 75,
 76,
 77,
 78,
 79,
 80,
 81,
 82,
 83,
 84,
 85,
 86,
 87,
 88,
 89,
 90,
 91,
 92,
 93,
 94,
 95,
 96,
 97,
 98,
 99,
 100,
 101,
 102,
 103,
 104,
 105,
 106,
 107,
 108,
 109,
 110,
 111,
 112,
 113,
 114,
 115,
 116,
 117,
 118,
 119,
 120,
 121,
 122,
 123,
 124,
 125,
 126,
 127,
 128,
 129,
 130,
 131,
 132,
 133,
 134,
 135,
 136,
 137,
 138,
 139,
 140,
 141,
 142,
 143,
 144,
 145,
 146,
 147,
 148,
 149,
 150,
 151,
 152,
 153,
 154,
 155,
 156,
 157,
 158,
 159,
 160,
 161,
 162,
 163,
 164,
 165,
 166,
 167,
 168,
 169,
 170,
 171,
 172,
 173,
 174,
 175,
 176,
 177,
 178,
 179,
 180,
 181,
 182,
 183,
 184,


In [10]:
%time for _ in range(10): my_arr2 = my_arr * 2

Wall time: 21.1 ms


In [7]:
 %time for _ in range(10): my_list2 = [x * 2 for x in my_list]

Wall time: 965 ms


基于NumPy的算法要比纯Python快10到100倍（甚至更快），并且使用的内存更少。

## 4.1 NumPy的ndarray：一种多维数组对象
NumPy最重要的一个特点就是其N维数组对象（即ndarray），该对象是一个快速而灵活的大数据集容器。

In [12]:
import numpy as np
data = np.random.randn(2, 3)
data

array([[ 0.56915199, -0.04259509, -0.24310886],
       [ 0.50247382, -1.23098716,  1.73678773]])

In [13]:
data * 10

array([[  5.69151989,  -0.42595094,  -2.43108856],
       [  5.02473825, -12.30987155,  17.36787732]])

In [14]:
data + data

array([[ 1.13830398, -0.08519019, -0.48621771],
       [ 1.00494765, -2.46197431,  3.47357546]])

% 本书中看到“数组”、“NumPy数组”、"ndarray"时，基本上都指的是同一样东西，即对象。
### 4.1.1 生成ndarray
创建数组最简单的办法就是使用array函数。它接受一切序列型的对象（包括其他数组），然后产生一个新的含有传入数据的NumPy数组。以一个列表的转换为例：

In [3]:
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)
arr1


array([6. , 7.5, 8. , 0. , 1. ])

嵌套序列（比如由一组等长列表组成的列表）将会被转换为一个多维数组：

In [17]:
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

因为data2是列表的列表，NumPy数组arr2的两个维度的shape是从data2引入的。可以用属性ndim和shape验证：

In [18]:
arr2.ndim

2

In [19]:
arr2.shape

(2, 4)

除np.array之外，还有一些函数也可以新建数组。比如，zeros和ones分别可以创建指定长度或形状的全0或全1数组。empty可以创建一个没有任何具体值的数组。要用这些方法创建多维数组，只需传入一个表示形状的元组即可：

In [1]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [4]:
np.zeros((3, 6))

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [5]:
np.empty((2, 3, 2))

array([[[1.08535453e-311, 3.16202013e-322],
        [0.00000000e+000, 0.00000000e+000],
        [0.00000000e+000, 5.64143123e-038]],

       [[2.85472506e-056, 1.79150331e+160],
        [1.83155034e-076, 9.51925946e+169],
        [1.77393638e+160, 7.26786199e-043]]])