# NumPy的性能优势
下面以NumPy数组包含100万个整数，还有一个同样数据内容的Python列表，我们比较一下都乘以2的性能：

In [2]:
import numpy as np

my_arr=np.arange(1000000)
my_list=list(range(1000000))

In [3]:
%time for _ in range(10):my_arr2=my_arr*2

Wall time: 30 ms


In [4]:
%time for _ in range(10):my_list2=[x*2 for x in my_list]

Wall time: 1.24 s


NumPy的方法比Python方法要快10到100倍，并且使用的内存也更少。

# NumPy ndarray:多维数组对象
NumPy的核心特征之一就是N-维数组对象——ndarray。ndarray是Python中一个快速、灵活的大小数据集容器。数组允许你使用类似于标量的操作语法在整块数据上进行数学计算。

In [6]:
import numpy as np

# 生成随机数组
data=np.random.randn(2,3)
data

array([[ 0.95429836, -0.71525568,  0.16270814],
       [-1.3601842 , -1.36126008, -0.19305221]])

然后给data加上一个数学操作：

In [9]:
data*10

array([[  9.54298365,  -7.15255681,   1.62708145],
       [-13.60184201, -13.61260078,  -1.93052214]])

In [10]:
data+data

array([[ 1.90859673, -1.43051136,  0.32541629],
       [-2.7203684 , -2.72252016, -0.38610443]])

一个ndarray是一个通用的多维同类数据容器，也就是说，它包含的每一个元素均为相同类型。每一个数组都有一个shape属性，用来表征数组每一维度的数量；每一个数组都有一个dtype属性，用来描述数组的数据类型：

In [11]:
data.shape

(2, 3)

In [12]:
data.dtype

dtype('float64')

# 生成ndarray
生成数组最简单的方式就是使用array函数。

In [14]:
data1=[6,7.5,8,0,1]
arr1=np.array(data1)
arr1

array([6. , 7.5, 8. , 0. , 1. ])

嵌套序列生成多维数组：

In [16]:
data2=[[1,2,3,4],[5,6,7,8]]
arr2=np.array(data2)
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

因为data2是一个包含列表的列表，所以Numpy数组arr2形成了二维数组。我们可以通过检查ndim和shape属性来确认这一点：

In [18]:
arr2.ndim

2

In [19]:
arr2.shape

(2, 4)

除非显示地指定，否则np.array会自动推断生成数组的数据类型。数据类型被存储在一个特殊的元数据dtype中:

In [20]:
arr1.dtype

dtype('float64')

In [21]:
arr2.dtype

dtype('int32')

除了np.array,还有很多其他函数可以创建新数组。例如，给定程度及形状后，zeros可以一次性创造全0数组，ones可以一次性创造全1数组。empty则可以创建一个没有初始化数值的数组。需要创建高维数组，则需要为shape传递一个元组：

In [22]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [23]:
np.zeros((3,6))

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [24]:
np.empty((2,3,2))

array([[[6.e-322, 0.e+000],
        [0.e+000, 0.e+000],
        [0.e+000, 0.e+000]],

       [[0.e+000, 0.e+000],
        [0.e+000, 0.e+000],
        [0.e+000, 0.e+000]]])

# NumPy数组算术
数组之所以重要是因为它允许你进行批量操作而无须进行任何for循环。NumPy用户称这种特性为向量化。任何在两个等尺寸数组之间的算术操作都应用了逐元素操作的方式：

In [3]:
arr=np.array([[1.,2.,3.],[4.,5.,6.]])
arr

array([[1., 2., 3.],
       [4., 5., 6.]])

In [4]:
arr*arr

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

In [5]:
arr-arr

array([[0., 0., 0.],
       [0., 0., 0.]])

带有标量计算的算术操作，会把计算参数传递给数组的每一个元素：

In [6]:
1/arr

array([[1.        , 0.5       , 0.33333333],
       [0.25      , 0.2       , 0.16666667]])

同尺寸数组之间的比较，会产生一个布尔值数组：

In [7]:
arr2=np.array([[0.,4.,1.],[7.,2.,12.]])
arr2

array([[ 0.,  4.,  1.],
       [ 7.,  2., 12.]])

In [8]:
arr2>arr

array([[False,  True, False],
       [ True, False,  True]])

# 基础索引与切片
NumPy数组索引是一个大话题，有很多种方式可以让你选中数据的子集或某个单个元素。一维数组比较简单，看起来和Python的列表很类似：

In [14]:
import numpy as np
arr=np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [10]:
arr[5]

5

In [11]:
arr[5:8]

array([5, 6, 7])

In [17]:
arr[5:8]=12
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

如你所见，如果你传入了一个数值给数组的切片，例如arr[5:8]=12,数值被传递给了整个切片。区别于Python的内建列表，数组的切片是原数组的视图。这意味着数组并不是被复制了，任何对于视图的修改都会反映到原数组上

当我改变arr_slice,变化也会体现在原数组上：

In [18]:
arr_slice=arr[5:8]
arr_slice[1]=12345
arr

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,
           9])

不写切片值的[:]将会引用数组的所有值：

In [20]:
arr_slice[:]=64
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

假如你是NumPy新手，你可能会感到惊讶，因为其他的数组编程语言都是更为急切地复制数据。由于NumPy被设计成适合处理非常大的数组，你可以想象如果NumPy持续复制数据会引起多少内存问题。

在一个二维数组中，每个索引值对应的元素不再是一个值，而是一个一维数组：

In [23]:
arr2d=np.array([[1,2,3],[4,5,6],[7,8,9]])
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [28]:
arr2d[2]

array([7, 8, 9])

因此，单个元素可以通过递归的方式获得。但是要多写点代码，你可以通过传递一个索引的逗号分隔列表去选择单个元素，以下两种方式效果一样：

In [29]:
arr2d[0][2]

3

In [30]:
arr2d[0,2]

3

在多维数组中，你可以省略后续索引值，返回的对象将是降低一个维度的数组。因此在一个2*2*3的数组arr3d中：

In [51]:
arr3d=np.array([[[1,2,3],[4,5,6]],[[7,8,9],[10,11,12]]])
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [52]:
arr3d.shape

(2, 2, 3)

arr3d[0]是一个2*3的数组

In [53]:
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

标量和数组都可以传递给arr3d[0]:

In [54]:
old_values=arr3d[0].copy()

In [55]:
arr3d[0]=42
arr3d

array([[[42, 42, 42],
        [42, 42, 42]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [56]:
arr3d[0]=old_values
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

类似地，arr3d[1,0]返回的是一个一维数组：

In [58]:
arr3d[1,0]

array([7, 8, 9])

# 数组的切片索引
与Python列表的一维对象类似，数组可以通过类似的语法进行切片：

In [59]:
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

In [61]:
arr[1:6]

array([ 1,  2,  3,  4, 64])

二维数组的切片：

In [71]:
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

如你所见，数组沿着轴0进行了切片。表达式arr2d[:2]的含义是选择arr2d的前两“行”。  
你可以进行多组切片，与多组索引类似：

In [72]:
arr2d[:2,1:]

array([[2, 3],
       [5, 6]])

我可以选择第二行但是只选择前两列：

In [73]:
arr2d[1,:2]

array([4, 5])

类似地，我也可以选择第三列，但是只选择前两行：

In [74]:
arr2d[:2,2]

array([3, 6])

需要注意的是，单独一个冒号表示选择整个轴上的数组，因此你可以按照下面的方式在更高维度上进行切片：

In [75]:
arr2d[:,:1]

array([[1],
       [4],
       [7]])

当然对切片表达式赋值时，整个切片都会重新赋值：

In [77]:
arr2d[:2,1:]=0
arr2d

array([[1, 0, 0],
       [4, 0, 0],
       [7, 8, 9]])