# Numpu基础：数组和矢量计算

## 一. ndarray：一种多维数组对象

### 1. 创建ndarray
* 最简单的方式是使用array函数，它接受一切**序列型**的对象，产生一个新的含有传入数据Numpy数组

In [1]:
import numpy as np
data1 = [6,.6,3,.1,2]
arr1 = np.array(data1)
arr1

array([6. , 0.6, 3. , 0.1, 2. ])

In [3]:
data2 = [[1,2,3,4],[5,6,7,8]]
arr2 = np.array(data2)
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [4]:
arr2.ndim

2

In [5]:
arr2.shape

(2, 4)

np.array会为这个数组自动推断出较为适合的数据类型,数据类型保存在一个特殊的`dtype`对象中

In [8]:
arr1.dtype

dtype('float64')

In [9]:
arr2.dtype

dtype('int64')

* 除了np.array,也可以用函数新建数组
    * zeros,ones创建制定长度或形状的0/1数组
    * empty可以创建没有任何具体值的数组(返回一些未初始化的垃圾值)
    * arrange返回列表
    * eye,identity返回单位矩阵

In [10]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [11]:
np.zeros((3,6))

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [12]:
np.empty((2,3,3))

array([[[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]],

       [[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]]])

In [13]:
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

### 2. ndarray的数据类型
dtype对象含有ndarray将内存解释为特定数据类型所需的信息

In [5]:
arr1 = np.array([1,2,3],dtype=np.float64)
arr1

array([1., 2., 3.])

In [7]:
arr2 = np.array([1,2,3],dtype=np.int32)
arr2

array([1, 2, 3], dtype=int32)

可以通过ndarray的`astype`方法显式地转换dtype  
**调用astype方法会创建出一个新的数组**

In [12]:
arr = np.array([1,2,3,4,5])
arr.dtype

dtype('int64')

In [13]:
float_arr = arr.astype(np.float64)
float_arr.dtype

dtype('float64')

In [17]:
arr = np.array([1.3,-2,3,4.6,7.8])
arr

array([ 1.3, -2. ,  3. ,  4.6,  7.8])

In [24]:
arr.astype(np.int32)

array([ 1, -2,  3,  4,  7], dtype=int32)

In [4]:
numeric_strings = np.array(['1.3','234','12.45'],dtype=np.string_)
numeric_strings.astype(float)

array([  1.3 , 234.  ,  12.45])

这里如果写float而不是np.float64,numpy就会自动把python类型映射到等价的dtype上

还可以用**类型代码简写**来表示dtype

In [8]:
empty_uint32 = np.empty(8,dtype='u4')
empty_uint32

array([         0,          0,   30823888,          0, 2288869832,
            32633,     222209,         83], dtype=uint32)

###  3. 数组和标量之间的运算

In [12]:
arr = np.array([[1.,2.,3.],[4.,5.,6.]])
arr

array([[1., 2., 3.],
       [4., 5., 6.]])

In [13]:
arr * arr

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

In [14]:
arr - arr

array([[0., 0., 0.],
       [0., 0., 0.]])

In [15]:
arr ** 0.5

array([[1.        , 1.41421356, 1.73205081],
       [2.        , 2.23606798, 2.44948974]])

不同大小的数组之间的运算叫**广播**

### 4. 基本的索引和切片

In [46]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [47]:
arr[5:8]

array([5, 6, 7])

In [48]:
arr[5:8] = 12

In [49]:
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

当将一个**标量值**赋值给一个切片时,该值会自动广播到整个选区.  
注意**np数组切片是原始数组的视图**,也就是原始地址的引用.对切片对象进行操作也会影响到源数组  
除非显示地进行`copy`操作:`copy_array = arr[5:8].cope()`

In [50]:
arr_slice = arr[5:8]
arr_slice

array([12, 12, 12])

In [51]:
arr_slice[1] = 12345

In [52]:
arr
# 更改切片对象的值,源数组的值也改变了

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,
           9])

In [53]:
arr_slice[:] = 64

In [54]:
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

对于高维数组,可以传入逗号分隔的**索引列表**来选取单个元素

In [34]:
arr2d = np.array([[1,2,3],[4,5,6],[7,8,9]])

In [35]:
arr2d[2,2]

9

在多维数组中,如果省略了完整索引,将会返回一个含有高一级维度上的所有数据的ndarray

In [36]:
# 2 * 2 * 3 dim
array3d = np.array([[[1,2,3],[4,5,6]],[[7,8,9],[10,11,12]]])
array3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [38]:
# array3d[0]就是在最高维度上取一个值,返回一个低一个维度的数组.这里是一个2 * 3维度的数组
array3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

标量值和数组都可以被赋值给`array3d[0]`

In [40]:
array3d[0] = 1111
array3d

array([[[1111, 1111, 1111],
        [1111, 1111, 1111]],

       [[   7,    8,    9],
        [  10,   11,   12]]])

In [43]:
# array3d[1,0] 就会降至一维数组
array3d[1,0]

array([7, 8, 9])

在以上所有选取数组子集的例子中,返回的数组都是**视图**(引用)

**高维度数组切片索引**:

In [46]:
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [47]:
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

可以像传入多个索引一样传入多个切片,进行高维数组的选择操作  
这样可以获取**相同维度**的数组视图

In [48]:
# 前两行,后两列
arr2d[:2,1:]

array([[2, 3],
       [5, 6]])

通过将**整数索引和切片混合**,可以获取低维度的切片  
**只有冒号表示选取整个轴,而不会降低维度**

In [53]:
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [65]:
# 选取第一维度: 1行(从0计数),前两列,这样就降了一个最高维度(行)
arr2d[1,:2]

array([4, 5])

In [77]:
arr2d[1,:2].shape

(2,)

In [78]:
# reshape会升高一维
arr2d[1,:2].reshape((1,2))

array([[4, 5]])

In [62]:
arr2d[2,:1]

array([7])

In [67]:
arr2d[2,:1].shape

(1,)

In [54]:
# : 表示选取所有行,:1 选取第一列
arr2d[:,:1]

array([[1],
       [4],
       [7]])

In [75]:
arr2d[:,:1].shape

(3, 1)

### 5.布尔型索引

假设每个名字对应data数组中的一行,我们想选出对应＇Bob＇的所有行.可以由此生成一个布尔型数组:

In [6]:
names = np.array(['Bob','Joe','Will','Bob','Joe','Will','Joe'])
names

array(['Bob', 'Joe', 'Will', 'Bob', 'Joe', 'Will', 'Joe'], dtype='<U4')

In [7]:
# randn生成正态分布的随机数据
data = np.random.randn(7,4)
data

array([[ 1.01916606, -0.9377392 ,  0.37795427, -1.59314339],
       [ 0.21570649, -1.60296657,  0.58521689, -0.80718171],
       [-1.63975944, -1.12510449, -2.34436623,  1.00623451],
       [ 0.40391006,  0.87101625,  1.84465931,  1.87688444],
       [-1.59707286, -1.28682774,  0.37876834, -1.31433527],
       [-1.10372796, -1.24033112, -0.43456665, -0.82781059],
       [-0.58543799,  0.06671862,  1.84867649, -0.40724745]])

In [9]:
names == 'Bob'
# 生成一个布尔型数组,这个数组可以用于数组索引

array([ True, False, False,  True, False, False, False])

In [10]:
data[names == 'Bob']

array([[ 1.01916606, -0.9377392 ,  0.37795427, -1.59314339],
       [ 0.40391006,  0.87101625,  1.84465931,  1.87688444]])

注意**布尔型数组的长度必须和被索引的数组的轴的长度一致**  
此外,还可以将布尔型数组和切片,整数混合使用  
**通过布尔型索引选取数组中的数据将总是创建数据的副本**

In [12]:
data[names == 'Bob',2:]

array([[ 0.37795427, -1.59314339],
       [ 1.84465931,  1.87688444]])

In [13]:
data[names == 'Bob',3]

array([-1.59314339,  1.87688444])

In [14]:
# 也可以和!=或负号(-)对条件进行否定

In [15]:
names != 'Bob'

array([False,  True,  True, False,  True,  True,  True])

In [16]:
data[(names != 'Bob')]

array([[ 0.21570649, -1.60296657,  0.58521689, -0.80718171],
       [-1.63975944, -1.12510449, -2.34436623,  1.00623451],
       [-1.59707286, -1.28682774,  0.37876834, -1.31433527],
       [-1.10372796, -1.24033112, -0.43456665, -0.82781059],
       [-0.58543799,  0.06671862,  1.84867649, -0.40724745]])

常用的做法是通过布尔型数组设置值

In [20]:
# 将data中所有的负值都设置为0
data[data < 0] = 0
data

array([[1.01916606, 0.        , 0.37795427, 0.        ],
       [0.21570649, 0.        , 0.58521689, 0.        ],
       [0.        , 0.        , 0.        , 1.00623451],
       [0.40391006, 0.87101625, 1.84465931, 1.87688444],
       [0.        , 0.        , 0.37876834, 0.        ],
       [0.        , 0.        , 0.        , 0.        ],
       [0.        , 0.06671862, 1.84867649, 0.        ]])

In [22]:
# 通过一维布尔数组设置整行或整列的值
data[names != 'Joe'] = 7
data

array([[7.        , 7.        , 7.        , 7.        ],
       [0.21570649, 0.        , 0.58521689, 0.        ],
       [7.        , 7.        , 7.        , 7.        ],
       [7.        , 7.        , 7.        , 7.        ],
       [0.        , 0.        , 0.37876834, 0.        ],
       [7.        , 7.        , 7.        , 7.        ],
       [0.        , 0.06671862, 1.84867649, 0.        ]])

### 6. 花式索引
* 花式索引是NumPy的术语,指的是**利用整数数组**进行索引  
* 花式索引和切片产生一个视图不同,它总是**将数据复制到新的数组中**

In [24]:
arr = np.empty((8,4)) 
arr

array([[ 6.95171788e-310,  6.95171788e-310,  2.91173043e-317,
         2.47032823e-323],
       [ 0.00000000e+000,  0.00000000e+000,  0.00000000e+000,
         7.21952780e-071],
       [ 0.00000000e+000,  0.00000000e+000,  2.47733836e+166,
         0.00000000e+000],
       [ 0.00000000e+000,  7.69472003e-053,  0.00000000e+000,
         0.00000000e+000],
       [-9.32621597e-308,  0.00000000e+000,  0.00000000e+000,
        -3.55595514e+182],
       [ 0.00000000e+000,  0.00000000e+000, -6.03176639e-045,
         0.00000000e+000],
       [ 0.00000000e+000, -7.89292769e+172,  0.00000000e+000,
         0.00000000e+000],
       [ 1.18575755e-321,  2.42092166e-322,  6.95171788e-310,
         6.95171788e-310]])

In [30]:
for i in range(8):
    arr[i] = i
    
arr

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

1. 选取指定顺序的行  
为了以特定顺序选取**行子集**,传入一个用于指定顺序的**整数列表或ndarray**  

In [31]:
arr[[4,3,0,6]]

array([[4., 4., 4., 4.],
       [3., 3., 3., 3.],
       [0., 0., 0., 0.],
       [6., 6., 6., 6.]])

In [41]:
arr[[-3,-5,-7]]

array([[20, 21, 22, 23],
       [12, 13, 14, 15],
       [ 4,  5,  6,  7]])

2.选取指定顺序的列  
`[:,[a,b,c,d]]`


In [34]:
arr = np.arange(32).reshape((8,4))
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [37]:
# 选取(1,0),(5,3),(7,1),(2,2)
arr[[1,5,7,2],[0,3,1,2]]

array([ 4, 23, 29, 10])

In [39]:
arr[[1,5,7,2]]

array([[ 4,  5,  6,  7],
       [20, 21, 22, 23],
       [28, 29, 30, 31],
       [ 8,  9, 10, 11]])

In [40]:
arr[[1,5,7,2]][:,[0,3,1,2]]
# arr[[1,5,7,2]] 的所有行,[0,3,1,2]的列选取顺序

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

3.方形区域索引器  
`np.ix_`函数可以将两个一维整数数组转换为一个用于选取方形区域的索引器(包括选取顺序的信息)

In [44]:
arr[np.ix_([1,5,7,2],[0,3,1,2])]
# [1,5,7,2]行,[0,3,1,2]的列选取顺序

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

### 7. 数组转置和轴对换

In [62]:
arr = np.random.randn(6,3)
arr

array([[ 0.69519614, -0.3693644 ,  0.55145144],
       [-0.97452864,  0.31185299,  0.11199407],
       [-0.57468762, -1.0046456 , -0.49419609],
       [-0.63400521,  0.89282573, -0.61467423],
       [-0.08054487,  0.86955406,  0.56674779],
       [-1.44807034,  0.06331627, -0.04566348]])

In [63]:
np.dot(arr.T,arr)
# (3,6) dot (6,3)

array([[ 4.2686274 , -0.71111367,  0.96841583],
       [-0.71111367,  2.80026614,  0.26886072],
       [ 0.96841583,  0.26886072,  1.26198376]])

对于高维数组,transpose需要得到一个由轴编号组成的元组才能对这些轴进行转置

In [64]:
arr = np.arange(16).reshape((2,2,4))
arr

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

In [65]:
arr.transpose((1,0,2))

array([[[ 0,  1,  2,  3],
        [ 8,  9, 10, 11]],

       [[ 4,  5,  6,  7],
        [12, 13, 14, 15]]])