## Numpy的基本操作
1. 数组与标量、数组之间的运算
2. 数组的矩阵积(matrix product)
3. 数组的索引与切片
4. 数组的转置与轴对换
5. 通用函数：快速的元素级数组成函数
6. 聚合函数
7. np.where函数
8. np.unique函数

### 1、数组与标量、数组之间的运算

* 数组不用循环即可对每个元素执行批量的算术运算操作，这个过程叫做矢量化，即用数组表达式代替循环的做法。
* 大小相等的两个数组之间的任何算术运算都会将其运算应用到元素级上的操作。  
#### 什么是元素级运算？？  
&nbsp;&nbsp;&nbsp;&nbsp;在NumPy中，大小相等的数组之间的运算，为元素级运算，即只用于位置相同的元素之间，所得的运算结果组成一个新的数组，运算结果的位置跟操作数位置相同。

In [1]:
import numpy as np

In [2]:
arr1 = np.array([1,2,3,4,5])

In [3]:
print("arr1:",arr1)
print("arr1+4:",arr1+4)
print("arr1*5:",arr1*5)
print("arr1-3:",arr1-3)
print("arr1/2.0:",arr1/2.0)
print("1.0/arr1:",1.0/arr1)
print("arr1**2:",arr1**2)
print("2**arr1:",2**arr1)

arr1: [1 2 3 4 5]
arr1+4: [5 6 7 8 9]
arr1*5: [ 5 10 15 20 25]
arr1-3: [-2 -1  0  1  2]
arr1/2.0: [0.5 1.  1.5 2.  2.5]
1.0/arr1: [1.         0.5        0.33333333 0.25       0.2       ]
arr1**2: [ 1  4  9 16 25]
2**arr1: [ 2  4  8 16 32]


In [4]:
arr1 = np.array([[1,2,3],[4,5,6]])
arr2 = np.array([[4.6,3.2,2.1],[5.2,4.3,3.4]])
print("=====arr1 + arr2=====")
print(arr1 + arr2)
print("=====arr1 - arr2=====")
print(arr1 - arr2)
print("=====arr1 * arr2=====")
print(arr1 * arr2)
print("=====arr1 / arr2=====")
print(arr1 / arr2)
print("=====arr1 ** arr2=====")
print(arr1 ** arr2)

=====arr1 + arr2=====
[[5.6 5.2 5.1]
 [9.2 9.3 9.4]]
=====arr1 - arr2=====
[[-3.6 -1.2  0.9]
 [-1.2  0.7  2.6]]
=====arr1 * arr2=====
[[ 4.6  6.4  6.3]
 [20.8 21.5 20.4]]
=====arr1 / arr2=====
[[0.2173913  0.625      1.42857143]
 [0.76923077 1.1627907  1.76470588]]
=====arr1 ** arr2=====
[[1.00000000e+00 9.18958684e+00 1.00451086e+01]
 [1.35117610e+03 1.01291037e+03 4.42297262e+02]]


###  2、数组的矩阵积

1. 矩阵：多维数组即矩阵  
2. 矩阵积：两个二维矩阵(行和列的矩阵)满足第一个矩阵的列数与第二个矩阵的行数相同，那么可以进行矩阵的乘法，即矩阵积，矩阵积不是元素级的运算。也称为点积、数量积。

In [5]:
arr = np.array([
    [1,0,0],
    [0,1,0],
    [0,0,1]
])
arr2 = np.array([
    [12,23,34],
    [45,56,67],
    [78,89,90]
])

In [6]:
arr.dot(arr2) # 矩阵的点积运算

array([[12, 23, 34],
       [45, 56, 67],
       [78, 89, 90]])

In [7]:
np.dot(arr,arr2) # 矩阵的点积运算

array([[12, 23, 34],
       [45, 56, 67],
       [78, 89, 90]])

### 3、数组的索引与切片

#### 3.1、数组的索引

In [8]:
arr = np.array([
    [
        [2,3,4,5],[1,3,4,9]
    ],
    [
        [0,3,4,8],[2,4,9,4]
    ],
    [
        [1,4,5,8],[3,4,8,9]
    ],
    [
        [2,3,6,8],[3,4,8,9]
    ]
])

In [9]:
arr.shape

(4, 2, 4)

In [10]:
arr[3]

array([[2, 3, 6, 8],
       [3, 4, 8, 9]])

In [11]:
arr[3][1]

array([3, 4, 8, 9])

In [12]:
arr[3][1][2]

8

In [13]:
arr[3,1,2]

8

#### 3.2、数组的切片

In [14]:
arr

array([[[2, 3, 4, 5],
        [1, 3, 4, 9]],

       [[0, 3, 4, 8],
        [2, 4, 9, 4]],

       [[1, 4, 5, 8],
        [3, 4, 8, 9]],

       [[2, 3, 6, 8],
        [3, 4, 8, 9]]])

`注意Numpy中通过切片得到的新数组，只是原来数组的一个视图，因此对新数组的操作也会影响原数组`

In [15]:
print("arr[1]:",arr[1])
print("arr[1][0]:",arr[1][0])
print("arr[1][0][1:3]:",arr[1][0][1:3])
print("arr[1][1][1:3]:",arr[1][1][1:3])
print("arr[1,:,1:3]:",arr[1,:,1:3])

arr[1]: [[0 3 4 8]
 [2 4 9 4]]
arr[1][0]: [0 3 4 8]
arr[1][0][1:3]: [3 4]
arr[1][1][1:3]: [4 9]
arr[1,:,1:3]: [[3 4]
 [4 9]]


#### 3.3、布尔类型索引

利用布尔类型的数组进行数据索引，最终返回的结果是对应索引数组中数据为True位置的值。

In [16]:
A = np.random.random((4,4))
print(A.shape)
A

(4, 4)


array([[0.40027715, 0.1717992 , 0.88439201, 0.91314377],
       [0.34685061, 0.46831621, 0.44796692, 0.64287607],
       [0.95163845, 0.33149705, 0.63772033, 0.61118452],
       [0.06652787, 0.57559591, 0.32088386, 0.34055067]])

In [17]:
B = A < 0.5
print(B.shape)
B

(4, 4)


array([[ True,  True, False, False],
       [ True,  True,  True, False],
       [False,  True, False, False],
       [ True, False,  True,  True]])

In [18]:
C = A[B]
print(C.shape)
C

(9,)


array([0.40027715, 0.1717992 , 0.34685061, 0.46831621, 0.44796692,
       0.33149705, 0.06652787, 0.32088386, 0.34055067])

In [19]:
names = np.array(['Gerry','Tom','John'])
scores = np.array([
    [98,87,86,95],
    [58,56,54,51],
    [78,85,85,77]
])
classs = np.array([u'语文',u'数学',u'英语',u'科学'])
print("Gerry score is :",scores[names=='Gerry'].reshape((-1)))
print("Gerry 数学 score is :",scores[names=='Gerry'].reshape((-1))[classs==u'数学'])
print(u'Gerry和Tom的成绩')
print(scores[(names == 'Gerry')|(names == u'Tom')])
print(u'非Gerry和Tom的成绩')
print(scores[(names != 'Gerry')&(names != u'Tom')])

Gerry score is : [98 87 86 95]
Gerry 数学 score is : [87]
Gerry和Tom的成绩
[[98 87 86 95]
 [58 56 54 51]]
非Gerry和Tom的成绩
[[78 85 85 77]]


### ` Numpy中不能使用python中的and、or、not操作符，使用&（逻辑与）、|（逻辑或）、!（逻辑非）来替换 `  

#### 3.4、花式索引

花式索引(Fancy indexing)指的是利用整数数组进行索引的方式。

In [20]:
arr = np.arange(32).reshape(8,4)
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [21]:
print(u'获取第0、3、5行的数据')
print(arr[[0,3,5]])

获取第0、3、5行的数据
[[ 0  1  2  3]
 [12 13 14 15]
 [20 21 22 23]]


In [22]:
print(u'获取第（0、0）（3、3）、（5、2）这三个索引位置的数据')
print(arr[[0,3,5],[0,3,2]])

获取第（0、0）（3、3）、（5、2）这三个索引位置的数据
[ 0 15 22]


In [23]:
print(u'获取第0、3、5行的第0、2、3列的数组')
print(arr[[0,3,5]].T[[0,2,3]].T)
print()
# ix_函数会产生一个索引器
print(arr[np.ix_([0,3,5],[0,2,3])])

获取第0、3、5行的第0、2、3列的数组
[[ 0  2  3]
 [12 14 15]
 [20 22 23]]

[[ 0  2  3]
 [12 14 15]
 [20 22 23]]


### 4、数组转置与转换

1. 数组转置是指将shape进行重置操作，并将其值重置为原始shape元组的倒置，比如原始的shape值为:(2,3,4)，那么转置后的新元组的shape的值为: (4,3,2)f
2. 对于二维数组而言(矩阵)数组的转置其实就是矩阵的转置
3. 可以通过调用数组的transpose函数或者T属性进行数组转置操作

In [24]:
arr = np.arange(40).reshape(5,-1)
print(u'原数组的shape:',arr.shape)
arr

原数组的shape: (5, 8)


array([[ 0,  1,  2,  3,  4,  5,  6,  7],
       [ 8,  9, 10, 11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29, 30, 31],
       [32, 33, 34, 35, 36, 37, 38, 39]])

In [25]:
arr1 = arr.transpose()
print('通过函数transpose转置后数组的shape值:',arr1.shape)
arr1

通过函数transpose转置后数组的shape值: (8, 5)


array([[ 0,  8, 16, 24, 32],
       [ 1,  9, 17, 25, 33],
       [ 2, 10, 18, 26, 34],
       [ 3, 11, 19, 27, 35],
       [ 4, 12, 20, 28, 36],
       [ 5, 13, 21, 29, 37],
       [ 6, 14, 22, 30, 38],
       [ 7, 15, 23, 31, 39]])

In [26]:
arr2 = arr.T
print('通过属性T转置后数组的shape的值',arr2.shape)
arr2

通过属性T转置后数组的shape的值 (8, 5)


array([[ 0,  8, 16, 24, 32],
       [ 1,  9, 17, 25, 33],
       [ 2, 10, 18, 26, 34],
       [ 3, 11, 19, 27, 35],
       [ 4, 12, 20, 28, 36],
       [ 5, 13, 21, 29, 37],
       [ 6, 14, 22, 30, 38],
       [ 7, 15, 23, 31, 39]])

### 5、ndarray常用函数

#### 5.1、ufunc

numpy模块中对ndarray中数据进行快速元素级运算的函数，也可以看做是简单的函数(接受一个或多个标量值，并产生一个或多个标量值)的矢量化包装器。  
 主要包括一元函数和二元函数

1. abs, fabs&nbsp;&nbsp;计算整数、浮点数或者复数的绝对值，对于非复数，可以使用更快的fabs

In [27]:
arr = np.array([-5.3,-6.2,-5,0,4.2,5,3,2,1])
print("arr =",arr)
print("np.abs(arr) =",np.abs(arr))
print("np.fabs(arr) =",np.fabs(arr))

arr = [-5.3 -6.2 -5.   0.   4.2  5.   3.   2.   1. ]
np.abs(arr) = [5.3 6.2 5.  0.  4.2 5.  3.  2.  1. ]
np.fabs(arr) = [5.3 6.2 5.  0.  4.2 5.  3.  2.  1. ]


2. sqrt&nbsp;&nbsp;&nbsp;计算各个元素的平方根，相当于arr ** 0.5， 要求arr的每个元素必须是非负数

In [28]:
print("np.sqrt(np.fabs(arr)) =",np.sqrt(np.fabs(arr)))

np.sqrt(np.fabs(arr)) = [2.30217289 2.48997992 2.23606798 0.         2.04939015 2.23606798
 1.73205081 1.41421356 1.        ]


3. square&nbsp;&nbsp;计算各个元素的评分，相当于arr ** 2

In [29]:
print("np.square(arr) =",np.square(arr))

np.square(arr) = [28.09 38.44 25.    0.   17.64 25.    9.    4.    1.  ]


4. exp&nbsp;&nbsp;计算各个元素的指数e的x次方

In [30]:
print("np.exp(arr) =",np.exp(arr))

np.exp(arr) = [4.99159391e-03 2.02943064e-03 6.73794700e-03 1.00000000e+00
 6.66863310e+01 1.48413159e+02 2.00855369e+01 7.38905610e+00
 2.71828183e+00]


5. log、log10、log2、log1p&nbsp;&nbsp;分别计算自然对数、底数为10的log、底数为2的log以及log(1+x)；要求arr中的每个元素必须为正数

In [31]:
log_arr = np.fabs(arr) + 1
print("np.log(log_arr) =",np.log(log_arr))
print("np.log10(log_arr) =",np.log10(log_arr))
print("np.log2(log_arr) =",np.log2(log_arr))
print("np.log1p(log_arr) =",np.log1p(log_arr))

np.log(log_arr) = [1.84054963 1.97408103 1.79175947 0.         1.64865863 1.79175947
 1.38629436 1.09861229 0.69314718]
np.log10(log_arr) = [0.79934055 0.8573325  0.77815125 0.         0.71600334 0.77815125
 0.60205999 0.47712125 0.30103   ]
np.log2(log_arr) = [2.65535183 2.84799691 2.5849625  0.         2.37851162 2.5849625
 2.         1.5849625  1.        ]
np.log1p(log_arr) = [1.98787435 2.10413415 1.94591015 0.69314718 1.82454929 1.94591015
 1.60943791 1.38629436 1.09861229]


6. sign&nbsp;&nbsp;计算各个元素的正负号: 1 正数，0：零，-1：负数


In [32]:
print("np.sign(arr) =",np.sign(arr))

np.sign(arr) = [-1. -1. -1.  0.  1.  1.  1.  1.  1.]


7. ceil&nbsp;&nbsp;计算各个元素的ceiling值，即大于等于该值的最小整数  
8. floor&nbsp;&nbsp;计算各个元素的floor值，即小于等于该值的最大整数

In [33]:
print("np.ceil(arr) =",np.ceil(arr))
print("np.floor(arr) =",np.floor(arr))

np.ceil(arr) = [-5. -6. -5.  0.  5.  5.  3.  2.  1.]
np.floor(arr) = [-6. -7. -5.  0.  4.  5.  3.  2.  1.]


9. rint&nbsp;&nbsp;将各个元素值四舍五入到最接近的整数，保留dtype的类型


In [34]:
print("np.rint(arr) =",np.rint(arr))

np.rint(arr) = [-5. -6. -5.  0.  4.  5.  3.  2.  1.]


10. modf&nbsp;&nbsp;将数组中元素的小数位和整数位以两部分独立数组的形式返回

In [35]:
print("np.modf(arr) =",np.modf(arr)) # 返回一个元组

np.modf(arr) = (array([-0.3, -0.2, -0. ,  0. ,  0.2,  0. ,  0. ,  0. ,  0. ]), array([-5., -6., -5.,  0.,  4.,  5.,  3.,  2.,  1.]))


11. isnan&nbsp;&nbsp;返回一个表示“那些值是NaN(不是一个数字)”的布尔类型数组

In [36]:
print("np.isnan(arr) =",np.isnan(arr))

np.isnan(arr) = [False False False False False False False False False]


12. isfinite、isinf&nbsp;&nbsp;分别一个表示”那些元素是有穷的(非inf、非NaN)”或者“那些元素是无穷的”的布尔型数组

In [37]:
print("np.isfinite(arr) =",np.isfinite(arr))
print("np.isinf(arr) =",np.isinf(arr))

np.isfinite(arr) = [ True  True  True  True  True  True  True  True  True]
np.isinf(arr) = [False False False False False False False False False]


13. cos、cosh、sin、sinh、tan、tanh&nbsp;&nbsp;普通以及双曲型三角函数

In [38]:
print("np.cos(arr) =",np.cos(arr))
print("np.cosh(arr) =",np.cosh(arr))
print("np.sin(arr) =",np.sin(arr))
print("np.sinh(arr) =",np.sinh(arr))
print("np.tan(arr) =",np.tan(arr))
print("np.tanh(arr) =",np.tanh(arr))

np.cos(arr) = [ 0.55437434  0.9965421   0.28366219  1.         -0.49026082  0.28366219
 -0.9899925  -0.41614684  0.54030231]
np.cosh(arr) = [100.17090078 246.37553526  74.20994852   1.          33.35066331
  74.20994852  10.067662     3.76219569   1.54308063]
np.sin(arr) = [ 0.83226744  0.0830894   0.95892427  0.         -0.87157577 -0.95892427
  0.14112001  0.90929743  0.84147098]
np.sinh(arr) = [-100.16590919 -246.37350583  -74.20321058    0.           33.33566773
   74.20321058   10.01787493    3.62686041    1.17520119]
np.tan(arr) = [ 1.5012734   0.08337771  3.38051501  0.          1.77777977 -3.38051501
 -0.14254654 -2.18503986  1.55740772]
np.tanh(arr) = [-0.99995017 -0.99999176 -0.9999092   0.          0.99955037  0.9999092
  0.99505475  0.96402758  0.76159416]


14. arccos、arccosh、arcsin、arcsinh、arctan、arctanh&nbsp;&nbsp;反三角函数

In [39]:
print("np.arccos(arr) =",np.arccos(arr))
print("np.arcsin(arr) =",np.arcsin(arr))
print("np.arctan(arr) =",np.arctan(arr))

np.arccos(arr) = [       nan        nan        nan 1.57079633        nan        nan
        nan        nan 0.        ]
np.arcsin(arr) = [       nan        nan        nan 0.                nan        nan
        nan        nan 1.57079633]
np.arctan(arr) = [-1.38430943 -1.4108832  -1.37340077  0.          1.33705315  1.37340077
  1.24904577  1.10714872  0.78539816]


  """Entry point for launching an IPython kernel.
  


15. mod &nbsp;&nbsp;元素级的取模

In [41]:
arr1 = np.array([1,2,8,1])
arr2 = np.array([4,5,6,0])

In [48]:
print("np.mod(arr2,arr1) =",np.mod(arr2,arr1))  # 4%1 = 0;  5%2 = 1; 6%8 = 6; 0%1 = 0;  

np.mod(arr2,arr1) = [0 1 6 0]


16. dot&nbsp;&nbsp;求两个数组的点积

In [52]:
print("np.dot(arr2,arr1) =",np.dot(arr1,arr2))  # 4*1+5*2+6*8+0*1 = 62;  

np.dot(arr2,arr1) = 62


17. greater、less、equal、&nbsp;&nbsp;执行元素级别的比较运算，最终返回一个布尔型数组

In [55]:
print("np.greater(arr1,arr2) =",np.greater(arr1,arr2))
print("np.less(arr1,arr2) =",np.less(arr1,arr2))
print("np.equal(arr1,arr2) =",np.equal(arr1,arr2))

np.greater(arr1,arr2) = [False False  True  True]
np.less(arr1,arr2) = [ True  True False False]
np.equal(arr1,arr2) = [False False False False]


18. logical_and、logical_or、logical_xor&nbsp;&nbsp;执行元素级别的布尔逻辑运算，相当于中缀运算符&、|、^

In [58]:
print("np.logical_and(arr1,arr2) =",np.logical_and(arr1,arr2))
print("np.logical_or(arr1,arr2) =",np.logical_or(arr1,arr2))
print("np.logical_xor(arr1,arr2) =",np.logical_xor(arr1,arr2))

np.logical_and(arr1,arr2) = [ True  True  True False]
np.logical_or(arr1,arr2) = [ True  True  True  True]
np.logical_xor(arr1,arr2) = [False False False  True]


19. power&nbsp;&nbsp;求解对数组中的每个元素进行给定次数的指数值.

In [67]:
print("arr1           =",arr1)
print("np.power(arr1) =",np.power(arr1,2))

arr1           = [1 2 8 1]
np.power(arr1) = [ 1  4 64  1]


### 6、聚合函数

聚合函数是对一组值(eg一个数组)进行操作，返回一个单一值作为结果的函数。当然聚合函数也可以指定对某个具体的轴进行数据聚合操作；常将的聚合操作有：平均值、最大值、最小值、方差等等

In [76]:
arr = np.array([[1,2,3,4],[7,8,9,10]])
print("arr =",arr)
print("arr.min =",arr.min)
print("arr.max =",arr.max)
print("arr.mean=",arr.mean)
print("arr.std =",arr.std)
print(u"根据方差公式计算的方差值为:",np.sqrt(np.power(arr-arr.mean(),2).sum()/arr.size))

arr = [[ 1  2  3  4]
 [ 7  8  9 10]]
arr.min = <built-in method min of numpy.ndarray object at 0x0000028768C091C0>
arr.max = <built-in method max of numpy.ndarray object at 0x0000028768C091C0>
arr.mean= <built-in method mean of numpy.ndarray object at 0x0000028768C091C0>
arr.std = <built-in method std of numpy.ndarray object at 0x0000028768C091C0>
根据方差公式计算的方差值为: 3.2015621187164243


In [78]:
arr = np.array([
    [
        1,3,5,9
    ],
    [
        2,4,6,8
    ],
    [
        -5,-6,-8,-2
    ]
])

* 二维数组的情况下，axis=0表示对同列的数据进行聚合；axis=1表示对行的数据进行聚合

In [85]:
print("=====arr=====")
print(arr)
print("arr.mean(axis=0):",arr.mean(axis=0)) # axis = 0 对同列上的元素进行操作
print("arr.mean(axis=1):",arr.mean(axis=1)) # axis = 1 对同行上的元素进行操作
print("arr.sum(axis=0):",arr.sum(axis=1))
print("arr.max(axis=0):",arr.max(axis=1))
print("arr.std(axis=0):",arr.std(axis=1))

=====arr=====
[[ 1  3  5  9]
 [ 2  4  6  8]
 [-5 -6 -8 -2]]
arr.mean(axis=0): [-0.66666667  0.33333333  1.          5.        ]
arr.mean(axis=1): [ 4.5   5.   -5.25]
arr.sum(axis=0): [ 18  20 -21]
arr.max(axis=0): [ 9  8 -2]
arr.std(axis=0): [2.95803989 2.23606798 2.16506351]


7. np.where函数

np.where函数是三元表达式x if condition else y的矢量化版本

In [94]:
xarr = np.array([-1.1,-1.2,-1.3,-1.4,-1.5])
yarr = np.array([-2.1,-2.2,-2.3,-2.4,-2.5])
condition = xarr < yarr
result1 = [x if c else y for(x,y,c) in zip(xarr,yarr,condition)]
result2 = np.where(condition,xarr,yarr)
print(u"使用python的语法，结果为：",result1,";数据类型为:",type(result1))
print(u"使用np.where的语法，结果为：",result2,";数据类型为:",type(result2))

使用python的语法，结果为： [-2.1, -2.2, -2.3, -2.4, -2.5] ;数据类型为: <class 'list'>
使用np.where的语法，结果为： [-2.1 -2.2 -2.3 -2.4 -2.5] ;数据类型为: <class 'numpy.ndarray'>


In [97]:
arr = np.array([
    [1,2,np.NaN,4],
    [4,5,6,np.NaN],
    [7,8,9,np.inf],
    [np.inf,np.e,np.pi,4]
])
## 得到判断条件
condition = np.isnan(arr)|np.isinf(arr)
print("原始数组")
print(arr)
print()
print("结果")
print(np.where(condition,0,arr))

原始数组
[[1.         2.                nan 4.        ]
 [4.         5.         6.                nan]
 [7.         8.         9.                inf]
 [       inf 2.71828183 3.14159265 4.        ]]

结果
[[1.         2.         0.         4.        ]
 [4.         5.         6.         0.        ]
 [7.         8.         9.         0.        ]
 [0.         2.71828183 3.14159265 4.        ]]


### 8、np.unique函数

np.unique函数的主要作用是将数组中的元素进行去重操作(也就是只保存不重复的数据)

In [103]:
arr = np.array([u'图书',u'数码',u'小吃',u'数码',u'女装',u'小吃',u'美食',u'男装',u'数码'])
print("=====原始数据=====")
for a in arr:
    print(a,end=" ")
print()

arr2 = np.unique(arr)
print("=====去重后的数据=====")
for a in arr2:
    print(a,end = " ")
print()

=====原始数据=====
图书 数码 小吃 数码 女装 小吃 美食 男装 数码 
=====去重后的数据=====
图书 女装 小吃 数码 男装 美食 
