# 2.3 数组的运算

In [1]:
import numpy as np

## 2.3.1 数组和标量间的运算

### 数组之所以很强大而且重要的原因，是其不需要通过循环就可以完成批量计算，也就是矢量化

In [2]:
a = [1,2,3]
b = []
for i in a:
    b.append(i*10)
b

[10, 20, 30]

In [3]:
arr = np.array([1,2,3])
arr*10

array([10, 20, 30])

### 相同维度的数组的算术运算都可以直接应用到元素中，也就是元素级运算

In [4]:
arr * arr

array([1, 4, 9])

In [5]:
arr-arr

array([0, 0, 0])

## 2.3.2 通用函数

### 通用函数（ufunc）是一种对数组中的数据执行元素级运算的函数，用法也很简单。例如，通过abs函数求绝对值，square函数求平方

In [6]:
arr = np.random.randn(3,3)
arr

array([[-0.14362463, -2.74486351,  1.35092406],
       [ 1.59843451,  1.44472031,  0.35369813],
       [-2.05603976,  1.00111512, -0.50850608]])

In [7]:
np.abs(arr)

array([[0.14362463, 2.74486351, 1.35092406],
       [1.59843451, 1.44472031, 0.35369813],
       [2.05603976, 1.00111512, 0.50850608]])

In [8]:
np.square(arr)

array([[0.02062803, 7.53427569, 1.82499582],
       [2.55499288, 2.08721677, 0.12510237],
       [4.22729951, 1.00223148, 0.25857844]])

### 以上函数都是传入一个数组，所以这些函数都是一元函数。有一些函数需要传入两个数组并返回一个数组，这些函数被称为二元函数。例如，add函数用于两个数组的相加，minimum函数可以计算元素最小值

In [9]:
arr1 = np.random.randint(1,10,size=(5))
arr1

array([6, 1, 5, 9, 9])

In [10]:
arr2 = np.random.randint(1,10,size=(5))
arr2

array([7, 8, 2, 6, 8])

In [11]:
np.add(arr1,arr2)

array([13,  9,  7, 15, 17])

In [12]:
np.minimum(arr1,arr2)

array([6, 1, 2, 6, 8])

### 有些通用函数还可以返回两个数组，例如modf函数，可以返回数组元素的小数和整数部分

In [13]:
arr = np.random.normal(2,4,size=(6,))
arr

array([ 2.48708069e-03,  8.61777985e+00, -1.70905528e+00,  1.80818634e+00,
       -2.63162615e+00,  7.69092379e+00])

In [14]:
np.modf(arr)

(array([ 0.00248708,  0.61777985, -0.70905528,  0.80818634, -0.63162615,
         0.69092379]), array([ 0.,  8., -1.,  1., -2.,  7.]))

### 注意：更多通用函数的用法，可以去NumPy官网http://www.numpy.org/查阅

## 2.3.3 条件逻辑运算

In [17]:
arr1 = np.array([1,2,3,4])
arr2 = np.array([5,6,7,8])
cond = np.array([True,False,False,True])

### 如果需要通过cond的值来选取arr1和arr2的值，当cond为True时，选择arr1的值，否则选择arr2的值，那么可以通过if语句判断来实现

In [18]:
result = [(x if c else y) for x , y ,c in zip(arr1,arr2,cond)]
result

[1, 6, 7, 4]

### 但这种方法存在两个问题：第一，对大规模数组处理速度不是很快；第二，无法用于多维数组。若使用NumPy的where函数则可以解决这两个问题

In [20]:
result = np.where(cond,arr1,arr2)
result

array([1, 6, 7, 4])

### where函数中的第二个和第三个参数可以为标量。在数据分析中，经常需要通过一些条件将数组进行处理。例如，新建一个随机符合正态分布的数组，通过数据处理将正值替换为1，负值替换为-1

In [21]:
arr = np.random.randn(4,4)
arr

array([[ 1.13914142, -0.12878614, -0.1853862 , -1.48066483],
       [ 0.95955753,  0.7583071 ,  0.44939441, -0.2299716 ],
       [ 0.92997353,  1.35734498, -0.66756568,  0.68454141],
       [ 0.94295594,  0.29634602,  1.5048399 ,  0.88870643]])

In [22]:
new_arr = np.where(arr>0, 1, -1)
new_arr

array([[ 1, -1, -1, -1],
       [ 1,  1,  1, -1],
       [ 1,  1, -1,  1],
       [ 1,  1,  1,  1]])

### 使用elif函数可以进行多条件的判别。np.where函数通过嵌套的where表达式也可以完成同样的功能

In [23]:
arr = np.random.randint(1,300,size=(3,3))
arr

array([[ 74,  10, 227],
       [107,  79, 119],
       [ 35, 254, 120]])

In [24]:
new_arr = np.where(arr>200,3, 
                  np.where(arr>100,2,1))
new_arr

array([[1, 1, 3],
       [2, 1, 2],
       [1, 3, 2]])

## 2.3.4 统计运算

### NumPy库支持对整个数组或按指定轴向的数据进行统计计算。例如，sum函数用于求和；mean函数用于求算术平均数；std函数用于求标准差

In [25]:
arr = np.random.randn(4,4)
arr

array([[-0.6375716 ,  0.21845487, -1.78379814, -0.19750502],
       [ 2.46490199,  0.30194637, -0.38614588,  0.31367923],
       [-1.3294836 ,  0.67577053, -0.18214678,  0.08155093],
       [ 0.04899469, -1.18809025,  1.30403442, -0.16575059]])

In [26]:
arr.sum()

-0.4611588251295631

In [27]:
arr.mean()

-0.028822426570597692

In [28]:
arr.std()

0.9836871813305033

### 上面的这些函数也可以传入axis参数，用于计算指定轴方向的统计值

In [29]:
arr

array([[-0.6375716 ,  0.21845487, -1.78379814, -0.19750502],
       [ 2.46490199,  0.30194637, -0.38614588,  0.31367923],
       [-1.3294836 ,  0.67577053, -0.18214678,  0.08155093],
       [ 0.04899469, -1.18809025,  1.30403442, -0.16575059]])

In [37]:
arr.mean(axis=1)

array([ 0.13671037,  0.00202038, -0.2620141 ,  0.00799364])

In [35]:
arr.sum(0)

array([-2.40041989e+00,  2.69438170e+00, -7.54308918e-01, -8.11717102e-04])

### cumsum和cumpod方法会产生计算结果组成的数组

In [38]:
arr = np.arange(9).reshape(3,3)
arr

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [39]:
arr.cumsum(0)


array([[ 0,  1,  2],
       [ 3,  5,  7],
       [ 9, 12, 15]], dtype=int32)

In [40]:
arr.cumprod(1)

array([[  0,   0,   0],
       [  3,  12,  60],
       [  6,  42, 336]], dtype=int32)

## 2.3.5 布尔型数组运算

### 对于布尔型数组，其布尔值会被强制转换为1（True）和0（False）

In [41]:
arr = np.random.randn(20)
arr

array([ 2.27315866, -1.54310609,  0.61492491, -0.59573817, -0.1652016 ,
        0.1554463 , -0.27955897,  1.06494773,  2.00429329,  0.3038026 ,
       -0.65541871, -0.78503637,  0.45254739,  1.40043467,  1.04195969,
        1.21795168,  1.7115184 , -0.75348028, -0.82196602, -0.07762885])

In [42]:
(arr>0).sum()

11

### 另外，还有两个方法any和all也可以用于布尔型数组运算。any方法用于测试数组中是否存在一个或多个True; all方法用于检查数组中的所有值是否为True

In [43]:
arr = np.array([True,False,False,True])
arr

array([ True, False, False,  True])

In [44]:
arr.any()

True

In [45]:
arr.all()

False

## 2.3.6 排序

### 与Python列表类似，NumPy数组也可以通过sort方法进行排序

In [46]:
arr = np.random.randn(10)
arr

array([ 1.09924194, -1.1610585 ,  0.47117301,  0.00400175, -0.05084047,
       -0.38872886,  0.79885918, -0.94349051,  0.99409428, -2.18185267])

In [47]:
arr.sort()
arr

array([-2.18185267, -1.1610585 , -0.94349051, -0.38872886, -0.05084047,
        0.00400175,  0.47117301,  0.79885918,  0.99409428,  1.09924194])

### 对于多维数组，可以通过指定轴方向进行排序

In [48]:
arr = np.random.randn(5,3)
arr

array([[-0.75883943, -1.3631699 ,  0.1604476 ],
       [-0.533919  ,  0.42363805, -0.19855039],
       [-1.00335582,  0.85017078, -0.91696138],
       [ 3.37041952, -1.75888239, -0.48893911],
       [ 1.85769193,  0.58200523, -0.65754696]])

In [51]:
arr.sort(1)
arr

array([[-1.75888239, -1.00335582, -0.91696138],
       [-1.3631699 , -0.75883943, -0.65754696],
       [-0.533919  , -0.48893911,  0.42363805],
       [-0.19855039,  0.58200523,  1.85769193],
       [ 0.1604476 ,  0.85017078,  3.37041952]])

## 2.3.7 集合运算

### NumPy库中提供了针对一维数组的基本集合运算。在数据分析中，常使用np.unique方法来找出数组中的唯一值

In [52]:
fruits = np.array(['apple','banana','pear','banana','apple','pear'])
fruits

array(['apple', 'banana', 'pear', 'banana', 'apple', 'pear'], dtype='<U6')

In [53]:
np.unique(fruits)

array(['apple', 'banana', 'pear'], dtype='<U6')

In [54]:
arr = np.array([2,3,3,2,5,7,3])
arr

array([2, 3, 3, 2, 5, 7, 3])

In [56]:
np.unique(arr)

array([2, 3, 5, 7])

### 注意：对唯一值进行了排序

### np.in1d方法用于测试几个数组中是否包含相同的值，返回一个布尔值数组

In [57]:
arr = np.array([2,3,5,7])
arr

array([2, 3, 5, 7])

In [58]:
np.in1d(arr,[2,5])

array([ True, False,  True, False])

### 2.3.8 线性代数

### 前面讲过数组的运算是元素级的，数组相乘的结果是各对应元素的积组成的数组。而对于矩阵而言，需要求的是点积，这里NumPy库提供了用于矩阵乘法的dot函数

In [59]:
arr1 = np.array([[1,2,3],[4,5,6]])
arr1

array([[1, 2, 3],
       [4, 5, 6]])

In [60]:
arr2 = np.arange(9).reshape(3,3)
arr2

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [61]:
np.dot(arr1,arr2)

array([[24, 30, 36],
       [51, 66, 81]])

### 对于更多的矩阵计算，可通过NumPy库的linalg模块来完成

In [62]:
from numpy.linalg import det

In [64]:
arr = np.array([[1,2],[3,4]])
arr

array([[1, 2],
       [3, 4]])

In [65]:
det(arr)

-2.0000000000000004

### 注意：更多的矩阵运算说明可查看linalg帮助。