# 1 条件逻辑在array中的应用

在python中，可以使用三元表达式来表达条件逻辑。

In [1]:
# xarr,yarr,con三个数组,当con数组中对应值为True时，提取xarr数组中的值，否则提取yarr数组中的值
import numpy as np
xarr = [1,2,3,4]
yarr = [-1,-2,-3,-4]
con = [True,False,False,True]
[x if c else y for x,y,c in zip(xarr,yarr,con)]

[1, -2, -3, 4]

使用三元表达式可以进行条件逻辑的表达，但存在一些问题：
- 当数组极为庞大的时候，速度很慢
- 当数组维数很多的时候，需要嵌套循环

在numpy中，提供了```np.where```函数以供便捷的表达条件逻辑。

In [2]:
np.where(con,xarr,yarr)
np.where(con)
np.array(xarr)[np.where(con)]

array([ 1, -2, -3,  4])

(array([0, 3], dtype=int64),)

array([1, 4])

In [3]:
a = np.arange(9).reshape(3,3 )
np.where(a>3)
a[np.where(a>3)]
a[[1,1,2,2,2],[1,2,0,1,2]]

(array([1, 1, 2, 2, 2], dtype=int64), array([1, 2, 0, 1, 2], dtype=int64))

array([4, 5, 6, 7, 8])

array([4, 5, 6, 7, 8])

## 2 算术和统计方法

## 2.1 ```sum, mean, std, var```等函数或方法

分别用于计算数组值的和、平均数、标准差、方差。
既可用作方法，也能用作函数：```np.sum(array)```或```array.sum()```

In [4]:
# 几个统计函数均存在一个axis参数，可以选择一条轴线，以轴线为基准求统计特性
x = np.random.randn(4,6)
x
x.mean()
x.mean(axis=0)
x.mean(axis=1)

array([[-0.3273523 , -0.76806445, -0.06219133,  2.09624222, -2.02671166,
        -1.1068659 ],
       [-2.9285562 , -0.62564975,  1.42119103, -0.74763411, -0.13580378,
         0.42410196],
       [ 0.56059398, -0.08547611, -0.35431213,  0.37786488, -0.8954043 ,
         1.1270331 ],
       [ 1.03965414, -0.24778016,  0.66097694, -0.78710785,  1.17467714,
         0.07128388]])

-0.08938711556171407

array([-0.4139151 , -0.43174262,  0.41641613,  0.23484128, -0.47081065,
        0.12888826])

array([-0.3658239 , -0.43205848,  0.12171657,  0.31861735])

## 2.2 ```min, max```函数或方法及```argmin,argmax```函数或方法

可以设置axis参数。

In [5]:
x
x.max()
x.max(axis=1)

array([[-0.3273523 , -0.76806445, -0.06219133,  2.09624222, -2.02671166,
        -1.1068659 ],
       [-2.9285562 , -0.62564975,  1.42119103, -0.74763411, -0.13580378,
         0.42410196],
       [ 0.56059398, -0.08547611, -0.35431213,  0.37786488, -0.8954043 ,
         1.1270331 ],
       [ 1.03965414, -0.24778016,  0.66097694, -0.78710785,  1.17467714,
         0.07128388]])

2.096242218851209

array([2.09624222, 1.42119103, 1.1270331 , 1.17467714])

In [6]:
# argmin和argmax返回最大值的索引号
x
x.argmax()
x.argmax(axis=1)

array([[-0.3273523 , -0.76806445, -0.06219133,  2.09624222, -2.02671166,
        -1.1068659 ],
       [-2.9285562 , -0.62564975,  1.42119103, -0.74763411, -0.13580378,
         0.42410196],
       [ 0.56059398, -0.08547611, -0.35431213,  0.37786488, -0.8954043 ,
         1.1270331 ],
       [ 1.03965414, -0.24778016,  0.66097694, -0.78710785,  1.17467714,
         0.07128388]])

3

array([3, 2, 5, 4], dtype=int64)

## 2.3 ```cumsum, cumprod```函数或方法

分别为累加和累乘函数，同样可以设置axis参数。

In [7]:
x = np.arange(9).reshape(3,3)
x
x.cumsum()
x.cumsum(axis=1)
x = x + 1
x.cumprod()
x.cumprod(axis=1)

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

array([ 0,  1,  3,  6, 10, 15, 21, 28, 36], dtype=int32)

array([[ 0,  1,  3],
       [ 3,  7, 12],
       [ 6, 13, 21]], dtype=int32)

array([     1,      2,      6,     24,    120,    720,   5040,  40320,
       362880], dtype=int32)

array([[  1,   2,   6],
       [  4,  20, 120],
       [  7,  56, 504]], dtype=int32)

# 3 布尔数组的应用

- 使用```sum```方法或函数对布尔数组进行求和，因为真值都为1，因此求和所得值即为真值个数。

In [8]:
x = np.random.randn(100)
np.sum(x>1)

13

- ```any, all```方法

In [9]:
# any：数组中任一值为真，则返回真，否则返回假。
# all：数组中所有值为真，则返回真，否则返回假。
(x>1).all()
(x>1).any()

False

True

# 4 ```array```对象的排序

```array```对象的排序有两个方法：```np.sort()```函数和```.sort()```方法
- ```np.sort()```函数：创建一个原数组的排序后的**复制**
- ```.sort()```方法：**就地**排序

In [10]:
x = np.random.randn(4,4)
x
x.sort()
x
np.sort(x,axis=None)

array([[-1.73618318, -2.72947795, -0.35985215, -1.01226248],
       [ 1.93179178, -1.24046728,  0.29593232,  0.74190593],
       [ 0.12715395, -0.96082227, -0.41461484, -0.19288902],
       [-1.88910664, -0.63413062, -1.43987659,  1.03026924]])

array([[-2.72947795, -1.73618318, -1.01226248, -0.35985215],
       [-1.24046728,  0.29593232,  0.74190593,  1.93179178],
       [-0.96082227, -0.41461484, -0.19288902,  0.12715395],
       [-1.88910664, -1.43987659, -0.63413062,  1.03026924]])

array([-2.72947795, -1.88910664, -1.73618318, -1.43987659, -1.24046728,
       -1.01226248, -0.96082227, -0.63413062, -0.41461484, -0.35985215,
       -0.19288902,  0.12715395,  0.29593232,  0.74190593,  1.03026924,
        1.93179178])

按照```order```参数指定的值进行排序

In [11]:
dtype = [('name','S10'),('age',float),('weight',int)]
values = [('chen',24,60),('yu',27,55),('yaonver',5,10)]
x = np.array(values,dtype=dtype)
x
x.sort(order='age')
x

array([(b'chen', 24., 60), (b'yu', 27., 55), (b'yaonver',  5., 10)],
      dtype=[('name', 'S10'), ('age', '<f8'), ('weight', '<i4')])

array([(b'yaonver',  5., 10), (b'chen', 24., 60), (b'yu', 27., 55)],
      dtype=[('name', 'S10'), ('age', '<f8'), ('weight', '<i4')])

除此之外，可以利用排序功能确定数组的分位数。

In [12]:
# 5%分位数
large_arr = np.random.randn(1000)
large_arr.sort()
large_arr[int(0.05*len(large_arr))]

-1.6638119215228164

# 5 numpy中的集合

## 5.1 数组唯一值

与原生python中的set()和sorted()组合功能不同,```np.unique```函数将这两个功能集合到一起，返回排序好的集合数组。

In [13]:
x = np.array(['Bob','Marry','Will','Bob','Joe','Will','Marry'])
np.unique(x)

array(['Bob', 'Joe', 'Marry', 'Will'], dtype='<U5')

在原生python中，需要进行两次操作。

In [14]:
sorted(set(x))

['Bob', 'Joe', 'Marry', 'Will']

## 5.2 ```in1d, union1d, intersect1d, setdiff1d, setxor1d```判断

- ```np.in1d()```：判断一个数组中的值是否在另一个数组中,无论数组是几维，最终都返回一个一维数组。

In [15]:
x = np.random.randn(4,4)
np.in1d(x,x)

array([ True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True])

- ```np.union1d()```：返回已排序好的两个数组的并集。

In [16]:
x = np.random.randn(3,3)
y = np.arange(9)
x
y
np.union1d(x,y)

array([[ 1.30379261,  1.86061952, -0.64716721],
       [ 1.55696399,  0.5658028 ,  0.09582949],
       [ 1.31747063,  0.96206906, -0.05512638]])

array([0, 1, 2, 3, 4, 5, 6, 7, 8])

array([-0.64716721, -0.05512638,  0.        ,  0.09582949,  0.5658028 ,
        0.96206906,  1.        ,  1.30379261,  1.31747063,  1.55696399,
        1.86061952,  2.        ,  3.        ,  4.        ,  5.        ,
        6.        ,  7.        ,  8.        ])

- ```np.intersect1d()```：返回已排序好的两个数组的交集。

In [17]:
x = np.array([1,2,3,4,5])
y = np.array([4,5,6,7,8])
np.intersect1d(x,y)

array([4, 5])

- ```np.setdiff1d(x, y)```：返回在x数组中，但不在y数组中的值。

In [18]:
np.setdiff1d(x,y)

array([1, 2, 3])

- ```np.setxor(x, y)```：返回不同时存在与x,y数组中的值。

In [19]:
np.setxor1d(x,y)

array([1, 2, 3, 6, 7, 8])