# Numpy的6个高效操作
[加速数据分析，这12种高效Numpy和Pandas函数为你保驾护航](https://mp.weixin.qq.com/s/Cg2U9s0uwlv4_4xR10-M0w)
[原文链接：](https://towardsdatascience.com/12-amazing-pandas-numpy-functions-22e5671a45b8)

## argpartition()

借助于 argpartition()，Numpy 可以找出 N 个最大数值的索引，也会将找到的这些索引输出。然后我们根据需要对数值进行排序。

In [2]:
import numpy as np

In [3]:
x = np.array([12, 10, 12, 0, 6, 8, 9, 1, 16, 4, 6, 0])
index_val = np.argpartition(x, -4)[-4:]
index_val

array([1, 8, 2, 0])

In [4]:
np.sort(index_val)

array([0, 1, 2, 8])

In [5]:
np.sort(x[index_val])

array([10, 12, 12, 16])

## allclose()

allclose() 用于匹配两个数组，并得到布尔值表示的输出。如果在一个公差范围内（within a tolerance）两个数组不等同，则 allclose() 返回 False。该函数对于检查两个数组是否相似非常有用。

In [6]:
array1 = np.array([0.12,0.17,0.24,0.29])
array2 = np.array([0.13,0.19,0.26,0.31])

In [7]:
# with a tolerance of 0.1, it should return False:
np.allclose(array1, array2, 0.1)

False

In [8]:
# with a tolerance of 0.2, it should return False:
np.allclose(array1, array2, 0.2)

True

## clip()

Clip() 使得一个数组中的数值保持在一个区间内。有时，我们需要保证数值在上下限范围内。为此，我们可以借助 Numpy 的 clip() 函数实现该目的。给定一个区间，则区间外的数值被剪切至区间上下限（interval edge）。

In [9]:
x = np.array([3, 17, 14, 23, 2, 2, 6, 8, 1, 2, 16, 0])

In [10]:
np.clip(x, 2, 5)

array([3, 5, 5, 5, 2, 2, 5, 5, 2, 2, 5, 2])

## extract()

顾名思义，extract() 是在特定条件下从一个数组中提取特定元素。借助于 extract()，我们还可以使用 and 和 or 等条件。

In [16]:
# Random integers
array = np.random.randint(20, size=12)

In [17]:
array

array([13,  4, 14, 17,  2, 11,  6,  4, 17,  6,  9, 10])

In [18]:
#  Divide by 2 and check if remainder is 1
cond = np.mod(array, 2)==1
cond

array([ True, False, False,  True, False,  True, False, False,  True,
       False,  True, False])

In [19]:
# Use extract to get the values
np.extract(cond, array)

array([13, 17, 11, 17,  9])

In [20]:
# Apply condition on extract directly
np.extract(((array < 3) | (array > 15)), array)

array([17,  2, 17])

## where()

Where() 用于从一个数组中返回满足特定条件的元素。比如，它会返回满足特定条件的数值的索引位置。Where() 与 SQL 中使用的 where condition 类似

In [23]:
y = np.array([1, 5, 6, 8, 1, 7, 3, 6, 9])

In [24]:
# Where y is greater than 5, returns index position
np.where(y > 5)

(array([2, 3, 5, 7, 8]),)

In [25]:
# First will replace the values that match the condition, 
# second will replace the values that does not
np.where(y > 5, "Hit", "Miss")

array(['Miss', 'Miss', 'Hit', 'Hit', 'Miss', 'Hit', 'Miss', 'Hit', 'Hit'],
      dtype='<U4')

## percentile()

Percentile() 用于计算特定轴方向上数组元素的第 n 个百分位数。

In [26]:
a = np.array([1, 5, 6, 8, 1, 7, 3, 6, 9])
print("50th Percentile of a, axis = 0 : ", np.percentile(a, 50, axis = 0))

50th Percentile of a, axis = 0 :  6.0


In [27]:
b = np.array([[10, 7, 4], [3, 2, 1]])
print("30th Percentile of b, axis = 0 : ", np.percentile(b, 30, axis =0))

30th Percentile of b, axis = 0 :  [5.1 3.5 1.9]
