# NumPy 计算数组中满足条件元素的个数

需求：有一个非常大的数组比如 1 亿个数字，求出里面数字小于 5000 的数字数目

## 1.使用 NumPy 的 random 模块生成 1 亿个数字

In [1]:
import numpy as np

In [2]:
arr = np.random.randint(1, 10000, size=int(1e8)) # 生成均匀分布的随机数[1, 10000)，1E8 代表数字是 100000000

In [3]:
arr[:10] # 选出前十个元素

array([6280, 3347, 1062, 6258, 7126, 8401, 1804, 2627, 8586, 2163])

In [4]:
arr.size # 大小

100000000

## 2.使用 Python 原生语法实现 

In [5]:
python_arr = list(arr)

In [6]:
# 计算一下结果，用于对比是否准确
len([x for x in python_arr if x > 5000]) # 用列表解析式的方式计算

49997593

In [7]:
# 记一下时间
%timeit len([x for x in python_arr if x > 5000])

15.5 s ± 663 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


## 3. 使用 numpy 的向量化操作实现

In [8]:
# 计算一下结果，用于对比是否准确
arr[arr > 5000].size

49997593

In [9]:
(arr > 5000)[:10]

array([ True, False, False,  True,  True,  True, False, False,  True,
       False])

In [10]:
# 记一下时间
%timeit (arr > 5000)[:10]

138 ms ± 22.8 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


## 4.对比下时间

In [12]:
15.5 * 1000 / 138 # 可见，numpy 比 Python 原生语法快了 112 倍还多

112.31884057971014