In [1]:
import numpy as np
import pandas as pd

# 统计时常用方法

## where 合并数组

可以使用 `np.where` 来按条件合并两个数组，这个函数传入三个数组：条件数组、x数组、y数组。

条件数组为一个与 x、y 相同长度的布尔数组，需要提前对 x、y 进行逻辑运算得到，当条件数组中元素的值为 True 时，新数组对应位置的值为 x 对应位置的值，否则为 y 数组中的值。

例如：

In [21]:
x = np.array([1, 1, 2, 3, 4, 5])
y = np.array([2, 1, 3, 4, 5, 1])
greater = x > y
print(greater)
np.where(greater, x, y)

[False False False False False  True]


array([2, 1, 3, 4, 5, 5])

## 统计方法



这里加载一个 csv 文件作为示例。这个文件是通过一次 45 钢单向拉伸实验得到的，分三列，分别是开机时间、载荷、位移。

In [28]:
# 加载其中的载荷值为示例数组
data = pd.read_csv("../data/steel-F-L.csv")
array = data["LoadValue"].to_numpy(dtype=np.float64, copy=True)

## 统计常用值

- `max()`: 最大值
- `min()`: 最小值
- `mean()`: 平均值
- `sum()`: 累和
- `prod()`: 累积
- `std()`: 标准差
- `var()`: 方差

众数，中位数？

In [29]:
# .max, .min 方法会取出数组中的最大值与最小值
array.max()

35338.44922

In [30]:
# .min
array.min()

58.1696701

可以使用 

对于其他值的搜索，可以先使用 `.sort` 方法排序后进行操作。

## 过滤

例如，我们如果要选择数组中所有小于 1000 的数，可以这样：

In [31]:
array[array < 1000.0]

array([ 58.1696701, 121.1423416, 211.0575562, 328.3574829, 473.5453491,
       646.6210938, 845.6635132])

在 `[]` 运算符内部，`array < 1000` 实际上利用数组的广播特性构造了一个由 `True, False` 构成的同等长度的布尔数组。
而将此布尔数组传递给 `__getitem__` 方法时，将会返回由对应位置的布尔值为 `True` 的元素构成的新数组。numpy 在索引时，默认都会进行复制。

布尔数组之间也可以通过位运算来继续过滤，添加与或非等逻辑关系。但是由于位运算优先级比较低，因此需要注意添加括号。
避免因优先级出现问题导致计算出错误结果。

In [32]:
array[(array < 1000.0)&(array > 100.0)]

array([121.1423416, 211.0575562, 328.3574829, 473.5453491, 646.6210938,
       845.6635132])

## 反查索引

当得到一组值后，如何反查此数值在数组中的位置？

搜索最大值、最小值的功能可以由 `.argmax`, `.argmin` 方法实现。

In [33]:
# 得到最大值的索引
array.argmax()

3283

In [35]:
array[array.argmax()] == array.max()

True

In [36]:
# 得到最小值的索引
array.argmin()

0

> 其他还有一些 `.arg` 开头的方法，它们的作用是：
>
> 1. `argsort`：得到对数组进行排序后，各元素对应的旧索引值。
> 2. `argpartition`: ?

如果要搜索其他的值，numpy 没有提供直接的方法，但是可以通过 `.searchsorted` 方法找到相同元素的排序插入位置，一般在原处就是第一个找到的值。