<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#统计分析" data-toc-modified-id="统计分析-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>统计分析 </a></span><ul class="toc-item"><li><span><a href="#平均数" data-toc-modified-id="平均数-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>平均数 </a></span></li><li><span><a href="#中位数" data-toc-modified-id="中位数-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>中位数 </a></span></li><li><span><a href="#众数" data-toc-modified-id="众数-1.3"><span class="toc-item-num">1.3&nbsp;&nbsp;</span>众数 </a></span></li><li><span><a href="#极差" data-toc-modified-id="极差-1.4"><span class="toc-item-num">1.4&nbsp;&nbsp;</span>极差 </a></span></li><li><span><a href="#方差" data-toc-modified-id="方差-1.5"><span class="toc-item-num">1.5&nbsp;&nbsp;</span>方差 </a></span></li><li><span><a href="#标准差" data-toc-modified-id="标准差-1.6"><span class="toc-item-num">1.6&nbsp;&nbsp;</span>标准差 </a></span></li></ul></li><li><span><a href="#运算方法" data-toc-modified-id="运算方法-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>运算方法 </a></span><ul class="toc-item"><li><span><a href="#算术运算" data-toc-modified-id="算术运算-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>算术运算 </a></span></li><li><span><a href="#关系运算" data-toc-modified-id="关系运算-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>关系运算 </a></span></li></ul></li></ul></div>

In [1]:
import numpy as np

## 统计分析

统计分析主要指常用的一些统计指标，如均值、中位数、众数、极差、方差、标准差等。

### 平均数

`np.mean` 或 `np.average` 都可以用来计算平均值。

`np.mean` 包括下面几个参数：

- 数组
- 维度
- 数据类型，如果输入是整数，则为浮点数；如果输入是浮点数，则为输入的类型。
- 替换的数组，和之前提到的一样
- 是否保持维度，求均值后数组会降维，这个参数控制维度是否发生变化。

`np.average` 包括下面几个参数：

- 数组
- 维度
- 权重
- 是否返回权重和

In [318]:
rng = np.random.default_rng(seed=42)
arr = rng.integers(1, 10, (2, 3))
arr

array([[1, 7, 6],
       [4, 4, 8]])

In [319]:
np.mean(arr)

5.0

In [329]:
# 按列
np.mean(arr, 0)

array([2.5, 5.5, 7. ])

In [330]:
_.shape

(3,)

In [321]:
# 按行
np.average(arr, 1)

array([4.66666667, 5.33333333])

In [322]:
# 加上权重
np.average(arr, 1, [0.8, 0.1, 0.1])

array([2.1, 4.4])

In [323]:
1*0.8 + 7*0.1 + 6*0.1, 4*0.8 + 4*0.1 + 4*0.1

(2.1, 4.0)

In [324]:
np.mean(arr, keepdims=True)

array([[5.]])

In [328]:
# 在列上保持维度（结果还是3列）
np.mean(arr, 0, keepdims=True)

array([[2.5, 5.5, 7. ]])

In [327]:
_.shape

(1, 3)

### 中位数

`np.median` 有5个参数：

- 数组
- 维度
- 替换的输出
- 是否覆盖输入
- 是否保持维度

In [351]:
rng = np.random.default_rng(seed=42)
arr = rng.integers(1, 10, (3, 4))
arr

array([[1, 7, 6, 4],
       [4, 8, 1, 7],
       [2, 1, 5, 9]])

In [352]:
np.median(arr, axis=0)

array([2., 7., 5., 7.])

In [353]:
np.median(arr, axis=1)

array([5. , 5.5, 3.5])

In [354]:
np.median(arr, 0, keepdims=True)

array([[2., 7., 5., 7.]])

In [355]:
_.shape

(1, 4)

In [350]:
np.median(arr, overwrite_input=True)
arr

array([[1, 1, 2, 1],
       [4, 4, 5, 6],
       [7, 7, 8, 9]])

### 众数

众数是出现次数最多的数字。NumPY里没有这个方法，可以通过其他方式得到。

In [4]:
rng = np.random.default_rng(42)
arr = rng.integers(1, 5, (5, 5))
arr

array([[1, 4, 3, 2, 2],
       [4, 1, 3, 1, 1],
       [3, 4, 3, 4, 3],
       [4, 3, 1, 4, 2],
       [3, 2, 1, 4, 4]])

In [5]:
np.unique(arr, return_counts=True)

(array([1, 2, 3, 4]), array([6, 4, 7, 8]))

In [6]:
from scipy import stats

In [7]:
stats.mode(arr, axis=0)

ModeResult(mode=array([[3, 4, 3, 4, 2]]), count=array([[2, 2, 3, 3, 2]]))

In [8]:
from collections import Counter

In [9]:
Counter(arr.flatten())

Counter({1: 6, 4: 8, 3: 7, 2: 4})

### 极差

极差是指最（极）大值和最（极）小值的差。参数如下：

- 数组
- 维度
- 输出替换数组
- 是否保持维度

这些参数之前都提到过，不再赘述。

In [10]:
rng = np.random.default_rng(42)
a = rng.integers(1, 10, (3, 4))
a

array([[1, 7, 6, 4],
       [4, 8, 1, 7],
       [2, 1, 5, 9]])

In [11]:
np.ptp(a)

8

In [12]:
# 按列
np.ptp(a, axis=0)

array([3, 7, 5, 5])

In [13]:
# 按行
np.ptp(a, axis=1)

array([6, 7, 8])

### 方差

方差表示数据偏离均值的程度。参数包括：

- 数组
- 维度
- 数据类型
- 输出替换数组
- ddof
- 保持维度
- 哪些位置

大部分参数之前都提到过，有两个不一样的我们解释一下：

- ddof指计算方差时要减掉的自由度
- 哪些位置是指哪些对应位置的被纳入计算

In [4]:
rng = np.random.default_rng(42)
a = rng.integers(1, 10, (2, 3))
a

array([[1, 7, 6],
       [4, 4, 8]])

In [5]:
np.var(a)

5.333333333333333

In [6]:
ave = np.average(a)
np.sum([(ave-v) ** 2 for v in a.flatten().tolist()]) / (a.size)

5.333333333333333

In [7]:
# 自由度少1
np.var(a, ddof=1)

6.4

In [8]:
np.sum([(ave-v) ** 2 for v in a.flatten().tolist()]) / (a.size - 1)

6.4

In [10]:
# 这就是只要第一行
np.var(a, where=[[True], [False]])

6.888888888888889

In [11]:
ave = np.average(a, axis=1)[0]
np.sum([(ave-v) ** 2 for v in a[0, :].flatten().tolist()]) / (a[0, :].size)

6.888888888888889

In [12]:
# 只有第一列
np.var(a, where=[True, False, False])

2.25

In [13]:
ave = np.average(a, axis=0)[0]
np.sum([(ave-v) ** 2 for v in a[:, 0].flatten().tolist()]) / (a[:, 0].size)

2.25

### 标准差

标准差就是方差的平方根。参数和方差一样。

In [14]:
a

array([[1, 7, 6],
       [4, 4, 8]])

In [15]:
np.std(a)

2.309401076758503

In [16]:
np.sqrt(np.var(a))

2.309401076758503

In [17]:
np.std(a, axis=0)

array([1.5, 1.5, 1. ])

## 运算方法

### 算术运算

主要介绍数组的加减乘除，其运算也是支持向量化运算的。

In [18]:
rng = np.random.default_rng(42)
a = rng.integers(1, 10, (2, 3))
a

array([[1, 7, 6],
       [4, 4, 8]])

In [19]:
a + a

array([[ 2, 14, 12],
       [ 8,  8, 16]])

In [20]:
a + 2

array([[ 3,  9,  8],
       [ 6,  6, 10]])

In [21]:
a - a

array([[0, 0, 0],
       [0, 0, 0]])

In [22]:
a - 2

array([[-1,  5,  4],
       [ 2,  2,  6]])

In [23]:
a * ａ

array([[ 1, 49, 36],
       [16, 16, 64]])

In [24]:
a * 2

array([[ 2, 14, 12],
       [ 8,  8, 16]])

In [25]:
a / a

array([[1., 1., 1.],
       [1., 1., 1.]])

In [26]:
a / 2

array([[0.5, 3.5, 3. ],
       [2. , 2. , 4. ]])

`np.sum` 的参数包括：

- 数组
- 维度
- 数据类型
- 输出替换数组
- 是否保持维度
- 初始值
- 哪些位置

大多数参数都是熟悉的，其中「初始值」是指开始计算的初始值。

In [27]:
a

array([[1, 7, 6],
       [4, 4, 8]])

In [28]:
np.sum(a)

30

In [29]:
np.sum(a, initial=10)

40

In [30]:
np.sum(a, axis=0)

array([ 5, 11, 14])

In [31]:
np.sum(a, axis=0, initial=10)

array([15, 21, 24])

`np.substract`，`np.multiply`，`np.divide` 三个API和前面的减法、乘法、除法是类似的。

除了刚刚的计算，还可以给定某个维度大小的值计算（广播），这里以减法为例说明。

In [32]:
a

array([[1, 7, 6],
       [4, 4, 8]])

In [33]:
b = np.array([[1], [1]])
b.shape

(2, 1)

In [34]:
a - b

array([[0, 6, 5],
       [3, 3, 7]])

In [35]:
c = [1, 1, 1]

In [36]:
a - c

array([[0, 6, 5],
       [3, 3, 7]])

刚刚的乘法是逐元素相乘，矩阵的乘法还有个API：

In [37]:
rng = np.random.default_rng(42)
a = rng.integers(1, 10, (2, 3))
b = rng.integers(1, 10, (3, 2))
a, b

(array([[1, 7, 6],
        [4, 4, 8]]),
 array([[1, 7],
        [2, 1],
        [5, 9]]))

In [38]:
np.dot(a, b)

array([[ 45,  68],
       [ 52, 104]])

In [39]:
sum(a[0, :] * b[:, 0]), sum(a[0, :] * b[:, 1]), sum(a[1, :] * b[:, 0]), sum(a[1, :] * b[:, 1])

(45, 68, 52, 104)

In [40]:
# 另一种写法
a @ b

array([[ 45,  68],
       [ 52, 104]])

In [41]:
# 或者直接这样
a.dot(b)

array([[ 45,  68],
       [ 52, 104]])

### 关系运算

主要是一些比较运算，结果返回的是布尔矩阵。

In [42]:
rng = np.random.default_rng(42)
a = rng.integers(1, 10, (3, 3))
a

array([[1, 7, 6],
       [4, 4, 8],
       [1, 7, 2]])

In [43]:
a > 2

array([[False,  True,  True],
       [ True,  True,  True],
       [False,  True, False]])

In [44]:
a >= 4

array([[False,  True,  True],
       [ True,  True,  True],
       [False,  True, False]])

In [45]:
a < 5

array([[ True, False, False],
       [ True,  True, False],
       [ True, False,  True]])

In [46]:
a <= 6

array([[ True, False,  True],
       [ True,  True, False],
       [ True, False,  True]])

In [47]:
a == 1

array([[ True, False, False],
       [False, False, False],
       [ True, False, False]])

In [48]:
a != 1

array([[False,  True,  True],
       [ True,  True,  True],
       [False,  True,  True]])

关系运算一般会用在当你需要Mask掉某些位置的值时（这在深度学习中非常常见），当然也可以用于指定位置的数据提取。

In [49]:
a

array([[1, 7, 6],
       [4, 4, 8],
       [1, 7, 2]])

In [50]:
xs, ys = np.where(a > 2)
xs, ys

(array([0, 0, 1, 1, 1, 2]), array([1, 2, 0, 1, 2, 1]))

里面有6个数组满足条件，对应的坐标就是 xs 和 ys：

In [51]:
for i in range(len(xs)):
    x, y = xs[i], ys[i]
    print(x, y, "==>", a[x, y])

0 1 ==> 7
0 2 ==> 6
1 0 ==> 4
1 1 ==> 4
1 2 ==> 8
2 1 ==> 7


In [52]:
a

array([[1, 7, 6],
       [4, 4, 8],
       [1, 7, 2]])

In [53]:
# 将不满足条件的替换为给定值
np.where(a > 2, a, -1)

array([[-1,  7,  6],
       [ 4,  4,  8],
       [-1,  7, -1]])

In [55]:
# 提取满足条件的
np.extract(a > 2, a)

array([7, 6, 4, 4, 8, 7])