## 数组对象的方法
### 获取描述统计信息
描述统计信息主要包括数据的集中趋势、离散程度和频数分析等，其中集中趋势主要看均值和中位数，离散程度可以看极值、方差、标准差等，详细的内容大家可以阅读[《统计思维系列课程01：解读数据》](https://zhuanlan.zhihu.com/p/595273755)。

In [9]:
import numpy as np

array1 = np.random.randint(1, 100, 10)
print(array1)

[36  5 18 39 61 78 55 66 27 83]


**计算总和、均值和中位数。**

In [10]:
print(np.sort(array1))
print("总和:", array1.sum())  # 普通的方法计算总和
print("用numpy的方式求总和: ", np.sum(array1))  # 用numpy的方式计算总和
print(
    "平均值", array1.mean()
)  # numpy计算算术平均值，只适用于NumPy数组，是numpy数组对象的实例方法，通常稍快一些，因为直接在数组对象上调用
print(
    "用numpy模块的方式计算平均值: ", np.mean(array1)
)  # 调用NumPy模块的函数来计算平均值，需要额外的函数调用开销，所以慢于上面的mean
print("numpy计算中位数: ", np.median(array1))  # numpy计算中位数
print("numpy计算分位数: ", np.quantile(array1, 0.2))  # numpy计算分位数

[ 5 18 27 36 39 55 61 66 78 83]
总和: 468
用numpy的方式求总和:  468
平均值 46.8
用numpy模块的方式计算平均值:  46.8
numpy计算中位数:  47.0
numpy计算分位数:  25.2


**说明**：
- 上面代码中的`mean`、`median`和`quantile`分别是 NumPy 中计算算术平均值、中位数和分位数的函数，其中`quantitle`函数的第二个参数设置为0.5表示计算50%分位数，也就是中位数。
- 分位数的概念
    分位数（Quantile） 是将数据从小到大排序后，按比例分割的数值：
    - 0.5 分位数 = 中位数（50% 的数据小于等于这个值）
    - 0.25 分位数 = 第一四分位数（25% 的数据小于等于这个值）
    - 0.75 分位数 = 第三四分位数（75% 的数据小于等于这个值）

    **分位数的实际意义**

    分位数帮助我们理解数据的分布情况：
    1. 描述数据位置
        - 告诉你某个值在整个数据集中的相对位置
        - 例如：你的考试成绩在0.8分位数，意味着你超过了80%的同学
    2. 数据分析
        - 快速了解数据的集中程度和偏斜情况
        - 比单纯的均值提供更丰富的信息
    
    **分位数的计算过程**
    
    计算过程：假设数组是：[13 14 23 39 41 49 54 56 96 97]
    1. 确定位置：0.2分位数在排序数组中的位置 = `(10-1) × 0.2 = 1.8`
    2. 线性插值：
        - 位置1.8在索引1和索引2之间
        - 索引1的值：14
        - 索引2的值：23
    3. 插值计算：
        - 小数部分0.8表示在14和23之间80%的位置
        - 结果 = `14 + 0.8 × (23 - 14) = 14 + 0.8 × 9 = 14 + 7.2 = 21.2`
    
    所以21.2是通过在数组第2个值(14)和第3个值(23)之间进行线性插值得到的。

**极值、全距和四分位距离。**

In [11]:
print("最大值: ", array1.max())
print("最大值: ", np.amax(array1))  # amax是numpy.max的别名，都是求最大值
print("最小值: ", array1.min())
print("最小值: ", np.amin(array1))
print("全距: ", np.ptp(array1))
q1, q3 = np.quantile(array1, [0.25, 0.75])
print("四分位距离: ", q3 - q1)

最大值:  83
最大值:  83
最小值:  5
最小值:  5
全距:  78
四分位距离:  35.5


假设数组是[ 5 18 27 36 39 55 61 66 78 83]
1. ptp是什么？有什么用？
`np.ptp()` 是 **Peak to Peak** 的缩写，表示**全距**（极差）。
- 作用：计算数组中最大值与最小值的差值
- 公式：ptp = max - min
- 用途：衡量数据的离散程度，值越大说明数据分布越分散

对于数组 `[5 18 27 36 39 55 61 66 78 83]`：
- 最大值：83
- 最小值：5
- 全距：`83 - 5 = 78`

2. 四分位距离是什么？为什么要求它？

四分位距离（IQR, Interquartile Range） = `Q3 - Q1`

对于数组 [5 18 27 36 39 55 61 66 78 83]：
- Q1（25%分位数）：27 + 0.25×(36-27) = 29.25
- Q3（75%分位数）：66 + 0.25×(78-66) = 69
- 四分位距离：69 - 29.25 = 39.75

为什么要求四分位距离？
- 更稳健的离散度指标：不受极端值影响，比全距更可靠
- 异常值检测：通常用 Q1 - 1.5×IQR 和 Q3 + 1.5×IQR 作为异常值边界
- 数据分布描述：描述中间50%数据的分散程度，更能反映数据的真实分布特征

四分位距离比全距更适合描述大多数数据的分布情况。