# Python内置的统计运算库

In [1]:
import statistics as stat, random 

## 给定实验数据
本示例中, 我们使用"六三制"八年级春季学期的数学课本$^{[1]}$中, 涉及到的一组作物产量数据开展统计. 

> 农科院为了选出适合某地种植的甜玉米种子, 对甲, 乙两个品种各用10块自然条件相同的试验田进行试验, 得到各试验田的单位面积产量(单位: t/ha)
>> 这里应该是采用了单因素的试验设计: 
>> * 单因素(品种类型)2水平(2个品种)
>> * 一共2个处理, 每个处理10个重复
>> * 采用了完全随机试验的方法
>
> |处理|1|2|3|4|5|6|7|8|9|10|
> |:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|
> |甲|7.65|7.50|7.62|7.59|7.65|7.64|7.50|7.40|7.41|7.41|
> |乙|7.55|7.56|7.53|7.44|7.49|7.52|7.58|7.46|7.53|7.49|

\[1\]人民教育出版社, 等. 义务教育教科书-数学-八年级下册[M]. -北京: 人民教育出版社. 2013

In [47]:
yield_1 = [7.65, 7.50, 7.62, 7.59, 7.65, 7.64, 7.50, 7.40, 7.41, 7.41]; 
yield_2 = [7.55, 7.56, 7.53, 7.44, 7.49, 7.52, 7.58, 7.46, 7.53, 7.49]; 

## `Python 3.7`版本下`statistics`支持的运算
* 算术平均值, 调和平均值, 中位数, 众数, 样本方差/标准差, 总体方差/标准差. 
* 支持对`int`, `float`, `Fraction`, `Decimal`对象的运算, 上述对象可被容纳于`list`, `tuple`或`set`对象中. 
* 只支持计算**一元随机变量**的统计量, **不支持计算多元随机变量的统计量**(如均值中心, 中位中心, 众数中心, 协方差矩阵等). 
* 不支持分位数, 分位距计算. 
* 没有集成参数估计, 假设检验, 回归分析等功能. 

In [119]:
print([[stat(data) for stat in [stat.mean, stat.median, stat.variance]] \
    for data in [yield_1, yield_2]])

[[7.537, 7.545, 0.01106777777777777], [7.515, 7.525, 0.0019833333333333218]]


## 基于`random`库的抽样

### 从有限数量的样本中抽样
`random`库支持从具有有限个数元素的结构中, 有放回或者无放回地随机抽取若干元素. 

|抽样类型|方法|适用的结构类型|备注|
|:-:|:-|:-|:-|
|无放回抽样|`random.sample(obj, k)`|`list`, `tuple`, <br>`str`, `set`|`k`为抽取的样本数, `k`$\le$`len(obj)`; <br>返回的结果为`list`对象|
|有放回抽样|`random.choices(obj, weights = None, `<br>`cum_weights = None, k = 1)`|`list`, `tuple`, <br>`str`, `set`|`k`为抽取的样本数; <br>`weights`, `cum_weights`分别为`obj`被转换为`list`对象后, 对应元素抽取的权重和累计权重; <br>上述两参数可指定任意一项, 不能同时指定, 要求为`list`对象, 且与`obj`具有相同的长度; 二者均未指定时, 则按照相等概率抽取`obj`中的各元素. <br>返回的结果为`list`对象|