# 平均值以及对中心位置的评估
这些函数用于计算一个总体或样本的平均值或者典型值。

In [27]:
from statistics import *
from math import *

## statistics.mean(data)
返回 data 的样本算术平均数，形式为序列或迭代器。

算术平均数是数据之和与数据点个数的商。通常称作“平均数”，尽管它指示诸多数学平均数之一。它是数据的中心位置的度量。

In [2]:
mean([1, 2, 3, 4, 4])

2.8

In [3]:
mean([-1.0, 2.5, 3.25, 5.75])

2.625

In [4]:
from fractions import Fraction as F
mean([F(3, 7), F(1, 21), F(5, 3), F(1, 3)])

Fraction(13, 21)

In [5]:
from decimal import Decimal as D
mean([D("0.5"), D("0.75"), D("0.625"), D("0.375")])

Decimal('0.5625')

## statistics.fmean(data)
将 data 转换成浮点数并且计算算术平均数。

此函数的运行速度比 mean() 函数快并且它总是返回一个 float。 data 可以为序列或可迭代对象。 

In [6]:
fmean([3.5, 4.0, 5.25])

4.25

## statistics.geometric_mean(data)
将 data 转换成浮点数并且计算几何平均数。

几何平均值使用值的乘积表示 数据 的中心趋势或典型值（与使用它们的总和的算术平均值相反）。

如果输入数据集为空、包含零或包含负值则将引发 StatisticsError。 data 可以是序列或可迭代对象。

几何平均数主要是针对正实数而言。n个正实数的几何平均数，就是这n个正实数乘积的非负n次方根。

In [7]:
round(geometric_mean([54, 24, 36]), 1)

36.0

## statistics.harmonic_mean(data, weights=None)
返回包含实数值的序列或可迭代对象 data 的调和平均数。 如果 weights 被省略或为 None，则会假定权重相等。

调和平均数是数据的倒数的算术平均值 mean() 的倒数。 例如，三个数值 a, b 和 c 的调和平均数将等于 3/(1/a + 1/b + 1/c)。 如果其中一个值为零，则结果也将为零。

调和平均数是均值的一种，是对数据的中心位置的度量。 它通常适用于求比率和比例（如速度）的均值。

In [8]:
# 假设一辆车在 40 km/hr 的速度下行驶了 10 km ，然后又以 60 km/hr 的速度行驶了 10 km 。车辆的平均速率是多少？

In [9]:
harmonic_mean([40, 60])

48.0

In [10]:
# 假设一辆汽车以速度 40 公里/小时行驶了 5 公里，当道路变得畅通后，提速到 60 公里/小时行驶了行程中剩余的 30 km。 请问其平均速度是多少？
harmonic_mean([40, 60], weights=[5, 30])

56.0

## statistics.median(data)
使用普通的“取中间两数平均值”方法返回数值数据的中位数（中间值）。

In [11]:
# 当数据点的总数为奇数时，将返回中间数据点：
median([1, 3, 5])

3

In [12]:
# 当数据点的总数为偶数时，中位数将通过对两个中间值求平均进行插值得出：
median([1, 3, 5, 7])

4.0

## statistics.median_low(data)
返回数值数据的低中位数。 如果 data 为空则将引发 StatisticsError。 data 可以是序列或可迭代对象。

低中位数一定是数据集的成员。 当数据点总数为奇数时，将返回中间值。 当其为偶数时，将返回两个中间值中较小的那个。


In [13]:
median_low([1, 3, 5])

3

In [14]:
median_low([1, 3, 5, 7])

3

## statistics.median_high(data)
返回数据的高中位数。 

In [15]:
median_high([1, 3, 5, 7])

5

In [16]:
median_high([1, 3, 5])

3

## statistics.median_grouped(data, interval=1)
返回分组的连续数据的中位数，根据第 50 个百分点的位置使用插值来计算。

In [17]:
median_grouped([52, 52, 53, 54])

52.5

In [18]:
# 在下面的示例中，数据已经过舍入，这样每个值都代表数据分类的中间点，例如 1 是 0.5--1.5 分类的中间点，2 是 1.5--2.5 分类的中间点，
# 3 是 2.5--3.5 的中间点等待。 根据给定的数据，中间值应落在 3.5--4.5 分类之内，并可使用插值法来进行估算：
median_grouped([1, 2, 2, 3, 4, 4, 4, 4, 4, 5])

3.7

In [23]:
# 可选参数 interval 表示分类间隔，默认值为 1。 改变分类间隔自然会改变插件结果：
median_grouped([1, 3, 3, 5, 7], interval=1)

3.25

In [20]:
median_grouped([1, 3, 3, 5, 7], interval=2)

3.5

## statistics.mode(data)
从离散或标称的 data 返回单个出现最多的数据点。 此众数（如果存在）是最典型的值，并可用来度量中心的位置。

如果存在具有相同频率的多个众数，则返回在 data 中遇到的第一个。 

In [21]:
mode([1, 1, 2, 3, 3, 3, 3, 4])

3

In [22]:
mode(["red", "blue", "blue", "red", "green", "red", "red"])

'red'

## statistics.multimode(data)
返回最频繁出现的值的列表，并按它们在 data 中首次出现的位置排序。 如果存在多个众数则将返回一个以上的众数，或者如果 data 为空则将返回空列表

In [24]:
multimode('aabbbbccddddeeffffgg')

['b', 'd', 'f']

In [25]:
multimode('')

[]

## statistics.quantiles(data, *, n=4, method='exclusive')
将 data 分隔为具有相等概率的 n 个连续区间。 返回分隔这些区间的 n - 1 个分隔点的列表。

将 n 设为 4 以使用四分位（默认值）。 将 n 设为 10 以使用十分位。 将 n 设为 100 以使用百分位，即给出 99 个分隔点来将 data 分隔为 100 个大小相等的组。

In [38]:
data = [105, 129, 87, 86, 111, 111, 89, 81, 108, 92, 110,
        100, 75, 105, 103, 109, 76, 119, 99, 91, 103, 129,
        106, 101, 84, 111, 74, 87, 86, 103, 103, 106, 86,
        111, 75, 87, 102, 121, 111, 88, 89, 101, 106, 95,
        103, 107, 101, 81, 109, 104]
print(list(quantiles(data, n=10)))
print(list(quantiles(data, n=4)))
print([round(q, 1) for q in quantiles(data, n=10)])

data = list(i + 1 for i in range(100))
print(data)
print(list(quantiles(data, n=10)))
print(list(quantiles(data, n=10, method='inclusive')))
print(list(quantiles(data, n=4)))


[81.0, 86.2, 89.0, 99.4, 102.5, 103.6, 106.0, 109.8, 111.0]
[87.0, 102.5, 108.25]
[81.0, 86.2, 89.0, 99.4, 102.5, 103.6, 106.0, 109.8, 111.0]
[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100]
[10.1, 20.2, 30.3, 40.4, 50.5, 60.6, 70.7, 80.8, 90.9]
[10.9, 20.8, 30.7, 40.6, 50.5, 60.4, 70.3, 80.2, 90.1]
[25.25, 50.5, 75.75]


# 对分散程度的评估
这些函数用于计算总体或样本与典型值或平均值的偏离程度。

## statistics.pstdev(data, mu=None)
返回总体标准差（总体方差的平方根）。

In [40]:
pstdev([1.5, 2.5, 2.5, 2.75, 3.25, 4.75])

0.986893273527251

## statistics.pvariance(data, mu=None)
返回非空序列或包含实数值的可迭代对象 data 的总体方差。 方差或称相对于均值的二阶距，是对数据变化幅度（延展度或分散度）的度量。 方差值较大表明数据的散布范围较大；方差值较小表明它紧密聚集于均值附近。

In [41]:
data = [0.0, 0.25, 0.25, 1.25, 1.5, 1.75, 2.75, 3.25]
pvariance(data)

1.25

In [42]:
# 如果你已经计算过数据的平均值，你可以将其作为可选的第二个参数 mu 传入以避免重复计算：
mu = mean(data)
pvariance(data, mu)

1.25

In [44]:
pvariance(data, mean(data)+3)

10.25

In [45]:
from decimal import Decimal as D
pvariance([D("27.5"), D("30.25"), D("30.25"), D("34.5"), D("41.75")])

Decimal('24.815')

In [46]:
from fractions import Fraction as F
pvariance([F(1, 4), F(5, 4), F(1, 2)])

Fraction(13, 72)

## statistics.stdev(data, xbar=None)
返回样本标准差（样本方差的平方根）。 

In [47]:
stdev([1.5, 2.5, 2.5, 2.75, 3.25, 4.75])

1.0810874155219827

# statistics.variance(data, xbar=None)
返回包含至少两个实数值的可迭代对象 data 的样本方差。 方差或称相对于均值的二阶矩，是对数据变化幅度（延展度或分散度）的度量。 方差值较大表明数据的散布范围较大；方差值较小表明它紧密聚集于均值附近。

如果给出了可选的第二个参数 xbar，它应当是 data 的均值。 如果该参数省略或为 None (默认值)，则会自动进行均值的计算。

In [48]:
data = [2.75, 1.75, 1.25, 0.25, 0.5, 1.25, 3.5]
variance(data)

1.3720238095238095

In [50]:
# 如果你已经计算过数据的平均值，你可以将其作为可选的第二个参数 xbar 传入以避免重复计算
m = mean(data)
variance(data, m)

1.3720238095238095

In [51]:
from decimal import Decimal as D
variance([D("27.5"), D("30.25"), D("30.25"), D("34.5"), D("41.75")])

Decimal('31.01875')

In [52]:
from fractions import Fraction as F
variance([F(1, 6), F(1, 2), F(5, 3)])

Fraction(67, 108)

# 对两个输入之间关系的统计
这些函数计算两个输入之间关系的统计值。

## statistics.covariance(x, y, /)
返回两个输入 x 和 y 的样本协方差。 样本协方差是对两个输入的同步变化性的度量。

两个输入必须具有相同的长度（不少于两个元素）

In [54]:
x = [1, 2, 3, 4, 5, 6, 7, 8, 9]
y = [1, 2, 3, 1, 2, 3, 1, 2, 3]
z = [9, 8, 7, 6, 5, 4, 3, 2, 1]
print(covariance(x, y))
print(covariance(x, z))
print(covariance(y, z))

0.75
-7.5
-0.75


## statistics.correlation(x, y, /)
返回两个输入的 皮尔逊相关系数。 皮尔逊相关系数 r 的取值在 -1 到 +1 之间。 它衡量线性相关的强度和方向，其中 +1 表示非常强的正线性相关，-1 表示非常强的负线性相关，0 表示无线性相关。  
两个输入必须具有相同的长度（不少于两个元素），并且不必为常量

In [55]:
x = [1, 2, 3, 4, 5, 6, 7, 8, 9]
y = [9, 8, 7, 6, 5, 4, 3, 2, 1]
print(correlation(x, x))
print(correlation(x, y))

1.0
-1.0


## statistics.linear_regression(x, y, /)
返回使用普通最小二乘法估计得到的 简单线性回归 参数的斜率和截距。 简单纯属回归通过此线性函数来描述自变量 x 和因变量 y 之间的关系。

y = slope * x + intercept + noise

其中 slope 和 intercept 是估计得到的回归参数，而 noise 代表不可由线性回归解释的数据变异性（它等于因变量的预测值和实际值之间的差异）。

两个输入必须具有相同的长度（不少于两个元素），并且自变量 x 不可为常量

In [56]:
# 例如，我们可以使用 Monty Python 系列电影的发布日期 在假定出品方保持现有步调的情况下预测到 2019 年时产出的 Monty Python 电影的累计数量。
year = [1971, 1975, 1979, 1982, 1983]
films_total = [1, 2, 3, 4, 5]
slope, intercept = linear_regression(year, films_total)
round(slope * 2019 + intercept)

16