# Statistics(scipy.stats)

**本部分是scipy的stats子模块的教程，该模块主要用于统计。**

## Introduction

在本教程中，我们将会讨论<kbd>scipy.stats</kbd>子库的很多功能。希望提供给读者使用这个库的一些知识。更多的细节可以参看[reference manual](https://docs.scipy.org/doc/scipy/reference/stats.html#statsrefmanual) .

## Random variables

该库把连续型随机变量（continuous random variables）和离散型随机变量（discrete random variables）分别封装在两个general distribution class中。这些class中有超过80个连续型随机变量(RVs)和10个离散型随机变量。除此之外，终端用户可以非常轻松地添加新的例程(routine)和分布(distribution)。

所有的统计函数都包含在scipy的子包<kbd>scipy.stats</kbd>下，我们可以使用info(stats)来获取统计函数的完整列表。我们也可以在stats子包的docstring获得可用随机变量（random variables）的完整列表。

我们接下来的讨论，大都聚焦在连续型随机变量(continuous RVs)上。基本下面所有的讨论都适用于离散变量（discrete variables），但是也会有一些差异，我们会在[ Specific points for discrete distributions](https://docs.scipy.org/doc/scipy/tutorial/stats.html#discrete-points-label)指出。

在下面的代码样例中，我们想通过如下语句导入<kbd>scipy.stats</kbd>包

In [1]:
from scipy import stats

在一些情况下，我们想通过如下方式导入individual object

In [2]:
from scipy.stats import norm # 正态分布 Normal Distribution

## Getting help

首先，所有的分布都有一个帮助函数，可以获得这些分布的基本信息，我们使用<kbd>print(stats.norm.__doc__).</kbd>打印相关的docstring。

寻找相应的支持（support）,例如分布的上下界（upper and lower bound），调用：

In [3]:
print('bounds of distribution lower : %s, upper: %s'% norm.support())

bounds of distribution lower : -inf, upper: inf


我们可以调用<kbd>dir(norm)</kbd>列出normal distribution的所有method和property，但是有一些method是private的，尽管它们没有使用私有方法的命名方式（它们的method name并不是以下划线（underscore）开头），例如<font color="red">veccdf</font>只能用于内部的计算（当我们试图使用这些private method的时候会发出警告并且会在一些时候会被移除）

为了获取主要方法，我们罗列frozen distribution的所有方法（我们将会在下文中解释什么叫frozen distribution）。

In [4]:
rv = norm()
dir(rv)

['__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 'a',
 'args',
 'b',
 'cdf',
 'dist',
 'entropy',
 'expect',
 'interval',
 'isf',
 'kwds',
 'logcdf',
 'logpdf',
 'logpmf',
 'logsf',
 'mean',
 'median',
 'moment',
 'pdf',
 'pmf',
 'ppf',
 'random_state',
 'rvs',
 'sf',
 'stats',
 'std',
 'support',
 'var']

我们可以通过**自省**（introspection）获取到可用distribution的列表。

In [5]:
# 连续型分布
dist_continu = [d for d in dir(stats) if isinstance(getattr(stats,d),stats.rv_continuous)]

# 离散型分布
dist_discrete = [d for d in dir(stats) if isinstance(getattr(stats, d), stats.rv_discrete)]

print('number of continuous distributions: %d' % len(dist_continu))

print('number of discrete distributions:   %d' % len(dist_discrete))


number of continuous distributions: 101
number of discrete distributions:   16


## Common methods

主要的连续型随机变量的public methods如下

* rvs: Random Variates  随机变量 从distribution中抽取一些样本

* pdf: Probability Density Function  概率密度函数

* cdf: Cumulative Distribution Function 累计分布函数 就是普通的概率分布函数，是概率密度的积分

* sf: Survival Function (1-CDF) 剩余函数

* ppf: Percent Point Function (Inverse of CDF) 百分比函数，是CDF的倒数

* isf: Inverse Survival Function (Inverse of SF)  sf函数的倒数

* stats: Return mean, variance, (Fisher’s) skew, or (Fisher’s) kurtosis 返回均值，方差，偏移，峰度

* moment: non-central moments of the distribution 分布的非中心矩

用普通的随机变量作为例子：

In [6]:
norm.cdf(0) # 标准正态分布 F(X<0)=0.5

0.5

计算一些点的<font color="red">cdf</font>,我们可以传入一个list或者是numpy的array。

In [7]:
norm.cdf([-1., 0, 1])

import numpy as np

norm.cdf(np.array([-1., 0, 1]))

array([0.15865525, 0.5       , 0.84134475])

所以像是pdf，cdf等等这些基础的method是矢量化的。

也支持其它常见而且非常实用的方法：

In [8]:
norm.mean(),norm.std(),norm.var() # 计算标准正态分布的平均值、标准差、方差

(0.0, 1.0, 1.0)

In [9]:
norm.stats(moments="mv")

(array(0.), array(1.))

我们可以使用百分比函数<font color="red">ppf</font>找到distribution的中位数，它是<font color="red">cdf</font>的倒数：

In [10]:
norm.ppf(0.5)

0.0

用<font color="red">size</font>参数生成一个随机变量的序列（random variate sequence）。

In [11]:
norm.rvs(size=3) # random generate

array([-1.08568762, -2.35421716, -0.15784481])

不要认为<font color="red">norm.rvs(5)</font>会生成5个随机变量。

In [12]:
norm.rvs(5) # random

3.8057110561485086

在这里<font color="red">5</font>前面是没有关键字的，因此这个5赋值给了该方法的第一个关键参数<font color="red">loc</font>,这个参数是所有的continuous distribution参数列表中的第一个参数，关于这个参数的作用我们在下一节介绍。

## Random Number generation

<kbd>scipy,stats</kbd>生成随机数依赖于<font color="blue">numpy.random</font>包。在下面这个例子中，重新运行代码将不会再现固定的随机数字流。为了让这一串随机数字每次运行都不发生改变，我们要特别的给random number generator上指定一个*seed*（这个seed相当于将随机数字生成公式赋一个值，之后每次都会通过特定的公式产生随机数，所以每次产生的随机数不会发生变化）。在Numpy中，一个generator是一个<font color="blue">numpy.random.Generator</font>实例。这里我们用一个经典（canonical）的方法创建一个generator。

In [13]:
from numpy.random import default_rng
rng = default_rng()

我们可以用如下方式设置一个seed。

In [14]:
rng = default_rng(301439351238479871608357552876690613766)

Warning :
 
不要使用上面的seed值或者是一些常见的value例如0。使用一个很小的seed集合去实例化一个更大的状态空间（state space）这样做就会有一些states无法到达。如果每个人都使用这个value,就会导致一些误差，一个很好的办法是使用<font color="blue">numpy.random.SeedSequence</font>:

In [15]:
from numpy.random import SeedSequence
print(SeedSequence().entropy) # random

8490405554613712755673933265135157534


distribution中的*random_state*参数可以接收一个<font color="blue">numpy.random.SeedSequence</font>类的实例或者是一个integer，这个integer是一个seed用于该类内部的<font color="red">Generator</font>对象。

In [16]:
norm.rvs(size=5, random_state=rng)

array([ 0.9611924 ,  0.1264337 ,  0.7457116 ,  1.15220084, -0.24389797])

更多信息参见[NumPy’s documentation](https://numpy.org/doc/stable/reference/random/index.html)

## Shifting and scaling

所有的连续型的分布都使用<font color="red">loc</font>和<font color="red">scale</font>关键parameter来调整分布的location和scale。例如，对于standard normal distribution，location是mean ，scale是standard deviation。

In [17]:
norm.stats(loc = 3,scale = 4,moments='mv')

(array(3.), array(16.))

在多数情况下，随机变量<font color="red">X</font>的standardized distribution是通过<font color="red">(X-loc)/scale</font>得到的。默认情况下<font color="red">loc=0</font>，<font color="red">scale=1</font>

善用<font color="red">loc</font>和<font color="red">scale</font>参数可以帮助你在一些场合下修改standard distribution。我们通过指数分布的随机变量（exponentially distributed RV）的<font color="red">cdf</font>来进一步说明scaling,这个分布的mean是$1/\lambda$,分布由下述公式得出：

$$
F\left(x\right)=1-exp(-\lambda x)
$$

利用上述的缩放规则，使用<font color="red">scale=1./lambda</font>我们可以得到正确的scale

In [18]:
from scipy.stats import expon
expon.mean(scale=3.)

3.0

Note

使用 shape 参数的分布不能简单使用<font color="red">loc</font>和(或)<font color="red">scale</font>参数来获得想要的分布形式。举一个例子，给定一个长度R的2-D vector 的 distribution 每一个部分都受到独立的$N(0,\sigma^2)$影响，这个分布服从$rice(R/\sigma,scale=\sigma)$分布。

Ps : rice()指的是莱斯分布。

均匀分布（uniform distribution）也是一个比较常见的分布。

In [19]:
from scipy.stats import uniform
uniform.cdf([0, 1, 2, 3, 4, 5], loc=1, scale=4) # 范围是[loc, loc + scale]

array([0.  , 0.  , 0.25, 0.5 , 0.75, 1.  ])

最后，我们回到之前曾经遗留下来的问题，<font color="red">norm.rvs(5)</font>的含义，其实像这样调用一个distribution，第一个augument是5，相当于给<font color="red">loc</font>参数赋值。我们来看下面这个例子。

In [20]:
# 输出500个服从mean=5，var=1正态分布的随机变量，并将这随机变量取平均值
np.mean(norm.rvs(5, size=500))

5.008904202156529

最后我们解释一下<font color="red">norm.rvs(5)</font>的输出，它输出了一个mean=5的正态分布的一个sample，因为默认的<font color="red">size=1</font>。

我们建议你在调用函数时明确的指出<font color="red">loc</font>和<font color="red">scale</font>参数，使用keyword的方式传入数值而不是通过augument的方式传入value。可以通过使用Freezing a Distribution技术对给定的RV调用超过一个method。可以使重复率最小。

## Shape parameter

普通的连续型随机变量可以通过<font color="red">loc</font>和<font color="red">scale</font>参数来shift和scale它的shape。但一些分布需要而外的shape parameter。举一个例子，gamma distribution的密度函数：

$$
\gamma(x,a)=\frac{\lambda{(\lambda x)}^{a-1}}{\mathrm{\Gamma}(a)}e^{-\lambda x}
$$

需要一个shape parameter a，注意到设置$\lambda$的值可以通过将<font color="red">scale</font>的值设置为$1/\lambda$得到。

让我们来看一下gamma distribution的shape parameter的number和name。

In [21]:
from scipy.stats import gamma
gamma.numargs,gamma.shapes

(1, 'a')

现在，我们将shape变量得值设置为1，来得到指数分布，这样可以让我们很轻易地比较这样做是否得到了我们期望的结果。

In [22]:
gamma(1, scale=2.).stats(moments="mv")

(array(2.), array(4.))

我们也可以用keyword的方式进行赋值。

In [23]:
gamma(a=1, scale=2.).stats(moments="mv")

(array(2.), array(4.))

## Freezing a distribution

一直传入<font color="red">loc</font>和<font color="red">scale</font>会显得非常的麻烦。freezing RV的概念就是为了解决这个问题

In [24]:
rv = gamma(1, scale=2.)

我们使用<font color="red">rv</font>就可以不用再使用scale和其它的shape parameter了，所以这个distribution要么可以将所有的distribution的parameter传入到调用的每个method中，要么可以对于一个distribution的实例来说可以freezing这些参数。

In [25]:
rv.mean(), rv.std()

(2.0, 2.0)

我们应该可以得到上面的结果。

## Broadcasting

最基本的方法<font color="red">pdf</font>或者其它的基本方法都满足numpy的Broadcasting rule。举个例子，我们可以计算不同probability和自由度（degree of freedom 简称d.o.f）的t distribution的上尾临界值（critical value for the upper tail）。

In [26]:
# 0.1百分位的值和0.05百分位的值以及0.01百分位的值
# 0.1百分位的值或者是几率为0.1时t分布的值->P(X<xa)=a）其中a=0.1，xa表示概率等于0.1时候的x值
stats.t.isf([0.1, 0.05, 0.01], [[10], [11]]) 

array([[1.37218364, 1.81246112, 2.76376946],
       [1.36343032, 1.79588482, 2.71807918]])

第一行包含着10自由度的critical value，第二行是11自由度的value，所以这次broadcast相当于执行了两次<font color="red">isf</font>，如下所示。

In [27]:
stats.t.isf([0.1, 0.05, 0.01], 10)

array([1.37218364, 1.81246112, 2.76376946])

In [28]:
stats.t.isf([0.1, 0.05, 0.01], 11)

array([1.36343032, 1.79588482, 2.71807918])

如果probability数组是 [0.1, 0.05, 0.01]以及自由度数组是 [10, 11, 12], 它们有相同的形状, 然后element-wise matching 就会启用。 我们可以得到  10 d.o.f的 10% tail ,  11 d.o.f 的 5% tail以及12 d.o.f.的 1% tail。

In [29]:
stats.t.isf([0.1, 0.05, 0.01], [10, 11, 12])

array([1.37218364, 1.79588482, 2.68099799])

## Specific points for discrete distributions

