In [1]:
# 开始考虑统计学之前，思考这三个问题
# 1.假设你有一个装满彩色球的袋子，你闭上眼并且从袋子里拿一个球
# 你能据此说出袋子里彩色球的情况吗？
# 2.你来到一个陌生的城市并且你还需要一辆出租车。在晚上你只能看到出租车上的数字标志
# 你知道他们代表连续的出租车顺序，你能知道这座城市有多少辆出租车吗？
# 3.你已经进入考试两次了，你想知道是否值得第三次进入考试是你的得分提高
# 因为结果只显示最后一次的成绩，你担心第三次的结果变糟糕，你如何决定是否再进行一次？

In [2]:
# 统计学提供了一个结构性方法来解决上述问题。这个是很重要的，因为我们很容易被自己的直觉和偏差所欺骗。
# 不幸的是，这个领域不止提供一种单一的方法。这意味着尽管许多问题可以被解决，但这些不是容易证明，解释或理解的。
# 根本上来讲，当我们只用数据开始的时候，我们缺少潜在的概率密度。
# 这移除了关键结构，我们不得不抵消，然而我们选择处理数据。
# 接下来我们考虑一些最有用的统计学工具在Python的库中和潜在的方法。

In [3]:
# scipy.stats
# 尽管这有一些基础的统计函数在Numpy中，真正统计函数库在scipy.stats中
import scipy.stats

In [4]:
n = scipy.stats.norm(0, 10)
# n是正态随机分布变量，均值是0，标准差σ=10。这两个参数更通用的表示为位置和比例
# 现在我们可以调用方法来计算均值等
n.mean()

0.0

In [5]:
# 我们也可以计算高阶矩，比如计算第四阶矩
# 阶矩是统计学中用来描述数据分布形状和特征的重要概念之一。
# 在概率论和统计学中，阶矩是指随机变量的幂的期望。
# 对于一个随机变量X，它的r阶矩可以表示为E(X^r)，其中E表示期望值运算符。
# 阶矩提供了关于数据分布的信息，例如均值是一阶矩，方差是二阶矩。
# 高阶矩提供了更多关于数据分布的信息，可以用于描述偏态、峰度等特征。
n.moment(4)

30000.0

In [6]:
# 连续随机变量的公共方法主要包括
# rvs: random variates 随机变量生成
# pdf: probability density function 概率密度函数
# cdf: cumulative distribution function累积分布函数
# sf: survival Function (1-CDF) 生存函数
# ppf: percent point function (Inverse of CDF) 百分位点函数
# isf: inverse survival function (Inverse of SF) 逆生存函数
# stats: mean, variance, (Fisher’s) skew, or (Fisher’s) kurtosis 统计指标均值，方差，偏度，峰度
# moment: non-central moments of the distribution 非中心矩的分布

In [7]:
# 例如我们可以计算特定点的pdf
n.pdf(0) # 0点的pdf

0.03989422804014327

In [8]:
# 或者相同随机变量的cdf
n.cdf(0)

0.5

In [9]:
# 你也可以从这个分布中创建一个样本
n.rvs(10)

array([ -1.62702271,  30.15903984, -12.86062361,  12.46583098,
        -2.48900822, -13.38361654, -16.47866322,   7.15792312,
        -5.03254984,  -3.50825828])

In [12]:
# 许多普通的统计学测试已经内置了。例如Shapiro-Wilks测试原假设这个数据来自一个正态分布
scipy.stats.shapiro(n.rvs(100))
# 第二个值是p值，越小原假设越成立

ShapiroResult(statistic=0.9817699790000916, pvalue=0.18218466639518738)

In [13]:
# Sympy有他自己的更小，但也是非常有用的统计学模型，可以处理很多统计变量
from sympy import stats, sqrt, exp, pi
X = stats.Normal('x', 0, 10) # 创建一个正态随机变量

In [14]:
# 我们可以获得概率密度函数如
from sympy.abc import x
stats.density(X)(x)

sqrt(2)*exp(-x**2/200)/(20*sqrt(pi))

In [15]:
sqrt(2)*exp(-x**2/200)/(20*sqrt(pi))

sqrt(2)*exp(-x**2/200)/(20*sqrt(pi))

In [16]:
# 我们可以计算cdf
stats.cdf(X)(0)

1/2

In [17]:
# 在输出上你可以在数值上计算它通过使用evalf()方法。Sympy提供简洁的方式来考虑标准概率问题
# 方法为stats.P函数
stats.P(X>0) # prob X>0?

1/2

In [19]:
# 这里也有一个对应的期望函数，stats.E你可以来计算复杂的期望值
stats.E(abs(X)**(1/2)).evalf()

2.59995815363879