In [None]:
import numpy as np
import scipy.stats as scs
import matplotlib.pyplot as plt
import warnings; warnings.filterwarnings('ignore')

# 常见的概率分布
---

**scipy.stats 常见分布：**

离散型随机变量（离散分布）：
- `bernoulli`：伯努利分布，参数 `p`
- `binom`：二项分布，参数 `n`，`p`
- `poisson`：泊松分布，X~P(lambda) 对应参数 `mu`=lambda

连续型随机变量（连续分布）：
- `uniform`：均匀分布，X~U(a,b) 对应参数 `loc`=a,`scale`=b-a
- `expon`：指数分布，X~E(lambda) 对应参数 `scale`=1/lambda
- `norm`：正态分布，X~N(mu,sigma) 对应参数 `loc`=mu,`scale`=sigma
- `lognorm`：对数正态分布，lnX~N(mu,sigma) 对应参数 `s`=sigma,`loc`=0,`scale`=exp(mu)

样本统计量（抽样分布）：
- `chi2`：卡方分布，参数 `df`
- `t`：t 分布，参数 `df`
- `f`：F 分布，参数 `dfn`，`dfd`

## 1. 离散分布
---

### 1.1 二项分布

In [None]:
# 概率质量函数
binomial = scs.binom(n=50, p=0.5)        # 二项分布两个参数 n，p
x = np.arange(0,51)                      # x = 0,1,2,...,50
y = binomial.pmf(x)                      # y 为 x 的概率质量函数（pmf）
plt.bar(x, y)                            # 绘制概率质量函数图（柱状图）

In [None]:
# 期望和方差
binomial.mean(), binomial.var()

In [None]:
# 不同的 n 和 p 二项分布情况
plst = [0.1, 0.5, 0.9]; nlst = [5, 10, 50]

plt.figure(figsize=(16,10))
i = 1                                        # 控制子图的序号
for n_i in nlst:                            # 子图顺序以行为主次
    for p_i in plst:
        plt.subplot(3, 3, i)                 # 绘制第 i 个子图，第一行为1、2、3，第二行为4、5、6...
        
        binomial = scs.binom(n=n_i, p=p_i)   # 设置二项分布的参数
        x = np.arange(0, n_i+1)              # x 可以取到的值
        y = binomial.pmf(x)                  # 计算概率质量函数
        plt.bar(x, y)                        # 绘制该参数对下的概率质量函数图
        
        plt.title(f'n={n_i}, p={p_i}')       # 标题
        i += 1                               # 生成下一个图的序号

### 1.2 泊松分布

In [None]:
# 概率质量函数
poisson = scs.poisson(mu=3)              # 泊松分布参数 mu：λ
x = np.arange(0,15)                      # x = 0,1,2,...,14 实际可以取到无穷大
y = poisson.pmf(x)                       # y 为 x 的概率质量函数（pmf）
plt.bar(x, y)                            # 绘制概率质量函数图（柱状图）

In [None]:
# 期望和方差
poisson.mean(), poisson.var()

In [None]:
# 泊松分布与二项分布比较
binomial = scs.binom(n=60, p=0.05)              # λ= n * p
y2 = binomial.pmf(x)                            # y2 为二项分布概率质量函数（pmf）
plt.bar(x, y, label='poisson')                  # 泊松分布
plt.bar(x, y2, alpha=0.5, label='binomial')     # 二项分布
plt.legend()
plt.title('Poisson vs Binomial(PMF)')

## 2. 连续分布
---

### 2.1 均匀分布

In [None]:
# 概率密度函数
a = 2; b = 6
uniform = scs.uniform(loc=a, scale=b-a)     # [a,b]:[loc,loc+scale]
x = np.linspace(a-1, b+1, 100)
y = uniform.pdf(x)
plt.plot(x,y)
plt.xlim(a-1,b+1); plt.ylim(0)
plt.title('Uniform Distribution(PDF)')

In [None]:
# 累积分布函数
y2 = uniform.cdf(x)
plt.plot(x,y2)
plt.xlim(a-1,b+1)
plt.title('Uniform Distribution(CDF)')
plt.xlim(a-1,b+1); plt.ylim(0,1)

In [None]:
# 期望和方差
uniform.mean(), uniform.var()

### 2.2 指数分布

In [None]:
# 概率密度函数
param_lst = [0.5, 1, 1.5]
x = np.linspace(0,10,100)                    # 设置 x 的取值范围（x>0）
for param in param_lst:
    exponential = scs.expon(scale=1/param)   # 指数分布参数 scale=1/lambda
    y = exponential.pdf(x)                   # y 为概率密度函数
    plt.plot(x, y, label=f'λ={param}')      # 绘制概率密度函数图（曲线）
plt.legend(); plt.xlim(0,10); plt.ylim(0,1)  # 显示图例，限制 x y 轴范围
plt.title('Exponential Distribution(PDF)')

In [None]:
# 累积分布函数
for param in param_lst:
    y = scs.expon.cdf(x, scale=1/param)      # y2 为累积分布函数
    plt.plot(x, y, label=f'λ={param}')      # 绘制累积分布函数图（曲线）
plt.legend(); plt.xlim(0,10); plt.ylim(0,1)  # 显示图例，限制 x y 轴范围
plt.title('Exponential Distribution(CDF)')

In [None]:
# 期望和方差
exponential = scs.expon(scale=3)
exponential.mean(), exponential.var()

### 2.3 正态分布

In [None]:
# 概率密度函数
mu = 0; sigma = 1
normal = scs.norm(loc=mu, scale=sigma)       # 设置正态分布参数 mu 和 sigma
x = np.linspace(mu-3*sigma, mu+3*sigma)     # 设置 x 的取值范围（3σ法则）
y = normal.pdf(x)                            # y 为概率密度函数（pdf）
plt.plot(x, y)                               # 绘制概率密度函数图（曲线）
plt.title('Normal Distribution(PDF)')
plt.xlim(mu-3*sigma, mu+3*sigma); plt.ylim(0)

In [None]:
# 概率密度函数
plt.figure(figsize=(8,4))
mu = 0; sigma = 1
normal = scs.norm(loc=mu, scale=sigma)       # 设置正态分布参数 mu 和 sigma
x = np.linspace(mu-3*sigma, mu+3*sigma)     # 设置 x 的取值范围（3σ法则）
y = normal.pdf(x)                            # y 为概率密度函数（pdf）
plt.plot(x, y)                               # 绘制概率密度函数图（曲线）
plt.title('单尾检验')
plt.xlim(mu-3*sigma, mu+3*sigma); plt.ylim(0)
plt.plot([normal.ppf(0.95),normal.ppf(0.95)], [0,normal.pdf(normal.ppf(0.95))], label='cdf=0.95')
plt.legend()
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus'] = False

In [None]:
# 概率密度函数
plt.figure(figsize=(8,4))
mu = 0; sigma = 1
normal = scs.norm(loc=mu, scale=sigma)       # 设置正态分布参数 mu 和 sigma
x = np.linspace(mu-3*sigma, mu+3*sigma)     # 设置 x 的取值范围（3σ法则）
y = normal.pdf(x)                            # y 为概率密度函数（pdf）
plt.plot(x, y)                               # 绘制概率密度函数图（曲线）
plt.title('双尾检验')
plt.xlim(mu-3*sigma, mu+3*sigma); plt.ylim(0)
plt.plot([normal.ppf(0.025),normal.ppf(0.025)], [0,normal.pdf(normal.ppf(0.025))], label='cdf=0.025')
plt.plot([normal.ppf(0.975),normal.ppf(0.975)], [0,normal.pdf(normal.ppf(0.975))], label='cdf=0.975')
plt.legend()

In [None]:
# 累积分布函数
y2 = normal.cdf(x)                            # 正态分布累积分布函数（cdf）
plt.plot(x, y2)
plt.title('Normal Distribution(CDF)')
plt.xlim(mu-3*sigma, mu+3*sigma); plt.ylim(0,1)

In [None]:
# 期望和方差
normal.mean(), normal.var()

In [None]:
# 不同参数情况下正态分布的概率密度函数
params = [(0,1), (0,2), (0,0.5), (1,1)]

for mu, sigma in params:
    normal = scs.norm(loc=mu, scale=sigma)             # 正态分布参数 mu 和 sigma
    x = np.linspace(mu-3*sigma, mu+3*sigma, 100)      # 设置 x 的取值范围
    y = normal.pdf(x)                                  # y 为 x 的概率密度函数（pdf）
    plt.plot(x, y, label=f'mu={mu}, sigma={sigma}')    # 绘制概率密度函数图（曲线）
plt.legend(); plt.ylim(0)

### 2.4 对数正态分布

In [None]:
# 概率密度函数
lognormal = scs.lognorm(s=1,loc=0,scale=1)    # lognorm 参数：lnx~N(mu,sigma**2)对应s=sigma,loc=0,scale=exp(mu)
x = np.linspace(0,5,100)
y = lognormal.pdf(x)
plt.plot(x,y)
plt.xlim(0,5); plt.ylim(0)
plt.title('Lognormal Distribution(PDF)')

In [None]:
# 累积分布函数
y = lognormal.cdf(x)
plt.plot(x,y)
plt.xlim(0,5); plt.ylim(0,1)
plt.title('Lognormal Distribution(CDF)')

In [None]:
# 期望和方差
lognormal.mean(), lognormal.var()

### 2.5 收益率和价格的分布

In [None]:
import seaborn as sns
import tushare as ts
pro = ts.pro_api()

In [None]:
df = pro.daily(ts_code='000001.SZ', start_date='20160101', end_date='20190101')
df.head()

In [None]:
# 收益率和价格数据
returns = df['pct_chg']/100
prices = df['close']

In [None]:
# 收益率频率分布直方图
plt.hist(returns, bins=50, density=1)

In [None]:
# 使用正态分布对收益率分布进行拟合
mu, sigma = scs.norm.fit(returns)
mu, sigma

In [None]:
# 正态分布拟合直方图
plt.hist(returns, bins=50, density=1)
x = np.linspace(returns.min(), returns.max(), 100)
plt.plot(x, scs.norm.pdf(x, loc=mu, scale=sigma))
plt.xlim(x.min(),x.max())
plt.title('Distribution of Returns')

In [None]:
# 价格频率分布直方图
plt.hist(prices, density=1, bins=50)

In [None]:
# 使用对数正态分布对价格分布进行拟合
s, loc, scale = scs.lognorm.fit(prices)
s, loc, scale

In [None]:
# 对数正态分布拟合直方图
plt.hist(prices, bins=50, density=1)
x = np.linspace(prices.min(), prices.max(), 100)
plt.plot(x, scs.lognorm.pdf(x, s=s, loc=loc, scale=scale))
plt.xlim(x.min(),x.max())
plt.title('Distribution of Prices')

## 3. 抽样分布
---

### 3.1 卡方分布

In [None]:
x = np.linspace(0,50,100)
plt.plot(x, scs.chi2.pdf(x, df=10), label='df=10')
plt.plot(x, scs.chi2.pdf(x, df=20), label='df=20')
plt.plot(x, scs.chi2.pdf(x, df=30), label='df=30')
plt.xlim(0,50); plt.ylim(0)
plt.legend(); plt.title('Chi2 Distribution(PDF)')

### 3.2 t 分布

In [None]:
x = np.linspace(-3,3,100)
plt.plot(x, scs.t.pdf(x, df=1), label='df=1')
plt.plot(x, scs.t.pdf(x, df=5), label='df=5')
plt.plot(x, scs.t.pdf(x, df=30), label='df=30')
plt.xlim(-3,3); plt.ylim(0)
plt.legend(); plt.title('t Distribution(PDF)')

### 3.3 F 分布

In [None]:
x = np.linspace(0,3,100)
plt.plot(x, scs.f.pdf(x, dfn=3, dfd=9), label='df1=3, df2=9')
plt.plot(x, scs.f.pdf(x, dfn=9, dfd=3), label='df1=9, df2=3')
plt.plot(x, scs.f.pdf(x, dfn=30, dfd=30), label='df1=30, df2=30')
plt.xlim(0,3); plt.ylim(0)
plt.legend(); plt.title('F Distribution(PDF)')

声明：本资料仅限内部研究和交流使用，切勿外传。