常见的数据分布及应用

作者：谢文伟

邮件：jim.xie.cn@outlook.com

主页：https://github.com/jim-xie-cn/ai-cv

In [None]:
import random
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
import pandas as pd
from scipy.stats import bernoulli,norm,geom,poisson,expon,binom
from warnings import filterwarnings
from sklearn import preprocessing

In [None]:
sns.set(font_scale=1.5) 
plt.rcParams['font.sans-serif']=['SimHei'] #显示中文
filterwarnings('ignore') #关闭警告

# 伯努利分布
二值随机

In [None]:
X = np.arange(0, 2,1)
arr = bernoulli.pmf(X,0.5)
plt.xlabel('实验次数')
plt.ylabel('概率')
plt.title('伯努利分布: n=' + str(len(arr)))
plt.bar(['正','反'],[arr[0],arr[1]],color='b')
plt.show()

# 二项分布 
n次抛硬币实验中有x次正面朝上的概率

In [None]:
def show_binomial(x,n,p):
    arr = binom.pmf(x, n, p)
    li, = plt.plot(x, arr, marker='o',label='p=%.2f'%p)
    return li
n = 100
x = np.arange(0, n) 
line1 = show_binomial(x,n,0.2)
line2 = show_binomial(x,n,0.5)
line3 = show_binomial(x,n,0.8)
plt.legend(handles=[line1,line2,line3],fontsize=20)
plt.xlabel('事件发生的次数')
plt.ylabel('概率')
plt.title('二项分布')
plt.show()

In [None]:
n = 50
x = np.arange(0, n) 
line1 = show_binomial(x,n,0.5)
plt.legend(handles=[line1],fontsize=20)
plt.xlabel('上涨股票数量')
plt.ylabel('概率')
plt.title('上涨股票的数量分布')
plt.show()

# 几何分布

In [None]:
def show_plt_geom(x,p):
    arr = geom.pmf(x, p)
    li, = plt.plot(x, arr, marker='o', label='p=%.2f'%p)
    return li
n = 20
x = np.arange(0, n) 
line1 = show_plt_geom(x,0.2)
line2 = show_plt_geom(x,0.5)
line3 = show_plt_geom(x,0.8)
plt.legend(handles=[line1,line2,line3],fontsize=20)
plt.xlabel('第几次试验')
plt.ylabel('概率')
plt.title("几何分布")
plt.show()

In [None]:
n = 20
x = np.arange(0, n) 
line1 = show_plt_geom(x,0.2)
plt.legend(handles=[line1],fontsize=20)
plt.xlabel('第几天')
plt.ylabel('概率')
plt.title("投诉的时间分布")
plt.show()

# 超几何分布

In [None]:
from scipy.stats import hypergeom
def show_plt_hypergeom(x,M, n, N):
    arr = hypergeom(M, n, N).pmf(x)
    li, = plt.plot(x, arr, marker='o', label='n=%d'%N)
    return li
[M, n] = [25, 8]
x = np.arange(0, n+1)
line1 = show_plt_hypergeom(x,M, n, 2)
line2 = show_plt_hypergeom(x,M, n, 5)
line3 = show_plt_hypergeom(x,M, n, 8)
plt.legend(handles=[line1,line2,line3],fontsize=20)
plt.xlabel('黑球数量')
plt.ylabel('概率')
plt.title("超几何分布")
plt.show()

In [None]:
outcomes = np.random.hypergeometric(16,20,5,size =1000)
df = pd.DataFrame()
df['女生数量'] = pd.Series(outcomes)
sns.countplot(x="女生数量", data=df)
plt.title("频次图")

In [None]:
from scipy.stats import hypergeom
def show_plt_hypergeom(x,M, n, N):
    arr = hypergeom(M, n, N).pmf(x)
    li, = plt.plot(x, arr, marker='o')
    return li
[M, n, N] = [36, 16, 5]
x = np.arange(0, n+1)
line1 = show_plt_hypergeom(x,M, n, N)
plt.legend(handles=[line1],fontsize=20)
plt.xlabel('女生人数')
plt.ylabel('概率')
plt.title("女生数量分布")
plt.show()

# 泊松分布:

In [None]:
#一天内发生k次事件的概率是 (单位时间内事件发生的次数对应的概率)
def show_plt_poisson(x,lamda):
    arr = poisson.pmf(x, lamda)
    li, = plt.plot(x, arr, marker='o', label='λ=%.2f'%lamda)
    return li

x = np.arange(0, 20, 1)
line1 = show_plt_poisson(x,2)
line2 = show_plt_poisson(x,5)
line3 = show_plt_poisson(x,8)
plt.legend(handles=[line1,line2,line3],fontsize=20)

plt.xlabel('时间间隔')
plt.ylabel('概率')
plt.title('泊松分布')
plt.show()

In [None]:
x = np.arange(0, 15, 1)
line0 = show_plt_poisson(x,3)
plt.legend(handles=[line0],fontsize=20)
plt.xlabel('每天的游客人数（万人）')
plt.ylabel('概率')
plt.title('游客人数分布')
plt.show()

# 正太分布

In [None]:
def show_plt_norm(x,mu, sigma):
    arr = norm.pdf(x, mu, sigma)
    li, = plt.plot(x, arr, marker='o', label='μ=%.2f,σ=%.2f'%(mu,sigma))
    return li
plt.figure(figsize=(12,4))
x = np.arange(0, 100, 1)
line0 = show_plt_norm(x,30,4)
line1 = show_plt_norm(x,40,5)
line2 = show_plt_norm(x,50,6)
line3 = show_plt_norm(x,60,7)
plt.legend(handles=[line0,line1,line2,line3],fontsize=20)

plt.xlabel('变量')
plt.ylabel('概率')
plt.title('正态分布')
plt.show()

In [None]:
def show_plt_norm_1(x,mu, sigma):
    arr = norm.pdf(x, mu, sigma)
    li, = plt.plot(x, arr, marker='o')
    return li
plt.figure(figsize=(12,4))
x = np.arange(-4, 4, 0.1)
line0 = show_plt_norm_1(x,0,1)
plt.legend(handles=[line0],fontsize=20)
plt.xlabel('变量')
plt.ylabel('概率')
plt.title('噪声分布')
plt.show()

# 指数分布

In [None]:
def show_plt_expon(x,lamda):
    arr = expon.pdf(x,lamda) 
    li, = plt.plot(x, arr, marker='o', label='λ=%.2f'%(lamda))
    return li
x = np.arange(0, 10, 1)
line1 = show_plt_expon(x,0.2)
line2 = show_plt_expon(x,0.5)
line3 = show_plt_expon(x,0.8)
plt.legend(handles=[line1,line2,line3],fontsize=20)
plt.xlabel('等待时间')
plt.ylabel('概率')
plt.title('指数分布')
plt.show()

In [None]:
x = np.arange(0, 20, 1)
line1 = show_plt_expon(x,1/5)
plt.legend(handles=[line1],fontsize=20)
plt.xlabel('运行时长（千小时）')
plt.ylabel('概率')
plt.title('故障发生时间分布')
plt.show()