In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 实践中的统计
花旗银行是花旗集团的一个分支机构，它提供全方位的金融服务，包括支票和储蓄账户、贷款和抵押、保险以及投资服务  
花旗银行是美国第一家引进自动提款机（ATM）的金融机构。目前，客户80%的交易是通过ATM完成的  
花旗银行信用卡中心向随机到达的客户提供服务。定期研究CBC能力可以分析客户的等待时间，以决定是否需要增加新的ATM  
花旗银行收集的数据表明，随机到达的客户人数服从著名的概率分布——泊松分布，利用泊松部分，花旗银行可以计算任意时间段内到达CBC的客户人数的概率，从而决定所需ATM的数目  
例如，令x表示1分钟内到达的客户人数。假定到达某一CBC的客户人数平均每分钟2人，下表是在1分钟内到达的客户人数的概率 5  

In [None]:
pd.DataFrame({'x':[0,1,2,3,4,5],
              'probability':[0.1353,0.2707,0.2707,0.1804,0.0902,0.0527]})

本章主要介绍离散型概率分布，比如花旗银行使用的分布。除柏松部分之外，我们还要介绍二项分布和超几何分布，并说明如何利用这些分布得到有用的概率信息  
在本章中我们通过介绍随机变量和概率分布的概念，继续对概率论进行研究  
# 5.1 随机变量
在第4章我们定义了试验的概念以及与之相联系的试验结果。随机变量提供了用数值描述试验结果的方法  
实际上，随机变量将每个可能出现的试验结果赋予一个数值，随机变量的值取决于试验结果。随机变量根据取值可分为离散型或连续型 5  
<hr />

**随机变量**  
随机变量是对一个试验结果的数值描述  
<hr />

## 5.1.1 离散型随机变量 
可以取有限多个数值或无限可数多个数值（如0，1，2，……）的随机变量称为**离散型随机变量**  
例如，考虑一名会计参加注册会计师CPA开始，该考试共有4门课程，令随机变量x为通过CPA考试的课程数，则x是一个离散型随机变量，因为它的取值分别是0，1，2，3或4，是有限个  
尽管很多试验结果都可以自然而然地用数值来表示，但有些试验结果却不能  
例如在一个调查电视关重能否回忆起最近看到的一则电视广告的信息试验中，有两种可能的试验结果：观众能回忆起信息和观众不能回忆起信息 5  
定义离散型随机变量如下：如果观众不能回忆起信息，则令x=0；如果观众能回忆起信息，则令x=1  
表5-1给出了其他一些离散型随机变量的例子  
<center>表5-1 离散型随机变量的例子</center>

|试验|随机变量(x)|随机变量的可能值|
|-|-|-|
|与5位客户洽谈|下订单的客户数|0，1，2，3，4，5|
|检验一批50台收音机的货物|损坏的收银机数|0,1,2,…,49,50|
|一家餐馆营业一天|顾客数|0,1,2,3,…|
|销售一辆汽车|顾客性别|男性为0，女性为1|

## 5.1.2 连续型随机变量  
可以在某一区间或多个区间内任意取值的随机变量称为**连续型随机变量**。度量时间、重量、距离、温度时，某试验结果可以用连续型随机变量来描述 5  
<center>表5-2 连续型随机变量的例子</center>

|试验|随机变量(x)|随机变量的可能值|
|-|-|-|
|银行开业|两客户到达的时间间隔（单位：分钟）|x≥0|
|填充一个饮料罐(最大容量为12.1盎司)|盎司数|0≤x≤12.1|
|新建一座图书馆|六个月后工程完成进度|0≤x≤100|
|检验一次新的化学反应过程|反应发生的温度（最低150°F,最高212°F）|150≤x≤212|

## 注释
一种确定随机变量是离散型还是连续型的方法，是把随机变量的值看做一条线段上的点  
任意选择随机变量的两个值，假如线段上这两点之间的所有点都可能使随机变量的取值，则该随机变量就是连续型的 5  

# 5.2 离散型概率分布
随机变量的**概率分布**是描述随机变量取不同值的概率。对于离散型随机变量x，概率分布通过**概率函数**来定义，记作f(x)。概率函数给出了随机变量每一取值的概率  
假设我们选择DiCarlo公司一天的经营情况做试验，定义随机变量x为一天中销售的汽车数。从历史数据，我们知道x是一个随机变量，可取值0,1,2,3,4或5。用概率函数符号f(0)表示销售0辆汽车的概率  
对随机变量的其他值继续使用这种方法，我们计算f(2),f(3),f(4),f(5)的值如表5-3所示，即DiCarlo公司一天的汽车销售量的概率分布  

In [None]:
dicarlo=pd.Series([0.18,0.39,0.24,0.14,0.04,0.01])
dicarlo

定义一个随机变量及其概率分布的最大好处在于，一旦知道概率分布，决策者确定各种感兴趣事件的概率就变得相对简单了 5  
任一离散型随机变量的概率函数必须满足式（5-1）式（5-2）两个条件  
<hr />

**离散型概率函数的性质**  
(5-1)$$f(x)\ge 0$$
(5-2)$$\Sigma{f(x)=1}$$
<hr />

表5-3满足上面两式，于是，DiCarlo公司的概率函数确实式离散型概率函数  
我们也可以用图形来表示概率分布。如下图 5  

In [None]:
'''
matplotlib Pyplot function overview plt.bar() width
matplotlib Pyplot function overview plt.bar() edgecolor/color
pandas series s.plot.bar()
matplotlib Pyplot function overview plt.xlim()
matplotlib Pyplot function overview plt.ylim()
matplotlib Pyplot function overview plt.xticks()
matplotlib Pyplot function overview plt.yticks()
matplotlib text Text.rotation
matplotlib Pyplot function overview plt.xlabel()
matplotlib Pyplot function overview plt.ylabel()
'''
dicarlo.plot.bar(width=0.02,color='black')
plt.xlim(-1,6)
plt.ylim(0,0.5)
plt.xticks(rotation=360)
plt.xlabel('x Car sales in a day')
plt.ylabel('f(x) probability')
plt.title('Figure 5-1 Probability distribution of car sales volume of DiCarlo company in one day')
plt.show()

除了表和图，还可以用代数表达式给出随机变量x的概率函数f(x)。f(x)常用来描述随机变量x每一取值的概率  
由一个公式给出的最简单的离散型概率分布是**离散型均匀概率分布**，式（5-3）定义了它的概率函数  
<hr />

(5-3)**离散型均匀概率函数**$$f(x)=1/n$$ 
式中，n代表随机变量取值的个数  
<hr />

例如，考虑抛一枚骰子的试验，定义随机变量x为骰子面向上的点数。从而，离散型均匀随机变量的概率函数为：$$f(x)=1/6$$5$$x=1,2,3,4,5,6$$  
随机变量的可能值及其相对应的概率如下  

In [None]:
dice =pd.DataFrame({'x':[1,2,3,4,5,6],'f(x)':[1/6,1/6,1/6,1/6,1/6,1/6]})
print('dice\n'+dice.to_string())
eg=pd.DataFrame({'x':[1,2,3,4],'f(x)':[1/10,2/10,3/10,4/10]})
print('eg\n'+eg.to_string())

作为另一个例子，考虑服从如上离散型概率分布的随机变量x  
其概率分布可用下面的公式定义 5  $$f(x)=\frac{x}{10}$$$$x=1,2,3或4$$  
大量离散型概率分布通常是以代数表达式的形式给出。其中三个最重要的分布是：二项分布、柏松分布和超几何概率分布 5  
# 5.3 数学期望与方差
## 5.3.1 数学期望
随机变量的**数学期望**或均值是对随机变量中心位置的一种度量。离散型随机变量x的数学期望的数学表达式如式（5-4）所示  
<hr />

(5-4)**离散型随机变量的数学期望**$$E(x)=\mu=\Sigma{xf(x)}$$
<hr />

通常采用记号E(x)或$\mu$表示随机变量的数学期望  
式（5-4）表明，计算离散型随机变量的所可能值乘以相应的概率值f(x)，然后再将乘积相加  
利用5.2节DiCarlo公司汽车销售量的例子，我们演示一天汽车销售量的数学期望的计算过程，如下表所示。表中xf(x)列的总和式1.50，说明每天汽车销售量的数学期望式1.50辆 5  

In [None]:
'''
数据分析 常用代码 加权平均数
pandas series s.name
pandas series s.mul()
pandas series s.index
'''
dicarlo.name='f(x)'
dfDicarlo = pd.DataFrame(dicarlo)
dfDicarlo['x']=dicarlo.index

def weightedMean(value,weight):
    ''' 
    计算加权平均数
    value:series;
    weight:series
    return: float
    '''
    wx = value.mul(weight).sum()
    w = weight.sum()
    return wx/w

dfDicarlo['xf(x)']=dicarlo.mul(dfDicarlo['x'])
print(dfDicarlo.to_string())
dcl_ex = weightedMean(dfDicarlo['x'],dfDicarlo['f(x)'])
print('E(x)={:.1f}'.format(dcl_ex))

## 5.3.2 方差
虽然数学期望给出了随机变量的均值，我们常常还需要度量随机变量的变异性或分散度  
正如我们在第3章描述数据的变异性一样，现在我们用**方差**来描述随机变量的变异性  
<hr />

(5-5)**离散型随机变量的方差**$$Var(x)=\sigma^2=\Sigma{(x-\mu)^2f(x)}$$
<hr />

如式（5-5）所示，方差公式的关键式离差$(x-\mu)$——度量随机变量的某一特定值与数学期望或均值$\mu$的距离 5  
随机变量所有值的离差平方的加权和称为方差，通常用记号Var(x)和$\sigma^2$来表示随机变量的方差  

In [None]:
'''
数据分析 常用代码 加权方差
pandas Index i.to_series()
pandas series s.sub()
pandas series s.pow()
'''
dfDicarlo['x-μ']=dicarlo.index.to_series().sub(dcl_ex)
dfDicarlo['(x-μ)^2']=dfDicarlo['x-μ'].pow(2)
dfDicarlo['(x-μ)^2 f(x)']=dfDicarlo['(x-μ)^2'].mul(dfDicarlo['f(x)'])
print(dfDicarlo.to_string())

def weightedVar(value,weight):
    ''' 
    计算加权方差
    value:series;
    weight:series
    return: float
    '''
    mean=weightedMean(value,weight)
    div=value.sub(mean)
    return div.pow(2).mul(weight).sum()
dcl_wv=weightedVar(dfDicarlo['x'],dfDicarlo['f(x)'])

print('Var(x)={:.2f}'.format(dcl_wv))

上表汇总了DiCarlo公司的一天汽车销售量概率分布的方差的计算过程。定义方差的算术平方根为**标准差**，记作$\sigma$。于是，一天销售汽车量的标准差是：  

In [None]:
def weightedStd(value,weight):
    ''' 
    计算加权标准差
    value:series;
    weight:series
    return: float
    '''
    var=weightedVar(value,weight)
    return np.sqrt(var)

dcl_std=weightedStd(dfDicarlo['x'],dfDicarlo['f(x)'])
print('std(x)={:.3f}'.format(dcl_std))

标准差的单位与随机变量的单位相同，所以通常用标准差来描述一个随机变量的变异性 5  
# 5.4 二项概率分布
二项概率分布是一种离散型概率分布，具有广泛的应用。它与一个称为二项试验的多步骤试验有关  
## 5.4.1 二项试验  
**二项试验**具有以下四个性质：
<hr />

**二项试验的性质**  
1. 试验由一系列相同的n个试验组成  
2. 每次试验有两种可能的结果。我们把其中一个称为成功，另一个称为失败  
3. 每次试验成功的概率都是相同的，用p来表示；失败的概率也都相同，用1-p表示 5  
4. 试验是相互独立的  
<hr />

如果一个试验具有性质2、性质3和性质4，我们称该试验是由贝努里过程产生的。另外，如果该试验还具有性质1，则称为二项试验。图5-2给出了一个包括8次试验的二项试验的一种可能结果  
![5-2](../syn_pic/statistics_for_business_economics/5-2.png)
<center>Figure5-2 一个8次试验的二项试验，一种可能的成功和失败序列</center>

在二项试验中，我们感兴趣的是在n次试验中成功出现的次数。如果令x代表n次试验中成功的次数，则x的可能值为0,1,2,3,…,n  
由于随机变量取值的个数是有限的，所以x是一个离散型随机变量。与这一随机变量相对应的概率分布称为**二项概率分布** 5  