In [None]:
from scipy.special import comb
from scipy.special import perm
import pandas as pd
import numpy as np

# 实践中的统计
Oceanwide海产品公司是俄亥俄州西南部一家优质海产品供应商。这些产品来自世界各地，并按照客户的要求准备进行专业分割。客户包括俄亥俄州、肯塔基州和印第安纳州的大型餐馆和食品零售商店    
概率和统计信息用于公司的经营和市场决策  
概率分析有助于Oceanwide海产品公司为其产品确定合理的和能够盈利的价格  
如公司从其供应商那里收到一整条100磅重的鲜鱼，成本为500美元，但是由于加工分隔过程中的损耗，产出率为75%，最终销售给客户的产品是0.75x100=75磅。因此公司需要按照每磅6.67美元的成本确定一个向客户收取的价格，确保能够盈利  
为了帮助确定加工和分割鲜鱼时可能的产出率，我们从整条金枪鱼样本中收集产出率的数据 5  
根据数据，可以确定在5%的情况下整条金枪鱼的产出率至少为90%。如果根据90%的产出率确定金枪鱼的售价，则在95%的情况下公司的实际产出率低于预期  
对于其他的产出率，补充的条件概率信息有助于管理者选择70%的产出率作为基础，用以确定金枪鱼的成本和出售给客户的价格  
管理者的决策往往是基于对不确定性的分析，比如：
1. 如果提高价格，则销售量下降的可能性有多大？  
2. 某种新的装配方法将提高生产率的可能性有多大？ 5
3. 某项工程将按期完成的可能性有多大？
4. 某项新投资盈利的可能性有多大？

**概率** 是一个事件将会发生的可能性的数值度量。因此，概率可以用来度量上述四个事件的不确定性程度  
事件的概率总是介于0到1之间。图4-1描绘了概率是事件发生可能性的数值度量的观点  
<center>图4-1 概率是对事件发生可能性的数值度量 5</center>

![4-1](../syn_pic/statistics_for_business_economics/4-1.png)  
# 4.1 试验、计数法则和概率分配
在概率论中，我们把可以产生明确结构的过程定义为**试验**。下面是几个有关试验及试验结果的例子    

|试验|试验结果|
|:-|:-|
|抛掷一枚硬币|正面、反面|
|选取部分零件进行检测|合格、不合格|
|进行一次电话销售|购买、不购买|
|掷一枚筛子|1,2,3,4,5,6|
|进行一场足球比赛|获胜、失利、平局 5

一旦确定了试验的所有可能结果，就确定了试验的**样本空间**  
一个试验结果也被称为**样本点**，它是样本空间中的一个元素  
考虑上表中的第一个试验——抛掷一枚硬币。试验结果（样本点）只有两种：正面、反面，可以用下面的记号标识样本空间S  
<center>S = {正面，反面}</center>  

对表中第二个试验——选取部分零件进行检测，样本空间为:  
<center>S = {合格，不合格}</center>  

## 4.1.1 计数法则、组合和排列
对试验结果进行确认和计数是分配概率的必要步骤。现在，我们讨论三条有用的计数法则 5  
**多步试验** 第一条计数法则适用于多步试验。令H标识正面朝上，T表示反面朝上，我们继续用这一符号来表示抛掷两枚硬币试验的样本空间S如下：  
<center>S={(H,H),(H,T),(T,H),(T,T)} </center>

于是，我们看到四个可能的试验的结果。在这种情形下，我们能很容易列出所有的试验结果  
<hr />

**多步试验的计数法则**  
如果一个试验可以分为连续的k个步骤，在第一步有$n_1$种可能的结果，在第二步中有$n_2$种可能的结果，依次类推，那么所有试验结果的个数为$(n_1)(n_2)\cdots(n_k)$种
<hr />

多步试验的计数法则使我们有可能确定试验结果的数目，而不必一一列举  
仍考虑抛掷两枚硬币的试验，它可以视为一个两步骤的试验。抛掷第一枚硬币有两种$(n_1=2)$不同的结果，抛掷第二枚也有两种，在一个抛掷6枚硬币的试验中，有$2^6=64$种不同的试验结果 5  
**树形图**是一种有助于视觉化多步试验的图形表示。图4-2是抛掷两枚硬币试验的树形图  
![4-2](../syn_pic/statistics_for_business_economics/4-2.png)  
<center>图4-2 抛掷两枚硬币试验的树形图</center>

现在我们来看一下如何利用多步试验计数法则分析肯塔基州电力与照明公司的增加供电能力项目  
由于项目在设计阶段（第一步）有3种可能的完成时间，在建设阶段也有3种可能的完成时间，由多步试验计数法则可知，共有3x3=0种试验结果，表4-1中汇总了KP&L问题的9种试验结果  

|阶段1设计|阶段2建设|试验结果|总的项目完成时间（月） 5|
|-|-|-|-|
|2|6|(2,6)|8|
|2|7|(2,7)|9|
|2|8|(2,8)|10|
|3|6|(3,6)|9|
|3|7|(3,7)|10|
|3|8|(3,8)|11|
|4|6|(4,6)|10|
|4|7|(4,7)|11|
|4|8|(4,8)|12|

![4-3](../syn_pic/statistics_for_business_economics/4-3.png)  
计数法则和树形图能够帮助工程管理人员确定试验结果，并确定工程可能的完工时间。从图4-3的信息中我们看到，工程将在8-12个月完成，在9中试验结果中有6种给出了工程所需完成时间在10个月以内 5  
即使确定了试验结果可能会有所帮助，在对工程将在所需的10个月内完工的概率做出评估之前，我们还需要考虑如何为试验结果分配概率值  
**组合** 当试验是从有N个（通常比较大的）物体的一个集合中选取n个物体时，第二个有用的计数法则能计算试验结果的个数。这种计数法则称为组合  
<hr />

(4-1)**组合计数法则**  
从N个物体中同时任取n个组合数为$$C^N_n=\left(\begin{matrix}N \cr n\end{matrix}\right)=\frac{N!}{n!(N-n)!}$$
式中  
$N!=N(N-1)(N-2)\cdots(2)(1)$  
$n!=n(n-1)(n-2)\cdots(2)(1)$  
并且定义，$0!=1$
<hr />


In [None]:
'''
作为组合计算法则的说明，我们考虑一个质量控制程序：一位检验员从5个零件中随机抽取2个测试缺陷，
有多少种可以选择的组合呢 5  
scipy Special functions (scipy.special) comb()  
python str s.format() f
'''
cb1 =comb(5,2)
print("答：有{:.0f}种可以选择的组合".format(cb1))

'''
作为组合计算法则的说明，我们考虑佛罗里达州彩票系统每周从53个证书随机抽取6个证书作为每周的中奖号码
python str s.format() ,
'''
cb2 =comb(53,6)
print("答：在彩票抽奖中大约有{:,.0f}种试验结果".format(cb2))

**排列** 第三种经常用到的计数法则是排列计数法则。相同的n个物体，不同的选取顺序被认为是不同的试验结果  
<hr />

(4-2)**排列计数法则**  
从N个物体中同时任取n个的排列数为$$P_n^N=n!\left(\begin{matrix}N \cr n\end{matrix}\right)=\frac{N!}{(N-n)!}$$
<hr />

排列计数法则与组合计数法则有着密切的联系。因为n个物体考虑顺序的选取有n!种不同的方式，从而对相同个体的物体，排列的试验结果总是大于组合的试验结果  

In [None]:
'''
再次考虑一个质量控制程序：一位检验员从5个零件中随机抽取2个测试缺陷，有多少种可以选择的排列呢 5  
scipy Special functions (scipy.special) perm()
'''
pm1 =perm(5,2)
print("答：有{:.0f}种可以选择的排列".format(pm1))

## 4.1.2 分配概率
现在我们来看一看如何为试验结果分配概率。古典法、相对频数法和主观法是最为常用的三种方法。无论采用何种方法，都必须满足**分配概率的两个基本要求**  
<hr />

**分配概率的基本要求**
1. 分配给每个试验结果的概率都必须在0和1之间。包括0和1。若以$E_i$表示第$i$种试验结果，$P(E_i)$表示它的概率，则有$$0\le P(E_i)\le1 $$对所有的i  
(4-3)
2. 所有试验结果的概率之和必须等于1.0。对n个试验结果，有$$P(E_i)+P(E_2)+\cdots+P(E_n)=1$$(4-4)
<hr />

分配概率的**古典法** 适用于所有的试验结果是等可能发生的情形。如果某一试验有n个可能的试验结果，分配给每个试验结果的概率是1/n  
一个例子是，抛掷一枚均匀的硬币有两种试验结果：正面或反面朝上。出现这两种结果的可能性相等 5  
如果实验被大量重复，并且数据可用来估计实验结果将发生的次数比例时，适合用分配概率的**相对频数法**。比如，研究某地方医院X光检查室的等候时间问题。工作人员每天上午9点记录候诊人数，连续20天，得到下面的记录

In [None]:
'''
相对频数法计算概率
pandas series s.to_string()
'''
hos_s = pd.Series([2,5,6,4,3])
print(hos_s.to_string())

hos_s.div(hos_s.sum())

当试验结果是等可能的假设不可能实现，并且只有少量的相关数据，最适合用分配频率的**主观法**。由于主观法表示的是某个人的可信程度，它会因人而异。使用主观法，不同的人对同一试验结果可能预期分配不同的概率  
在应用主观法时，应特别注意保证式(4-3)和式（4-4）这两个基本要求成立  
即使在商务环境中，古典法或者相对频数法都可以应用，但是管理人员坑你仍希望提供主观概率估计。此时将古典法或相对频数法的估计与主观概率估计相结合，往往能够得到最佳的概率估计 5  
## 4.1.3 KP&L项目的概率
为了对KP&L项目进入深入分析，我们必须求出表4-1中9种试验结果的每一种的概率。40项类似项目的研究结果汇总在表4-2中  
管理层在浏览了研究结果以后，决定使用分配概率的相对频数法。他们觉得当前的项目与以前的40个项目十分相似。因此，相对频数法被认为是最好的方法    
在利用表4-2的数据计算概率时，我们注意到，试验结果（2，6）：阶段1用2个月完成，阶段2用6个月完成，在40个项目中发生了6次。我们根据相对频数法我这一试验结果分配的概率为6/40=0.15。继续用这种方法，我们能得到如表4-3所示的概率分配  
## 注释
1. 在统计学中，试验的概念与自然科学中实验的概念稍有不同。在统计试验中，概率决定试验结果。由于概率对试验结果的影响，统计学上的试验有时也被称为随机试验  
2. 在从容量为N的总体中无放回抽取一个容量为n的随机样本时，应使用组合计数规则来计算不同的样本个数 5  

In [None]:
df_project = pd.DataFrame({'Stage 1':[2,2,2,3,3,3,4,4,4],
                           'Stage 2':[6,7,8,6,7,8,6,7,8],
                           'project_num':[6,6,2,4,8,2,2,4,6]})
project_num=df_project['project_num']
df_project['Stage']=df_project['Stage 1'].add(df_project['Stage 2'])
df_project['prob']=project_num.div(project_num.sum())
df_project

# 4.2 事件及其概率
样本点和事件是研究概率论的基础。因此我们必须引入一个**事件**的正式定义，因为它涉及样本点。这是确定事件概率的基础  
<hr />

**事件**  
事件是样本点的一个集合  
<hr />

回到KP&L项目的例子上来，如表4-3所示，有6个样本点，(2,6),(2,7),(2,8),(3,6),(3,7),(4,6)允许工程在10个月或10个月以内完工  
令C表示事件“项目在10个月或10个月以内完工”，则$$C=\{(2,6),(2,7),(2,8),(3,6),(3,7),(4,6)\}$$  
如果这6个样本点中任何一个作为试验结果出现，则称事件C发生 5  
KP&L管理层关心的其他事件如下$$L=\{项目完工时间少于10个月\}$$ $$M=\{项目完工时间多于10个月\}$$  
利用表4-3的信息，我们看到，这些事件由以下样本点组成$$L=\{(2,6),(2,7),(3,6)\}$$ $$M=\{(3,8),(4,7),(4,8)\}$$  
对于KP&L的项目，还可以定义许多其他事件，但是在每一种情形下，事件必须被认定为试验样本点的一个集合  
根据表4-3所示的样本点概率，我们可以利用下面的定义定义计算KP&L管理层关心的任一事件的概率  
<hr />

**事件的概率** 5  
事件的概率等于事件中所有的样本点概率之和  
<hr />

利用这一定义，我们将构成特定事件的样本点（试验结果）的概率相加，来计算该事件的概率。我们来计算“项目在10个月或10个月以内完工”这一事件的概率  
由于事件$C=\{(2,6),(2,7),(2,8),(3,6),(3,7),(4,6)\}$，所以事件C的概率记住P(C)，有$$P(C)=P(2,6)+P(2,7)+P(2,8)+P(3,6)+P(3,7)+P(4,6)$$  
根据表4-3样本点的概率，我们有

In [None]:
'''
pandas series s.le()
pandas series s.lt()
pandas series s.gt()
'''
stage=df_project['Stage']

def stageProb(stagebool):
    return df_project[stagebool].loc[:,'prob'].sum() 

print('P(C)={:.2f}'.format(stageProb(stage.le(10))))
print('对于事件“项目完工时间少于10个月”，这一事件的概率为 P(L)={:.2f}'.format(stageProb(stage.lt(10))))
print('5 对于事件“项目完工时间多于10个月”，这一事件的概率为 P(L)={:.2f}'.format(stageProb(stage.gt(10))))

利用这些概率结果，对于KP&L管理层关心的任何事件，我们可以重复上述计算事件概率的过程  
只要我们能够确认一个试验的所有样本点并且给每个样本点分配概率，我们就能够利用定义来计算一个事件的概率。下面几节中，我们将介绍一些基本的概率关系，利用这些关系，读者可以在不知道所有样本点概率的情况下计算某一事件的概率  
## 注释  
1. 样本空间S是一个事件。由于它包含了所有的试验结果，所以它的概率为1，即P(S)=1  
2. 应用古典法分配概率时，假设试验结果是等可能的  

# 4.3 概率的基本性质
## 4.3.1 事件的补
给定一个事件A，**事件A的补**是指所有不属于事件A的样本点组成的事件。事件A的补记为$A^c$。图4-4说明了补的概念，称为**文氏图**  
![4-4](../syn_pic/statistics_for_business_economics/4-4.png)
<center>图4-4 事件A的补是阴影区域</center>

在任何概率应用中，事件A或它的补$A^c$必须发生。因此，我们有$$P(A)+P(A^c)=1$$  
解出P(A)，有如下结论：
<hr />

(4-5) **利用事件的补计算概率** 5$$P(A)=1 -P(A^c)$$
<hr />

作为一个例子，假定一名销售经理在看完销售报告后指出，80%的新客户并无销售行为发生。用A来表示事件“发生了销售”，$A^c$来表示事件“未发生销售”，有$$P(A)=1-P(A^c)=0.2$$  
我们可以得出结论，有20%的新客户发生率销售行为  
## 4.3.2 加法公式
当我们对两个事件中至少有一个事件发生的概率感兴趣时，加法公式非常有用  
在介绍加法公式之前，我们需要讨论与事件的组合有关的两个概念：事件的并和事件的交。对两个事件A和B，**事件A和B的并**定义如下 5  
<hr />

**两个事件的并**  
事件A和事件B的并是属于事件A或属于事件B或同时属于二者的所有样本点构成的事件，记作$A\cup B$
<hr />

图4-5的文氏图描绘了事件A和B的并。两个圆型的重叠区域说明有一些样本点同时属于事件A和事件B  
![4-5](../syn_pic/statistics_for_business_economics/4-5.png)
<center>图4-5 事件A和B的并是阴影区域</center>

事件A和B的交定义如下所示  
<hr />

**两个事件的交**  
给定两个事件A和B，则A和B的交是同时属于事件A和B的样本点构成的事件，记作$A\cap B$
<hr />

图4-6的文氏图描绘了事件A和B的交。图中两圆形的重叠区域是两个事件的交，由同时属于事件A和事件B的样本点组成 5  
![4-6](../syn_pic/statistics_for_business_economics/4-6.png)
<center>图4-6 事件A和B的交是阴影区域</center>

我们现在继续讨论加法公式。**加法公式**提供了一种计算事件A或事件B或事件A、B同时发生的概率的方法。加法公式可以写成如下形式：  
<hr />

(4-6)**加法公式**$$P(A\cup B)=P(A)+P(B)-P(A\cap B)$$
<hr />

为了直观上理解加法公式，我们注意，加法公式的前两项P(A)+P(B)包含了$A\cup B$的所有样本点  
但是由于在交$A\cap B$内的样本点既属于事件A有属于事件B，在计算$P(A)+P(B)$时，$A\cap B$内的样本点实际上被我们计算了两次。因此我们减去$A\cap B$，对重复计算进行修正 5  
我们考虑一个有50名员工的小型装配厂。在业绩考核期结束时，生产经理发现50名工人中有5人未能按时完成工作，6人装配的产品不合格，2人既没有按时完成工作而且装配的产品不合格  
令事件  
L = {未能按时完成工作} &nbsp;&nbsp;&nbsp;&nbsp;D = {装配的产品不合格}  
由相对频数法，有下面的概率$$P(L)=\frac{5}{50}=0.10$$ $$P(D)=\frac{6}{50}=0.12$$ $$P(L\cap D)=\frac{2}{50}=0.04$$
生产经理决定对未能按时完成工作或者装配的产品不合格的工人给一个差的等级分。生产经理给一名工人差的业绩等级分的概率是多少  
$$P(L\cup D)=P(L)+P(D)-P(L\cap D)=0.1+0.12-0.04=0.18$$  
5  
在结束加法公式的讨论之前，我们再来考虑一种特殊的情况：**互斥事件**  
<hr \>

**互斥事件**  
如果两个事件没有共同的样本点，则称这两个事件互斥  
<hr \>

当事件A和事件B一个发生而另一个不会发生时，则称A和B是互斥的。文氏图4-7描述了两个事件A和B互斥的情况，在这种情况下$P(A\cap B)=0$，因此加法公式可以写成下面的形式  
<hr \>

**互斥事件的加法公式**$$P(A\cup B)=P(A)+P(B)$$
<hr \>

![4-7](../syn_pic/statistics_for_business_economics/4-7.png)
<center>图4-7 互斥事件 5</center>

# 4.4 条件概率
某个事件发生的可能经常会受到另一个相关事件发生与否的影响  
假设我们有一个事件A，概率为P(A)，如果我们获得了新的信息——确知另一个相关事件B已经发生，我希望利用这一信息来重新计算事件A发生的可能性  
此时，事件A发生的可能性叫做**条件概率**，记作P(A|B)读作“给定事件B下事件A的概率”  
作为条件概率的应用实例，考虑美国东部某大城市警察局男性和女性警官的升职情况。其中男性和女性升职情况的详细数据如下表中所示  

In [None]:
'''
条件概率 5 
pandas dataframe d.pivot_table() aggfunc
pandas dataframe d.pivot_table() margins
'''
df_promoted = pd.DataFrame({'sex':['male','female','male','female'],
                            'Number':[288,36,672,204],
                            'Promoted':['Be promoted','Be promoted','Not promoted','Not promoted']})
promoted_pt =df_promoted.pivot_table(index='Promoted',columns='sex',aggfunc='sum',margins=True)
promoted_pt

In [None]:
NumberAll =promoted_pt.iloc[2,2]
joint_probability= promoted_pt.div(NumberAll)
joint_probability

Be promoted：A  
Not promoted：$A^c$  
female：W  
male：M
![4-5](../syn_pic/statistics_for_business_economics/tb4-5.png) 
由于上述概率值都是两个事件交的概率，这些概率被称为**联合概率**，表4-5汇总了警官升职情况的概率信息，称为联合概率表  
在联合概率表的边缘分别列出了每个事件的概率，即P(M)=0.80，P(W)=0.20，P(A)=0.27和$P(A^c)=0.73$。这些概率称做**边际概率**，因为它们总是位于联合概率表的边缘 5  
现在我们利用条件概率进行分析，计算某位警官是男性的条件下被升职的概率。由条件概率的符号，我们想要计算P(A|M)。P(A|M)是在事件M（某警官为男性）已经存在的条件下考虑事件A（得到升职）的概率  
由于表4-4中的值已给出了每一类警官的人数，所以这种方法应用起来十分简单。现在我们演示怎样直接通过事件概率，而不是使用表4-4的频数数据计算条件概率P  

In [None]:
'''
数据分析 常用代码 条件概率
'''
joint_probability.iloc[:,0:2].div(joint_probability.iloc[2,0:2])

由此可见，条件概率P(A|M)可以通过0.24/0.80来计算。由联合概率表4-5可知，0.24是事件A和M的联合概率，即$P(A\cap M)=0.24$。还注意到，0.80是事件“随机选择某警官为男性”的边际概率，即P(M)=0.80  
因此，条件概率P(A|M)可以通过求联合概率$P(A\cap M)$和边际概率P(M)的比率来计算。对于任何两个事件A和B，计算其条件概率一般公式如下 5  
<hr />

**条件概率**  
(4-7)$$P(A|B)=\frac{P(A\cap B)}{P(B)}$$
(4-8)$$P(B|A)=\frac{P(A\cap B)}{P(A)}$$
<hr />

图4-8的文氏图可以帮助我们对条件概率有一个直观的理解  
![4-8](../syn_pic/statistics_for_business_economics/4-8.png) 
<center>图4-8 条件概率$P(A|B)=\frac{P(A\cap B)}{P(B)}$</center>

在这一性别歧视的案例中，两个条件概率P(A|M)和P(A|W)是问题的关键，如果这两个概率值相等，那么有关性别歧视的投诉就是毫无根据的，但是如果这两个条件概率不相等，则会支持这样一种观点 5   
## 4.4.1 独立事件  
在上述例子中，我们看到，警官的性别大大影响了获得升职（事件A）的概率。特别地，由于$P(A|M) \ne P(A)$，我们可以说事件A和M是相关事件，即事件A（升职）的概率受到事件M（警官是男性）发生与否的影响  
类似地，由于$P(A|W) \ne P(A)$，我们可以说事件A和事件W是相关事件。如果事件A的概率不会由于事件M的存在而改变，$P(A|M) = P(A)$，则我们说事件A和事件M是**独立事件**，因此定义两个事件独立如下  
<hr />

**独立事件**  
两个事件A和B是相互独立的，如果  
P(A|B) = P(A)&nbsp; &nbsp; &nbsp; （4-9）  
或  
P(B|A) = P(B)&nbsp; &nbsp; &nbsp; （4-10）  
否则，两个事件是相关的 5  
<hr />

## 4.4.2 乘法公式
加法法则用来计算两事件并的概率，而乘法公式则是用来计算两事件交的概率。乘法公式是以条件概率的定义为基础的。利用式(4-7)和式(4-8)，求解$P(A\cap B)$，我们就得到**乘法公式**   
<hr />

**乘法公式**  
(4-11)  $$P(A\cap B) = P(B)P(A | B)$$
或  
(4-12)  $$P(A\cap B) = P(A)P(B | A)$$
<hr />

下面，我们举例说明如何应用乘法公式。假设某报纸的发行部已知在某社区有84%的住户订阅了该报纸的日报。令D表示事件“某住户订阅了日报”，有P(D)=0.84  
此外，还知道某个已经订阅的日报的住户订阅其周日特刊（事件S）的概率为0.75，即P(S|D)=0.75。某住户既订阅了日报又订阅了周日特刊的概率为多少？利用乘法公式，可以计算$P(S\cap D)$，得到 5  

In [None]:
'''
python str s.format() %
'''
crossP = 0.84*0.75
print('有{:.0%}住户既订阅了日报又订阅了周日特刊'.format(crossP))

在结束本节之前，我们再来看一下当事件是相互独立这一特殊情况下的乘法公式。因此，对两事件独立的特殊情况，利用式（4-11）和式（4-12）得到如下乘法公式  
(4-13)独立事件的乘法公式$$P(A\cap B)=P(A)P(B)$$  
为了计算两独立事件交的概率，我们只需简单地将它们相应地概率相乘。因此，独立事件地乘法公式提供了另外一种判断A和B是否独立的方法，即如果$P(A\cap B)=P(A)P(B)$，则A和B是独立的  
假设一名加油站的经理根据以往经验知道，有80%的顾客加油时使用信用卡，那么接下来两名顾客加油时都使用信用卡的概率为多少？  
在并无其他信息的情况下，我们有理由假设事件A和事件B是相互独立的，因此$P(A\cap B)=P(A)P(B)=0.80\times 0.80 =0.64$  
5  
总的来说，我们研究条件概率的动机在于事件之间常常是相关的  
## 注释
不要混淆了互斥事件和独立事件的概念。两个概率不为零的事件不可能即是互斥事件，又是独立事件。如果两个互斥的事件之一被确知已经发生，那么另一事件发生的概率将降为零。它们是相关的  
# 4.5 贝叶斯定理
在条件概率的讨论中，我们指出，在获得新的信息之后对概率进行修正是重要的概率分析手段  
通常，在开始我们的分析时，总是对所关心的特殊事件给出一个初始概率或**先验概率**的估计  
然后，当我们从样本、专项报告或产品检验中获取了获取了有关该事件的补充信息时，就能根据这些新增信息计算修正概率，并对先验概率值进行更新，得到所谓的**后验概率**  
**贝叶斯定理**提供了进行这种概率计算的一种方法。这一概率修正过程的步骤如图4-9所示  
![4-9_5](../syn_pic/statistics_for_business_economics/4-9.png) 
<center>图4-9 利用贝叶斯定理的概率修正</center>  

下面给出一个贝叶斯定理的一个应用实例。假设某制造企业从两个不同的供应商处购买零件。令$A_1$表示事件“零件来自供应商1”，$A_2$表示“零件来自供应商2”  
现在该企业有65%的零件购自供应商1，其余35%的零件购自供应商2。如果随机选取一个零件，则我们设定先验概率$P(A_1)=0.65$和$P(A_2)=0.35$  
零件的质量随货源的不同而不同，两个供应商零件质量的历史数据间下表  
如果令G表示事件“零件合格”，B表示事件“零件不合格”，则表4-6的信息给出如下条件概率的值  
计算这些联合概率的过程可以用称为概率树的树形图来描述（见图4-11)。概率树从左到右有两个分支，步骤1的每一分支的概率都是先验概率，步骤2的每一个分支的概率都是条件概率  
![4-11_5](../syn_pic/statistics_for_business_economics/4-11.png)

In [None]:
'''
数据分析 常用代码 联合概率
pandas DataFrame d.to_string()  

'''
supplier_products=pd.DataFrame({'Qualified products':[0.98,0.95],'Unqualified products':[0.02,0.05]},
                      index=['supplier1','supplier2'])
print("条件概率\n"+supplier_products.to_string())

supplier=pd.Series([0.65,0.35],index=['supplier1','supplier2'])
print("先验概率\n"+supplier.to_string())  

supplie_union=supplier_products.mul(supplier,axis=0)
print("联合概率\n"+supplie_union.to_string())  

现在假定购自两个供应商的零件都用于加工程序，一台机器因为遇到一个不合格零件而突然停机。那么在已知零件不合格的信息后，这个零件购自供应商1、2的概率分别是多少？  
令B表示“零件不合格”，我们现在求后验概率$P(A_1|B)$和$P(A_2|B)$。根据条件概率公式，我们有(4-14)$$P(A_1|B)=\frac{P(A_1\cap B)}{P(B)}$$  
从概率树中可见(4-15) 5$$P(A_1\cap B)=P(A_1)P(B|A_1)$$
由于事件B只在两种情况下才发生，即$A_1\cap B$ 和$A_2\cap B$，因此有(4-16)  
$$P(B)=P(A_1\cap B)+P(A_2\cap B)=P(A_1)P(B|A_1)+P(A_2)P(B|A_2)$$  
将式（4-15）和式（4-16）带入式（4-14）中，对两个事件的情形，我们得到贝叶斯定理  
<hr />

**贝叶斯定理(两事件的情形)**  
（4-17）
$$P(A_1|B)=\frac{P(A_1)P(B|A_1)}{P(A_1)P(B|A_1)+P(A_2)P(B|A_2)}$$
（4-18） 5
$$P(A_2|B)=\frac{P(A_2)P(B|A_2)}{P(A_1)P(B|A_1)+P(A_2)P(B|A_2)}$$
<hr />

在这个应用中，开始时，随机选取的零件购自供应商1的概率为0.65。但是，在给定了零件不合格的信息以后，则这个零件购自供应商1的概率降低到0.4262  
贝叶斯定理通常应用于下面的情况，即我们希望计算后验概率的那些事件是互斥的，且它们的并构成了整个样本空间  
对于n个互斥事件$A_1,A_2,\cdots,A_n$，它们的并使整个样本空间，可以利用下面的贝叶斯定理计算任何后验概率$P(A_i|B)$  
<hr />

**贝叶斯定理**(4-19)$$P(A_i|B)=\frac{P(A_i)P(B|A_i)}{P(A_1)P(B|A_1)+P(A_2)P(B|A_2)+
\cdots+P(A_i)P(B|A_i)}$$
<hr />

## 4.5.1 表格法
表格法有助于贝叶斯定理的计算。表4-7使零件供应商问题的表格法，计算按以下步骤完成 5  
1. 准备以下3列数据：  
    1. 需要计算互斥事件$A_i$的后验概率
    2. 事件$A_i$的先验概率$P(A_i)$
    3. 给定每个事件A_i，新信息事件B的条件概率$P(B|A_i)$  

2. 在第4列，用乘法公式计算每一事件和新信息B的联合概率$P(A_i\cap B)$   
3. 对第4列的联合概率加总，其和是信息B的概率P(B) 5  
4. 在第5列，利用条件概率的基本关系计算后验概率

![4-7](../syn_pic/statistics_for_business_economics/tb4-7.png) 
<center>表4-7 两个供应商问题的贝叶斯定理计算的表格法</center>  


In [None]:
'''
数据分析 常用代码 贝叶斯定理 两事件
pandas dataframe d.mul() axis
'''
def bayes(prior,conditional):
    '''
    对于A、B两事件的情形
    prior:series 先验概率，行索引为事件A
    conditional:dataframe 针对事件A已发生的条件概率，行索引为事件A，列索引为事件B
    return：dataframe 后验概率，针对事件B已发生的条件概率
    '''
    union=conditional.mul(prior,axis=0)
    return union.div(union.sum())

bayes(supplier,supplier_products)

## 注释
1. 贝叶斯定理广泛应用于决策分析。先验概率经常是由决策者主观估计的。在选择最佳决策时，会在取得样本信息后计算后验概率以供决策者使用  
2. 任何事件和它的补都是互斥的，它们的并是整个样本空间。因此，在计算某事件和它的补的后验概率时，贝叶斯定理总是适用的 5  

# 小结
在本章我们介绍了概率的基本概念，并举例说明如何利用该v了分析提供有助于决策的信息。我们描述了应该如何取理解作为对事件发生可能性的数值度量的概率  
此外我们看到，在计算一个事件的概率时，既可以将构成该事件的试验结果（样本点）的概率相加，也可以适用由概率的加法公式、条件概率、乘法公式确定的关系  
我们还演示了在获得新信息的情况下，如何利用贝叶斯定理来得到修正的概率或后验概率  
# 关键术语
**概率**  一个事件将会发生的可能性的数值度量  
**试验**  产生明确结果的过程  
**样本空间**  所有试验结果的集合  
**样本点**  样本空间的一个元素。一个样本点代表一个试验结果  
**树形图**  一种有助于视觉化多步试验的图形表示 5  
**概率分配的基本要求**  概率分配方式必须满足两个基本要求：
1. 分对于任意一个试验结果$E_i$，必须有$0\le P(E_i)\le1 $；  
2. 对所有n个试验结果，必须有$P(E_i)+P(E_2)+\cdots+P(E_n)=1$  

**古典法**  一种概率分配的方法，适用于所有的试验结果是等可能发生的情形  
**相对频数法**  一种概率分配的方法，适用于试验被大量的重复，并且数据可用来估计试验结果发生次数的比例的情形 5  
**主观法** 一种以主观判断为依据的概率分配方法  
**事件** 一个样本点的集合  
**事件A的补** 所有不属于事件A的样本点组成的事件  
**文氏图** 一种抽象显示样本空间和有关事件运算的图形表示，在图中用矩形表示样本空间，用样本空间里面的圆形表示事件  
**事件A和事件B的并**  由所有属于事件A或属于B的或同时属于二者的所有样本点构成的事件，记作$A\cup B$ 5  
**加法公式**  用于计算两事件并的概率的概率法则。它是$P(A\cup B)=P(A)+P(B)-P(A\cap B)$。对于互斥事件，$P(A\cap B)=0$，在这种情形下，加法公式简化为$P(A\cup B)=P(A)+P(B)$  
**互斥事件**  没有共同样本点的事件，即$A\cap B$为空集，并且$P(A\cap B)=0$  
**条件概率**  给定的另一个事件已发生的条件下，一个事件发生的概率。给定事件B，事件A的条件概率是$P(A|B)=P(A\cap B)/P(B)$  
**联合概率**  两个事件同时发生的概率，即两个事件交的概率  
**边际概率**  联合概率表的边缘的值，表示每个事件各自发生的概率 5  
**独立事件**  两个事件A和B，有$P(A|B)=P(A)$或$P(B|A)=P(B)$，即事件没有互相影响  
**乘法公式**  用于计算两事件交的概率的概率法则。它是$P(A\cap B) = P(B)P(A | B)$或者
$P(A\cap B) = P(A)P(B | A)$。对于独立事件，公式简化为$P(A\cap B) = P(A)P(B)$  
**先验概率**  事件概率的初始估计  
**后验概率**  以其他信息为依据，事件修正后的概率  
**贝叶斯定理**  一种用来计算后验概率的方法 5  
# 重要公式
组合计算法则(4-1)$$C^N_n=\left(\begin{matrix}N \cr n\end{matrix}\right)=\frac{N!}{n!(N-n)!}$$  
排列计数法则(4-2)$$P_n^N=n!\left(\begin{matrix}N \cr n\end{matrix}\right)=\frac{N!}{(N-n)!}$$  
利用事件的补计算概率(4-5)$$P(A)=1-P(A^c)$$  
加法公式(4-6)$$P(A\cup B)=P(A)+P(B)-P(A\cap B)$$
条件概率  
5 (4-7)$$P(A|B)=\frac{P(A\cap B)}{P(B)}$$
(4-8)$$P(B|A)=\frac{P(A\cap B)}{P(A)}$$
乘法公式  
(4-11)  $$P(A\cap B) = P(B)P(A | B)$$ 
(4-12)  $$P(A\cap B) = P(A)P(B | A)$$
独立事件的乘法公式(4-13)$$P(A\cap B) = P(A)P(B)$$
贝叶斯定理(4-19)$$P(A_i|B)=\frac{P(A_i)P(B|A_i)}{P(A_1)P(B|A_1)+P(A_2)P(B|A_2)+
\cdots+P(A_i)P(B|A_i)}$$

# 案例4-1
**Hamilton县的法官**  
表4-8给出了由中级诉讼庭、民事庭、市政庭的38名法官处理过的182908件案件的结果  
报纸进行该研究的目的在于评估法官的业绩。上诉通常是由法官的错误引起的，这家报纸想要指导，哪些法官做了很好的工作，哪些法官犯了过多的错误  
**管理报告**  
准备一份报告对法官的业绩进行排名。报告要包含三个法庭中上诉和推翻原判的可能性分析。报告至少应包括以下内容：  
1. 在三个不同法庭中，案件被上诉和推翻原判的概率  
2. 每个法官所处理的案件被上诉的概率  
3. 每个法官所处理的案件被推翻原判的概率 5  
4. 对每名法官，当其处理的案件已被上诉时，最终推翻原判的概率  
5. 对每个法庭的法官进行排名。阐述你用于评定排名的标准，提供了一个可供选择的理由  

In [None]:
judge=pd.read_csv('../pydata-book-master/statistics_for_business_economics/ch04/Judge.csv')
judge.head()

In [None]:
'''
需求1
pandas dataframe d.groupby()  
pandas GroupBy g.sum()  
pandas dataframe d.div() axis
'''
judge_by_Court=judge.groupby('Court').sum()
judge_byCourt_prob=judge_by_Court.div(judge_by_Court['Disposed'],axis=0)
judge_byCourt_prob

In [None]:
'''
需求2、3
'''
judge_byJudge=judge.groupby('Judge').sum()
judge_byJudge_prob=judge_byJudge.div(judge_byJudge['Disposed'],axis=0)
judge_byJudge_prob

In [None]:
'''
需求4
'''
judge_byJudge_prob['Reversed'].div(judge_byJudge_prob['Appealed'])

In [None]:
'''
需求5
pandas General functions pd.crosstab()
pandas series s.dropna()  
pandas series s.sort_values()
'''
DOT='*'*10
judgeByCourt=pd.crosstab(index=judge['Judge'],columns=judge['Court'],
            values=judge['Reversed'].div(judge['Disposed']),
           aggfunc='sum')
for i in judgeByCourt:
    print(DOT+i+DOT)
    print(judgeByCourt[i].dropna().sort_values().to_string())