In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 实践中的统计
花旗银行是花旗集团的一个分支机构，它提供全方位的金融服务，包括支票和储蓄账户、贷款和抵押、保险以及投资服务  
花旗银行是美国第一家引进自动提款机（ATM）的金融机构。目前，客户80%的交易是通过ATM完成的  
花旗银行信用卡中心向随机到达的客户提供服务。定期研究CBC能力可以分析客户的等待时间，以决定是否需要增加新的ATM  
花旗银行收集的数据表明，随机到达的客户人数服从著名的概率分布——泊松分布，利用泊松部分，花旗银行可以计算任意时间段内到达CBC的客户人数的概率，从而决定所需ATM的数目  
例如，令x表示1分钟内到达的客户人数。假定到达某一CBC的客户人数平均每分钟2人，下表是在1分钟内到达的客户人数的概率 5  

In [None]:
pd.DataFrame({'x':[0,1,2,3,4,5],
              'probability':[0.1353,0.2707,0.2707,0.1804,0.0902,0.0527]})

本章主要介绍离散型概率分布，比如花旗银行使用的分布。除柏松部分之外，我们还要介绍二项分布和超几何分布，并说明如何利用这些分布得到有用的概率信息  
在本章中我们通过介绍随机变量和概率分布的概念，继续对概率论进行研究  
# 5.1 随机变量
在第4章我们定义了试验的概念以及与之相联系的试验结果。随机变量提供了用数值描述试验结果的方法  
实际上，随机变量将每个可能出现的试验结果赋予一个数值，随机变量的值取决于试验结果。随机变量根据取值可分为离散型或连续型 5  
<hr />

**随机变量**  
随机变量是对一个试验结果的数值描述  
<hr />

## 5.1.1 离散型随机变量 
可以取有限多个数值或无限可数多个数值（如0，1，2，……）的随机变量称为**离散型随机变量**  
例如，考虑一名会计参加注册会计师CPA开始，该考试共有4门课程，令随机变量x为通过CPA考试的课程数，则x是一个离散型随机变量，因为它的取值分别是0，1，2，3或4，是有限个  
尽管很多试验结果都可以自然而然地用数值来表示，但有些试验结果却不能  
例如在一个调查电视关重能否回忆起最近看到的一则电视广告的信息试验中，有两种可能的试验结果：观众能回忆起信息和观众不能回忆起信息 5  
定义离散型随机变量如下：如果观众不能回忆起信息，则令x=0；如果观众能回忆起信息，则令x=1  
表5-1给出了其他一些离散型随机变量的例子  
<center>表5-1 离散型随机变量的例子</center>

|试验|随机变量(x)|随机变量的可能值|
|-|-|-|
|与5位客户洽谈|下订单的客户数|0，1，2，3，4，5|
|检验一批50台收音机的货物|损坏的收银机数|0,1,2,…,49,50|
|一家餐馆营业一天|顾客数|0,1,2,3,…|
|销售一辆汽车|顾客性别|男性为0，女性为1|

## 5.1.2 连续型随机变量  
可以在某一区间或多个区间内任意取值的随机变量称为**连续型随机变量**。度量时间、重量、距离、温度时，某试验结果可以用连续型随机变量来描述 5  
<center>表5-2 连续型随机变量的例子</center>

|试验|随机变量(x)|随机变量的可能值|
|-|-|-|
|银行开业|两客户到达的时间间隔（单位：分钟）|x≥0|
|填充一个饮料罐(最大容量为12.1盎司)|盎司数|0≤x≤12.1|
|新建一座图书馆|六个月后工程完成进度|0≤x≤100|
|检验一次新的化学反应过程|反应发生的温度（最低150°F,最高212°F）|150≤x≤212|

## 注释
一种确定随机变量是离散型还是连续型的方法，是把随机变量的值看做一条线段上的点  
任意选择随机变量的两个值，假如线段上这两点之间的所有点都可能使随机变量的取值，则该随机变量就是连续型的 5  

# 5.2 离散型概率分布
随机变量的**概率分布**是描述随机变量取不同值的概率。对于离散型随机变量x，概率分布通过**概率函数**来定义，记作f(x)。概率函数给出了随机变量每一取值的概率  
假设我们选择DiCarlo公司一天的经营情况做试验，定义随机变量x为一天中销售的汽车数。从历史数据，我们知道x是一个随机变量，可取值0,1,2,3,4或5。用概率函数符号f(0)表示销售0辆汽车的概率  
对随机变量的其他值继续使用这种方法，我们计算f(2),f(3),f(4),f(5)的值如表5-3所示，即DiCarlo公司一天的汽车销售量的概率分布  

In [None]:
dicarlo=pd.Series([0.18,0.39,0.24,0.14,0.04,0.01])
dicarlo

定义一个随机变量及其概率分布的最大好处在于，一旦知道概率分布，决策者确定各种感兴趣事件的概率就变得相对简单了 5  
任一离散型随机变量的概率函数必须满足式（5-1）式（5-2）两个条件  
<hr />

**离散型概率函数的性质**  
(5-1)$$f(x)\ge 0$$
(5-2)$$\Sigma{f(x)=1}$$
<hr />

表5-3满足上面两式，于是，DiCarlo公司的概率函数确实式离散型概率函数  
我们也可以用图形来表示概率分布。如下图 5  

In [None]:
'''
matplotlib Pyplot function overview plt.bar() width
matplotlib Pyplot function overview plt.bar() edgecolor/color
pandas series s.plot.bar()
matplotlib Pyplot function overview plt.xlim()
matplotlib Pyplot function overview plt.ylim()
matplotlib Pyplot function overview plt.xticks()
matplotlib Pyplot function overview plt.yticks()
matplotlib text Text.rotation
matplotlib Pyplot function overview plt.xlabel()
matplotlib Pyplot function overview plt.ylabel()
'''
dicarlo.plot.bar(width=0.02,color='black')
plt.xlim(-1,6)
plt.ylim(0,0.5)
plt.xticks(rotation=360)
plt.xlabel('x Car sales in a day')
plt.ylabel('f(x) probability')
plt.title('Figure 5-1 Probability distribution of car sales volume of DiCarlo company in one day')
plt.show()