In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 实践中的统计
Small Fry 设计公司是一家设计和进口婴儿产品的公司，产品包括泰迪熊、悬挂饰物、音乐玩具，在美国设计，中国生产  
Small Fry 设计公司使用独立的销售代理，目前Small Fry设计公司的产品遍布美国1000多个零售批发商店  
在这家公司的日常运营中个，现金流量管理是最重要的经营活动之一，现金流量管理的一个关键因素是对应收账款的分析和控制  
公司设置了以下目标：未付款发票的平均期限不应超过45天，超过60天的未付款发票的资金数额不应超过所有应收账款总额的5%  
在最近对应收账款的汇总中，该公司使用了下面的描述统计量来衡量未付款发票的期限 5  

|统计量|期限|
|--|--|
|平均数|40天|
|中位数|35天|
|众数|31天|

对这些统计量的解释表明，一张发票的平均数或平均期限是40天，中位数表明有一半的发票已经超过35天没有付款，最常见的发票期限是众数31天  
统计汇总还显示出应收账款总额中只有3%超过60天，基于这些统计信息，管理人员很满意，因为应收账款和收入现金流都处于控制之中  
在本章中，你将学会如何计算和理解Small Fry设计公司使用过的一些描述统计量，这些数值策略将有助于读者对数据的理解和解释  
在本章中，我们将给出集中描述统计学的数值方法，它们提供了汇总数据的其他可选方法 5  
首先，我们对只包含一个变量的数据集建立数值汇总的度量方案，当数据集包含的变量不止一个时，可以对每个变量分布计算同样的数值度量，然而，在两个变量的情况下，我们还将建立变量间的相互关系的度量  
本章我们将介绍位置、离散程度、形态和相关程度的数值度量，如果数据来自样本，计算的度量称为**样本统计量**，如果数据来自总体，计算的度量称为**总体参数**，在统计推断中，样本统计量被称为是相应总体参数的**点估计量**    

# 3.1 位置的度量
## 3.1.1 平均数
在位置的数值度量中，最重要的大概要数变量的**平均数**或平均值了，平均数提供了数据中心位置的度量，如果数据来自样本，平均数用$\bar x$表示，如果数据来自某个总体，则平均数用希腊字母$\mu$表示  
**样本平均数**(3-1) $$\bar{x}=\frac{\Sigma x_i}{n}$$  
在式（3-1）中，分子是n个观测值的数值之和，即$\Sigma x_i=x_1+x_2+\cdots+x_n$  5  
而计算总体平均数的公式也基本相同，但是我们使用不同的符号表示我们是对整个总体计算的  
**总体平均数**(3-2) $$\mu =\frac{\Sigma x_i}{N}$$  

In [None]:
'''
pandas Input/Output pd.read_csv() index_col
pandas dataframe d.mean()
pandas dataframe d.to_string()
'''
d1 = pd.read_csv('../pydata-book-master/statistics_for_business_economics/ch03/2012StartSalary.csv',index_col=0)
print(d1.head().to_string())
d1.mean()

## 3.1.2 中位数
**中位数**是对变量中心位置的另一种度量，将所有数据按升序（从小到大的顺序）排列后，位于中间的数值即为中位数
1. 对于奇数个观测值，中位数是中间的数值  
2. 对于偶数个观测值，中位数是中间两个数值的平均值 5  

虽然在度量数据的中心位置时，最常用的是平均数，但在某些情况下，使用中位数则更为合适（当异常值会夸大平均数时），平均数往往会受到异常大或异常小的数值影响  
我们可以概况地说，每当数据集含有极端值时，中位数往往更适合于度量数据的中心位置  
## 3.1.3 众数
第三种位置度量是**众数**，众数的定义如下：众数是数据集中出现次数最多的数值  
有时出现次数最大的数值可能有两个或更多，这种情况下，如果数据集恰好有两个众数，我们称数据集是双众数的 5  
如果数据集有两个或两个以上的众数，我们称数据集是多众数的，多众数情况下，几乎从不报告众数，因为列出三个或以上众数对描述数据位置并不能起多大作用  
## 3.1.4 百分位数
**百分位数**提供了数据如何散步在从最小值到最大值的区间上的信息，第p百分位数是满足下列条件的一个数值：至少有p%的观测值小于或等于该值，且至少有（100-p)%的观测值大于或等于该值  
下面是计算第p百分位数的步骤
<hr />

**计算第p百分位数**  
1. 把数据按升序排列（从小到大的顺序） 5  
2. 计算指数$\mathit{i}$   
    $$\mathit{i}=\left(\frac{p}{100}\right)n$$
    式中，p是所求的百分位数，n是观测值的个数  
3. 第3步：   
    1. 若$\mathit{i}$不是整数，则向上取整，大于$\mathit{i}$的下一个整数表示第p百分位数的位置
    2. 若$\mathit{i}$是整数，则第p百分位数是第$\mathit{i}$项和第$(\mathit{i}+1)$项数据的平均值
    
## 3.1.5 四分位数
人们经常需要将数据划分为四部分，每一部分大约包含1/4或25%的观测值，图3-1显示了一个被分为四部分的数据集，分割点称为四分位数，其定义是  
$Q_1=$第一四分位数，或第25百分位数  
$Q_2=$第二四分位数，或第50百分位数（也是中位数）  
$Q_3=$第三四分位数，或第75百分位数  
5  

In [None]:
'''
中位数
pandas dataframe d.median()
pandas series s.to_string() 
pandas dataframe d.copy()  
pandas series s.round()
'''
print('median' +'\n' + d1.median().to_string())
print('mean' +'\n' + d1.mean().to_string())
d2 =d1.copy()
d2.iloc[10,:]=10000
print('median' +'\n' +d2.median().to_string())
print('mean' +'\n' +d2.mean().round(1).to_string())

'''
众数
pandas dataframe d.mode()
'''
print('mode1' +'\n' + d1.mode().to_string())
d2.iloc[10,:]=3850
print('mode2' +'\n' + d2.mode().to_string())

'''
百分位数
pandas dataframe d.quantile()
'''
print('0.85 quartiles' +'\n' +d1.quantile(q=0.85).to_string())
print('0.5 quartiles' +'\n' +d1.quantile(q=0.5).to_string())
'''
四分位数
'''
print('0.25 quartiles' +'\n' +d1.quantile(q=0.25).to_string())
print('0.75 quartiles' +'\n' +d1.quantile(q=0.75).to_string())

## 注释
当数据集中含有极端值时，使用中位数作为中心位置度量比平均数更合适  
有时，当存在极端值时，我们用到调整平均数，从数据集中删除一定比例的最大值和最小值，然后计算剩余数据的平均值，就能得到调整平均数 5  

In [None]:
'''
数据分析 常用代码 调整平均数
pandas series s.quantile()
pandas series s.gt()
pandas series s.lt()
pandas series s.loc[]
pandas series s.mean()
pandas series 布尔运算
'''
pct = 0.05 # 删除5%比例的最大值和最小值
s1 = d2['Monthly Starting Salary ($)']
s2= s1.loc[s1.gt(s1.quantile(pct)) & s1.lt(s1.quantile(1-pct))]
s2.mean()

# 3.2 变异程度的度量
除了位置的度量以外，人们往往还需要考虑变异程度亦即离散程度的度量  
如图3-2所示，尽管两个供应商平均交货时间都是10天，但他们在按时交货方面拥有不同的可信度
![3-2](be/3-2.png)  
对大多数的采购代理商来说，像Dawson供应公司这样变异程度较小的供应商，才是较理想的供应商  
## 3.2.1 极差
**极差** 是一种最简单的变异程度的度量 5  
<hr />
极差 = 最大值 - 最小值
<hr />

尽管极差是最容易计算的变异程度的度量，但它很少单独用来度量变异程度，原因是极差仅以两个观测值为依据，因此极易受到极端值的影响  
## 3.2.2 四分位数间距
**四分位数间距** 作为变异程度的一种度量，能够克服极端值的影响，四分位数是中间的50%数据的极差
<hr />

**四分位数间距**(3-3) $$IQR=Q_3-Q_1$$ 
<hr />

## 3.2.3 方差
**方差**是用所有数据对变异程度所做的一种度量。方差依赖于每个观测值($x_i$)与平均值之间的差异，每个观测值($x_i$)与平均值(对样本而言是$\bar{x}$，对总体而言是$\mu$)的差成为平均数的离差 5  
对于样本，平均数的离差是($x_i-\bar{x}$)；对于总体，则是($x_i-\mu$)。计算方差时，需要将平均数的离差平方  
如果数据来自总体，则离差平方的平均值称为**总体方差**，总体方差用希腊字母$\sigma ^2$表示  
<hr />

**总体方差** (3-4) $$\sigma ^2 = \frac{\Sigma(x_i-\mu)^2}{N}$$ 
<hr />

在大多数的统计应用中，需要分析样本数据，当我们计算样本方差时，更希望用它来估计总体方差$\sigma ^2$，用$s^2$表示样本方差定义如下：
<hr />

**样本方差** (3-5) $$s^2 = \frac{\Sigma(x_i-\bar{x})^2}{n-1}$$ 
<hr />

5  
我们注意到，样本方差的单位往往会引起人的混淆。方差的平方单位使得人们对于方差的数值很难找到直观的理解和诠释。我们建议你把方差作为比较两个或两个以上变量变异程度的有用工具  

## 3.2.4 标准差
我们定义**标准差** 为方差的正平方根，沿用前面的样本方差和总体方差的记号，我们用s表示样本标准差，用$\sigma$表示总体标准差  
<hr />

**标准差** $$（3-6）样本标准差s = \sqrt{s^2}$$$$（3-7）总体标准差\sigma = \sqrt{\sigma^2}  $$
<hr />

标准差与原始数据的度量单位相同，标准差更容易与平均数等其他统计量进行比较，这是由于它们的单位与原始数据是相同的 5  

## 3.2.5 标准差系数
在某些情况下，我们可能对标准差相对于平均数大小的描述统计量感兴趣，这一度量称为标准差系数。它通常表示为百分数  
<hr />

**标准差系数**（3-8）$$\left(\frac{标准差}{平均数}\times 100\right)\%$$
<hr />

一般地，在变量的标准差和平均数都不相同时，比较它们的变异程度，标准差系数是一个有用的统计量  
## 注释
1. 统计软件包和电子表格能用来计算本章所介绍的描述统计量
2. 标准差通常用来度量与股票和股票基金投资相关的风险 5  
3. 当使用计算器计算方差和标准差时，对样本平均数和平方离差进行四舍五入处理，可能会引起方差或标准差的计算误差，为了减少舍入误差，我们建议在计算的中间步骤至少保留6位有效数字  
4. 计算样本方差的另一个公式是：
    $$s^2=\frac{\Sigma{x^2_i} -n \bar{x}^2}{n-1}$$

In [None]:
'''
极差
pandas series s.max()
pandas series s.min()
python Built-in Functions str()
'''
Extreme_difference=s1.max()-s1.min()
print("Extreme_difference = " + str(Extreme_difference))

'''
数据分析 常用代码 四分位数间距
pandas series s.quantile()
numpy Mathematical functions np.absolute()  
'''
Quartile_spacing=np.abs(s1.quantile(q=0.75)-s1.quantile(q=0.25))
print("Quartile spacing = " + str(Quartile_spacing))

'''
方差
numpy Mathematical functions np.around()
'''
variance = np.around(s1.var(),1)
print("variance = " + str(variance))

'''
标准差
pandas series s.std()
'''
standard_deviation = np.around(s1.std(),1)
print("standard_deviation = " + str(standard_deviation))

'''
数据分析 常用代码 标准差系数
'''
sdc = np.around(s1.std()/s1.mean(),2)
print("Standard deviation coefficient = " + str(sdc))

# 3.3 分布形态、相对位置的度量以及异常值的检测
我们已经讲述了集中对数据位置和变异程度的度量方法，但对分布形态的度量往往也是重要的，第2章的直方图对分布的形态提供了一种很好的图形描述，分布形态的一个重要的数值度量被称为偏度  
## 3.3.1 分布形态
图3-3是根据相对频数分布绘制的4个直方图，如果数据是对称的，则偏度为0  
![3-3](be/3-3.png)  
对于一个对称的分布，平均数和中位数是相等的，当数据的偏度是正值时，通常平均数比中位数要大；当数据的偏度是负值时，通常平均数比中位数要小  
当数据严重偏斜时，中位数时位置的首选度量 5  

In [None]:
'''
偏度 5
pandas series s.skew()
'''
skewness=np.around(s1.skew(),2)
print("skewness = " + str(skewness))

## 3.3.2 z-分数
对一个数据集，除了位置，变异程度和分布形态的度量外，我们还对数据集中的数值的相对位置有兴趣，相对位置的度量值能帮助我们确定一个特定的数值据平均数有多远  
利用平均数和标准差，我们可以确定任何观测值的相对位置，与任何一个数值$x_i$的有关的另一个数值称为$x_i$的**z-分数**。式（3-9）是计算每个$x_i$的z-分数的公式  
<hr />

**z-分数**（3-9）$$z_i=\frac{x_i-\bar{x}}{s}$$
<hr />

z-分数往往被称为是标准化数值。z-分数$z_i$与平均数$\bar{x}$的距离是$z_i$个标准差。当观测值小于平均数，z-分数将小于零。z-分数等于零，则表示观测值等于平均数 5  
任何观测值的z-分数能被认为是数据集中观测值相对位置的度量  

In [None]:
'''
数据分析 常用代码 z-分数
pandas dataframe d.copy()
pandas series s.sub()
pandas series s.round()
pandas dataframe d.to_string()
'''
df_zscore=d2.copy()
df_zscore['Mean deviation']=s1.sub(s1.mean())
df_zscore['z-score']=df_zscore['Mean deviation'].div(s1.std()).round(2)
df_zscore['Mean deviation']=df_zscore['Mean deviation'].round(1)
print('*'*20+'\n'+'z-score:\n')
print(df_zscore.to_string())

## 3.3.3 切比雪夫定理
**切比雪夫定理**能使我们指出与平均数的距离在某个特定个数的标准差之内的数据值所占的比例  
<hr />

**切比雪夫定理**与平均数的距离在z个标准差之内的数据值所占比例至少为（$1-1/z^2$），其中z是大于1的任意实数  
<hr />

当z=2,3和4个标准差时，该定理的一些含义如下：至少x%的数值与平均数的距离在z个标准差之内 5  
+ z=2 then x=75%
+ z=3 then x=89%
+ z=4 then x=94%

应用切比雪夫定理的一个实例是，假设某大学100名学生商务统计课期中考试的平均成绩为70分，标准差为5分，那么有多少学生的考试成绩在60-80分？    
利用定理：我们指导至少有75%的观测值与平均数的距离在2个标准差之内；除此之外还是推导大数定理的重要基础  

In [None]:
'''
数据分析 常用代码 切比雪夫定理
pandas series s.abs()
pandas series s.gt()
pandas series s.pow()
'''
df_chebyshev = df_zscore[df_zscore['z-score'].abs().gt(1)].copy()
df_chebyshev['chebyshev_proportion']=(1-1/(df_chebyshev['z-score'].pow(2))).mul(100).round(1)
print('*'*20+'\n'+'Chebyshev:\n')
print(df_chebyshev.to_string())

## 3.3.4 经验法则
切比雪夫定理的优点之一就是它适用于任何数据集而不论其数据分布的形态。但是，在实际应用中，人们发现许多数据集具有类似图3-4所示的对称的峰形或钟形分布。  
当数据被认为近似于这种分布时，就可以运用**经验法则**来确定与平均数的距离在某个特定个数的标准差之内的数据值所占的比例 5  
<hr />

**经验法则**对于具有钟形分布的数据：  
+ 大约68%的数据值与平均数的距离在1个标准差之内
+ 大约95%的数据值与平均数的距离在2个标准差之内
+ 几乎所有的数据值与平均数的距离在3个标准差之内

<hr />




In [None]:
'''
数值方法 经验法则 应用
pandas series s.skew()
pandas series s.count()
python Built-in Functions enumerate()
pandas series s.le()
pandas series s.ge()
python str s.format() f
python str s.format() %
'''
print('*'*20+'\n'+'Rule of thumb:\n')
Se_bellDis = pd.Series(np.random.randn(200)*100)
print("skewness = " + str(np.around(Se_bellDis.skew(),2)))
dis_std = Se_bellDis.std()
dis_mean = Se_bellDis.mean()
dis_num = Se_bellDis.count()

thumb_list=[0.68,0.95,1.0]
for i,n in enumerate(thumb_list):
    std=dis_std*(i+1)
    dis_min = dis_mean-std
    dis_max = dis_mean+std
    act_num = Se_bellDis[(Se_bellDis.le(dis_max)) & (Se_bellDis.ge(dis_min))].count()
    print('range:[{:.1f},{:.1f}]'.format(dis_min,dis_max))
    print('act_pct: {:.0%}'.format(act_num/dis_num))
    print('thumb_pct: {:.0%}'.format(n))
    

## 3.3.5 检测异常值  
有时数据集中有一个或多个数值异常大或异常小的观测值，这样的极端值称为**异常值**  
异常值可能是一个被错误记录或包含的数据值，如果是这样，则可以在进一步分析之前把它更正或删除 5  
异常值也可能就是一个反常的数据值，它被正确地记录并且术语数据集，在这种情况下，它应该被保留  
标准化数值（z-分数）可以用来确认异常值，经验法则告诉我们，对于具有钟形分布的数据，几乎所有的数据值与平均值的距离都在3个标准差之内  
因此，在利用z-分数检测异常值时，我们建议把z-分数小于-3或大于+3的任何数值都视为异常值，然后对它们的准确性再次进行检查，以确定它们是否属于数据集  

## 注释  
1. 切比雪夫定理可应用于任何数据集，并能够估计与平均数的距离在一定个数的标准差之内的最少数量的数据项。如果已知数据集近似呈现钟型分布，则有更多的数据项在此范围之内 5  
2. 在对数据集进行分析之前，统计人员经常会对数据进行各种检查，以确保其有效性。检测异常值是检查数据有效性的一个工具  

In [None]:
'''
数据分析 常用代码 检测异常值
数据分析 常用代码 z-分数
python Built-in Functions list()
'''
#生成异常数据
class_size=pd.Series(list(np.random.randint(low=32,high=54,size=12))+[1000],name='class_size')

#z-分数
df_Outliers=pd.DataFrame(class_size)
df_Outliers['Mean deviation']=class_size.sub(class_size.mean())
df_Outliers['z-score']=df_Outliers['Mean deviation'].div(class_size.std()).round(2)
df_Outliers['Mean deviation']=df_Outliers['Mean deviation'].round(1)

#检测异常值
df_Outliers['Outliers']= df_Outliers['z-score'].abs().gt(3)

print('*'*20+'\n'+'Outliers:\n')
print(df_Outliers.to_string())

# 3.4 探索性数据分析
在第2章我们介绍了作为一种探索性数据分析技术的茎叶显示。探索性数据分析使我们能够用简单的算数和易画的图形来汇总数据  
## 3.4.1 五数概括法
在**五数概括法**中，使用下面5个数来汇总数据：
1. 最小值
2. 第一四分位数
3. 中位数
4. 第三四分位数
5. 最大值

In [None]:
'''
五数概括法
pandas dataframe d.round() 
'''
print('*'*20+'\n'+'five-number summary:\n')
print(d1.describe().round(1).to_string())

## 3.4.2 箱型图
**箱型图**是基于五数概括法的数据的一个图形汇总。图3-5是起始月薪数据的箱型图。绘制箱型图的步骤如下： 5  
1. 画一个箱体，这个箱体包含了中间的50%的数据
2. 在箱体上中位数的位置画一条垂线  
3. 利用四分位数间距$IQR=Q_3-Q_1$，设定界限的位置。箱型图的界限在$Q_1$左侧的1.5个IQR处和在$Q_3$右侧的1.5个IRQ处。界限以外的数据被认为是异常值  
4. 图3-5中的虚线被称作**触须线**，触须线从箱体的边界一直画到步骤3计算出的界限内的原始数据的最小值和最大值处。对于起薪数据，触须线两个端点分布是3310和3730。  
5. 最后，每个异常值的位置用符号“*”来标出。在图3-5中，我们看到有一个异常值3925。 5  

![3-5](be/3-5.png)
图3-5包括了表示下限和上限位置的线条。虽然总是需要计算界限，但通常情况下，箱型图中并不画出它们。图3-6是起薪箱型图的一般形状  
![3-6](be/3-6.png)
为了比较商学院各专业毕业生的月起薪情况，图3-7是会计、金融、信息系统、管理和市场营销专业的Minitab箱型图。  
注意专业在横轴上，每一个箱型图出现在相对专业的纵轴上，在对两个或多个组进行对比时，以这种方式展示箱型图是一种很好的图形技术 5  
对于图3-7各专业起薪的箱型图，我们注意到：
+ 会计专业起薪较高；而管理和市场营销专业的起薪较低  
+ 根据中位数，会计、信息系统有相似和较高的中位数，金融次之，而管理和市场营销显示有较低的中位数
+ 在会计、金融、管理和市场营销专业中存在高起薪的异常值 5
+ 金融起薪的变异性最小，会计起薪的变异性最大 

## 注释
1. 探索性数据分析的一个优点就是使用简便，且只需进行少量的数据计算   

In [None]:
'''
数据分析 常用代码 箱型图
pandas dataframe d.boxplot()
pandas dataframe d.boxplot() by
pandas dataframe d.boxplot() fontsize
'''
print('*'*20+'\n'+'Box diagram:\n')
d1.boxplot()
plt.show()

d3 = pd.read_csv('../pydata-book-master/statistics_for_business_economics/ch03/2012MajorSalary.csv')
print(d3.head().to_string())
d3.boxplot(by='Major',figsize=(12,7))
plt.show()

# 3.5 两变量间关系的度量
迄今为止，我们已经介绍了对一个变量汇总数据的数值方法，但是管理者或决策者常常更关心的是两个变量之间的关系。本节我们将介绍描述两个变量之间关系的度量：协方差和相关系数  
我们重新考虑2.4节关于旧金山音像设备商店的例子。表3-5是销售额的样本数据，有10个观测值，每周一个观测值。图3-8的散点图显示出两者是正相关关系，较高的销售额对应着较多的广告次数  
散点图暗示我们，可以用一条直线来近似这种关系。我们将介绍作为描述两变量间线性关系度量的**协方差**  

In [None]:
'''
pandas Input/Output pd.read_csv() index_col
'''
df_stereo=pd.read_csv('../pydata-book-master/statistics_for_business_economics/ch02/Stereo.csv',index_col=0)
print(df_stereo.to_string())

'''
数据分析 常用代码 散点图 5
pandas dataframe d.plot.scatter()  
matplotlib Pyplot function overview plt.xlim()
matplotlib Pyplot function overview plt.ylim()
'''
def plot_df_stereo():
    df_stereo.plot.scatter(x='No. of Commercials',y='Sales Volume',color='black')
    plt.xlim(0,6)
    plt.ylim(35,65)
plot_df_stereo()
plt.title('figure 3-8')
plt.show()

## 3.5.1 协方差  
对一个容量为n的样本，其观测值为$(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)$，样本协方差的定义如下：  
<hr />

（3-10）**样本协方差**$$s_{xy} = \frac{\Sigma(x_i-\bar{x})(y_i-\bar{y})}{n-1}$$
<hr / >

计算容量为N的总体协方差的公式与（3-10）相似，但是我们使用不同的符号
<hr />

（3-11）**总体协方差**$$\sigma_{xy} = \frac{\Sigma(x_i-\mu_x)(y_i-\mu_y)}{N}$$
<hr / >

In [None]:
'''
协方差 5
pandas series s.cov()
'''
Commercials = df_stereo['No. of Commercials']
Volume = df_stereo['Sales Volume']
print(Commercials.cov(Volume))

## 3.5.2 协方差的解释  
为了有助于对样本协方差进行解释，如图3-9所示。它与图3-8的散点图相同，只是在$\bar{x}=3$处有一条垂直虚线，在$\bar{y}=51$处有一条水平虚线  
这两条线将图划分为四个象限。第1象限的点对应于$x_i$大于$\bar{x}$且$y_i$大于$\bar{y}$，第2象限的点对应于$x_i$小于$\bar{x}$且$y_i$大于$\bar{y}$，依次类推  
因此，$(x_i - \bar{x})(y_i - \bar{y})$ 的值，对第1象限的点一定为正，第2象限的点为负，第3象限的点为正，第4象限的点为负  
如果$s_{xy}$的值是正的，那么对$s_{xy}$的值影响最大的点必然在第1象限和第3象限，$s_{xy}$为正值表示x和y之间存在正的线性关系  
如果$s_{xy}$的值是负的，那么对$s_{xy}$的值影响最大的点必然在第2象限和第4象限，$s_{xy}$为负值表示x和y之间存在负的线性关系 5  
再次参见图3-9，我们看到音像设备商店的散点图与图3-10中顶部的图形相似。正像我们所期望的，样本协方差$s_{xy}=11$表示正的线性关系  
![3-10](../syn_pic/statistics_for_business_economics/3-10.png)  
但是，在使用协方差作为线性关系强度的度量时，一个问题就在于协方差的值依赖于x和y的计量单位，为了避免这种情况，我们将使用**相关系数**对两变量间的相关关系进行度量  

In [None]:
'''
协方差解释
matplotlib Pyplot function overview plt.vlines() linestyles
matplotlib Pyplot function overview plt.hlines() linestyles
matplotlib Pyplot function overview plt.text()
matplotlib Pyplot function overview plt.title()
'''
plot_df_stereo()

plt.vlines(x=df_stereo['No. of Commercials'].mean(),ymin=0,ymax=65,linestyles='dashed')
plt.hlines(y=df_stereo['Sales Volume'].mean(),xmin=0,xmax=6,linestyles='dashed')
plt.text(x=3,y=62,s='x=3')
plt.text(x=5.3,y=49,s='y=51')
plt.text(x=1.5,y=57,s='2')
plt.text(x=4.5,y=57,s='1')
plt.text(x=1.5,y=43,s='3')
plt.text(x=4.5,y=43,s='4')
plt.title('figure 3-9')
plt.show()

## 3.5.3 相关系数
对于样本数据，皮尔逊积矩相关系数的定义如下： 5  
<hr />

（3-12）**皮尔逊积矩相关系数：样本数据**$$r_{xy} = \frac{s_{xy}}{s_xs_y}$$
式中：  
    $r_{xy}$——样本相关系数；  
    $s_{xy}$——样本协方差；  
    $s_{x}$——x的样本标准差；  
    $s_{y}$——y的样本标准差；  
<hr / >

<hr />

（3-13）**皮尔逊积矩相关系数：总体数据**$$\rho_{xy} = \frac{\sigma_{xy}}{\sigma_x\sigma_y}$$
式中：  
    $\rho_{xy}$——总体相关系数；  
    $\sigma_{xy}$——总体协方差；  
    $\sigma_{x}$——x的总体标准差；  
    $\sigma_{y}$——y的总体标准差；  
<hr / >

样本相关系数$r_{xy}$是总体相关系数$\rho_{xy}$的一个估计 5

In [None]:
'''
相关系数
pandas series s.corr()
'''
print(Commercials.corr(Volume))

## 3.5.4 相关系数的解释
首先让我们考虑一个简单的样本，以说明完全正线性相关的概念。图3-11的散点图描述了下面的样本数据x和y之间的关系  
一般地，我们发现如果数据集中所有的点都在一条斜率为正的直线上，则样本相关系数的值为+1;也就是说，样本相关系数为+1对应着x与y之间存在一个完全正线性关系；反之亦然  
当$r_{xy}$等于零时，表明x和y之间不存在线性关系，$r_{xy}$的值接近于零则表示弱的线性关系  
最后我们注意到，相关系数提供了线性但不一定是因果关系的一个度量。两个变量之间较高的相关系数，并不意味着一个变量的变化会引起另一个变量的变化 5  

In [None]:
'''
相关系数的解释
matplotlib Pyplot function overview plt.scatter()
matplotlib Pyplot function overview plt.plot()
matplotlib Pyplot function overview plt.xlim()
'''
x = pd.Series([5,10,15])
y =  pd.Series([10,30,50])
plt.scatter(x,y,color='k')
plt.plot(x,y,color='k')
plt.xlim(0,20)
plt.ylim(0,55)
plt.title('figure 3-11')
plt.show()

x.corr(y)

# 3.6 加权平均数和使用分组数据
在3.1节，我们将平均数视为中心位置最重要的度量之一。n个观测值的样本平均数的公式重新叙述如下：  
<hr />

（3-14） $$\bar x=\frac{\Sigma x_i}{n}$$
<hr />

在这个公式中，每个$x_i$都有相同的重要性或权重。以这种方式计算的平均数称作**加权平均数**  
## 3.6.1 加权平均数
加权平均数的计算公式如下：  
<hr />

（3-15） $$\bar x=\frac{\Sigma {w_ix_i}}{\Sigma w_i}$$
式中：  
$x_i$——第i个观测值的数值  
$w_i$——第i个观测值的权重。 5  
<hr />

当数据来自样本时，式（3-15）计算的是加权样本平均数。当数据来自总体时，式（3-15）计算的是加权总体平均数，并用$\mu$取代$\bar{x}$  
作为一个需要加权平均数的例子，考虑下面一个在过去3个月中5次购买原材料的样本  
在某个特定的加权平均数的计算中，对权重的选择依赖于具体的应用，一个被大学生们所熟知的例子就是**平均等级分**的计算  

In [None]:
'''
购买原材料的样本
'''
raw_material = pd.DataFrame({'price':[3.0,3.4,2.8,2.9,3.25],'num':[1200,500,2750,1000,800]},index=np.arange(1,6))
raw_material

In [None]:
'''
数据分析 常用代码 加权平均数 5
'''
def weightedMean(value,weight):
    ''' 
    value:series;
    weight:series
    return: float
    '''
    wx = value.mul(weight).sum()
    w = weight.sum()
    return wx/w

wm = weightedMean(raw_material['price'],raw_material['num'])
m =raw_material['price'].mean()
print ('wm=' +str(wm))
print ('m=' +str(m))

## 3.6.2 分组数据
在大多数情形下，对位置和变异程度的度量是利用个体数据来计算的。但有时，我们得到的只是分组数据或频数分布形式的数据。在下面的讨论中，我们将说明对于**分组数据**，如何利用加权平均数公式来近似计算平均数、方差和标准差  
在2.2节，我们得到会计事务所完成年末审计所需天数的频数分布。如表3-9列出了审计时间的频数分布。为了只是用分组数据来计算平均数，我们将每一组的组中值作为该组所有数据的代表值    

In [None]:
groupdf = pd.DataFrame({'audit_low':[10,15,20,25,30],'audit_high':[14,19,24,29,34],'frequency':[4,8,5,2,1]})
groupdf

分组数据的样本平均数计算公式如下：  
<hr />

**（3-16）分组数据的样本平均数 5**$$\bar{x}=\frac{\Sigma{f_iM_i}}{n}$$  
式中  
$M_i$——第i组的组中值  
$f_i$——第i组的频数  
$n$——样本容量  
<hr />


In [None]:
'''
数据分析 常用代码 分组加权平均数
pandas series s.add()
'''
groupdf['median']=groupdf['audit_low'].add(groupdf['audit_high']).div(2)
wm = weightedMean(groupdf['median'],groupdf['frequency'])
print(wm)
groupdf

为了计算分组数据的方差，我们对方差公式（3-5）略作修改，分组数据的样本方差计算公式如下：
<hr />

**（3-17）分组数据的样本方差**$$s^2=\frac{\Sigma{f_i(M_i-\bar{x})^2}}{n-1}$$  
式中  
$M_i$——第i组的组中值  
$f_i$——第i组的频数  
$n$——样本容量  
<hr />

分组数据的标准差只不过是分组数据方差的平方根  
总体位置和离散程度度量的计算与此类似。分组数据的总体平均数和方差的计算公式如下：5  
<hr />

**（3-18）分组数据的总体平均数**$$\mu=\frac{\Sigma{f_iM_i}}{N}$$ 
**（3-19）分组数据的总体方差**$$\sigma^2=\frac{\Sigma{f_i(M_i-\mu)^2}}{N}$$  
<hr />

## 注释 
在计算分组数据的描述统计量时，用各组组中值近似代表每组的数据值。这样做的结果时，分组数据的描述统计量近似于直接利用原始数据的描述统计量。所以，我们建议在可能的情况下，尽量使用原始数据而非分组数据来计算描述统计量  

In [None]:
'''
数据分析 常用代码 分组加权方差
pandas series s.pow()
'''
def groupVariance(median,frequency):
    wm = weightedMean(median,frequency)
    deviation = median.sub(wm)
    Square_deviation = deviation.pow(2)
    fi_Square_deviation=Square_deviation.mul(frequency)
    return fi_Square_deviation.sum()/(frequency.sum()-1)

gv = groupVariance(groupdf['median'],groupdf['frequency'])
print(gv)


'''
数据分析 常用代码 分组加权标准差 5
numpy Mathematical functions np.sqrt()
numpy Mathematical functions np.around()
'''
def groupStd(median,frequency):
    gv =groupVariance(median,frequency)
    return np.sqrt(gv) 

gstd =np.around(groupStd(groupdf['median'],groupdf['frequency']),2)
print (gstd)

# 关键术语
**样本统计量** 用来对样本进行综合度量的数值（如样本平均数，样本方差和样本标准差）  
**总体参数** 用来对总体进行综合度量的数值（如总体平均数，总体方差和总体标准差）  
**点估计** 用来估计相应总体参数的样本统计量  
**平均数** 数据中心位置的一种度量，计算方法是将数据值加总，再除以数据的个数  
**中位数** 数据中心位置的一种度量，它是当数据按照升序排列时，位于中间位置的数据值 5  
**众数** 数据的位置的一种度量，被定义为是出现次数最多的数据值  
**百分位数** 一个数值，在数据集中至少有p%的观测值小于或等于该值，且至少有（100-p)%的观测值大于或等于该值  
**四分位数** 第25百分位数，50百分位数和75百分位数分别是第1、2、3四分位数  
**极差** 数据变异程度的一种度量，它的定义是最大值与最小值之差  
**四分位数间距** 数据变异程度的一种度量，它的定义是第三四分位数与第一四分位数之差 5  
**方差** 数据变异程度的一种度量，计算的依据是数据值与平均数的平方离差  
**标准差** 数据变异程度的一种度量，是方差的正平方根  
**标准差系数** 数据相对变异程度的一种度量，是标准差除以平均数再乘以100  
**偏度** 数据分布形态的一种度量。数据左偏的偏度为负值；数据对称分布的偏度为0；数据右偏的偏度为正值  
**z-分数** $x_i$与平均数的离差除以标准差得到的数值。z-分数也成为标准化数值，表示以标准差的个数度量的$x_i$与平均数的距离 5  
**切比雪夫定理** 用来陈述与平均数的距离在一个指定规数的标准差之内的数据值所占比例的定理  
**经验法则** 对于钟形分布的数据，可用来计算与平均数的距离在1个、2个和3个标准差之内的数据值所占的百分比的法则  
**异常值** 小得不正常或大得不正常得数值  
**五数概括法** 一种探索性数据分析得技术。它用五个数来概括数据：最小值、第一四分位数、中位数、第三四分位数和最大值  
**箱型图** 以五数概括法为依据得一种数据得图形汇总方法 5  
**协方差** 两变量间线性关系的一种度量。正值表示正的关系，负值表示负的关系  
**相关系数** 两变量间线性关系的一种度量，其取值-1到+1之间。接近+1的值表示一个强的正线性关系；接近-1的值表示一个强的负线性关系；接近于零的值表示没有线性关系  
**加权平均数** 通过给每一个观测值分配一个反映其重要性的权重，而得到的平均数  
**分组数据** 可用数据是将频数分布按组距汇总后得到的数据，而原始数据的单个数值是不可用的 5  
# 重要公式
（3-1）样本平均数$$\bar{x}=\frac{\Sigma{x_i}}{n}$$  
（3-2）总体平均数$$\mu =\frac{\Sigma{x_i}}{N}$$
（3-3）四分位数间距$$IQR=Q_3-Q_1$$
（3-4）总体方差$$\sigma^2=\frac{\Sigma{(x_i-\mu)^2}}{N}$$
（3-5）样本方差 5$$s^2=\frac{\Sigma{(x_i-\bar{x})^2}}{n-1}$$
标准差  
（3-6）样本标准差$$s=\sqrt{s^2}$$
（3-7）总体标准差$$\sigma=\sqrt{\sigma^2}$$
（3-8）标准差系数$$\left(\frac{标准差}{平均数}\times 100\right)\%$$
（3-9）z-分数$$z_i=\frac{x_i-\bar{x}}{s}$$
（3-10）样本协方差 5$$s_{xy}=\frac{\Sigma{(x_i-\bar{x})(y_i-\bar{y})}}{n-1}$$
（3-11）总体协方差$$\sigma_{xy}=\frac{\Sigma{(x_i-\mu_x)(y_i-\mu_y)}}{N}$$
（3-12）皮尔逊积矩相关系数：样本数据$$r_{xy}=\frac{s_{xy}}{s_xs_y}$$
（3-13）皮尔逊积矩相关系数：总体数据$$\rho_{xy}=\frac{\sigma_{xy}}{\sigma_x\sigma_y}$$
（3-15）加权平均数 5$$\bar{x}=\frac{\Sigma{w_ix_i}}{\Sigma{w_i}}$$
（3-16）分组数据的样本平均数$$\bar{x}=\frac{\Sigma{f_iM_i}}{n}$$
（3-17）分组数据的样本方差$$s^2=\frac{\Sigma{f_i(M_i-\bar{x})^2}}{n-1}$$
（3-18）分组数据的总体平均数$$\mu=\frac{\Sigma{f_iM_i}}{N}$$
（3-19）分组数据的总体方差$$\sigma^2=\frac{\Sigma{f_i(M_i-\mu)^2}}{N}$$  
# 案例3-1
**Pelican商店**  
Pelican商店举办了一项促销活动，向其他National Clothing商店的顾客赠送优惠券，在促销活动期间的某一天，Pelican商店抽取了100名持信用卡交易的顾客组成一个样本搜集到的数据。如表3-12所示：  


In [None]:
PelicanStores = pd.read_csv('../pydata-book-master/statistics_for_business_economics/ch03/PelicanStores.csv',index_col=0).iloc[:,:7]
PelicanStores.head(10)

In [None]:
'''
pandas series s.describe()  
pandas series s.round()
pandas series s.to_string()
'''
print("净销售额的描述统计量：")
NetSales =PelicanStores['Net Sales']
print(NetSales.describe().round(2).to_string())
'''
pandas GroupBy g.describe()
pandas dataframe d.T  
'''

print("不同顾客分类的净销售额的描述统计量：")
ByCustomerTypeDescribe = PelicanStores.groupby('Type of Customer')['Net Sales'].describe().T
print(ByCustomerTypeDescribe.round(2).to_string())

'''
pandas series s.cov()
pandas series s.corr()
python str s.format() f
'''
age =PelicanStores['Age']
ms_age_cov = NetSales.cov(age)
ms_age_cor = NetSales.corr(age)
print('净销售额与年龄的协方差：{:.2f}'.format(ms_age_cov))
print('净销售额与年龄的相关系数：{:.3f}'.format(ms_age_cor))