In [None]:
import pandas as pd
import numpy as np

# 实践中的统计
Small Fry 设计公司是一家设计和进口婴儿产品的公司，产品包括泰迪熊、悬挂饰物、音乐玩具，在美国设计，中国生产  
Small Fry 设计公司使用独立的销售代理，目前Small Fry设计公司的产品遍布美国1000多个零售批发商店  
在这家公司的日常运营中个，现金流量管理是最重要的经营活动之一，现金流量管理的一个关键因素是对应收账款的分析和控制  
公司设置了以下目标：未付款发票的平均期限不应超过45天，超过60天的未付款发票的资金数额不应超过所有应收账款总额的5%  
在最近对应收账款的汇总中，该公司使用了下面的描述统计量来衡量未付款发票的期限 5  

|统计量|期限|
|--|--|
|平均数|40天|
|中位数|35天|
|众数|31天|

对这些统计量的解释表明，一张发票的平均数或平均期限是40天，中位数表明有一半的发票已经超过35天没有付款，最常见的发票期限是众数31天  
统计汇总还显示出应收账款总额中只有3%超过60天，基于这些统计信息，管理人员很满意，因为应收账款和收入现金流都处于控制之中  
在本章中，你将学会如何计算和理解Small Fry设计公司使用过的一些描述统计量，这些数值策略将有助于读者对数据的理解和解释  
在本章中，我们将给出集中描述统计学的数值方法，它们提供了汇总数据的其他可选方法 5  
首先，我们对只包含一个变量的数据集建立数值汇总的度量方案，当数据集包含的变量不止一个时，可以对每个变量分布计算同样的数值度量，然而，在两个变量的情况下，我们还将建立变量间的相互关系的度量  
本章我们将介绍位置、离散程度、形态和相关程度的数值度量，如果数据来自样本，计算的度量称为**样本统计量**，如果数据来自总体，计算的度量称为**总体参数**，在统计推断中，样本统计量被称为是相应总体参数的**点估计量**    

# 3.1 位置的度量
## 3.1.1 平均数
在位置的数值度量中，最重要的大概要数变量的**平均数**或平均值了，平均数提供了数据中心位置的度量，如果数据来自样本，平均数用$\bar x$表示，如果数据来自某个总体，则平均数用希腊字母$\mu$表示  
**样本平均数**(3-1) $$\bar{x}=\frac{\Sigma x_i}{n}$$  
在式（3-1）中，分子是n个观测值的数值之和，即$\Sigma x_i=x_1+x_2+\cdots+x_n$  5  
而计算总体平均数的公式也基本相同，但是我们使用不同的符号表示我们是对整个总体计算的  
**总体平均数**(3-2) $$\mu =\frac{\Sigma x_i}{N}$$  

In [None]:
'''
pandas Input/Output pd.read_csv() index_col
pandas dataframe d.mean()
pandas dataframe d.to_string()
'''
d1 = pd.read_csv('../pydata-book-master/statistics_for_business_economics/ch03/2012StartSalary.csv',index_col=0)
print(d1.head().to_string())
d1.mean()

## 3.1.2 中位数
**中位数**是对变量中心位置的另一种度量，将所有数据按升序（从小到大的顺序）排列后，位于中间的数值即为中位数
1. 对于奇数个观测值，中位数是中间的数值  
2. 对于偶数个观测值，中位数是中间两个数值的平均值 5  

虽然在度量数据的中心位置时，最常用的是平均数，但在某些情况下，使用中位数则更为合适（当异常值会夸大平均数时），平均数往往会受到异常大或异常小的数值影响  
我们可以概况地说，每当数据集含有极端值时，中位数往往更适合于度量数据的中心位置  
## 3.1.3 众数
第三种位置度量是**众数**，众数的定义如下：众数是数据集中出现次数最多的数值  
有时出现次数最大的数值可能有两个或更多，这种情况下，如果数据集恰好有两个众数，我们称数据集是双众数的 5  
如果数据集有两个或两个以上的众数，我们称数据集是多众数的，多众数情况下，几乎从不报告众数，因为列出三个或以上众数对描述数据位置并不能起多大作用  
## 3.1.4 百分位数
**百分位数**提供了数据如何散步在从最小值到最大值的区间上的信息，第p百分位数是满足下列条件的一个数值：至少有p%的观测值小于或等于该值，且至少有（100-p)%的观测值大于或等于该值  
下面是计算第p百分位数的步骤
<hr />

**计算第p百分位数**  
1. 把数据按升序排列（从小到大的顺序） 5  
2. 计算指数$\mathit{i}$   
    $$\mathit{i}=(\frac{p}{100})n$$
    式中，p是所求的百分位数，n是观测值的个数  
3. 第3步：   
    1. 若$\mathit{i}$不是整数，则向上取整，大于$\mathit{i}$的下一个整数表示第p百分位数的位置
    2. 若$\mathit{i}$是整数，则第p百分位数是第$\mathit{i}$项和第$(\mathit{i}+1)$项数据的平均值
    
## 3.1.5 四分位数
人们经常需要将数据划分为四部分，每一部分大约包含1/4或25%的观测值，图3-1显示了一个被分为四部分的数据集，分割点称为四分位数，其定义是  
$Q_1=$第一四分位数，或第25百分位数  
$Q_2=$第二四分位数，或第50百分位数（也是中位数）  
$Q_3=$第三四分位数，或第75百分位数  
5  

In [None]:
'''
中位数
pandas dataframe d.median()
pandas series s.to_string() 
pandas dataframe d.copy()  
pandas series s.round()
'''
print('median' +'\n' + d1.median().to_string())
print('mean' +'\n' + d1.mean().to_string())
d2 =d1.copy()
d2.iloc[10,:]=10000
print('median' +'\n' +d2.median().to_string())
print('mean' +'\n' +d2.mean().round(1).to_string())

'''
众数
pandas dataframe d.mode()
'''
print('mode1' +'\n' + d1.mode().to_string())
d2.iloc[10,:]=3850
print('mode2' +'\n' + d2.mode().to_string())

'''
百分位数
pandas dataframe d.quantile()
'''
print('0.85 quartiles' +'\n' +d1.quantile(q=0.85).to_string())
print('0.5 quartiles' +'\n' +d1.quantile(q=0.5).to_string())
'''
四分位数
'''
print('0.25 quartiles' +'\n' +d1.quantile(q=0.25).to_string())
print('0.75 quartiles' +'\n' +d1.quantile(q=0.75).to_string())

### 注释
当数据集中含有极端值时，使用中位数作为中心位置度量比平均数更合适  
有时，当存在极端值时，我们用到调整平均数，从数据集中删除一定比例的最大值和最小值，然后计算剩余数据的平均值，就能得到调整平均数 5  

In [None]:
'''
数据分析 常用代码 调整平均数
pandas series s.quantile()
pandas series s.gt()
pandas series s.lt()
pandas series s.loc[]
pandas series s.mean()
pandas series 布尔运算
'''
pct = 0.05 # 删除5%比例的最大值和最小值
s1 = d2['Monthly Starting Salary ($)']
s2= s1.loc[s1.gt(s1.quantile(pct)) & s1.lt(s1.quantile(1-pct))]
s2.mean()

# 3.2 变异程度的度量
除了位置的度量以外，人们往往还需要考虑变异程度亦即离散程度的度量  
如图3-2所示，尽管两个供应商平均交货时间都是10天，但他们在按时交货方面拥有不同的可信度
![3-2](be/3-2.png)  
对大多数的采购代理商来说，像Dawson供应公司这样变异程度较小的供应商，才是较理想的供应商  
## 3.2.1 极差
**极差** 是一种最简单的变异程度的度量 5  
<hr />
极差 = 最大值 - 最小值
<hr />

尽管极差是最容易计算的变异程度的度量，但它很少单独用来度量变异程度，原因是极差仅以两个观测值为依据，因此极易受到极端值的影响  
## 3.2.2 四分位数间距
**四分位数间距** 作为变异程度的一种度量，能够克服极端值的影响，四分位数是中间的50%数据的极差
<hr />

**四分位数间距**(3-3) $$IQR=Q_3-Q_1$$ 
<hr />

## 3.2.3 方差
**方差**是用所有数据对变异程度所做的一种度量。方差依赖于每个观测值($x_i$)与平均值之间的差异，每个观测值($x_i$)与平均值(对样本而言是$\bar{x}$，对总体而言是$\mu$)的差成为平均数的离差 5  
对于样本，平均数的离差是($x_i-\bar{x}$)；对于总体，则是($x_i-\mu$)。计算方差时，需要将平均数的离差平方  
如果数据来自总体，则离差平方的平均值称为**总体方差**，总体方差用希腊字母$\sigma ^2$表示  
<hr />

**总体方差** (3-4) $$\sigma ^2 = \frac{\Sigma(x_i-\mu)^2}{N}$$ 
<hr />

在大多数的统计应用中，需要分析样本数据，当我们计算样本方差时，更希望用它来估计总体方差$\sigma ^2$，用$s^2$表示样本方差定义如下：
<hr />

**样本方差** (3-5) $$s^2 = \frac{\Sigma(x_i-\bar{x})^2}{n-1}$$ 
<hr />

5  
我们注意到，样本方差的单位往往会引起人的混淆。方差的平方单位使得人们对于方差的数值很难找到直观的理解和诠释。我们建议你把方差作为比较两个或两个以上变量变异程度的有用工具  

## 3.2.4 标准差

In [None]:
'''
极差
pandas series s.max()
pandas series s.min()
python Built-in Functions str()
'''
Extreme_difference=s1.max()-s1.min()
print("Extreme_difference = " + str(Extreme_difference))

'''
数据分析 常用代码 四分位数间距
'''
Quartile_spacing=np.abs(s1.quantile(q=0.75)-s1.quantile(q=0.25))
print("Quartile spacing = " + str(Quartile_spacing))

'''
方差
'''
variance = round(s1.var(),1)
print("variance = " + str(variance))