In [None]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

# 实践中的统计
我们经常会在报纸和杂志的文章中看到下面的各种报道：
+ 美国首次访问购买者支付价格的中位数位165000美元  
+ 美国有79%的男女学生运动员已毕业  
+ 平均单程上班时间是25.3分钟  
+ 高达11%的美国房屋是空置的，这是房地产暴涨之后的暴跌造成的供大于求现象  
+ 普通汽油全国平均价格首次达到每加仑4.00美元 5  
+ 纽约洋基队在职业联盟中薪酬最高，全队总薪酬位201449289美元，中位数为5000000美元  
+ 道琼斯工业平均指数收于8721点

前面报道中的数值事实称为统计资料，术语统计资料是指数值事实，如平均值、中位数、百分数和指数等，可以帮助我们了解各种商务和经济情况  
广义上统计学是搜集、分析、表述和解释数据的科学与艺术，在商务和经济活动中，旨在帮助决策者更好地理解商务和经济环境的变化，从而科学、正确地做出决策    
## 1.1 统计学在商务和经济中的应用
最成功的管理者和决策者是那些能够理解信息并有效利用信息的人 5  
### 1.1.1 会计
会计师事务所对其客户进行审计时需要使用统计抽样程序，一般做法是：审计人员从账户中选择一个子集作为样本  
### 1.1.2 财务
财务顾问们利用各种各样的统计信息指导投资，通过对比单只股票和股票市场平均状况的信息，得出一只股票其价值是高估还是低估的结论    
### 1.1.3 市场营销
零售结账柜台的电子扫描仪正用于搜集各种市场调研用的数据，品牌管理人员可以查看扫描和促销活动的统计资料，理解促销活动和销售额之间的关系  
### 1.1.4 生产
由于当今进入了重视质量的时代，因此质量管理是统计学在生产中的一项重要应用，各种统计质量管理图用于监测生产过程的产出  
### 1.1.5 经济
经济学家对未来经济或某一方面的发展做出预测，预测时需要用到各种统计信息 5  
## 1.2 数据
数据是为描述和解释所搜集、分析和汇总的事实和数字，用于特定研究而搜集的所有数据称为研究的数据集，表1-1是一个包含了25只共同基金的数据集  
![be/1-1tb](be/1-1tb.png)
### 1.2.1 个体、变量和观测值  
个体（element)是指搜集数据的实体，在表1-1数据集中，每一只可分割的共同基金是一个个体，个体名称列在表1-1中的第一列，数据集中有25个个体  
变量（variable)是个体中所感兴趣的那些特征，表1-1数据集中有以下5个变量：
+ 基金类型：共同基金的类型，标记为DE国内股本、IE国际股本和FI固定收益 5
+ 净资产值(美元)：2007年12月31日的每股的收盘价
+ 5年平均回报率(%)：基金过去5年的平均年回报率
+ 费用比率(%)：每财政年度扣除的基金费用占资产的百分比
+ 晨星评级：每只基金整体风险调整星级，从1星级到5星级

在一项研究中，对每个个体的每个变量收集测量值，从而得到了数据，对某一特定个体得到的测量值集合称为一个观测值(observation) 5  
### 1.2.2 测量尺度
搜集数据要按下列集中测量尺度来度量：名义尺度、顺序尺度、间隔尺度和比率尺度，测量尺度决定了数据中蕴涵的信息量，并表名最适合的数据汇总和统计分析方法  
+ 名义尺度(nominal scale)：一个变量的数据包含了用来识别个体属性的标记或名称时，例如表1-1中的基金类型变量，可以使用数据代码和非数字的标记，即时数据是数值型，测量尺度仍是名义尺度  
+ 顺序尺度（ordinal scale):如果数据具有名义数据的性质，并且数据的顺序或等级意义明确，例如表1-1中晨星评级数据，顺序尺度也可以用数字代码  
+ 间隔尺度（interval scale)：如果数据具有顺序数据的所有性质，并且可以按一个固定的度量单位标识数值间的间隔，间隔尺度的数据永远是数值型的，例如表1-1中的净资产值
+ 比率尺度（ratio scale)：如果数据具有间隔数据的所有性质，并且两个数值之比是有意义的，例如表1-1中的费用比率 5

### 1.2.3 分类型数据和数量型数据
数据可以划分为分类型数据和数量型数据：
分类型数据(categorical data)：归属于某一类别的数据，可以用名义尺度度量也可以用顺序尺度度量，可以表示分类变量  
数量型数据(quantitative data):使用数量标识大小或多少的数据，可以用间隔尺度度量也可以用比率尺度度量，可以表示数量变量  
统计分析方法是否适合一个特定变量，取决于变量是分类变量还是数量变量  
对于分类变量进行数学运算没有意义，可以通过记录每一类别中观测值的比列来汇总分类型数据  
对于数量变量进行数学运算可以得到有意义的结果，有更多的统计方法可供选择 5  
### 1.2.4 截面数据和时间序列数据  
对于受时间因素影响的数据，可以区分成截面数据和时间序列数据  
截面数据(cross-sectional data)是在相同或近似相同的同一时点上搜集的数据，表1-1中的数据是截面数据  
时间序列数据（time series data)是在几个时期内搜集的数据，例如，图1-1的时间序列是2006-2009年每个汽油每加仑的平均价格曲线   

In [None]:
'''
pandas Pandas arrays pd.Period()  
pandas General functions pd.date_range() start/end 
python Built-in Functions len()  
numpy The N-dimensional array (ndarray) ndarray.cumsum()
numpy The N-dimensional array (ndarray) ndarray.min()
pandas series s.plot.line()
matplotlib lines marker
matplotlib lines color
matplotlib lines linestyle
'''
print(pd.Period(value='2009-07',freq='M')-pd.Period(value='2006-03',freq='M'))
d1=pd.date_range(start='2006-03',end='2009-07',freq='M')
steps =np.random.randn(len(d1))
walks =steps.cumsum()
walk = walks-walks.min()+0.5
s = pd.Series(data=walk,index=d1)
s.plot.line(linestyle='-',marker='.',color='k')
#图1-1

In [None]:
pd.Period?

时间序列数据的图形有各种形态，如图1-2所示，稍加研究，这些图形通常易于理解和解释 5  
图1-2a 是1997-2009道琼斯工业平均指数的图像，1997年4月股票市场指数接近7000点，在随后10年中指数不断攀升，到2007年6月超过14000点，然后在2007创历史新高后，股指急速下降  
![1-2a](be/1-2a.png) 

In [None]:
'''
pandas General functions pd.date_range() periods
pandas General functions pd.date_range() freq
pandas Time series / date functionality Offset aliases
pandas series s.plot.bar()
matplotlib Pyplot function overview plt.title()  
matplotlib Pyplot function overview plt.ylabel()  
'''
da =pd.date_range(start='2003',end='2009',freq='AS-JAN')
s = pd.Series([1.5,2.2,2.6,3.5,2.4,4.5,5.5],index=da.year)
s.plot.bar(color='grey')
plt.title(label='McDonald')
plt.ylabel(ylabel='Net profit(10 Billion $)')

In [None]:
'''
python Built-in Functions range()
matplotlib Pyplot function overview plt.ylim()
matplotlib Pyplot function overview plt.bar() width
matplotlib Pyplot function overview plt.bar() edgecolor
'''
s = pd.Series([80,94,98,88,76,64,75,58,52,59,74,70],index=list(range(1,13)))
s.plot.bar(color='grey',width=1,edgecolor='k')
plt.title(label='Florida hotel')
plt.ylabel(ylabel='Occupancy rate (%)')
plt.ylim([0,100])