In [None]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
import random
import string

# 实践中的统计
我们经常会在报纸和杂志的文章中看到下面的各种报道：
+ 美国首次访问购买者支付价格的中位数位165000美元  
+ 美国有79%的男女学生运动员已毕业  
+ 平均单程上班时间是25.3分钟  
+ 高达11%的美国房屋是空置的，这是房地产暴涨之后的暴跌造成的供大于求现象  
+ 普通汽油全国平均价格首次达到每加仑4.00美元 5  
+ 纽约洋基队在职业联盟中薪酬最高，全队总薪酬位201449289美元，中位数为5000000美元  
+ 道琼斯工业平均指数收于8721点

前面报道中的数值事实称为统计资料，术语统计资料是指数值事实，如平均值、中位数、百分数和指数等，可以帮助我们了解各种商务和经济情况  
广义上统计学是搜集、分析、表述和解释数据的科学与艺术，在商务和经济活动中，旨在帮助决策者更好地理解商务和经济环境的变化，从而科学、正确地做出决策    
## 1.1 统计学在商务和经济中的应用
最成功的管理者和决策者是那些能够理解信息并有效利用信息的人 5  
### 1.1.1 会计
会计师事务所对其客户进行审计时需要使用统计抽样程序，一般做法是：审计人员从账户中选择一个子集作为样本  
### 1.1.2 财务
财务顾问们利用各种各样的统计信息指导投资，通过对比单只股票和股票市场平均状况的信息，得出一只股票其价值是高估还是低估的结论    
### 1.1.3 市场营销
零售结账柜台的电子扫描仪正用于搜集各种市场调研用的数据，品牌管理人员可以查看扫描和促销活动的统计资料，理解促销活动和销售额之间的关系  
### 1.1.4 生产
由于当今进入了重视质量的时代，因此质量管理是统计学在生产中的一项重要应用，各种统计质量管理图用于监测生产过程的产出  
### 1.1.5 经济
经济学家对未来经济或某一方面的发展做出预测，预测时需要用到各种统计信息 5  
## 1.2 数据
数据是为描述和解释所搜集、分析和汇总的事实和数字，用于特定研究而搜集的所有数据称为研究的数据集，表1-1是一个包含了25只共同基金的数据集  

In [None]:
'''
随机生成50个基金代码
python random r.seed()
python string s.ascii_uppercase
python random r.choice()
python str s.join()
python List Comprehensions 列表推导
''' 
random.seed(0)
N=50
def rands(n):
    choices = string.ascii_uppercase
    return ''.join([random.choice(choices) for _ in range(n)])

tickers = np.array([rands(10) for _ in range(N)])

'''
创建一个含有4列的DataFrame来承载这些假想数据，不过只选择25基金组成该投资组合
numpy indexing Other indexing options
numpy Broadcasting 标量
numpy The N-dimensional array (ndarray) ndarray.round()
numpy Mathematical functions np.absolute()
'''
M=25
print("\t\t\t表1-1 25只共同基金的数据集")
df = pd.DataFrame({'净资产值（美元）':np.abs((np.random.randn(M)*50).round(decimals=2))+5,
                  '5年回报率（%）':np.abs((np.random.randn(M)*30).round(decimals=2))+1,
                  '费用比率（%）':np.abs((np.random.randn(M)).round(decimals=2)),
                  '晨星评级':np.random.randint(1,6,M)},
                  index = tickers[:M])
'''
为这些基金随机创建一个行业分类，并将映射关系保存在Series中
numpy Random sampling (numpy.random) np.random.randint() low/high 
numpy Indexing 整数索引
pandas dataframe d.index  
pandas Index i.name  
pandas Indexing and Selecting Data Dataframe[colname]  

'''
ind_names = np.array(['IE','DE','FI'])
sampler = np.random.randint(low=0,high=len(ind_names),size=N)
industries = pd.Series(ind_names[sampler],index=tickers)
df.index.name='基金名称'
df['基金类型']=industries
order = ['基金类型','净资产值（美元）', '5年回报率（%）','费用比率（%）','晨星评级']
df =df[order]
df

### 1.2.1 个体、变量和观测值  
个体（element)是指搜集数据的实体，在表1-1数据集中，每一只可分割的共同基金是一个个体，个体名称列在表1-1中的第一列，数据集中有25个个体  
变量（variable)是个体中所感兴趣的那些特征，表1-1数据集中有以下5个变量：
+ 基金类型：共同基金的类型，标记为DE国内股本、IE国际股本和FI固定收益 5
+ 净资产值(美元)：2007年12月31日的每股的收盘价
+ 5年平均回报率(%)：基金过去5年的平均年回报率
+ 费用比率(%)：每财政年度扣除的基金费用占资产的百分比
+ 晨星评级：每只基金整体风险调整星级，从1星级到5星级

在一项研究中，对每个个体的每个变量收集测量值，从而得到了数据，对某一特定个体得到的测量值集合称为一个观测值(observation) 5  
### 1.2.2 测量尺度
搜集数据要按下列集中测量尺度来度量：名义尺度、顺序尺度、间隔尺度和比率尺度，测量尺度决定了数据中蕴涵的信息量，并表名最适合的数据汇总和统计分析方法  
+ 名义尺度(nominal scale)：一个变量的数据包含了用来识别个体属性的标记或名称时，例如表1-1中的基金类型变量，可以使用数据代码和非数字的标记，即时数据是数值型，测量尺度仍是名义尺度  
+ 顺序尺度（ordinal scale):如果数据具有名义数据的性质，并且数据的顺序或等级意义明确，例如表1-1中晨星评级数据，顺序尺度也可以用数字代码  
+ 间隔尺度（interval scale)：如果数据具有顺序数据的所有性质，并且可以按一个固定的度量单位标识数值间的间隔，间隔尺度的数据永远是数值型的，例如表1-1中的净资产值
+ 比率尺度（ratio scale)：如果数据具有间隔数据的所有性质，并且两个数值之比是有意义的，例如表1-1中的费用比率 5

### 1.2.3 分类型数据和数量型数据
数据可以划分为分类型数据和数量型数据：
分类型数据(categorical data)：归属于某一类别的数据，可以用名义尺度度量也可以用顺序尺度度量，可以表示分类变量  
数量型数据(quantitative data):使用数量标识大小或多少的数据，可以用间隔尺度度量也可以用比率尺度度量，可以表示数量变量  
统计分析方法是否适合一个特定变量，取决于变量是分类变量还是数量变量  
对于分类变量进行数学运算没有意义，可以通过记录每一类别中观测值的比列来汇总分类型数据  
对于数量变量进行数学运算可以得到有意义的结果，有更多的统计方法可供选择 5  
### 1.2.4 截面数据和时间序列数据  
对于受时间因素影响的数据，可以区分成截面数据和时间序列数据  
截面数据(cross-sectional data)是在相同或近似相同的同一时点上搜集的数据，表1-1中的数据是截面数据  
时间序列数据（time series data)是在几个时期内搜集的数据，例如，图1-1的时间序列是2006-2009年每个汽油每加仑的平均价格曲线   

In [None]:
'''
pandas Pandas arrays pd.Period()  
pandas General functions pd.date_range() start/end 
python Built-in Functions len()  
numpy The N-dimensional array (ndarray) ndarray.cumsum()
numpy The N-dimensional array (ndarray) ndarray.min()
pandas series s.plot.line()
matplotlib lines marker
matplotlib lines color
matplotlib lines linestyle
'''
print(pd.Period(value='2009-07',freq='M')-pd.Period(value='2006-03',freq='M'))
d1=pd.date_range(start='2006-03',end='2009-07',freq='M')
steps =np.random.randn(len(d1))
walks =steps.cumsum()
walk = walks-walks.min()+0.5
s = pd.Series(data=walk,index=d1)
s.plot.line(linestyle='-',marker='.',color='k')
#图1-1

In [None]:
pd.Period?

时间序列数据的图形有各种形态，如图1-2所示，稍加研究，这些图形通常易于理解和解释 5  
图1-2a 是1997-2009道琼斯工业平均指数的图像，1997年4月股票市场指数接近7000点，在随后10年中指数不断攀升，到2007年6月超过14000点，然后在2007创历史新高后，股指急速下降  
![1-2a](be/1-2a.png) 

In [None]:
'''
pandas General functions pd.date_range() periods
pandas General functions pd.date_range() freq
pandas Time series / date functionality Offset aliases
pandas series s.plot.bar()
matplotlib Pyplot function overview plt.title()  
matplotlib Pyplot function overview plt.ylabel()  
'''
da =pd.date_range(start='2003',end='2009',freq='AS-JAN')
s = pd.Series([1.5,2.2,2.6,3.5,2.4,4.5,5.5],index=da.year)
s.plot.bar(color='grey')
plt.title(label='McDonald')
plt.ylabel(ylabel='Net profit(10 Billion $)')

In [None]:
'''
python Built-in Functions range()
matplotlib Pyplot function overview plt.ylim()
matplotlib Pyplot function overview plt.bar() width
matplotlib Pyplot function overview plt.bar() edgecolor
'''
s = pd.Series([80,94,98,88,76,64,75,58,52,59,74,70],index=list(range(1,13)))
s.plot.bar(color='grey',width=1,edgecolor='k')
plt.title(label='Florida hotel')
plt.ylabel(ylabel='Occupancy rate (%)')
plt.ylim([0,100])

图1-2c是一年间佛罗里达南部旅店入住率的时间序列，在2-3月，当佛罗里达州南部的气候对游客有吸引力时，出现95%-98%的极高入住率，，最低的入住率出现在9月，高温以及飓风季节是这段时间入住率下降的主要原因 5  
注释：
1. 观测值是数据集中每个个体的测量值的集合，观测值的个数与个体的个数一致，每个个体的测量值的个数等于变量的个数，数据项的总数是个体的个数乘以变量的个数  
2. 数量型数据既可以是离散的也可以是连续的，度量可数的事务多少的数量型数据是离散的，度量不可数事务多少的数量型数据是连续的  

## 1.3 数据来源
数据可以从现有来源搜集、或通过调查获得，也可通过为了得到数据而设计的实验性研究获得  
### 1.3.1 现有来源
在某些情况下，为某一特定应用所需要的数据已经存在，表1-2是一些从公司内部记录得到的常用数据  
<center>表1-2 来自公司内部记录的可用数据的例子</center>

|数据来源|一些典型的可用数据|  
|-|-|
|雇员记录|姓名、地址、工资、休假天数、奖金|
|生产记录|部件或产品号、生产数量、成本|
|存货记录|产品号、库存单位数、折扣表|
|销售记录|产品号、销售量、区域销售量|
|信用记录|客户名称、地址、电话号码|
|客户概况|年龄、性别、收入、地址和偏好5|

    
大量数据可以从专门搜集和保存数据的机构那里获得  
数据也可以从各行业协会和专门营利的机构中获得   
互联网已成为数据和统计信息的一个重要来源  
政府机构是现有数据的另一个重要来源，表1-3 展示了部分政府机构和它们能提供的一些数据  
<center>表1-3 来自政府机构的可用数据的例子</center>
    
|政府机构|一些可用的数据|  
|-|-|
|人口普查局|人口数、家庭数和家庭收入的数据|
|联邦储备委员会|货币供应、信誉记录、汇率和贴现率的数据 5|
|管理和预算办公室|财政收入、支持和联邦政府债务的数据|
|商务部|商务活动数据、分行业总产值、分行业利润水平以及行业增长和下降的数据|
|劳工统计局|消费支出、小时工资、失业率、安全记录1|

### 1.3.2 统计研究
有时一些特殊需要的数据并非总能从已有的来源中获取，常常通过统计研究的方式获得数据，可划分为实验性的或观测性的两类  
在实验性研究中，首先要确定感兴趣的主要变量，然后控制一个或多个其他变量，以便获得它们如何影响主要变量的数据  
在非实验性或观测性统计研究中，并不是有目的地去控制感兴趣的变量，调查是观测性研究中最常用的方法  
![1-4](be/1-4.png) 5  
将数据和统计分析结果用于管理决策，管理人员必须清楚获得数据所必需的时间和成本，数据搜集和统计分析所付出的成本不会超过利用这些信息制定一个好的决策所节省的费用  
### 1.3.3 数据采集误差
管理人员任何时候都要牢记：统计研究中的数据是可能产生误差的，使用错误的数据也许比不使用任何数据更糟糕  
实验数据分析人员在搜集和记录数据时要特别小心，以确保不发生错误，可以采取一些特殊措施以检查数据的内在一致性    
在数据搜集过程中经常会发送误差，因此按照正确的步骤搜集准确的数据可以确保决策信息的可信度 5  
## 1.4 描述统计
将数据以表格、图形或数值的形式汇总的统计方法称为描述统计（descriptive statistics)  