In [None]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

# 实践中的统计
## 内华达州职业健康诊所  
在26个月里，它的月营业额从57000美元一直增长到超过3000000美元，直到主要门诊大楼被大火烧毁  
为了估计收入损失，诊所利用一种预测方法来推测在7个月的停业期间可能实现的营业增长。火灾前营业额的是数据将会成为预测模型的基础，该模型具有线性趋势和季节成分，这些成分将在本章中加以讨论  
假设我们要提供公司的一种产品在来年的季度销售预测。生产计划、原材料的采购、库存策略和销售定额都将受到我们提供的季度预测的影响  
预测方法可以分为定性和定量两种方法。定性方法通常包括利用专家判断来进行预测  
当以下条件同时满足时，可以使用定量预测方法：  
1. 被预测变量过去的信息可用
2. 这些信息可以被量化
3. 过去的模式将会持续到未来的假定合理

5  
如果历史数据局限于被预测变量的过去值，这种预测方法被称为时间序列方法，历史数据被称为时间序列。这种预测仅仅依赖于变量的过去值和过去的预测误差  
因果预测方法的依据是假定我们正在预测的变量与其他一个或几个变量存在一个因果关系。因此，如果我们能确定相关的自变量或解释变量的一个合适的集合，也许就能建立用于推测或预测时间序列估计的回归方程  
通过将时间视为自变量，时间序列视为应变量，回归分析也可以用于时间序列方法。为了区分回归分析在这两种情形下的应用，我们用术语截面回归和时间序列回归表述 5  
# 18.1 时间序列的模式
**时间序列** 是一个变量在连续时点或连续时期上策略的观测值的序列。数据的模式是了解时间序列过去行为的重要因素  
为了确定数据中的基本模式，有效的第一步是绘制**时间序列图**。时间序列图是时间和时间序列变量之间关系的图形表述：时间位于横轴，时间序列值位于纵轴  
## 18.1.1 水平模式
当数据围绕着一个不变的均值上下波动时，则存在**水平模式**。为了说明时间序列具有水平模式，考虑表18-1中12周的数据。图18-1是这些数据的时间序列图  

In [None]:
'''
5
python	pandas	series	pd.Series() index
python	pandas	series	pd.Series() name

'''
gas_sale=pd.Series(data=[17,21,19,23,18,16,20,18,22,20,15,22],
                   index=pd.Index(np.arange(1,13),name='week'),
                   name='sales')
gas_sale.head()

In [None]:
gas_sale.plot()
plt.scatter(gas_sale.index,gas_sale)
plt.xticks(np.arange(0,13))
plt.ylim(0,25)
plt.xlim(0,12.1)
plt.show()

术语**平稳时间序列**是指统计性质与时间独立的时间序列。特别地，其含义为  
1. 过程产生的数据有一个不变的均值  
2. 时间序列的变异性随着时间的推移保持不变 5  

平稳时间序列的时间序列图总是显示出水平模式，但仅仅观测到水平模式就得出时间序列是平稳的结论，并没有足够的证据  
经营环境的改变常常导致具有水平模式的时间序列移动到一个新的水平。例如，假设汽油经销商与佛蒙特州警方签署了一份合同，给佛蒙特州南部的警车加油。由于这个新合同，经销商希望看到从第13周开始周销售量有大幅度的增加  
表18-2给出了汽油销售量的原始时间序列以及签署了新合同后10周的销售量数据。图18-2是想要的时间序列图    

In [None]:
'''
5
python	pandas	series	s.tail()
'''
gas_sale_lv2=pd.Series(data=[17,21,19,23,18,16,20,18,22,20,15,22,31,34,31,33,28,32,30,29,34,33],
                   index=pd.Index(np.arange(1,23),name='week'),
                   name='sales')
gas_sale_lv2.tail()

In [None]:
gas_sale_lv2.plot(figsize=(10,7))
plt.scatter(gas_sale_lv2.index,gas_sale_lv2)
plt.xticks(np.arange(0,25))
plt.ylim(0,40)
plt.xlim(0,24)
plt.show()

## 18.1.2 趋势模式
尽管时间序列的数据通常呈现随机起伏的状态，但在一段较长的时间内，它仍然呈现出逐步的改变或移动到相对较高或较低的值。如果时间序列图显示出这里形态特征，我们则称存在**趋势模式**  
趋势通常是长期因素影响的结果，例如人口总数的增加或减少、人口总体特征、工艺和顾客偏爱的变化等  
为了说明具有趋势模式的时间序列，我们考虑某制造商过去10年自行车销售量的时间序列，如表18-3和图18-3所示 5  

In [None]:
bic=pd.read_csv('../pydata-book-master/statistics_for_business_economics/ch17/Bicycle.csv')
bic_sale=bic.set_index('Year')['Sales']
bic_sale.head()

In [None]:
bic_sale.plot()
plt.scatter(bic_sale.index,bic_sale)
plt.xticks(np.arange(0,13))
plt.ylim(20,34)
plt.xlim(0,12)
plt.show()

自行车销售时间序列的趋势呈现线性且随着时间推移而增长，但有时趋势能用其他类型的模式更好地描述 5  
例如，表18-4是从10年前公司的胆固醇药物获得FDA批准后的销售收入数据，图18-4是相应的时间序列图。时间序列以非线性的方式增长，即每年收入的变化率不是以一个固定的数值来增加  
事实上，当收入呈现指数形式的增长，环比变化率从一个时期到下一个时期相对稳定时，这样的指数关系是合适的  

In [None]:
cho=pd.read_csv('../pydata-book-master/statistics_for_business_economics/ch17/Cholesterol.csv')
cho_sale=cho.set_index('Year')['Revenue']
cho_sale.head()

In [None]:
'''
5
'''
cho_sale.plot()
plt.scatter(cho_sale.index,cho_sale)
plt.xticks(np.arange(0,11))
plt.ylim(0,120)
plt.xlim(0,10.1)
plt.show()

## 18.1.3 季节模式
时间序列的趋势是通过分析历史数据多年的移动来识别的。毫无疑问，**季节模式**是指，在超过一年的时期内，由于受季节的影响，时间序列图呈现重复模式  
尽管我们通常认为时间序列的季节变动是在一年内出现，但在小于一年的时期内时间序列数据也可能呈现季节模式  
表18-5是时间序列，图18-5是相应的时间序列图。时间序列图没有显示销售量有长期趋势  

In [None]:
umb=pd.read_csv('../pydata-book-master/statistics_for_business_economics/ch17/Umbrella.csv')
umb.head(10)

In [None]:
'''
5
python	pandas	dataframe	d.fillna() method
python	pandas	dataframe	d.astype()
'''
umb_lv1=umb.fillna(method='ffill').astype(int)
umb_lv1['year_Q']=umb_lv1['Year'].astype(str) + 'Q' +umb_lv1['Quarter'].astype(str) 
umb_lv1.head()

In [None]:
umb_lv1.plot('year_Q','Sales',figsize=(10,7))
plt.scatter(umb_lv1['year_Q'],umb_lv1['Sales'])
plt.ylim(0,180)
plt.xlim(0,len(umb_lv1['year_Q']))
plt.xticks(np.arange(0,len(umb_lv1['year_Q'])+1),umb_lv1['year_Q'])
plt.show()

因此，我们得出结论：存在季度的季节模式 5  
## 18.1.4 趋势与季节模式
有时时间序列同时包含趋势模式和季节模式。例如，表18-6的数据是某制造商过去4年的电视机销售量，图18-6是相应的时间序列图  

In [None]:
'''
python	pandas	dataframe	d.tail()
'''
tv_sale=pd.read_csv('../pydata-book-master/statistics_for_business_economics/ch17/TVSales.csv')
tv_sale.columns=['Year','Quarter','Sales']
tv_sale.tail()

In [None]:
tv_sale['year_Q']=tv_sale['Year'].astype(str) + 'Q' +tv_sale['Quarter'].astype(str) 

tv_sale.head()


In [None]:
'''
5
'''
tv_sale.plot('year_Q','Sales',figsize=(10,7))
plt.scatter(tv_sale['year_Q'],tv_sale['Sales'])
plt.ylim(0,9)
plt.xlim(0,len(tv_sale['year_Q']))
plt.xticks(np.arange(0,len(tv_sale['year_Q'])+1),tv_sale['year_Q'])
plt.show()