# CH3

## 시계열 데이터 분석의 대표적인 목적

시계열 데이터 패턴에 영향을 미치는 요소(Feature)를 찾는다.  
과거의 데이터가 어떻게 미래의 데이터에 영향을 미치는지를 분석한다.  
미래의 데이터를 예측한다.

## 기억해야 할 시계열 데이터의 특성
Trend 측정값이 시간의 흐름에 따라 증가나 감소 또는 반복 등의 일정한 패턴이나 경향을 가지고 있는가?  
Seasonality 일, 월, 년 계절 등 일정 시간에 따라 지속해서 반복되는 패턴이 있는가?  
Outliers 다른 값들과 동떨어진 이상치를 관측할 수 있는가?  
Long-run Cycle 계절성과는 별도로 오랜 기간 반복되는 패턴이 있는가?  
Constant Variance 측정값이 일정한 수준 이내로 변동되는가 아니면 변동이 무작위로 발생하는가?  
Abrupt Change 급격한 변동을 보이는 데이터가 있는가?  

## 랜덤과정
랜덤과정(Stochastic Process, Random Process)은 확률변수가 시간의 흐름에 따라 변화한 값들을 일컫는다.  
랜덤과정을 시간의 흐름에 따른 확률분포라고도 생각할 수 있다.  
랜덤과정의 반대 개념은 결정적 과정(Deterministic Process)으로, 시간의 흐름에 따른 값의 변화가 일정한 값을 갖는다.  

## 정상 시계열 데이터
정상성(Stationarity)은 평균과 분산 같은 통계적 특성이 시간에 대해 일정한 성질을 의미한다.  
이런한 특성이 있는 랜덤과정을 정상과정이라고 한다. 

### 약한 정상성
정상성에는 약한 정상성(Weak-sense Stationarity)과 강한 정상성(Strong-sense Stationarity)이 있다.  
약한 정상성을 정의하면  
평균함수 m(t)와 공분산함수 r(s,t)가 시간에 대해 변하지 않는 성질을 '약한 정산성' 이라고 하고, 이러한 과정을 '약한 정상성 과정' 이라고 한다. 다음과 같은 특성을 가진다
 - 일정한 평균
 - 일정한 분산
 - 시간에 독립적인 공분산  
 
이 특성을 만족하려면, 어떤 랜덤과정이 있고 그 과정을 함수 f(t)라고 할 때, 시간 t1에 대해 다음과 같은 관계가 성립해야 한다.  
f(t1) = f(t1+r)
이 수식은 시간의 변화에 상관없이 일정한 통계적 특성을 가져야만 성립할 수 있다.

In [None]:
#-*- coding: utf-8 -*-
import os,sys,datetime
import numpy as np
import pandas as pd
from pandas_datareader import data as web
import matplotlib.pyplot as plt
from pandas.compat import range, lrange, lmap, map, zip
from pandas.plotting import scatter_matrix, autocorrelation_plot

parentPath = os.path.abspath("..")
if parentPath not in sys.path:
    sys.path.insert(0, parentPath)

from common import *


def get_autocorrelation_dataframe(series):
    def r(h):
        return ((data[:n - h] - mean) * (data[h:] - mean)).sum() / float(n) / c0

    n = len(series)
    data = np.asarray(series)

    mean = np.mean(data)
    c0 = np.sum((data - mean) ** 2) / float(n)

    x = np.arange(n) + 1
    y = lmap(r, x)

    df = pd.DataFrame(y, index=x)

    return df


df_samsung = load_stock_data('samsung.data')
df_samsung_corr = get_autocorrelation_dataframe(df_samsung['Close'])

print(df_samsung_corr)
#for i in range(df_samsung.shape[0]):
#	arr = df_samsung['Close'].autocorr(lag=i)
#	print "%s, %s" % (i,arr)

#df_samsung_corr = pd.DataFrame(arr,index=arr,columns=arr)

#df_hanmi = load_stock_data('hanmi.data')

#print df_samsung['Close'].cov(df_hanmi['Close'])

#print df_samsung['Close'].corr(df_hanmi['Close'])

fig, axs = plt.subplots(2,1)
axs[1].xaxis.set_visible(False) 

df_samsung['Close'].plot(ax=axs[0])
df_samsung_corr[0].plot(kind='bar',ax=axs[1])
#autocorrelation_plot(df_samsung['Close'],ax=axs[1], kind='box')

plt.show()