#시계열 데이터

##1. 이해하기
> 시계열 데이터는 시간의 흐름에 따른 데이터의 변화를 분석 및 예측하는데 사용되는 데이터이다.
* 타임스탬프(Timestamp) - 특정 시점을 의미함.
* 기간(Period) - 일정 시간을 의미함

##2. 시간 조작

In [None]:
import pandas as pd

dates=['2021-01-01', '2021-03-01', '2021-05-01']
print(dates)

> 간단하게 문자열 날짜 데이터를 만들었다.

###2.1 timestamp 간단하게 사용하기

In [None]:
timestamp_dates = pd.to_datetime(dates)
print(type(timestamp_dates))
timestamp_dates

> 문자열 날짜를 to_datetime함수를 이용하여 datetime64 형식의 timestamp로 변환한다.

> to_datetime 함수를 이용해 얻는 데이터의 자료형은 DatetimeIndex이며 내부 데이터의 자료형은 datetime64임을 알 수 있다.

###2.2 period 간단하게 사용하기

In [None]:
period_day = timestamp_dates.to_period(freq='D')
period_month = timestamp_dates.to_period(freq='M')
period_year = timestamp_dates.to_period(freq='A')

print('year : ', period_year)
print('month : ', period_month)
print('day : ', period_day)

> to_period는 전체 날짜에서 특정 데이터만 변환하는 것으로 freq에 따라 다음과 같이 나타난다.
* D : day까지 표현
* M : month까지 표현
* A : year만 표현

##3. 활용하기

###3.1 파일 읽기

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
import pandas as pd

filepath = '/content/drive/MyDrive/2. 데이터 탐색/Data/timeseries.csv'
df = pd.read_csv(filepath)
df

> 구글 드라이브에 있는 timeseries.csv 파일을 읽어 오자

###3.2 timestamp

In [None]:
df.info()

> 실행결과 date가 object 형임을 알 수 있다. 이를 시계열 데이터로 변환하여 시간의 연산을 처리할 수 있다.

In [None]:
df['new_Date'] = pd.to_datetime(df['Date'])
df.info()

>new_Date라는 feature를 만들어 기존의 Date를 datetime으로 변환하여 저장한다.

>info를 확인해 보면 datetime64형으로 추가된 것을 확인할 수 있다.

In [None]:
df_drop = df
# df_drop=df_drop.drop('Date', axis=1)
df_drop.drop('Date', axis=1, inplace=True)
df_drop

>Date는 문자열이고 이를 날짜 함수로 변환한 new_Date가 존재하여 기존 Date를 삭제하려고 한다. drop함수를 이용하여 feature 가 'Date'인 열(axis=1)를 제거하는데 inplace=True이면 처리된 결과를 원본 데이터 즉, df_drop에 적용하게 된다.

In [None]:
df_drop.set_index('new_Date', inplace=True)
df_drop

>index 정보를 기존의 feature로 설정할 경우 set_index를 사용하게 된다. 위에서 처럼 new_Date를 이용하여 새로운 index를 설정하였다. 이를 이용하여 시간의 흐름에 따른 데이터들의 변화를 차트화 할 것이다.

In [None]:
import matplotlib.pyplot as plt

plt.plot(df_drop)

>위와 같이 선 그래프를 이용하여 날짜에 따른 데이터의 변화량을 볼 수 있다.

###3.3 period

In [None]:
import pandas as pd

filepath = '/content/drive/MyDrive/2. 데이터 탐색/Data/timeseries.csv'
df = pd.read_csv(filepath)
df

> 데이터가 변경되어 다시 읽어 들인다.

In [None]:
df['new_Date']=pd.to_datetime(df['Date'])
df

> Date feature를 datetime 함수를 이용하여 newDate feature로 추가한다.

In [None]:
df['year'] = df['new_Date'].dt.year
df['month'] = df['new_Date'].dt.month
df['day'] = df['new_Date'].dt.day

df

>df['new_Date']의 자료형은 datetime64이다. 이 자료형에서는 dt라는 객체를 지원해 주며 dt내부의 year, month, day를 이용하여 년,월, 일 정보를 얻을 수 있다.

> 자세한 정보는 다음 사이트에서 참조하기 바란다.
* https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DatetimeIndex.html

In [None]:
df.set_index('new_Date', inplace=True)
df

> new_Date를 index로 변환한다.

In [None]:
# df
df.loc['2015']
df.loc['2015-07']
df.loc['2015-07-02']

>loc를 이용하면 index 정보를 읽어 들일 수 있으며 년도별, 월별, 일별 데이터를 추출할 수 있다.

In [None]:
df['2015-06-25':'2018-06-24']

> 날짜 범위를 지정하여 데이터를 추출할 수도 있다.

In [None]:
today = pd.to_datetime('2021-06-23')
df['time-diff'] = today - df.index
df

> 오늘 날짜를 계산하여 몇일이 지났는지를 확인할 수 있다.