# 시계열 데이터 다루기 기초

## 1. 날짜를 그대로 다루기
- 날짜 정보를 활용해야할 때 사용하는 방법입니다.
- 최근 카카오 1년의 주가 데이터를 사용합니다.


In [1]:
import pandas as pd

In [8]:
df = pd.read_csv('kakao_stockprice.csv')
df.head()

Unnamed: 0,Date,Open
0,2020-10-05,72100.0
1,2020-10-06,74700.0
2,2020-10-07,75600.0
3,2020-10-08,76700.0
4,2020-10-12,76600.0


### 자료형 변환하기

In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 248 entries, 0 to 247
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Date    248 non-null    object 
 1   Open    248 non-null    float64
dtypes: float64(1), object(1)
memory usage: 4.0+ KB


- Date가 object 자료형입니다. (어떤 시간정보가 아닌 단순한 문자형이라고 생각하셔도 됩니다.)
- Pandas를 이용해 Date의 자료형을 변환합니다.

In [10]:
df['Date'] = pd.to_datetime(df['Date']) # to_datetime() 함수를 이용해 시계열 자료형으로 변환
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 248 entries, 0 to 247
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   Date    248 non-null    datetime64[ns]
 1   Open    248 non-null    float64       
dtypes: datetime64[ns](1), float64(1)
memory usage: 4.0 KB


In [11]:
df.head()

Unnamed: 0,Date,Open
0,2020-10-05,72100.0
1,2020-10-06,74700.0
2,2020-10-07,75600.0
3,2020-10-08,76700.0
4,2020-10-12,76600.0


- 생긴것은 그대로지만 자료형이 datetime64[ns]로 바뀐 것을 확인할 수 있습니다.

### 날짜 정보 추출하기

- 이제 Date를 사용해 연, 월, 일을 구분해보겠습니다.

In [16]:
df['Year'] = df['Date'].dt.year
df['Month'] = df['Date'].dt.month
df['Day'] = df['Date'].dt.day
df.head()

Unnamed: 0,Date,Open,Year,Month,Day,Weekday
0,2020-10-05,72100.0,2020,10,5,0
1,2020-10-06,74700.0,2020,10,6,1
2,2020-10-07,75600.0,2020,10,7,2
3,2020-10-08,76700.0,2020,10,8,3
4,2020-10-12,76600.0,2020,10,12,0


In [14]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 248 entries, 0 to 247
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   Date    248 non-null    datetime64[ns]
 1   Open    248 non-null    float64       
 2   Year    248 non-null    int64         
 3   Month   248 non-null    int64         
 4   Day     248 non-null    int64         
dtypes: datetime64[ns](1), float64(1), int64(3)
memory usage: 9.8 KB


- 잘 분리가 된 것을 알 수 있습니다.
- 각 자료형의 타입은 정수형으로 나오네요.

- 가끔 요일정보 (그 날이 무슨 요일이지?)가 필요할 때가 있습니다.
- 마찬가지로 똑똑하게 변환을 해줍니다.

In [17]:
df['Weekday'] = df['Date'].dt.weekday
df.head()

Unnamed: 0,Date,Open,Year,Month,Day,Weekday
0,2020-10-05,72100.0,2020,10,5,0
1,2020-10-06,74700.0,2020,10,6,1
2,2020-10-07,75600.0,2020,10,7,2
3,2020-10-08,76700.0,2020,10,8,3
4,2020-10-12,76600.0,2020,10,12,0


![image](https://user-images.githubusercontent.com/68543150/135945531-e3a7ed7b-6de6-4b11-ad74-295aa5c2dd55.png)

- weekday는 0~6의 숫자로 이루어져 있습니다.
- 0이 월요일이고, 6이 일요일입니다.
- 달력을 보면 2020-10-05의 weekday는 0(월요일)으로 잘 변형된 것을 볼 수 있습니다.
- 10월 9일(한글날)

### 연산
- 종종 전 날과의 차이를 확인해보고 싶을때가 있습니다.
- 데이터를 미는 방법을 살펴보고, 연산을 수행해보겠습니다.
- pandas의 shift 함수를 사용하여 데이터를 한 칸씩 밀 수 있습니다.

In [19]:
df['Previous'] = df['Open'].shift(1) # 1은 한칸을 의미
df.head()

Unnamed: 0,Date,Open,Year,Month,Day,Weekday,Previous
0,2020-10-05,72100.0,2020,10,5,0,
1,2020-10-06,74700.0,2020,10,6,1,72100.0
2,2020-10-07,75600.0,2020,10,7,2,74700.0
3,2020-10-08,76700.0,2020,10,8,3,75600.0
4,2020-10-12,76600.0,2020,10,12,0,76700.0


- 2020-10-05의 Open 값이 2020-10-06의 Previous에 들어간 것을 알 수 있습니다.
- 2020-10-05의 Previous는 전날 데이터가 존재하지 않기 때문에 NULL값이 표기됩니다.
- 이렇게 만든 후에 Open과 Previous를 빼면 전날과의 차이를 알 수 있습니다.

In [20]:
df['Difference'] = df['Open'] - df['Previous']
df.head()

Unnamed: 0,Date,Open,Year,Month,Day,Weekday,Previous,Difference
0,2020-10-05,72100.0,2020,10,5,0,,
1,2020-10-06,74700.0,2020,10,6,1,72100.0,2600.0
2,2020-10-07,75600.0,2020,10,7,2,74700.0,900.0
3,2020-10-08,76700.0,2020,10,8,3,75600.0,1100.0
4,2020-10-12,76600.0,2020,10,12,0,76700.0,-100.0


- 2020-10-06을 살펴보면 당일 가격(Open) 74700 - 전날 가격(Previous) 72100 = 2600이 나왔음을 알 수 있습니다.
- 2020-10-05의 Difference는 Previous가 NULL값이어서 마찬가지로 NULL값이 됐습니다.
- Previous 열은 딱히 필요가 없으니 지우도록 하겠습니다.

In [21]:
df.drop('Previous', axis=1, inplace=True)
df.head()

Unnamed: 0,Date,Open,Year,Month,Day,Weekday,Difference
0,2020-10-05,72100.0,2020,10,5,0,
1,2020-10-06,74700.0,2020,10,6,1,2600.0
2,2020-10-07,75600.0,2020,10,7,2,900.0
3,2020-10-08,76700.0,2020,10,8,3,1100.0
4,2020-10-12,76600.0,2020,10,12,0,-100.0


- Previous열을 만들지 않고 한번에 차이를 계산하려면 다음과 같이 하면 됩니다.

In [22]:
df['Difference2'] = df['Open'] - df['Open'].shift(1)
df.head()

Unnamed: 0,Date,Open,Year,Month,Day,Weekday,Difference,Difference2
0,2020-10-05,72100.0,2020,10,5,0,,
1,2020-10-06,74700.0,2020,10,6,1,2600.0,2600.0
2,2020-10-07,75600.0,2020,10,7,2,900.0,900.0
3,2020-10-08,76700.0,2020,10,8,3,1100.0,1100.0
4,2020-10-12,76600.0,2020,10,12,0,-100.0,-100.0


- 값이 똑같이 나왔습니다 :)

## 2. 날짜를 순서형 변수로 다루기
- 날짜 자체의 정보보다는 날짜가 가지는 순서에 집중할 때 사용하는 방법입니다.
- 연월일 이런정보 말고, 시작하는 날을 0, 그 다음날 1, ... 마지막 날 n 이렇게 만들고 싶을 때 사용합니다.

In [23]:
from sklearn.preprocessing import LabelEncoder

In [33]:
df = pd.read_csv('kakao_stockprice.csv')
df.head()

Unnamed: 0,Date,Open
0,2020-10-05,72100.0
1,2020-10-06,74700.0
2,2020-10-07,75600.0
3,2020-10-08,76700.0
4,2020-10-12,76600.0


In [34]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 248 entries, 0 to 247
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Date    248 non-null    object 
 1   Open    248 non-null    float64
dtypes: float64(1), object(1)
memory usage: 4.0+ KB


In [35]:
le = LabelEncoder()
df['label_encoded'] = le.fit_transform(df['Date'])
df.head() 

Unnamed: 0,Date,Open,label_encoded
0,2020-10-05,72100.0,0
1,2020-10-06,74700.0,1
2,2020-10-07,75600.0,2
3,2020-10-08,76700.0,3
4,2020-10-12,76600.0,4


- 첫째 날인 2020-10-05는 0, 그다음은 1로 시작해 쭉쭉 나갑니다.
- 마지막 날도 확인해보겠습니다.

In [36]:
df.tail()

Unnamed: 0,Date,Open,label_encoded
243,2021-09-28,120500.0,243
244,2021-09-29,115000.0,244
245,2021-09-30,115000.0,245
246,2021-10-01,118000.0,246
247,2021-10-05,114500.0,247


- 데이터의 개수가 247개임을 감안할 때, 잘 처리가 됐음을 알 수 있습니다.
- 이 방법은 날짜가 뒤죽박죽일때 효과적입니다.

In [37]:
df = pd.read_csv('kakao_stockprice.csv')
df = df.sample(frac=1).reset_index(drop=True)
df.head()

Unnamed: 0,Date,Open
0,2021-06-25,155000.0
1,2021-07-06,157500.0
2,2021-01-08,82600.0
3,2021-03-31,98800.0
4,2021-03-10,90500.0


In [38]:
le = LabelEncoder()
df['label_encoded'] = le.fit_transform(df['Date'])
df.head()

Unnamed: 0,Date,Open,label_encoded
0,2021-06-25,155000.0,180
1,2021-07-06,157500.0,187
2,2021-01-08,82600.0,65
3,2021-03-31,98800.0,120
4,2021-03-10,90500.0,105


In [39]:
df.loc[df['label_encoded']==0, :]

Unnamed: 0,Date,Open,label_encoded
126,2020-10-05,72100.0,0


- 2020-10-05 의 label_encoded 값이 0입니다.