# 03 - 날짜 데이터 처리


## 1.환경준비

### (1) 라이브러리 불러오기

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

### (2) 데이터 준비

In [45]:
sales = pd.read_csv("https://raw.githubusercontent.com/DA4BAM/dataset/master/ts_sales_simple.csv")
products = pd.read_csv("https://raw.githubusercontent.com/DA4BAM/dataset/master/ts_product_master.csv")

# 판매액 계산하기
temp = pd.merge(sales, products)
temp['Amt' ] = temp['Qty'] * temp['Price']
temp['Amt'] = (temp['Amt']/1000).round()  # 단위 1000달러

In [79]:
products.loc[products['Product_ID'] == 12]

Unnamed: 0,Product_ID,Product_Code,SubCategory,Category,LeadTime,Price
14,12,GA001,Agricultural products,Grocery,3,6


In [77]:
sales.loc[sales['Store_ID']==1].groupby('Product_ID', as_index = False)['Qty'].sum()

Unnamed: 0,Product_ID,Qty
0,3,28777.0
1,5,8559.680975
2,7,20388.0
3,8,11789.0
4,10,4573.0
5,11,2107.091
6,12,53397.0
7,15,0.0
8,16,0.0
9,20,147.0


In [43]:
# 집계
data1 = temp.groupby(['Date', 'Category'], as_index = False)['Amt'].sum()
data2 = temp.groupby(['Date'], as_index = False)['Amt'].sum()

In [44]:
data1.head()

Unnamed: 0,Date,Category,Amt
0,2013-01-01,Drink,7.0
1,2013-01-01,Food,4.0
2,2013-01-01,Grocery,6.0
3,2013-01-01,Household Goods,3.0
4,2013-01-02,Drink,604.0


In [46]:
data2.head()

Unnamed: 0,Date,Amt
0,2013-01-01,20.0
1,2013-01-02,3938.0
2,2013-01-03,2885.0
3,2013-01-04,2907.0
4,2013-01-05,3831.0


In [47]:
data11 = data1.pivot('Date', 'Category', 'Amt').reset_index()
data11.head()

Category,Date,Drink,Food,Grocery,Household Goods
0,2013-01-01,7.0,4.0,6.0,3.0
1,2013-01-02,604.0,549.0,1663.0,1122.0
2,2013-01-03,444.0,376.0,1222.0,843.0
3,2013-01-04,490.0,386.0,1252.0,779.0
4,2013-01-05,704.0,505.0,1560.0,1062.0


In [48]:
data = pd.merge(data2, data11)
data.head()

Unnamed: 0,Date,Amt,Drink,Food,Grocery,Household Goods
0,2013-01-01,20.0,7.0,4.0,6.0,3.0
1,2013-01-02,3938.0,604.0,549.0,1663.0,1122.0
2,2013-01-03,2885.0,444.0,376.0,1222.0,843.0
3,2013-01-04,2907.0,490.0,386.0,1252.0,779.0
4,2013-01-05,3831.0,704.0,505.0,1560.0,1062.0


## 2.날짜 요소 추출

### (1) 날짜 타입으로 변환
* pd.to_datetime(날짜데이터, format = '입력되는 날짜 형식')
* https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.to_datetime.html

In [49]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 31 entries, 0 to 30
Data columns (total 6 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Date             31 non-null     object 
 1   Amt              31 non-null     float64
 2   Drink            31 non-null     float64
 3   Food             31 non-null     float64
 4   Grocery          31 non-null     float64
 5   Household Goods  31 non-null     float64
dtypes: float64(5), object(1)
memory usage: 1.7+ KB


In [50]:
data['Date'] = pd.to_datetime(data['Date'])

In [51]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 31 entries, 0 to 30
Data columns (total 6 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Date             31 non-null     datetime64[ns]
 1   Amt              31 non-null     float64       
 2   Drink            31 non-null     float64       
 3   Food             31 non-null     float64       
 4   Grocery          31 non-null     float64       
 5   Household Goods  31 non-null     float64       
dtypes: datetime64[ns](1), float64(5)
memory usage: 1.7 KB


* format = ''
    * pd.to_datetime(date, format = '%d/%m/%Y') # format = '%d/%m/%Y' 입력되는 날짜가 이런 형태야~~ 라고 알려주는 옵션
    * https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior

In [52]:
# pd.to_datetime(date, format = '%d/%m/%Y') # format = '%d/%m/%Y' 입력되는 날짜가 이런 형태야~~ 라고 알려주는 옵션
date = pd.Series(['03-01-2023', '03-02-2023', '03-03-2023'])
date = pd.to_datetime(date)
date

0   2023-03-01
1   2023-03-02
2   2023-03-03
dtype: datetime64[ns]

In [53]:
# 만약 dd-mm-yyyy 이 맞다면!
date = pd.Series(['03-01-2023', '03-02-2023', '03-03-2023'])
date = pd.to_datetime(date, format = '%d-%m-%Y') #입력받은 날짜 데이터 형식이 '%d-%m-%Y'!
date

0   2023-01-03
1   2023-02-03
2   2023-03-03
dtype: datetime64[ns]

### (2) 날짜 요소 추출

In [54]:
# 연도
date.dt.year

0    2023
1    2023
2    2023
dtype: int64

In [55]:
# 월
date.dt.month

0    1
1    2
2    3
dtype: int64

In [56]:
# 일
date.dt.day

0    3
1    3
2    3
dtype: int64

In [57]:
# 요일
date.dt.weekday

0    1
1    4
2    4
dtype: int64

In [58]:
# 요일 이름
date.dt.day_name()

0    Tuesday
1     Friday
2     Friday
dtype: object

<img src='https://raw.githubusercontent.com/jangrae/img/master/practice_01.png' width=120 align="left"/>

[문1] data의 Date는 이미 날짜 타입으로 변환되어 있습니다.  
* 다음의 항목을 열로 추가하시오.
    * 요일(이름)
    * 주차

In [59]:
data['Weekday'] = data['Date'].dt.day_name()
data['Week'] = data['Date'].dt.week
data.head()

  data['Week'] = data['Date'].dt.week


Unnamed: 0,Date,Amt,Drink,Food,Grocery,Household Goods,Weekday,Week
0,2013-01-01,20.0,7.0,4.0,6.0,3.0,Tuesday,1
1,2013-01-02,3938.0,604.0,549.0,1663.0,1122.0,Wednesday,1
2,2013-01-03,2885.0,444.0,376.0,1222.0,843.0,Thursday,1
3,2013-01-04,2907.0,490.0,386.0,1252.0,779.0,Friday,1
4,2013-01-05,3831.0,704.0,505.0,1560.0,1062.0,Saturday,1


## 3.시간에 따른 흐름 추가하기

### (1) shift
* 시계열 데이터에서 시간의 흐름 전후로 정보를 이동시킬 때 사용
* https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.shift.html

In [68]:
temp = data.loc[:,['Date','Amt']]

In [69]:
# 전날 매출액 열을 추가합시다.
temp['Amt_lag'] = temp['Amt'].shift() #default = 1

# 전전날 매출액 열을 추가.
temp['Amt_lag2'] = temp['Amt'].shift(2) # 2행 shift

# 다음날 매출액 열을 추가합시다.
temp['Amt_lag_1'] = temp['Amt'].shift(-1)

temp.head()

Unnamed: 0,Date,Amt,Amt_lag,Amt_lag2,Amt_lag_1
0,2013-01-01,20.0,,,3938.0
1,2013-01-02,3938.0,20.0,,2885.0
2,2013-01-03,2885.0,3938.0,20.0,2907.0
3,2013-01-04,2907.0,2885.0,3938.0,3831.0
4,2013-01-05,3831.0,2907.0,2885.0,4066.0


### (2) rolling + 집계함수
* 시간의 흐름에 따라 일정 기간 동안 평균을 이동하면서 구하기
* .rolling : https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rolling.html
* rolling(n) : 
    * n 기본값은 1
    * min_periods : 최소 데이터수

In [70]:
# 7일 이동평균 매출액을 구해 봅시다.
temp['Amt_MA7_1'] = temp['Amt'].rolling(7).mean()
temp['Amt_MA7_2'] = temp['Amt'].rolling(7, min_periods = 1).mean()
temp.head(10)

Unnamed: 0,Date,Amt,Amt_lag,Amt_lag2,Amt_lag_1,Amt_MA7_1,Amt_MA7_2
0,2013-01-01,20.0,,,3938.0,,20.0
1,2013-01-02,3938.0,20.0,,2885.0,,1979.0
2,2013-01-03,2885.0,3938.0,20.0,2907.0,,2281.0
3,2013-01-04,2907.0,2885.0,3938.0,3831.0,,2437.5
4,2013-01-05,3831.0,2907.0,2885.0,4066.0,,2716.2
5,2013-01-06,4066.0,3831.0,2907.0,2700.0,,2941.166667
6,2013-01-07,2700.0,4066.0,3831.0,2533.0,2906.714286,2906.714286
7,2013-01-08,2533.0,2700.0,4066.0,2462.0,3265.714286,3265.714286
8,2013-01-09,2462.0,2533.0,2700.0,2110.0,3054.857143,3054.857143
9,2013-01-10,2110.0,2462.0,2533.0,2405.0,2944.142857,2944.142857


### (3) diff
* 특정 시점 데이터, 이전시점 데이터와의 차이 구하기
* .diff : https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.diff.html

In [71]:
# 7일 이동평균 매출액을 구해 봅시다.
temp['Amt_D1'] = temp['Amt'].diff()
temp['Amt_D2'] = temp['Amt'].diff(2)
temp.head(10)

Unnamed: 0,Date,Amt,Amt_lag,Amt_lag2,Amt_lag_1,Amt_MA7_1,Amt_MA7_2,Amt_D1,Amt_D2
0,2013-01-01,20.0,,,3938.0,,20.0,,
1,2013-01-02,3938.0,20.0,,2885.0,,1979.0,3918.0,
2,2013-01-03,2885.0,3938.0,20.0,2907.0,,2281.0,-1053.0,2865.0
3,2013-01-04,2907.0,2885.0,3938.0,3831.0,,2437.5,22.0,-1031.0
4,2013-01-05,3831.0,2907.0,2885.0,4066.0,,2716.2,924.0,946.0
5,2013-01-06,4066.0,3831.0,2907.0,2700.0,,2941.166667,235.0,1159.0
6,2013-01-07,2700.0,4066.0,3831.0,2533.0,2906.714286,2906.714286,-1366.0,-1131.0
7,2013-01-08,2533.0,2700.0,4066.0,2462.0,3265.714286,3265.714286,-167.0,-1533.0
8,2013-01-09,2462.0,2533.0,2700.0,2110.0,3054.857143,3054.857143,-71.0,-238.0
9,2013-01-10,2110.0,2462.0,2533.0,2405.0,2944.142857,2944.142857,-352.0,-423.0


<img src='https://raw.githubusercontent.com/jangrae/img/master/practice_01.png' width=120 align="left"/>

[문1] data의 Grocery가 매출이 가장 높습니다. 이에 대해서 다음의 열을 추가해 봅시다.

* 전날 매출액
* 7일 전(전주 동 요일) 매출액
* 3일 이동평균 매출액
* 전날대비 매출액 증감여부 (증가 1, 감소 -1, 동일 0)


In [74]:
temp = data.loc[:, ['Date','Grocery']]
temp.head()

Unnamed: 0,Date,Grocery
0,2013-01-01,6.0
1,2013-01-02,1663.0
2,2013-01-03,1222.0
3,2013-01-04,1252.0
4,2013-01-05,1560.0


In [75]:
# 전날 매출액
temp['Groc_lag'] = temp['Grocery'].shift()

# 7일 전(전주 동 요일) 매출액
temp['Groc_lag'] = temp['Grocery'].shift(7)

# 3일 이동평균 매출액
temp['Groc_MA3'] = temp['Grocery'].rolling(3).mean()

# 전날대비 매출액 증감여부 (증가 1, 감소 -1, 동일 0)
temp['Groc_D'] = np.where(temp['Grocery'].diff() > 0, 1, np.where(temp['Grocery'].diff() < 0, -1, 0))
temp.head(10)

Unnamed: 0,Date,Grocery,Groc_lag,Groc_MA3,Groc_D
0,2013-01-01,6.0,,,0
1,2013-01-02,1663.0,,,1
2,2013-01-03,1222.0,,963.666667,-1
3,2013-01-04,1252.0,,1379.0,1
4,2013-01-05,1560.0,,1344.666667,1
5,2013-01-06,1713.0,,1508.333333,1
6,2013-01-07,1170.0,,1481.0,-1
7,2013-01-08,1144.0,6.0,1342.333333,-1
8,2013-01-09,1074.0,1663.0,1129.333333,-1
9,2013-01-10,878.0,1222.0,1032.0,-1
