## 날짜 데이터 생성
+ 작성: 김지훈
+ 수정: 임경호

- 지정한 연도의 1월 1일부터 12월 31일까지 데이터를 생성합니다.
- 데이터의 표현은 yyyymmdd (년월일) 입니다.

In [14]:
theYear = '2011'    # 날짜를 생성하고자 하는 년도

In [15]:
import pandas as pd
import numpy as np

In [16]:
#날짜 데이터 생성
start_date = theYear + '0101'
end_date = theYear + '1231'
df = pd.DataFrame({'Date':pd.date_range(start=start_date, end=end_date, freq='D')}) #일 기준으로 날짜 데이터 생성
df['Date'] = df['Date'].dt.strftime('%Y%m%d').astype(int)
df

Unnamed: 0,Date
0,20110101
1,20110102
2,20110103
3,20110104
4,20110105
...,...
360,20111227
361,20111228
362,20111229
363,20111230


## 날짜 데이터 전처리

<b>분기</b>
- 4분기 : 1분기 (1 ~ 3월) / 2분기 (4 ~ 6월) / 3분기 (7 ~ 9월) / 4분기 (10 ~ 12월)  
- 4분기 : 1분기 (1 ~ 2월) / 2분기 (3 ~ 4월) / 3분기 (5 ~ 6월) / 4분기 (7 ~ 8월) / 5분기 (9 ~ 10월) / 6분기 (11 ~ 12월) 

<b>계절 구분</b>
- season_A : 봄(3 ~ 5월) / 여름(6 ~ 8월) / 가을(9 ~ 11월) / 겨울(12 ~ 2월)  
- season_B : 동절기(12월 ~ 3월) / 하절기(6 ~ 9월) / 기타(4 ~ 5월, 10 ~ 11월)  
- season_C : 동절기(10월 ~ 4월) / 하절기(5 ~ 9월)

In [17]:
df_date = pd.DataFrame() #임의의 데이터프레임 생성
df_date['date_id'] = df['Date'].astype(str) #데이터프레임명 변경
df_date['date_type'] = pd.to_datetime(df_date['date_id']) #날짜 형식의 데이터 임시 생성
df_date['year'] = df_date['date_type'].dt.year #년
df_date['month'] = df_date['date_type'].dt.month #월
df_date['day'] = df_date['date_type'].dt.day #일
df_date['quarter_4'] = df_date['date_type'].dt.quarter #분기(4)
df_date['quarter_6'] = np.ceil(df_date['month']/2).astype(int) #분기(6)
df_date['quarter_4'] = df_date['quarter_4'].astype(str)
df_date['quarter_6'] = df_date['quarter_6']
df_date['quarter_4']=df_date['quarter_4'].astype(str)+'/4'
df_date['quarter_6']=df_date['quarter_6'].astype(str)+'/6'
    
#season_A : 봄(3~5월) / 여름(6~8월) / 가을(9~11월) / 겨울(12~2월) 
df_date.loc[(df_date['month'] == 3) | (df_date['month'] == 4)| (df_date['month'] == 5), 'seanson_A'] = '봄'
df_date.loc[(df_date['month'] == 6) | (df_date['month'] == 7)| (df_date['month'] == 8), 'seanson_A'] = '여름'
df_date.loc[(df_date['month'] == 9) | (df_date['month'] == 10)| (df_date['month'] == 11), 'seanson_A'] = '가을'
df_date.loc[(df_date['month'] == 1) | (df_date['month'] == 2)| (df_date['month'] == 12), 'seanson_A'] = '겨울'
#season_B : 동절기(12월~3월) / 하절기(6~9월) / 기타(4~5월, 10~11월)
df_date.loc[(df_date['month'] == 12) | (df_date['month'] == 1)| (df_date['month'] == 2)| (df_date['month'] == 3), 'seanson_B'] = '동절기'
df_date.loc[(df_date['month'] == 6) | (df_date['month'] == 7)| (df_date['month'] == 8)| (df_date['month'] == 9), 'seanson_B'] = '하절기'
df_date.loc[(df_date['month'] == 4) | (df_date['month'] == 5)| (df_date['month'] == 10)| (df_date['month'] == 11), 'seanson_B'] = '기타'
#season_C : 동절기(10월~4월) / 하절기(5~9월)
df_date.loc[(df_date['month'] == 10) | (df_date['month'] == 11)| (df_date['month'] == 12)| (df_date['month'] == 1)
            | (df_date['month'] == 2)| (df_date['month'] == 3)| (df_date['month'] == 4),'seanson_C'] = '동절기'
df_date.loc[(df_date['month'] == 5) | (df_date['month'] == 6)| (df_date['month'] == 7)
            | (df_date['month'] == 8)| (df_date['month'] == 9), 'seanson_C'] = '하절기'
df_date

Unnamed: 0,date_id,date_type,year,month,day,quarter_4,quarter_6,seanson_A,seanson_B,seanson_C
0,20110101,2011-01-01,2011,1,1,1/4,1/6,겨울,동절기,동절기
1,20110102,2011-01-02,2011,1,2,1/4,1/6,겨울,동절기,동절기
2,20110103,2011-01-03,2011,1,3,1/4,1/6,겨울,동절기,동절기
3,20110104,2011-01-04,2011,1,4,1/4,1/6,겨울,동절기,동절기
4,20110105,2011-01-05,2011,1,5,1/4,1/6,겨울,동절기,동절기
...,...,...,...,...,...,...,...,...,...,...
360,20111227,2011-12-27,2011,12,27,4/4,6/6,겨울,동절기,동절기
361,20111228,2011-12-28,2011,12,28,4/4,6/6,겨울,동절기,동절기
362,20111229,2011-12-29,2011,12,29,4/4,6/6,겨울,동절기,동절기
363,20111230,2011-12-30,2011,12,30,4/4,6/6,겨울,동절기,동절기


In [18]:
df_date.dtypes

date_id              object
date_type    datetime64[ns]
year                  int32
month                 int32
day                   int32
quarter_4            object
quarter_6            object
seanson_A            object
seanson_B            object
seanson_C            object
dtype: object

## DB에 데이터 삽입

In [19]:
import sys
module_path = "D:\PythonProject\data-gatherer\common"
sys.path.append(module_path)
import dbconnect

conn = dbconnect.db_connect("DEMO_DW")
cur = conn.cursor()

for row in df_date.itertuples():
    sql = "insert into date (date_id, date_type, year, month, day, quarter_4, quarter_6, seanson_A, seanson_B, seanson_C) \
                     values (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s)"
    cur.execute(sql, (row[1], row[2], row[3], row[4], row[5], row[6], row[7], row[8], row[9], row[10]))
conn.commit()
conn.close()