# 2021년 요일과 공휴일 정보를 담은 데이터 생성

 2021년 1월 1일부터 2021년 12월 31일까지의 날짜에 대해 공휴일 여부 구별해주는 코드 작성

[변수 설명]
- date_list : 2021-01-01~2021-12-31사이의 모든 날짜들의 리스트
- break_list : 2021년 공휴일 리스트
- break_instead : 2021년 대체공휴일 리스트


[과정 설명]
- 함수를 이용하여 2021-01-01부터 2021-12-31까지 날짜 데이터를 DataFrame 생성
- 공휴일을 리스트로 저장 후, 대체 공휴일로 지정된 날짜에 대해서도 리스트로 저장
- 공휴일인 경우 1, 공휴일이 아닌 경우 0으로 판단하여 데이터프레임의 공휴일 칼럼에 추가
- 반복문을 통해 2021-01-01('금')을 시작으로 '월', '화', '수', '목', '금', '토', '일' 문자열을 순서대로 리스트에 저장 후 날짜 데이터와 합쳐 DataFrame으로 저장
- 두 데이터 프레임을 날짜 기준으로 합쳐 date_data.csv 파일로 저장

[공휴일 판단 참고 페이지]
https://kr.trip.com/hot/2021%EB%85%84+%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD+%EA%B3%B5%ED%9C%B4%EC%9D%BC/

[대체 공휴일 관련]
- 대체 공휴일은 일요일이 공휴일인 경우에만 그 다음날을 대체 공휴일로 지정 (ex) 설 연휴가 일요일인 경우, 그 다음 날을 대체 공휴일로 지정) -> 단, 어린이날의 경우 토요일인 경우 월요일을 대체 공휴일로 지정
- 그렇지만, 2021년 대체 공휴일이 확대 시행되어 아래의 기준 적용
    1. 광복절, 개천절, 한글날도 대체 공휴일 추가로 적용
    2. 공휴일이 토요일인 경우에도 대체 공휴일이 되는 경우로 확대적용됨

In [1]:
# 라이브러리 불러오기
from datetime import datetime, date
import pandas as pd
import numpy as np

In [2]:
# 2021-01-01에서 2021-12-31 사이 모든 날짜를 크롤링하는 함수 만들어서 가져오기
from datetime import datetime, timedelta
# 해당 범위 내의 날짜들을 리스트로 지정해주는 함수
def date_range(start, end):
    start = datetime.strptime(start, "%Y-%m-%d")
    end = datetime.strptime(end, "%Y-%m-%d")
    dates = [(start + timedelta(days=i)).strftime("%Y-%m-%d") for i in range((end-start).days+1)]
    return dates
# 2021-01-01 ~ 2021-12-31 사이의 날짜를 리스트로 지정
date_list = date_range("2021-01-01", "2021-12-31")

In [3]:
# 결과 확인
date_list

['2021-01-01',
 '2021-01-02',
 '2021-01-03',
 '2021-01-04',
 '2021-01-05',
 '2021-01-06',
 '2021-01-07',
 '2021-01-08',
 '2021-01-09',
 '2021-01-10',
 '2021-01-11',
 '2021-01-12',
 '2021-01-13',
 '2021-01-14',
 '2021-01-15',
 '2021-01-16',
 '2021-01-17',
 '2021-01-18',
 '2021-01-19',
 '2021-01-20',
 '2021-01-21',
 '2021-01-22',
 '2021-01-23',
 '2021-01-24',
 '2021-01-25',
 '2021-01-26',
 '2021-01-27',
 '2021-01-28',
 '2021-01-29',
 '2021-01-30',
 '2021-01-31',
 '2021-02-01',
 '2021-02-02',
 '2021-02-03',
 '2021-02-04',
 '2021-02-05',
 '2021-02-06',
 '2021-02-07',
 '2021-02-08',
 '2021-02-09',
 '2021-02-10',
 '2021-02-11',
 '2021-02-12',
 '2021-02-13',
 '2021-02-14',
 '2021-02-15',
 '2021-02-16',
 '2021-02-17',
 '2021-02-18',
 '2021-02-19',
 '2021-02-20',
 '2021-02-21',
 '2021-02-22',
 '2021-02-23',
 '2021-02-24',
 '2021-02-25',
 '2021-02-26',
 '2021-02-27',
 '2021-02-28',
 '2021-03-01',
 '2021-03-02',
 '2021-03-03',
 '2021-03-04',
 '2021-03-05',
 '2021-03-06',
 '2021-03-07',
 '2021-03-

In [4]:
# 공휴일 리스트 (2021년 법정 공휴일)
break_list = ['2021-01-01','2021-02-11','2021-02-12','2021-02-13',
              '2021-03-01','2021-05-05','2021-05-19','2021-06-06','2021-08-15',
             '2021-09-20','2021-09-21','2021-09-22','2021-10-03',
             '2021-10-09','2021-12-25']

In [5]:
# 대체공휴일 리스트 (개정 이후 대체 공휴일)
break_instead = ['2021-08-16','2021-10-04','2021-10-11']

In [6]:
# 2021년의 모든 날짜들을 가져와서 데이터프레임으로 만듦
datedf = pd.DataFrame(date_list)
datedf['공휴일']=0 # 우선 모든 칼럼을 0으로 만듦
# 칼럼명 재지정
datedf.columns = ['날짜','공휴일']

In [7]:
# 2021-01-01이 공휴일에 포함되어 있는지 판단
datedf['날짜'][0] in break_list

True

In [8]:
# 공휴일, 데체공휴일이면 공휴일 칼럼을 1로, 아니면 0으로 놔둠
for i in range(len(datedf['날짜'])):
    if datedf['날짜'][i] in break_list: # 해당 날짜가 공휴일인지 판단
        datedf['공휴일'][i]=1
    elif datedf['날짜'][i] in break_instead: # 해당 날짜가 공휴일이 아니라면, 혹시 대체 공휴일에 포함되는지 판단
        datedf['공휴일'][i]=1

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  datedf['공휴일'][i]=1
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  datedf['공휴일'][i]=1


In [9]:
# 2021-01-01이 금요일이기에 이를 기준으로 for문을 통해서 무슨 요일인지 추가하기
result = [] # 요일을 담아놓을 리스트
pd.DataFrame(pd.date_range("2021-1-1", "2021-12-31"))
for i in range(0,365) :
    if (i % 7 == 0) : # 1월1일,8일...
        result.append('금')
    elif (i % 7 == 1) : # 1월2일,9일...
        result.append('토')
    elif (i % 7 == 2) : # 1월3일...
        result.append('일')
    elif (i % 7 == 3) : # 1월4일...
        result.append('월')
    elif (i % 7 == 4) : # 1월5일...
        result.append('화')
    elif (i % 7 == 5 ) : # 1월6일...
        result.append('수') 
    elif (i % 7 == 6) : # 1월7일...
        result.append('목')
        
a = pd.DataFrame([pd.date_range('2021-1-1', '2021-12-31'), result]).T
a['날짜'] = a[0]
a

Unnamed: 0,0,1,날짜
0,2021-01-01,금,2021-01-01
1,2021-01-02,토,2021-01-02
2,2021-01-03,일,2021-01-03
3,2021-01-04,월,2021-01-04
4,2021-01-05,화,2021-01-05
...,...,...,...
360,2021-12-27,월,2021-12-27
361,2021-12-28,화,2021-12-28
362,2021-12-29,수,2021-12-29
363,2021-12-30,목,2021-12-30


In [10]:
# 기존의 공휴일 여부를 판단했던 공휴일판단 데이터를 가져와 변환하기
b = datedf
# b데이터의 요일칼럼을 a[1]로 지정
b['요일'] = a[1]
# 첫번째 1월1일의 요일이 금요일이므로 금요일로 지정
b['요일'].loc[0] = '금'


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  b['요일'].loc[0] = '금'


In [12]:
b.to_csv('date_data.csv')

Unnamed: 0,날짜,공휴일,요일
0,2021-01-01,1,금
1,2021-01-02,0,토
2,2021-01-03,0,일
3,2021-01-04,0,월
4,2021-01-05,0,화
...,...,...,...
360,2021-12-27,0,월
361,2021-12-28,0,화
362,2021-12-29,0,수
363,2021-12-30,0,목
