# 2021년의 모든 날짜에 대한 공휴일 판단 짜기

[목표]
- 2021년 1월 1일부터 2021년 12월 31일까지의 날짜에 대해 공휴일 여부 구별해주는 코드 작성

[변수 설명]
- date_list : 2021-01-01~2021-12-31사이의 모든 날짜들의 리스트
- break_list : 2021년 공휴일 리스트
- break_instead : 2021년 대체공휴일 리스트



[전처리 과정]
- 함수를 이용하여 2021-01-01부터 2021-12-31까지 날짜 데이터를 DataFrame 생성
- 공휴일을 리스트로 저장 후, 대체 공휴일로 지정된 날짜에 대해서도 리스트로 저장
- 공휴일인 경우 1, 공휴일이 아닌 경우 0으로 판단하여 데이터프레임의 공휴일 칼럼에 추가

[공휴일 판단 참고 페이지]
https://kr.trip.com/hot/2021%EB%85%84+%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD+%EA%B3%B5%ED%9C%B4%EC%9D%BC/

[대체 공휴일 관련]
- 대체 공휴일은 일요일이 공휴일인 경우에만 그 다음날을 대체 공휴일로 지정 (ex) 설 연휴가 일요일인 경우, 그 다음 날을 대체 공휴일로 지정) -> 단, 어린이날의 경우 토요일인 경우 월요일을 대체 공휴일로 지정
- 그렇지만, 2021년 대체 공휴일이 확대 시행되어 아래의 기준 적용
    1. 광복절, 개천절, 한글날도 대체 공휴일 추가로 적용
    2. 공휴일이 토요일인 경우에도 대체 공휴일이 되는 경우로 확대적용됨

In [4]:
# 라이브러리 불러오기
from datetime import datetime, date
import pandas as pd
import numpy as np

In [5]:
# 2021-01-01에서 2021-12-31 사이 모든 날짜를 크롤링하는 함수 만들어서 가져오기
from datetime import datetime, timedelta
# 해당 범위 내의 날짜들을 리스트로 지정해주는 함수
def date_range(start, end):
    start = datetime.strptime(start, "%Y-%m-%d")
    end = datetime.strptime(end, "%Y-%m-%d")
    dates = [(start + timedelta(days=i)).strftime("%Y-%m-%d") for i in range((end-start).days+1)]
    return dates
# 2021-01-01 ~ 2021-12-31 사이의 날짜를 리스트로 지정
date_list = date_range("2021-01-01", "2021-12-31")

In [6]:
# 결과 확인
date_list

['2021-01-01',
 '2021-01-02',
 '2021-01-03',
 '2021-01-04',
 '2021-01-05',
 '2021-01-06',
 '2021-01-07',
 '2021-01-08',
 '2021-01-09',
 '2021-01-10',
 '2021-01-11',
 '2021-01-12',
 '2021-01-13',
 '2021-01-14',
 '2021-01-15',
 '2021-01-16',
 '2021-01-17',
 '2021-01-18',
 '2021-01-19',
 '2021-01-20',
 '2021-01-21',
 '2021-01-22',
 '2021-01-23',
 '2021-01-24',
 '2021-01-25',
 '2021-01-26',
 '2021-01-27',
 '2021-01-28',
 '2021-01-29',
 '2021-01-30',
 '2021-01-31',
 '2021-02-01',
 '2021-02-02',
 '2021-02-03',
 '2021-02-04',
 '2021-02-05',
 '2021-02-06',
 '2021-02-07',
 '2021-02-08',
 '2021-02-09',
 '2021-02-10',
 '2021-02-11',
 '2021-02-12',
 '2021-02-13',
 '2021-02-14',
 '2021-02-15',
 '2021-02-16',
 '2021-02-17',
 '2021-02-18',
 '2021-02-19',
 '2021-02-20',
 '2021-02-21',
 '2021-02-22',
 '2021-02-23',
 '2021-02-24',
 '2021-02-25',
 '2021-02-26',
 '2021-02-27',
 '2021-02-28',
 '2021-03-01',
 '2021-03-02',
 '2021-03-03',
 '2021-03-04',
 '2021-03-05',
 '2021-03-06',
 '2021-03-07',
 '2021-03-

In [7]:
# 공휴일 리스트 (2021년 법정 공휴일)
break_list = ['2021-01-01','2021-02-11','2021-02-12','2021-02-13',
              '2021-03-01','2021-05-05','2021-05-19','2021-06-06','2021-08-15',
             '2021-09-20','2021-09-21','2021-09-22','2021-10-03',
             '2021-10-09','2021-12-25']

In [20]:
# 대체공휴일 리스트 (개정 이후 대체 공휴일)
break_instead = ['2021-08-16','2021-10-04','2021-10-11']

In [17]:
# 2021년의 모든 날짜들을 가져와서 데이터프레임으로 만듦
datedf = pd.DataFrame(date_list)
datedf['공휴일']=0 # 우선 모든 칼럼을 0으로 만듦
# 칼럼명 재지정
datedf.columns = ['날짜','공휴일']

In [18]:
# 2021-01-01이 공휴일에 포함되어 있는지 판단
datedf['날짜'][0] in break_list

True

In [21]:
# 공휴일, 데체공휴일이면 공휴일 칼럼을 1로, 아니면 0으로 놔둠
for i in range(len(datedf['날짜'])):
    if datedf['날짜'][i] in break_list: # 해당 날짜가 공휴일인지 판단
        datedf['공휴일'][i]=1
    elif datedf['날짜'][i] in break_instead: # 해당 날짜가 공휴일이 아니라면, 혹시 대체 공휴일에 포함되는지 판단
        datedf['공휴일'][i]=1

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  datedf['공휴일'][i]=1
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  datedf['공휴일'][i]=1


In [25]:
# 결과 데이터프레임으로 저장
datedf.to_csv('dware/holiday_judgement.csv',encoding='utf-8-sig')

In [28]:
# 결과 확인
datedf[:50]

Unnamed: 0,날짜,공휴일
0,2021-01-01,1
1,2021-01-02,0
2,2021-01-03,0
3,2021-01-04,0
4,2021-01-05,0
5,2021-01-06,0
6,2021-01-07,0
7,2021-01-08,0
8,2021-01-09,0
9,2021-01-10,0
