In [3]:
# (1) Import 및 데이터 불러오기 + 저장
import pandas as pd
import holidays

# CSV 불러오기
train_path = './data/train/train.csv'
df = pd.read_csv(train_path)

# 컬럼명 영어로 변경
df.columns = ['date', 'store_menu', 'sales_qty']

# 업장명 / 메뉴명 분리
df[['store', 'menu']] = df['store_menu'].str.split('_', n=1, expand=True)

# 날짜 처리
df['date'] = pd.to_datetime(df['date'])

# 한국 공휴일 데이터 생성
kr_holidays = holidays.KR(years=range(df['date'].dt.year.min(),
                                      df['date'].dt.year.max() + 1))
holiday_dates = set(pd.to_datetime(list(kr_holidays.keys())).date)

# 공휴일 여부
df['is_holiday'] = df['date'].dt.date.isin(holiday_dates)


In [9]:
# (3) 전체 메뉴 기준 연속 휴일 판매 평균 비교

# ===== 연속 공휴일 그룹 식별 =====
holidays_df = pd.DataFrame(sorted(holiday_dates), columns=['date'])
holidays_df['date'] = pd.to_datetime(holidays_df['date'])
holidays_df = holidays_df.sort_values('date')

holidays_df['gap'] = holidays_df['date'].diff().dt.days.fillna(0)
holidays_df['group'] = (holidays_df['gap'] > 1).cumsum()

holiday_groups = holidays_df.groupby('group')['date'].agg(list).reset_index()
holiday_groups['length'] = holiday_groups['date'].apply(len)

holiday_map = {}
for _, row in holiday_groups.iterrows():
    dates = row['date']
    length = row['length']
    for i, d in enumerate(dates):
        if length >= 2:
            if i == length - 1:  # 마지막 날
                holiday_map[d.date()] = 'last_day'
            else:
                holiday_map[d.date()] = 'before_last_day'

# holiday_group 컬럼 추가
df['holiday_group'] = 'normal'
df.loc[df['date'].dt.date.isin(holiday_map.keys()), 'holiday_group'] = \
    df['date'].dt.date.map(holiday_map)

# ===== weekend 여부 추가 =====
df['is_weekend'] = df['date'].dt.weekday >= 5  # 5=토요일, 6=일요일

# ===== 평균 계산 =====
avg_all_days = df['sales_qty'].mean()
avg_before_last = df[df['holiday_group'] == 'before_last_day']['sales_qty'].mean()
avg_all_holidays = df[df['holiday_group'] != 'normal']['sales_qty'].mean()
avg_weekend = df[df['is_weekend']]['sales_qty'].mean()

# ===== 결과 DataFrame =====
holiday_comparison = pd.DataFrame({
    'metric': [
        'avg_all_days',
        'avg_before_last_day_in_2+day_holidays',
        'avg_all_days_in_2+day_holidays',
        'avg_weekend'
    ],
    'avg_sales_qty': [
        avg_all_days,
        avg_before_last,
        avg_all_holidays,
        avg_weekend
    ]
})

print(holiday_comparison)


                                  metric  avg_sales_qty
0                           avg_all_days      10.653083
1  avg_before_last_day_in_2+day_holidays      22.861658
2         avg_all_days_in_2+day_holidays      20.138169
3                            avg_weekend      13.996728


        store  menu_count
0  느티나무 셀프BBQ          23
1          담하          42
2        라그로타          25
3        미라시아          31
4         연회장          23
5       카페테리아          24
6       포레스트릿          12
7       화담숲주막           8
8       화담숲카페           5

상위 10개 업장별 메뉴 개수
        store  menu_count
1          담하          42
3        미라시아          31
2        라그로타          25
5       카페테리아          24
0  느티나무 셀프BBQ          23
4         연회장          23
6       포레스트릿          12
7       화담숲주막           8
8       화담숲카페           5
