# 메타 데이터를 결합한 csv 파일 만들기

## 00. 기본 설정

In [13]:
import pandas as pd
import numpy as np

## 01. 파일 불러오기

In [14]:
# 전처리 완료 데이터
df = pd.read_csv("..\data\data_prep_with_avg_temp_final.csv", encoding='utf8')
print(df.shape)      # (67857, 42)
df.head()

(67857, 42)


Unnamed: 0,YM,MCT_NM,OP_YMD,TYPE,MCT_TYPE,temp_05_11,temp_12_13,temp_14_17,temp_18_22,temp_23_04,...,HR_18_22_UE_CNT_RAT,HR_23_4_UE_CNT_RAT,LOCAL_UE_CNT_RAT,RC_M12_MAL_CUS_CNT_RAT,RC_M12_FME_CUS_CNT_RAT,RC_M12_AGE_UND_20_CUS_CNT_RAT,RC_M12_AGE_30_CUS_CNT_RAT,RC_M12_AGE_40_CUS_CNT_RAT,RC_M12_AGE_50_CUS_CNT_RAT,RC_M12_AGE_OVR_60_CUS_CNT_RAT
0,202301,희야네식당,20000916,T1,가정식,6.720276,9.508065,9.43871,7.305806,6.284865,...,0.0,0.0,0.381616,0.644,0.356,0.183,0.232,0.351,0.171,0.063
1,202301,희신이네,20060515,T1,가정식,6.720276,9.508065,9.43871,7.305806,6.284865,...,0.264706,0.0,0.701183,0.686,0.314,0.118,0.261,0.342,0.19,0.089
2,202301,흥미,20030814,T1,가정식,6.233641,8.633871,8.46129,6.666452,5.849189,...,0.09434,0.0,0.736842,0.562,0.438,0.107,0.299,0.336,0.226,0.032
3,202301,흑심가,20220401,T1,가정식,6.53871,7.964516,7.733871,6.761935,6.317838,...,0.733333,0.033333,0.123656,0.544,0.456,0.239,0.3,0.233,0.139,0.089
4,202301,흑섬,20160419,T1,가정식,6.233641,8.633871,8.46129,6.666452,5.849189,...,0.806452,0.0,0.317136,0.585,0.415,0.175,0.278,0.283,0.206,0.059


In [15]:
# 메타데이터
df_meta = pd.read_csv("..\data\meta_V2.csv", encoding="utf8")
print(df_meta.shape)  # (39, 5)
df_meta

(39, 5)


Unnamed: 0,No,컬럼ID,컬럼명,타입,설명
0,1,YM,기준연월,STRING,기준연월
1,2,MCT_NM,가맹점명,STRING,가맹점명
2,3,OP_YMD,가맹점 개설일자,STRING,가맹점 개설일자
3,4,TYPE,업종 라벨링,OBJECT,업종 - 명목형 변수로 라벨링
4,5,MCT_TYPE,업종,STRING,업종 - 텍스트 자료형
5,6,temp_05_11,5시 11시 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산
6,7,temp_12_13,12시 13시 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산
7,8,temp_14_17,14시 17시 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산
8,9,temp_18_22,18시 22시 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산
9,10,temp_23_04,23시 4시 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산


<hr>

## 01. 전처리 완료 데이터 컬럼 수정 
- 전처리 완료 데이터의 shape(67857, 42)과 메타 데이터의 shape(39, 5)이 맞지 않음
- -> `UE_CNT_GRP`(이용건수구간), `UE_AMT_GRP`(이용금액구간), `UE_AMT_PER_TRSN_GRP`(건당평균이용금액구간) 이 세 개의 칼럼이 meta data에 없는 것을 확인
- -> `RANK_CNT`, `RANK_AMT`, `RANK_MEAN` 칼럼으로 대체했으므로 위 세 개의 행 삭제

<br>

- `YM`에서 월 데이터로 변경
- `개설일자`와 `polygon`, `TYPE`, `위/경도` 칼럼 삭제

In [16]:
col_to_drop = ['UE_CNT_GRP', 'UE_AMT_GRP', 'UE_AMT_PER_TRSN_GRP', 'OP_YMD', 'Polygon', 'TYPE', 'latitude', 'longitude']
df_col_34 = df.drop(columns=col_to_drop)
df_col_34.shape         # (67857, 34)

(67857, 34)

In [17]:
# YM에서 -월로 수정
def convert_ym_to_month(ym):
    month_mapping = {
        '202301': '1월', '202302': '2월', '202303': '3월', '202304': '4월',
        '202305': '5월', '202306': '6월', '202307': '7월', '202308': '8월',
        '202309': '9월', '202310': '10월', '202311': '11월', '202312': '12월'
    }
    return month_mapping.get(str(ym), ym)  # 매핑되지 않는 값은 그대로 반환

df_col_34['YM'] = df_col_34['YM'].apply(convert_ym_to_month)

df_col_34.head(3)

Unnamed: 0,YM,MCT_NM,MCT_TYPE,temp_05_11,temp_12_13,temp_14_17,temp_18_22,temp_23_04,TEMP_AVG,area,...,HR_18_22_UE_CNT_RAT,HR_23_4_UE_CNT_RAT,LOCAL_UE_CNT_RAT,RC_M12_MAL_CUS_CNT_RAT,RC_M12_FME_CUS_CNT_RAT,RC_M12_AGE_UND_20_CUS_CNT_RAT,RC_M12_AGE_30_CUS_CNT_RAT,RC_M12_AGE_40_CUS_CNT_RAT,RC_M12_AGE_50_CUS_CNT_RAT,RC_M12_AGE_OVR_60_CUS_CNT_RAT
0,1월,희야네식당,가정식,6.720276,9.508065,9.43871,7.305806,6.284865,7.851544,남부,...,0.0,0.0,0.381616,0.644,0.356,0.183,0.232,0.351,0.171,0.063
1,1월,희신이네,가정식,6.720276,9.508065,9.43871,7.305806,6.284865,7.851544,남부,...,0.264706,0.0,0.701183,0.686,0.314,0.118,0.261,0.342,0.19,0.089
2,1월,흥미,가정식,6.233641,8.633871,8.46129,6.666452,5.849189,7.168889,북부,...,0.09434,0.0,0.736842,0.562,0.438,0.107,0.299,0.336,0.226,0.032


### 01-1. 소수점 반올림 (기온 & 비중 칼럼)

In [18]:
temp_cols = ['temp_05_11', 'temp_12_13', 'temp_14_17', 'temp_18_22', 'temp_23_04', 'TEMP_AVG']

# 각 칼럼을 소수점 첫째 자리에서 반올림
df_col_34[temp_cols] = df_col_34[temp_cols].round(1)
df_col_34[temp_cols].head()

Unnamed: 0,temp_05_11,temp_12_13,temp_14_17,temp_18_22,temp_23_04,TEMP_AVG
0,6.7,9.5,9.4,7.3,6.3,7.9
1,6.7,9.5,9.4,7.3,6.3,7.9
2,6.2,8.6,8.5,6.7,5.8,7.2
3,6.5,8.0,7.7,6.8,6.3,7.1
4,6.2,8.6,8.5,6.7,5.8,7.2


In [19]:
round_4_cols = ['MON_UE_CNT_RAT', 'TUE_UE_CNT_RAT', 'WED_UE_CNT_RAT', 'THU_UE_CNT_RAT', 'FRI_UE_CNT_RAT',
                'SAT_UE_CNT_RAT', 'SUN_UE_CNT_RAT', 'HR_5_11_UE_CNT_RAT', 'HR_12_13_UE_CNT_RAT',
                'HR_14_17_UE_CNT_RAT', 'HR_18_22_UE_CNT_RAT', 'HR_23_4_UE_CNT_RAT']

# 소수 넷째 자리에서 반올림
df_col_34[round_4_cols] = df_col_34[round_4_cols].round(4)
df_col_34[round_4_cols].head()

Unnamed: 0,MON_UE_CNT_RAT,TUE_UE_CNT_RAT,WED_UE_CNT_RAT,THU_UE_CNT_RAT,FRI_UE_CNT_RAT,SAT_UE_CNT_RAT,SUN_UE_CNT_RAT,HR_5_11_UE_CNT_RAT,HR_12_13_UE_CNT_RAT,HR_14_17_UE_CNT_RAT,HR_18_22_UE_CNT_RAT,HR_23_4_UE_CNT_RAT
0,0.1829,0.122,0.1951,0.1707,0.1707,0.1585,0.0,0.2683,0.5122,0.2195,0.0,0.0
1,0.1471,0.1618,0.2206,0.1176,0.0735,0.1765,0.1029,0.0882,0.4559,0.1912,0.2647,0.0
2,0.2453,0.1321,0.2264,0.283,0.1132,0.0,0.0,0.1509,0.5283,0.2264,0.0943,0.0
3,0.2667,0.0,0.1,0.1667,0.1,0.1,0.2667,0.0,0.0667,0.1667,0.7333,0.0333
4,0.1935,0.0323,0.0645,0.1613,0.0645,0.1613,0.3226,0.0,0.0323,0.1613,0.8065,0.0


<hr>

## 02. 메타 데이터 수정 
- 전처리 완료 데이터의 shape(67857, 42)과 메타 데이터의 shape(39, 5)이 맞지 않음
- -> `UE_CNT_GRP`(이용건수구간), `UE_AMT_GRP`(이용금액구간), `UE_AMT_PER_TRSN_GRP`(건당평균이용금액구간) 이 세 개의 칼럼이 meta data에 없는 것을 확인

- `YM`, `MCT_TYPE`, `RANK_CNT`, `RANK_AMT`, `RANK_MEAN`, `Polygon`, `area`에 대한 칼럼 설명이 부족하다고 판단
- -> 아래 정보를 더 추가할 것임
  - 1	YM	기준연월	202301~202312 >> 월로 변경
  - 4	MCT_TYPE	업종	요식관련 30개 업종
  - 6	RANK_CNT	이용건수구간	월별 업종별 이용건수 분위수 구간을 6개 구간으로 집계 시, 해당 가맹점의 이용건수가 포함되는 분위수 구간 * 1-상위10%이하 2-상위10~25% 3-상위25~50% 4-상위50~75% 5-상위75~90% 6-상위90% 초과(하위10%이하) * 상위 30% 매출 가맹점 내 분위수 구간임
  - 7	RANK_AMT	이용금액구간	월별 업종별 이용금액 분위수 구간을 6개 구간으로 집계 시, 해당 가맹점의 이용금액이 포함되는 분위수 구간 * 1-상위10%이하 2-상위10~25% 3-상위25~50% 4-상위50~75% 5-상위75~90% 6-상위90% 초과(하위10%이하) * 상위 30% 매출 가맹점 내 분위수 구간임
  - 8	RANK_MEAN	건당평균이용금액구간	STRING	N	월별 업종별 건당평균이용금액 분위수 구간을 6개 구간으로 집계 시, 해당 가맹점의 건당평균이용금액이 포함되는 분위수 구간 * 1-상위10%이하 2-상위10~25% 3-상위25~50% 4-상위50~75% 5-상위75~90% 6-상위90% 초과(하위10%이하) * 상위 30% 매출 가맹점 내 분위수 구간임
  - 15	area	지역	지역-텍스트 자료형(10개로 구분: 동부 서부 남부 북부 산지 가파도 마라도 비양도 우도 추자도)

<br>

- 전처리 완료 데이터와 칼럼 수를 맞추기 위해 `['OP_YMD', 'Polygon', 'TYPE', 위/경도]` 삭제

In [20]:
row_to_drop = ['OP_YMD', 'Polygon', 'TYPE', 'latitude', 'longitude']
df_meta_drop = df_meta[~df_meta['컬럼ID'].isin(row_to_drop)]
df_meta_drop.shape         # (34, 5)

(34, 5)

In [21]:
# 변경할 [설명] 값을 변수에 저장
metadata_explanation = {
    'YM': '2023년 1월~12월',
    'MCT_TYPE': '요식관련 30개 업종으로 구분',
    'RANK_CNT': '월별 업종별 이용건수 분위수 구간을 6개 구간으로 집계 시 해당 가맹점의 이용건수가 포함되는 분위수 구간 * 1:상위10%이하 2:상위10~25% 3:상위25~50% 4:상위50~75% 5:상위75~90% 6:상위90% 초과(하위10%이하) * 상위 30% 매출 가맹점 내 분위수 구간임',
    'RANK_AMT': '월별 업종별 이용금액 분위수 구간을 6개 구간으로 집계 시 해당 가맹점의 이용금액이 포함되는 분위수 구간 * 1:상위10%이하 2:상위10~25% 3:상위25~50% 4:상위50~75% 5:상위75~90% 6:상위90% 초과(하위10%이하) * 상위 30% 매출 가맹점 내 분위수 구간임',
    'RANK_MEAN': '월별 업종별 건당평균이용금액 분위수 구간을 6개 구간으로 집계 시 해당 가맹점의 건당평균이용금액이 포함되는 분위수 구간 * 1:상위10%이하 2:상위10~25% 3:상위25~50% 4:상위50~75% 5:상위75~90% 6:상위90% 초과(하위10%이하) * 상위 30% 매출 가맹점 내 분위수 구간임',
    'area': '제주도를 9개의 지역으로 구분: 동부/서부/남부/북부/가파도/마라도/비양도/우도/추자도'
}

In [22]:
# df_meta에 설명 업데이트
df_meta_drop.loc[:, '설명'] = (
    df_meta_drop['컬럼ID'].map(metadata_explanation).fillna(df_meta_drop['설명'])
)
df_meta_drop.head()

Unnamed: 0,No,컬럼ID,컬럼명,타입,설명
0,1,YM,기준연월,STRING,2023년 1월~12월
1,2,MCT_NM,가맹점명,STRING,가맹점명
4,5,MCT_TYPE,업종,STRING,요식관련 30개 업종으로 구분
5,6,temp_05_11,5시 11시 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산
6,7,temp_12_13,12시 13시 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산


In [23]:
# ['No', '타입'] 칼럼 삭제
df_meta_34 = df_meta_drop.drop(columns=['No', '타입'])
df_meta_34

Unnamed: 0,컬럼ID,컬럼명,설명
0,YM,기준연월,2023년 1월~12월
1,MCT_NM,가맹점명,가맹점명
4,MCT_TYPE,업종,요식관련 30개 업종으로 구분
5,temp_05_11,5시 11시 평균 기온,기상청 데이터 활용하여 평균값 계산
6,temp_12_13,12시 13시 평균 기온,기상청 데이터 활용하여 평균값 계산
7,temp_14_17,14시 17시 평균 기온,기상청 데이터 활용하여 평균값 계산
8,temp_18_22,18시 22시 평균 기온,기상청 데이터 활용하여 평균값 계산
9,temp_23_04,23시 4시 평균 기온,기상청 데이터 활용하여 평균값 계산
10,TEMP_AVG,월 평균 기온,기상청 데이터 활용하여 평균값 계산
14,area,지역,제주도를 9개의 지역으로 구분: 동부/서부/남부/북부/가파도/마라도/비양도/우도/추자도


<hr>

## 추가) [컬럼명]을 모든 데이터의 컬럼명으로 사용

In [24]:
# 변경할 [설명] 값을 변수에 저장
metadata_namechange = {
    'YM': '기준년월',
    'MCT_NM':'가맹점명',
    'MCT_TYPE':'업종',
    'temp_05_11': '5시-11시 평균기온',
    'temp_12_13': '12시-13시 평균기온',
    'temp_14_17': '14시-17시 평균기온',
    'temp_18_22': '18시-22시 평균기온',
    'temp_23_04': '23시-4시 평균기온',
    'TEMP_AVG':'월평균기온',
    'area':'지역',
    'ADDR':'주소',
    'RANK_CNT':'월별-업종별 이용건수 순위',
    'RANK_AMT':'월별-업종별 이용금액 순위',
    'RANK_MEAN':'월별-업종별 건당 평균 이용금액 순위',
    'MON_UE_CNT_RAT':'월요일 이용건수 비중',
    'TUE_UE_CNT_RAT':'화요일 이용건수 비중',
    'WED_UE_CNT_RAT':'수요일 이용건수 비중',
    'THU_UE_CNT_RAT':'목요일 이용건수 비중',
    'FRI_UE_CNT_RAT':'금요일 이용건수 비중',
    'SAT_UE_CNT_RAT':'토요일 이용건수 비중',
    'SUN_UE_CNT_RAT':'일요일 이용건수 비중',
    'HR_5_11_UE_CNT_RAT':'5시-11시 이용건수 비중',
    'HR_12_13_UE_CNT_RAT':'12시-13시 이용건수 비중',
    'HR_14_17_UE_CNT_RAT':'14시-17시 이용건수비중',
    'HR_18_22_UE_CNT_RAT':'18시-22시 이용건수 비중',
    'HR_23_4_UE_CNT_RAT':'23시-4시 이용건수 비중',
    'LOCAL_UE_CNT_RAT':'현지인 이용건수 비중',
    'RC_M12_MAL_CUS_CNT_RAT':'남성 회원수 비중',
    'RC_M12_FME_CUS_CNT_RAT':'여성 회원수 비중',
    'RC_M12_AGE_UND_20_CUS_CNT_RAT':'20대 이하 회원수 비중',
    'RC_M12_AGE_30_CUS_CNT_RAT':'30대 회원수 비중',
    'RC_M12_AGE_40_CUS_CNT_RAT':'40대 회원수 비중',
    'RC_M12_AGE_50_CUS_CNT_RAT':'50대 회원수 비중',
    'RC_M12_AGE_OVR_60_CUS_CNT_RAT':'60대 이상 회원수 비중'
}

In [25]:
# df_col_34_sorted 데이터 칼럼 변경
df_col_34_rename = df_col_34.rename(columns=metadata_namechange)
df_col_34_rename.head(3)

Unnamed: 0,기준년월,가맹점명,업종,5시-11시 평균기온,12시-13시 평균기온,14시-17시 평균기온,18시-22시 평균기온,23시-4시 평균기온,월평균기온,지역,...,18시-22시 이용건수 비중,23시-4시 이용건수 비중,현지인 이용건수 비중,남성 회원수 비중,여성 회원수 비중,20대 이하 회원수 비중,30대 회원수 비중,40대 회원수 비중,50대 회원수 비중,60대 이상 회원수 비중
0,1월,희야네식당,가정식,6.7,9.5,9.4,7.3,6.3,7.9,남부,...,0.0,0.0,0.381616,0.644,0.356,0.183,0.232,0.351,0.171,0.063
1,1월,희신이네,가정식,6.7,9.5,9.4,7.3,6.3,7.9,남부,...,0.2647,0.0,0.701183,0.686,0.314,0.118,0.261,0.342,0.19,0.089
2,1월,흥미,가정식,6.2,8.6,8.5,6.7,5.8,7.2,북부,...,0.0943,0.0,0.736842,0.562,0.438,0.107,0.299,0.336,0.226,0.032


<br><hr>

## 02-1. 산지 데이터 '남부'로 변경

In [29]:
df_산지 = df_col_34_rename[df_col_34_rename['지역'] == '산지'].copy()
df_산지.head(3)

Unnamed: 0,기준년월,가맹점명,업종,5시-11시 평균기온,12시-13시 평균기온,14시-17시 평균기온,18시-22시 평균기온,23시-4시 평균기온,월평균기온,지역,...,18시-22시 이용건수 비중,23시-4시 이용건수 비중,현지인 이용건수 비중,남성 회원수 비중,여성 회원수 비중,20대 이하 회원수 비중,30대 회원수 비중,40대 회원수 비중,50대 회원수 비중,60대 이상 회원수 비중
835,1월,오백장군과까마귀,가정식,2.0,1.7,-0.2,-0.5,-0.0,0.6,산지,...,0.0,0.0,0.070563,0.559,0.441,0.103,0.201,0.255,0.286,0.155
6640,2월,오백장군과까마귀,가정식,4.0,3.7,1.5,1.2,1.6,2.4,산지,...,0.0,0.0,0.069327,0.562,0.438,0.104,0.195,0.258,0.287,0.156
12361,3월,오백장군과까마귀,가정식,10.5,9.8,7.1,6.5,7.9,8.3,산지,...,0.0,0.0,0.071976,0.561,0.439,0.102,0.192,0.261,0.29,0.155


In [31]:
# '남부' 지역에서 '기준년월'이 01월~12월인 temp_cols 값만 저장
temp_cols = ['5시-11시 평균기온', '12시-13시 평균기온', '14시-17시 평균기온',
             '18시-22시 평균기온', '23시-4시 평균기온', '월평균기온']

south_df = df_col_34_rename[df_col_34_rename['지역'] == '남부'].drop_duplicates(subset=['기준년월'])[['기준년월'] + temp_cols].set_index('기준년월')
south_df

Unnamed: 0_level_0,5시-11시 평균기온,12시-13시 평균기온,14시-17시 평균기온,18시-22시 평균기온,23시-4시 평균기온,월평균기온
기준년월,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1월,6.7,9.5,9.4,7.3,6.3,7.9
2월,8.8,11.6,11.5,9.3,8.0,9.8
3월,12.9,15.6,15.5,13.4,11.9,13.9
4월,15.4,17.8,17.7,15.6,14.3,16.2
5월,18.5,20.2,20.4,18.9,17.5,19.1
6월,22.3,23.8,23.9,22.7,21.6,22.9
7월,25.9,27.1,27.0,26.2,25.6,26.4
8월,27.7,29.6,29.5,27.8,27.0,28.3
9월,25.5,27.8,27.5,25.6,24.6,26.2
10월,19.4,22.8,22.4,19.3,18.0,20.4


In [34]:
# 'YM'을 기준으로 남부 지역의 온도 데이터 덮어쓰기
for ym in south_df.index:
    # 'YM'이 동일한 행에 대해 temp_cols 덮어쓰기
    df_산지.loc[df_산지['기준년월'] == ym, temp_cols] = south_df.loc[ym, temp_cols].values

    
# 덮어씌운 데이터를 원본 데이터프레임에 적용
df_updated = df_col_34_rename.copy()

# '오백장군과까마귀'인 행만 'store_df' 데이터로 대체
df_updated.update(df_산지)
df_updated[df_updated['가맹점명'] == '오백장군과까마귀'][['기준년월', '지역'] + temp_cols].head()

Unnamed: 0,기준년월,지역,5시-11시 평균기온,12시-13시 평균기온,14시-17시 평균기온,18시-22시 평균기온,23시-4시 평균기온,월평균기온
835,1월,산지,6.7,9.5,9.4,7.3,6.3,7.9
6640,2월,산지,8.8,11.6,11.5,9.3,8.0,9.8
12361,3월,산지,12.9,15.6,15.5,13.4,11.9,13.9
18839,4월,산지,15.4,17.8,17.7,15.6,14.3,16.2
23811,5월,산지,18.5,20.2,20.4,18.9,17.5,19.1


In [35]:
# '오백장군과 까마귀'의 area를 '남부'로 변경
df_updated.loc[df_updated['지역'] == '산지', '지역'] = '남부'
df_updated[df_updated['가맹점명'] == '오백장군과까마귀'][['가맹점명', '지역', '주소']]

Unnamed: 0,가맹점명,지역,주소
835,오백장군과까마귀,남부,제주 서귀포시 하원동 산 1-1번지
6640,오백장군과까마귀,남부,제주 서귀포시 하원동 산 1-1번지
12361,오백장군과까마귀,남부,제주 서귀포시 하원동 산 1-1번지
18839,오백장군과까마귀,남부,제주 서귀포시 하원동 산 1-1번지
23811,오백장군과까마귀,남부,제주 서귀포시 하원동 산 1-1번지
29106,오백장군과까마귀,남부,제주 서귀포시 하원동 산 1-1번지
40917,오백장군과까마귀,남부,제주 서귀포시 하원동 산 1-1번지
45884,오백장군과까마귀,남부,제주 서귀포시 하원동 산 1-1번지
52501,오백장군과까마귀,남부,제주 서귀포시 하원동 산 1-1번지
57650,오백장군과까마귀,남부,제주 서귀포시 하원동 산 1-1번지


<hr>

## 03. 데이터셋 정렬

In [36]:
df_sorted = df_updated.sort_values(by=['지역', '업종', '기준년월']).reset_index(drop=True)
df_sorted

Unnamed: 0,기준년월,가맹점명,업종,5시-11시 평균기온,12시-13시 평균기온,14시-17시 평균기온,18시-22시 평균기온,23시-4시 평균기온,월평균기온,지역,...,18시-22시 이용건수 비중,23시-4시 이용건수 비중,현지인 이용건수 비중,남성 회원수 비중,여성 회원수 비중,20대 이하 회원수 비중,30대 회원수 비중,40대 회원수 비중,50대 회원수 비중,60대 이상 회원수 비중
0,10월,가파도용궁정식,가정식,21.7,21.5,19.7,19.1,19.6,20.3,가파도,...,0.0833,0.0,0.161473,0.535,0.465,0.050,0.168,0.198,0.383,0.201
1,3월,전망대,가정식,14.7,14.5,12.4,11.6,12.3,13.1,가파도,...,0.0000,0.0,0.071511,0.473,0.527,0.118,0.180,0.217,0.271,0.214
2,3월,꼬닥꼬닥걸으멍,가정식,14.7,14.5,12.4,11.6,12.3,13.1,가파도,...,0.0000,0.0,0.057405,0.387,0.613,0.068,0.172,0.254,0.319,0.186
3,3월,가파도용궁정식,가정식,14.7,14.5,12.4,11.6,12.3,13.1,가파도,...,0.0317,0.0,0.135725,0.467,0.533,0.075,0.155,0.225,0.327,0.218
4,4월,꼬닥꼬닥걸으멍,가정식,16.9,16.8,15.2,14.3,15.1,15.7,가파도,...,0.0000,0.0,0.055281,0.388,0.612,0.065,0.158,0.256,0.324,0.197
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
67852,8월,추자바다숯불갈비,단품요리 전문,29.1,28.7,26.9,26.1,27.1,27.6,추자도,...,0.4583,0.0,0.724138,0.688,0.313,0.000,0.125,0.469,0.219,0.188
67853,9월,바다감성찜닭이야기,단품요리 전문,26.7,26.5,24.8,24.1,25.0,25.4,추자도,...,0.4375,0.0,0.275000,0.611,0.389,0.028,0.139,0.250,0.319,0.264
67854,10월,김밥옆구리,분식,22.0,20.8,18.4,17.9,19.2,19.6,추자도,...,0.0741,0.0,0.318966,0.728,0.272,0.056,0.112,0.291,0.299,0.243
67855,5월,김밥옆구리,분식,18.3,18.2,16.7,16.0,16.7,17.2,추자도,...,0.1714,0.0,0.354086,0.696,0.304,0.044,0.142,0.328,0.311,0.176


In [37]:
# 데이터만 저장
df_sorted.to_csv("../data/data_ALL_without_metadata.csv", encoding='cp949')

In [38]:
# 메타데이터 행 명 변경
df_meta_34.loc[:, '컬럼명'] = (
    df_meta_34['컬럼명'].map(metadata_namechange).fillna(df_meta_34['컬럼명'])
)
df_meta_34.head()

Unnamed: 0,컬럼ID,컬럼명,설명
0,YM,기준연월,2023년 1월~12월
1,MCT_NM,가맹점명,가맹점명
4,MCT_TYPE,업종,요식관련 30개 업종으로 구분
5,temp_05_11,5시 11시 평균 기온,기상청 데이터 활용하여 평균값 계산
6,temp_12_13,12시 13시 평균 기온,기상청 데이터 활용하여 평균값 계산


In [39]:
# 컬럼ID drop
df_meta_34_namechange = df_meta_34.drop(columns=['컬럼ID'])
df_meta_34_namechange

Unnamed: 0,컬럼명,설명
0,기준연월,2023년 1월~12월
1,가맹점명,가맹점명
4,업종,요식관련 30개 업종으로 구분
5,5시 11시 평균 기온,기상청 데이터 활용하여 평균값 계산
6,12시 13시 평균 기온,기상청 데이터 활용하여 평균값 계산
7,14시 17시 평균 기온,기상청 데이터 활용하여 평균값 계산
8,18시 22시 평균 기온,기상청 데이터 활용하여 평균값 계산
9,23시 4시 평균 기온,기상청 데이터 활용하여 평균값 계산
10,월 평균 기온,기상청 데이터 활용하여 평균값 계산
14,지역,제주도를 9개의 지역으로 구분: 동부/서부/남부/북부/가파도/마라도/비양도/우도/추자도


In [40]:
# 메타데이터만 저장
df_meta_34_namechange.to_csv('../data/metadata_ALL.csv', encoding='cp949')

<hr>

## 04. df_col_39와 df_meta 결합

In [41]:
# shape 다시 확인
print(df_sorted.shape)
print(df_meta_34_namechange.shape)

(67857, 34)
(34, 2)


In [42]:
# 필요한 메타데이터 행들 추출
meta_column_descriptions = df_meta_34_namechange['설명'].values

# 메타데이터를 DataFrame으로 변환
df_meta_transposed = pd.DataFrame([meta_column_descriptions],
                                  columns=df_sorted.columns)  # 맛집 데이터의 컬럼과 동일하게 맞춤
df_meta_transposed

Unnamed: 0,기준년월,가맹점명,업종,5시-11시 평균기온,12시-13시 평균기온,14시-17시 평균기온,18시-22시 평균기온,23시-4시 평균기온,월평균기온,지역,...,18시-22시 이용건수 비중,23시-4시 이용건수 비중,현지인 이용건수 비중,남성 회원수 비중,여성 회원수 비중,20대 이하 회원수 비중,30대 회원수 비중,40대 회원수 비중,50대 회원수 비중,60대 이상 회원수 비중
0,2023년 1월~12월,가맹점명,요식관련 30개 업종으로 구분,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,제주도를 9개의 지역으로 구분: 동부/서부/남부/북부/가파도/마라도/비양도/우도/추자도,...,음수값은 이상치로 판단하여 최빈값 대체,음수값은 이상치로 판단하여 최빈값 대체,고객 자택 주소가 제주도인 경우를 현지인으로 정의,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값


In [43]:
# 메타데이터를 맛집 데이터 위에 추가
df_combined = pd.concat([df_meta_transposed, df_sorted], ignore_index=True)
df_combined.head(10)

Unnamed: 0,기준년월,가맹점명,업종,5시-11시 평균기온,12시-13시 평균기온,14시-17시 평균기온,18시-22시 평균기온,23시-4시 평균기온,월평균기온,지역,...,18시-22시 이용건수 비중,23시-4시 이용건수 비중,현지인 이용건수 비중,남성 회원수 비중,여성 회원수 비중,20대 이하 회원수 비중,30대 회원수 비중,40대 회원수 비중,50대 회원수 비중,60대 이상 회원수 비중
0,2023년 1월~12월,가맹점명,요식관련 30개 업종으로 구분,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,제주도를 9개의 지역으로 구분: 동부/서부/남부/북부/가파도/마라도/비양도/우도/추자도,...,음수값은 이상치로 판단하여 최빈값 대체,음수값은 이상치로 판단하여 최빈값 대체,고객 자택 주소가 제주도인 경우를 현지인으로 정의,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값
1,10월,가파도용궁정식,가정식,21.7,21.5,19.7,19.1,19.6,20.3,가파도,...,0.0833,0.0,0.161473,0.535,0.465,0.05,0.168,0.198,0.383,0.201
2,3월,전망대,가정식,14.7,14.5,12.4,11.6,12.3,13.1,가파도,...,0.0,0.0,0.071511,0.473,0.527,0.118,0.18,0.217,0.271,0.214
3,3월,꼬닥꼬닥걸으멍,가정식,14.7,14.5,12.4,11.6,12.3,13.1,가파도,...,0.0,0.0,0.057405,0.387,0.613,0.068,0.172,0.254,0.319,0.186
4,3월,가파도용궁정식,가정식,14.7,14.5,12.4,11.6,12.3,13.1,가파도,...,0.0317,0.0,0.135725,0.467,0.533,0.075,0.155,0.225,0.327,0.218
5,4월,꼬닥꼬닥걸으멍,가정식,16.9,16.8,15.2,14.3,15.1,15.7,가파도,...,0.0,0.0,0.055281,0.388,0.612,0.065,0.158,0.256,0.324,0.197
6,4월,전망대,가정식,16.9,16.8,15.2,14.3,15.1,15.7,가파도,...,0.0,0.0,0.07032,0.449,0.551,0.103,0.179,0.209,0.28,0.23
7,4월,가파도용궁정식,가정식,16.9,16.8,15.2,14.3,15.1,15.7,가파도,...,0.1404,0.0,0.14966,0.481,0.519,0.063,0.168,0.227,0.334,0.208
8,4월,가파도바다별장,가정식,16.9,16.8,15.2,14.3,15.1,15.7,가파도,...,0.0,0.0,0.079327,0.5,0.5,0.06,0.14,0.188,0.357,0.256
9,5월,전망대,가정식,19.7,19.6,18.1,17.0,17.9,18.4,가파도,...,0.0,0.0,0.072522,0.439,0.561,0.094,0.164,0.211,0.28,0.251


<hr>

## 05. 결합 완료 데이터셋 저장 + sample 데이터 만들기

In [44]:
df_combined.to_csv("../data/data_ALL_with_metadata.csv", encoding='cp949', index=False)

In [45]:
# 데이터 확인
df_test = pd.read_csv('../data/data_ALL_with_metadata.csv', encoding='cp949')
print(df_test.shape)
df_test.head(6)

(67858, 34)


  df_test = pd.read_csv('../data/data_ALL_with_metadata.csv', encoding='cp949')


Unnamed: 0,기준년월,가맹점명,업종,5시-11시 평균기온,12시-13시 평균기온,14시-17시 평균기온,18시-22시 평균기온,23시-4시 평균기온,월평균기온,지역,...,18시-22시 이용건수 비중,23시-4시 이용건수 비중,현지인 이용건수 비중,남성 회원수 비중,여성 회원수 비중,20대 이하 회원수 비중,30대 회원수 비중,40대 회원수 비중,50대 회원수 비중,60대 이상 회원수 비중
0,2023년 1월~12월,가맹점명,요식관련 30개 업종으로 구분,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,제주도를 9개의 지역으로 구분: 동부/서부/남부/북부/가파도/마라도/비양도/우도/추자도,...,음수값은 이상치로 판단하여 최빈값 대체,음수값은 이상치로 판단하여 최빈값 대체,고객 자택 주소가 제주도인 경우를 현지인으로 정의,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값
1,10월,가파도용궁정식,가정식,21.7,21.5,19.7,19.1,19.6,20.3,가파도,...,0.0833,0.0,0.1614730878,0.535,0.465,0.05,0.168,0.198,0.383,0.201
2,3월,전망대,가정식,14.7,14.5,12.4,11.6,12.3,13.1,가파도,...,0.0,0.0,0.07151095732,0.473,0.527,0.118,0.18,0.217,0.271,0.214
3,3월,꼬닥꼬닥걸으멍,가정식,14.7,14.5,12.4,11.6,12.3,13.1,가파도,...,0.0,0.0,0.05740528129,0.387,0.613,0.068,0.172,0.254,0.319,0.186
4,3월,가파도용궁정식,가정식,14.7,14.5,12.4,11.6,12.3,13.1,가파도,...,0.0317,0.0,0.135725429,0.467,0.533,0.075,0.155,0.225,0.327,0.218
5,4월,꼬닥꼬닥걸으멍,가정식,16.9,16.8,15.2,14.3,15.1,15.7,가파도,...,0.0,0.0,0.05528134255,0.388,0.612,0.065,0.158,0.256,0.324,0.197


In [46]:
# df_col_34의 sample data 추출 (3000개)

# area와 MCT_TYPE 칼럼의 고유 값 추출
unique_areas = df_sorted['지역'].unique()
unique_mct_types = df_sorted['업종'].unique()

# 고유 값 개수
num_areas = len(unique_areas)
num_mct_types = len(unique_mct_types)

# 최소 샘플 수 계산
min_samples_per_area = 3000 // num_areas
min_samples_per_mct_type = 3000 // num_mct_types

# 샘플링
samples = []

# 각 area에 대해 샘플 추출
for area in unique_areas:
    area_samples = df_sorted[df_sorted['지역'] == area].sample(n=min_samples_per_area, replace=True)
    samples.append(area_samples)

# 각 MCT_TYPE에 대해 샘플 추출
for mct_type in unique_mct_types:
    mct_samples = df_sorted[df_sorted['업종'] == mct_type].sample(n=min_samples_per_mct_type, replace=True)
    samples.append(mct_samples)

# 모든 샘플 결합
final_samples = pd.concat(samples).drop_duplicates().sample(n=3000, replace=True)

# 결과 확인
print(final_samples.shape)  # (3000, 34) 형태 확인
final_samples

(3000, 34)


Unnamed: 0,기준년월,가맹점명,업종,5시-11시 평균기온,12시-13시 평균기온,14시-17시 평균기온,18시-22시 평균기온,23시-4시 평균기온,월평균기온,지역,...,18시-22시 이용건수 비중,23시-4시 이용건수 비중,현지인 이용건수 비중,남성 회원수 비중,여성 회원수 비중,20대 이하 회원수 비중,30대 회원수 비중,40대 회원수 비중,50대 회원수 비중,60대 이상 회원수 비중
64293,8월,앤트러사이트,단품요리 전문,27.1,28.9,28.8,27.2,26.2,27.7,서부,...,0.0000,0.0,0.171726,0.448,0.552,0.311,0.370,0.178,0.100,0.041
54685,6월,달콤한닭강정,치킨,22.6,24.8,25.4,23.4,21.7,23.6,북부,...,0.6230,0.0,0.805721,0.526,0.474,0.213,0.203,0.326,0.209,0.049
48758,4월,외계인방앗간제주,베이커리,15.0,18.0,17.9,15.4,13.5,16.0,북부,...,0.1966,0.0,0.632000,0.394,0.606,0.059,0.301,0.325,0.237,0.077
60715,7월,미식가,가정식,25.6,27.0,26.6,25.6,24.9,25.9,서부,...,0.0000,0.0,1.000000,0.750,0.250,0.000,0.000,0.000,0.250,0.750
67510,6월,우도해광,가정식,24.4,24.7,23.4,22.2,22.9,23.5,우도,...,0.0617,0.0,0.035647,0.488,0.512,0.194,0.250,0.213,0.197,0.145
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
28137,6월,호남,가정식,22.6,24.8,25.4,23.4,21.7,23.6,북부,...,0.0000,0.0,0.753086,0.841,0.159,0.023,0.114,0.227,0.318,0.318
14283,3월,비지곳식당,가정식,11.6,15.4,15.0,11.6,10.2,12.7,동부,...,0.0000,0.0,0.529297,0.706,0.294,0.130,0.270,0.298,0.210,0.092
58428,11월,제주봄날,가정식,13.6,15.1,14.7,13.3,13.2,14.0,서부,...,0.0916,0.0,0.035303,0.440,0.560,0.239,0.245,0.247,0.206,0.063
929,12월,통족중문점,가정식,9.4,12.2,11.8,9.8,8.8,10.4,남부,...,0.8333,0.0,0.665179,0.617,0.383,0.111,0.237,0.352,0.229,0.071


In [47]:
# final_samples도 정렬
final_samples = final_samples.sort_values(by=['지역', '업종', '기준년월'])
final_samples.head()

Unnamed: 0,기준년월,가맹점명,업종,5시-11시 평균기온,12시-13시 평균기온,14시-17시 평균기온,18시-22시 평균기온,23시-4시 평균기온,월평균기온,지역,...,18시-22시 이용건수 비중,23시-4시 이용건수 비중,현지인 이용건수 비중,남성 회원수 비중,여성 회원수 비중,20대 이하 회원수 비중,30대 회원수 비중,40대 회원수 비중,50대 회원수 비중,60대 이상 회원수 비중
0,10월,가파도용궁정식,가정식,21.7,21.5,19.7,19.1,19.6,20.3,가파도,...,0.0833,0.0,0.161473,0.535,0.465,0.05,0.168,0.198,0.383,0.201
0,10월,가파도용궁정식,가정식,21.7,21.5,19.7,19.1,19.6,20.3,가파도,...,0.0833,0.0,0.161473,0.535,0.465,0.05,0.168,0.198,0.383,0.201
0,10월,가파도용궁정식,가정식,21.7,21.5,19.7,19.1,19.6,20.3,가파도,...,0.0833,0.0,0.161473,0.535,0.465,0.05,0.168,0.198,0.383,0.201
2,3월,꼬닥꼬닥걸으멍,가정식,14.7,14.5,12.4,11.6,12.3,13.1,가파도,...,0.0,0.0,0.057405,0.387,0.613,0.068,0.172,0.254,0.319,0.186
1,3월,전망대,가정식,14.7,14.5,12.4,11.6,12.3,13.1,가파도,...,0.0,0.0,0.071511,0.473,0.527,0.118,0.18,0.217,0.271,0.214


In [48]:
# sample without meta 저장
final_samples.to_csv("../data/sample_without_meta.csv", encoding='cp949', index=False)

In [49]:
# final_samples에 meta_data 추가
final_sampes_with_meta = pd.concat([df_meta_transposed, final_samples], ignore_index=True)
print(final_sampes_with_meta.shape)  # (3003, 34)
final_sampes_with_meta.head(5)

(3001, 34)


Unnamed: 0,기준년월,가맹점명,업종,5시-11시 평균기온,12시-13시 평균기온,14시-17시 평균기온,18시-22시 평균기온,23시-4시 평균기온,월평균기온,지역,...,18시-22시 이용건수 비중,23시-4시 이용건수 비중,현지인 이용건수 비중,남성 회원수 비중,여성 회원수 비중,20대 이하 회원수 비중,30대 회원수 비중,40대 회원수 비중,50대 회원수 비중,60대 이상 회원수 비중
0,2023년 1월~12월,가맹점명,요식관련 30개 업종으로 구분,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,제주도를 9개의 지역으로 구분: 동부/서부/남부/북부/가파도/마라도/비양도/우도/추자도,...,음수값은 이상치로 판단하여 최빈값 대체,음수값은 이상치로 판단하여 최빈값 대체,고객 자택 주소가 제주도인 경우를 현지인으로 정의,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값
1,10월,가파도용궁정식,가정식,21.7,21.5,19.7,19.1,19.6,20.3,가파도,...,0.0833,0.0,0.161473,0.535,0.465,0.05,0.168,0.198,0.383,0.201
2,10월,가파도용궁정식,가정식,21.7,21.5,19.7,19.1,19.6,20.3,가파도,...,0.0833,0.0,0.161473,0.535,0.465,0.05,0.168,0.198,0.383,0.201
3,10월,가파도용궁정식,가정식,21.7,21.5,19.7,19.1,19.6,20.3,가파도,...,0.0833,0.0,0.161473,0.535,0.465,0.05,0.168,0.198,0.383,0.201
4,3월,꼬닥꼬닥걸으멍,가정식,14.7,14.5,12.4,11.6,12.3,13.1,가파도,...,0.0,0.0,0.057405,0.387,0.613,0.068,0.172,0.254,0.319,0.186


In [50]:
# 저장
final_sampes_with_meta.to_csv("../data/sample_with_meta.csv", encoding='cp949', index=False)