# 메타 데이터를 결합한 csv 파일 만들기

## 00. 기본 설정

In [3]:
import pandas as pd
import numpy as np

## 01. 파일 불러오기

In [4]:
# 전처리 완료 데이터
df = pd.read_csv("..\data\data_prep_with_avg_temp_final.csv", encoding='utf8')
print(df.shape)      # (67857, 42)
df.head()

(67857, 42)


Unnamed: 0,YM,MCT_NM,OP_YMD,TYPE,MCT_TYPE,temp_05_11,temp_12_13,temp_14_17,temp_18_22,temp_23_04,...,HR_18_22_UE_CNT_RAT,HR_23_4_UE_CNT_RAT,LOCAL_UE_CNT_RAT,RC_M12_MAL_CUS_CNT_RAT,RC_M12_FME_CUS_CNT_RAT,RC_M12_AGE_UND_20_CUS_CNT_RAT,RC_M12_AGE_30_CUS_CNT_RAT,RC_M12_AGE_40_CUS_CNT_RAT,RC_M12_AGE_50_CUS_CNT_RAT,RC_M12_AGE_OVR_60_CUS_CNT_RAT
0,202301,희야네식당,20000916,T1,가정식,6.720276,9.508065,9.43871,7.305806,6.284865,...,0.0,0.0,0.381616,0.644,0.356,0.183,0.232,0.351,0.171,0.063
1,202301,희신이네,20060515,T1,가정식,6.720276,9.508065,9.43871,7.305806,6.284865,...,0.264706,0.0,0.701183,0.686,0.314,0.118,0.261,0.342,0.19,0.089
2,202301,흥미,20030814,T1,가정식,6.233641,8.633871,8.46129,6.666452,5.849189,...,0.09434,0.0,0.736842,0.562,0.438,0.107,0.299,0.336,0.226,0.032
3,202301,흑심가,20220401,T1,가정식,6.53871,7.964516,7.733871,6.761935,6.317838,...,0.733333,0.033333,0.123656,0.544,0.456,0.239,0.3,0.233,0.139,0.089
4,202301,흑섬,20160419,T1,가정식,6.233641,8.633871,8.46129,6.666452,5.849189,...,0.806452,0.0,0.317136,0.585,0.415,0.175,0.278,0.283,0.206,0.059


In [5]:
# 메타데이터
df_meta = pd.read_csv("..\data\meta_V2.csv", encoding="utf8")
print(df_meta.shape)  # (39, 5)
df_meta

(39, 5)


Unnamed: 0,No,컬럼ID,컬럼명,타입,설명
0,1,YM,기준연월,STRING,기준연월
1,2,MCT_NM,가맹점명,STRING,가맹점명
2,3,OP_YMD,가맹점 개설일자,STRING,가맹점 개설일자
3,4,TYPE,업종 라벨링,OBJECT,업종 - 명목형 변수로 라벨링
4,5,MCT_TYPE,업종,STRING,업종 - 텍스트 자료형
5,6,temp_05_11,5시 11시 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산
6,7,temp_12_13,12시 13시 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산
7,8,temp_14_17,14시 17시 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산
8,9,temp_18_22,18시 22시 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산
9,10,temp_23_04,23시 4시 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산


<hr>

## 01. 전처리 완료 데이터 컬럼 수정 
- 전처리 완료 데이터의 shape(67857, 42)과 메타 데이터의 shape(39, 5)이 맞지 않음
- -> `UE_CNT_GRP`(이용건수구간), `UE_AMT_GRP`(이용금액구간), `UE_AMT_PER_TRSN_GRP`(건당평균이용금액구간) 이 세 개의 칼럼이 meta data에 없는 것을 확인
- -> `RANK_CNT`, `RANK_AMT`, `RANK_MEAN` 칼럼으로 대체했으므로 위 세 개의 행 삭제

<br>

- `YM`에서 월 데이터로 변경
- `개설일자`와 `polygon`, `TYPE`, `위/경도` 칼럼 삭제

In [6]:
col_to_drop = ['UE_CNT_GRP', 'UE_AMT_GRP', 'UE_AMT_PER_TRSN_GRP', 'OP_YMD', 'Polygon', 'TYPE', 'latitude', 'longitude']
df_col_34 = df.drop(columns=col_to_drop)
df_col_34.shape         # (67857, 34)

(67857, 34)

In [7]:
# YM에서 -월로 수정
def convert_ym_to_month(ym):
    month_mapping = {
        '202301': '1월', '202302': '2월', '202303': '3월', '202304': '4월',
        '202305': '5월', '202306': '6월', '202307': '7월', '202308': '8월',
        '202309': '9월', '202310': '10월', '202311': '11월', '202312': '12월'
    }
    return month_mapping.get(str(ym), ym)  # 매핑되지 않는 값은 그대로 반환

df_col_34['YM'] = df_col_34['YM'].apply(convert_ym_to_month)

df_col_34.head(3)

Unnamed: 0,YM,MCT_NM,MCT_TYPE,temp_05_11,temp_12_13,temp_14_17,temp_18_22,temp_23_04,TEMP_AVG,area,...,HR_18_22_UE_CNT_RAT,HR_23_4_UE_CNT_RAT,LOCAL_UE_CNT_RAT,RC_M12_MAL_CUS_CNT_RAT,RC_M12_FME_CUS_CNT_RAT,RC_M12_AGE_UND_20_CUS_CNT_RAT,RC_M12_AGE_30_CUS_CNT_RAT,RC_M12_AGE_40_CUS_CNT_RAT,RC_M12_AGE_50_CUS_CNT_RAT,RC_M12_AGE_OVR_60_CUS_CNT_RAT
0,1월,희야네식당,가정식,6.720276,9.508065,9.43871,7.305806,6.284865,7.851544,남부,...,0.0,0.0,0.381616,0.644,0.356,0.183,0.232,0.351,0.171,0.063
1,1월,희신이네,가정식,6.720276,9.508065,9.43871,7.305806,6.284865,7.851544,남부,...,0.264706,0.0,0.701183,0.686,0.314,0.118,0.261,0.342,0.19,0.089
2,1월,흥미,가정식,6.233641,8.633871,8.46129,6.666452,5.849189,7.168889,북부,...,0.09434,0.0,0.736842,0.562,0.438,0.107,0.299,0.336,0.226,0.032


<hr>

## 02. 메타 데이터 수정 
- 전처리 완료 데이터의 shape(67857, 42)과 메타 데이터의 shape(39, 5)이 맞지 않음
- -> `UE_CNT_GRP`(이용건수구간), `UE_AMT_GRP`(이용금액구간), `UE_AMT_PER_TRSN_GRP`(건당평균이용금액구간) 이 세 개의 칼럼이 meta data에 없는 것을 확인

- `YM`, `MCT_TYPE`, `RANK_CNT`, `RANK_AMT`, `RANK_MEAN`, `Polygon`, `area`에 대한 칼럼 설명이 부족하다고 판단
- -> 아래 정보를 더 추가할 것임
  - 1	YM	기준연월	202301~202312 >> 월로 변경
  - 4	MCT_TYPE	업종	요식관련 30개 업종
  - 6	RANK_CNT	이용건수구간	월별 업종별 이용건수 분위수 구간을 6개 구간으로 집계 시, 해당 가맹점의 이용건수가 포함되는 분위수 구간 * 1-상위10%이하 2-상위10~25% 3-상위25~50% 4-상위50~75% 5-상위75~90% 6-상위90% 초과(하위10%이하) * 상위 30% 매출 가맹점 내 분위수 구간임
  - 7	RANK_AMT	이용금액구간	월별 업종별 이용금액 분위수 구간을 6개 구간으로 집계 시, 해당 가맹점의 이용금액이 포함되는 분위수 구간 * 1-상위10%이하 2-상위10~25% 3-상위25~50% 4-상위50~75% 5-상위75~90% 6-상위90% 초과(하위10%이하) * 상위 30% 매출 가맹점 내 분위수 구간임
  - 8	RANK_MEAN	건당평균이용금액구간	STRING	N	월별 업종별 건당평균이용금액 분위수 구간을 6개 구간으로 집계 시, 해당 가맹점의 건당평균이용금액이 포함되는 분위수 구간 * 1-상위10%이하 2-상위10~25% 3-상위25~50% 4-상위50~75% 5-상위75~90% 6-상위90% 초과(하위10%이하) * 상위 30% 매출 가맹점 내 분위수 구간임
  - 15	area	지역	지역-텍스트 자료형(10개로 구분: 동부 서부 남부 북부 산지 가파도 마라도 비양도 우도 추자도)

<br>

- 전처리 완료 데이터와 칼럼 수를 맞추기 위해 `['OP_YMD', 'Polygon', 'TYPE', 위/경도]` 삭제

In [8]:
row_to_drop = ['OP_YMD', 'Polygon', 'TYPE', 'latitude', 'longitude']
df_meta_drop = df_meta[~df_meta['컬럼ID'].isin(row_to_drop)]
df_meta_drop.shape         # (34, 5)

(34, 5)

In [9]:
df_col_34['area'].value_counts()

area
북부     38617
남부     13044
서부      9307
동부      6289
우도       444
마라도       54
추자도       39
가파도       32
비양도       20
산지        11
Name: count, dtype: int64

In [10]:
# 변경할 [설명] 값을 변수에 저장
metadata_explanation = {
    'YM': '2023년 1월~12월',
    'MCT_TYPE': '요식관련 30개 업종으로 구분',
    'RANK_CNT': '월별 업종별 이용건수 분위수 구간을 6개 구간으로 집계 시 해당 가맹점의 이용건수가 포함되는 분위수 구간 * 1:상위10%이하 2:상위10~25% 3:상위25~50% 4:상위50~75% 5:상위75~90% 6:상위90% 초과(하위10%이하) * 상위 30% 매출 가맹점 내 분위수 구간임',
    'RANK_AMT': '월별 업종별 이용금액 분위수 구간을 6개 구간으로 집계 시 해당 가맹점의 이용금액이 포함되는 분위수 구간 * 1:상위10%이하 2:상위10~25% 3:상위25~50% 4:상위50~75% 5:상위75~90% 6:상위90% 초과(하위10%이하) * 상위 30% 매출 가맹점 내 분위수 구간임',
    'RANK_MEAN': '월별 업종별 건당평균이용금액 분위수 구간을 6개 구간으로 집계 시 해당 가맹점의 건당평균이용금액이 포함되는 분위수 구간 * 1:상위10%이하 2:상위10~25% 3:상위25~50% 4:상위50~75% 5:상위75~90% 6:상위90% 초과(하위10%이하) * 상위 30% 매출 가맹점 내 분위수 구간임',
    'area': '제주도를 10개의 지역으로 구분: 동부/서부/남부/북부/산지/가파도/마라도/비양도/우도/추자도'
}

In [11]:
# df_meta에 설명 업데이트
df_meta_drop.loc[:, '설명'] = (
    df_meta_drop['컬럼ID'].map(metadata_explanation).fillna(df_meta_drop['설명'])
)
df_meta_drop

Unnamed: 0,No,컬럼ID,컬럼명,타입,설명
0,1,YM,기준연월,STRING,2023년 1월~12월
1,2,MCT_NM,가맹점명,STRING,가맹점명
4,5,MCT_TYPE,업종,STRING,요식관련 30개 업종으로 구분
5,6,temp_05_11,5시 11시 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산
6,7,temp_12_13,12시 13시 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산
7,8,temp_14_17,14시 17시 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산
8,9,temp_18_22,18시 22시 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산
9,10,temp_23_04,23시 4시 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산
10,11,TEMP_AVG,월 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산
14,15,area,지역,STRING,제주도를 10개의 지역으로 구분: 동부/서부/남부/북부/산지/가파도/마라도/비양도/...


In [12]:
# ['No', '타입'] 칼럼 삭제
df_meta_34 = df_meta_drop.drop(columns=['No', '타입'])
df_meta_34.head()

Unnamed: 0,컬럼ID,컬럼명,설명
0,YM,기준연월,2023년 1월~12월
1,MCT_NM,가맹점명,가맹점명
4,MCT_TYPE,업종,요식관련 30개 업종으로 구분
5,temp_05_11,5시 11시 평균 기온,기상청 데이터 활용하여 평균값 계산
6,temp_12_13,12시 13시 평균 기온,기상청 데이터 활용하여 평균값 계산


<hr>

## 03. 데이터셋 정렬

In [13]:
df_col_34_sorted = df_col_34.sort_values(by=['area', 'MCT_TYPE', 'YM']).reset_index(drop=True)
df_col_34_sorted

Unnamed: 0,YM,MCT_NM,MCT_TYPE,temp_05_11,temp_12_13,temp_14_17,temp_18_22,temp_23_04,TEMP_AVG,area,...,HR_18_22_UE_CNT_RAT,HR_23_4_UE_CNT_RAT,LOCAL_UE_CNT_RAT,RC_M12_MAL_CUS_CNT_RAT,RC_M12_FME_CUS_CNT_RAT,RC_M12_AGE_UND_20_CUS_CNT_RAT,RC_M12_AGE_30_CUS_CNT_RAT,RC_M12_AGE_40_CUS_CNT_RAT,RC_M12_AGE_50_CUS_CNT_RAT,RC_M12_AGE_OVR_60_CUS_CNT_RAT
0,10월,가파도용궁정식,가정식,21.706452,21.534677,19.741290,19.097849,19.574194,20.330892,가파도,...,0.083333,0.0,0.161473,0.535,0.465,0.050,0.168,0.198,0.383,0.201
1,3월,전망대,가정식,14.716129,14.504032,12.423226,11.591398,12.341935,13.115344,가파도,...,0.000000,0.0,0.071511,0.473,0.527,0.118,0.180,0.217,0.271,0.214
2,3월,꼬닥꼬닥걸으멍,가정식,14.716129,14.504032,12.423226,11.591398,12.341935,13.115344,가파도,...,0.000000,0.0,0.057405,0.387,0.613,0.068,0.172,0.254,0.319,0.186
3,3월,가파도용궁정식,가정식,14.716129,14.504032,12.423226,11.591398,12.341935,13.115344,가파도,...,0.031746,0.0,0.135725,0.467,0.533,0.075,0.155,0.225,0.327,0.218
4,4월,꼬닥꼬닥걸으멍,가정식,16.941667,16.819167,15.181333,14.276667,15.133810,15.670529,가파도,...,0.000000,0.0,0.055281,0.388,0.612,0.065,0.158,0.256,0.324,0.197
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
67852,8월,추자바다숯불갈비,단품요리 전문,29.071186,28.674167,26.944000,26.096111,27.096154,27.576324,추자도,...,0.458333,0.0,0.724138,0.688,0.313,0.000,0.125,0.469,0.219,0.188
67853,9월,바다감성찜닭이야기,단품요리 전문,26.710000,26.533333,24.760000,24.071508,24.972857,25.409540,추자도,...,0.437500,0.0,0.275000,0.611,0.389,0.028,0.139,0.250,0.319,0.264
67854,10월,김밥옆구리,분식,21.953226,20.786290,18.422581,17.878495,19.183410,19.644800,추자도,...,0.074074,0.0,0.318966,0.728,0.272,0.056,0.112,0.291,0.299,0.243
67855,5월,김밥옆구리,분식,18.317742,18.221774,16.667097,15.982258,16.699539,17.177682,추자도,...,0.171429,0.0,0.354086,0.696,0.304,0.044,0.142,0.328,0.311,0.176


In [14]:
# 데이터만 저장
df_col_34_sorted.to_csv("../data/data_ALL_without_metadata.csv", encoding='cp949')

In [15]:
# 메타데이터만 저장
df_meta_34.to_csv('../data/metadata_ALL.csv', encoding='cp949')

<hr>

## 04. df_col_39와 df_meta 결합

In [16]:
# shape 다시 확인
print(df_col_34_sorted.shape)
print(df_meta_34.shape)

(67857, 34)
(34, 3)


In [17]:
# 필요한 메타데이터 행들 추출
meta_column_names = df_meta_34['컬럼명'].values
meta_column_descriptions = df_meta_34['설명'].values

# 메타데이터를 DataFrame으로 변환
df_meta_transposed = pd.DataFrame([meta_column_names, meta_column_descriptions],
                                  columns=df_col_34_sorted.columns)  # 맛집 데이터의 컬럼과 동일하게 맞춤
df_meta_transposed

Unnamed: 0,YM,MCT_NM,MCT_TYPE,temp_05_11,temp_12_13,temp_14_17,temp_18_22,temp_23_04,TEMP_AVG,area,...,HR_18_22_UE_CNT_RAT,HR_23_4_UE_CNT_RAT,LOCAL_UE_CNT_RAT,RC_M12_MAL_CUS_CNT_RAT,RC_M12_FME_CUS_CNT_RAT,RC_M12_AGE_UND_20_CUS_CNT_RAT,RC_M12_AGE_30_CUS_CNT_RAT,RC_M12_AGE_40_CUS_CNT_RAT,RC_M12_AGE_50_CUS_CNT_RAT,RC_M12_AGE_OVR_60_CUS_CNT_RAT
0,기준연월,가맹점명,업종,5시 11시 평균 기온,12시 13시 평균 기온,14시 17시 평균 기온,18시 22시 평균 기온,23시 4시 평균 기온,월 평균 기온,지역,...,18시 22시 이용 건수 비중,23시 4시 이용 건수 비중,현지인 이용 건수 비중,최근 12개월 남성 회원수 비중,최근 12개월 여성 회원수 비중,최근 12개월 20대 이하 회원수 비중,최근 12개월 30대 회원수 비중,최근 12개월 40대 회원수 비중,최근 12개월 40대 회원수 비중,최근 12개월 60대 이상 회원수 비중
1,2023년 1월~12월,가맹점명,요식관련 30개 업종으로 구분,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,제주도를 10개의 지역으로 구분: 동부/서부/남부/북부/산지/가파도/마라도/비양도/...,...,음수값은 이상치로 판단하여 최빈값 대체,음수값은 이상치로 판단하여 최빈값 대체,고객 자택 주소가 제주도인 경우를 현지인으로 정의,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값


In [18]:
# 메타데이터를 맛집 데이터 위에 추가
df_combined = pd.concat([df_meta_transposed, df_col_34_sorted], ignore_index=True)
df_combined.head(10)

Unnamed: 0,YM,MCT_NM,MCT_TYPE,temp_05_11,temp_12_13,temp_14_17,temp_18_22,temp_23_04,TEMP_AVG,area,...,HR_18_22_UE_CNT_RAT,HR_23_4_UE_CNT_RAT,LOCAL_UE_CNT_RAT,RC_M12_MAL_CUS_CNT_RAT,RC_M12_FME_CUS_CNT_RAT,RC_M12_AGE_UND_20_CUS_CNT_RAT,RC_M12_AGE_30_CUS_CNT_RAT,RC_M12_AGE_40_CUS_CNT_RAT,RC_M12_AGE_50_CUS_CNT_RAT,RC_M12_AGE_OVR_60_CUS_CNT_RAT
0,기준연월,가맹점명,업종,5시 11시 평균 기온,12시 13시 평균 기온,14시 17시 평균 기온,18시 22시 평균 기온,23시 4시 평균 기온,월 평균 기온,지역,...,18시 22시 이용 건수 비중,23시 4시 이용 건수 비중,현지인 이용 건수 비중,최근 12개월 남성 회원수 비중,최근 12개월 여성 회원수 비중,최근 12개월 20대 이하 회원수 비중,최근 12개월 30대 회원수 비중,최근 12개월 40대 회원수 비중,최근 12개월 40대 회원수 비중,최근 12개월 60대 이상 회원수 비중
1,2023년 1월~12월,가맹점명,요식관련 30개 업종으로 구분,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,제주도를 10개의 지역으로 구분: 동부/서부/남부/북부/산지/가파도/마라도/비양도/...,...,음수값은 이상치로 판단하여 최빈값 대체,음수값은 이상치로 판단하여 최빈값 대체,고객 자택 주소가 제주도인 경우를 현지인으로 정의,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값
2,10월,가파도용궁정식,가정식,21.706452,21.534677,19.74129,19.097849,19.574194,20.330892,가파도,...,0.083333,0.0,0.161473,0.535,0.465,0.05,0.168,0.198,0.383,0.201
3,3월,전망대,가정식,14.716129,14.504032,12.423226,11.591398,12.341935,13.115344,가파도,...,0.0,0.0,0.071511,0.473,0.527,0.118,0.18,0.217,0.271,0.214
4,3월,꼬닥꼬닥걸으멍,가정식,14.716129,14.504032,12.423226,11.591398,12.341935,13.115344,가파도,...,0.0,0.0,0.057405,0.387,0.613,0.068,0.172,0.254,0.319,0.186
5,3월,가파도용궁정식,가정식,14.716129,14.504032,12.423226,11.591398,12.341935,13.115344,가파도,...,0.031746,0.0,0.135725,0.467,0.533,0.075,0.155,0.225,0.327,0.218
6,4월,꼬닥꼬닥걸으멍,가정식,16.941667,16.819167,15.181333,14.276667,15.13381,15.670529,가파도,...,0.0,0.0,0.055281,0.388,0.612,0.065,0.158,0.256,0.324,0.197
7,4월,전망대,가정식,16.941667,16.819167,15.181333,14.276667,15.13381,15.670529,가파도,...,0.0,0.0,0.07032,0.449,0.551,0.103,0.179,0.209,0.28,0.23
8,4월,가파도용궁정식,가정식,16.941667,16.819167,15.181333,14.276667,15.13381,15.670529,가파도,...,0.140351,0.0,0.14966,0.481,0.519,0.063,0.168,0.227,0.334,0.208
9,4월,가파도바다별장,가정식,16.941667,16.819167,15.181333,14.276667,15.13381,15.670529,가파도,...,0.0,0.0,0.079327,0.5,0.5,0.06,0.14,0.188,0.357,0.256


<hr>

## 05. 결합 완료 데이터셋 저장 + sample 데이터 만들기

In [19]:
df_combined.to_csv("../data/data_with_meta_ALL.csv", encoding='cp949', index=False)

In [20]:
# 데이터 확인
df_test = pd.read_csv('../data/data_with_meta_ALL.csv', encoding='cp949')
print(df_test.shape)
df_test.head(6)

(67859, 34)


  df_test = pd.read_csv('../data/data_with_meta_ALL.csv', encoding='cp949')


Unnamed: 0,YM,MCT_NM,MCT_TYPE,temp_05_11,temp_12_13,temp_14_17,temp_18_22,temp_23_04,TEMP_AVG,area,...,HR_18_22_UE_CNT_RAT,HR_23_4_UE_CNT_RAT,LOCAL_UE_CNT_RAT,RC_M12_MAL_CUS_CNT_RAT,RC_M12_FME_CUS_CNT_RAT,RC_M12_AGE_UND_20_CUS_CNT_RAT,RC_M12_AGE_30_CUS_CNT_RAT,RC_M12_AGE_40_CUS_CNT_RAT,RC_M12_AGE_50_CUS_CNT_RAT,RC_M12_AGE_OVR_60_CUS_CNT_RAT
0,기준연월,가맹점명,업종,5시 11시 평균 기온,12시 13시 평균 기온,14시 17시 평균 기온,18시 22시 평균 기온,23시 4시 평균 기온,월 평균 기온,지역,...,18시 22시 이용 건수 비중,23시 4시 이용 건수 비중,현지인 이용 건수 비중,최근 12개월 남성 회원수 비중,최근 12개월 여성 회원수 비중,최근 12개월 20대 이하 회원수 비중,최근 12개월 30대 회원수 비중,최근 12개월 40대 회원수 비중,최근 12개월 40대 회원수 비중,최근 12개월 60대 이상 회원수 비중
1,2023년 1월~12월,가맹점명,요식관련 30개 업종으로 구분,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,제주도를 10개의 지역으로 구분: 동부/서부/남부/북부/산지/가파도/마라도/비양도/...,...,음수값은 이상치로 판단하여 최빈값 대체,음수값은 이상치로 판단하여 최빈값 대체,고객 자택 주소가 제주도인 경우를 현지인으로 정의,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값
2,10월,가파도용궁정식,가정식,21.70645161,21.53467742,19.74129032,19.09784946,19.57419355,20.33089247,가파도,...,0.08333333333,0.0,0.1614730878,0.535,0.465,0.05,0.168,0.198,0.383,0.201
3,3월,전망대,가정식,14.71612903,14.50403226,12.42322581,11.59139785,12.34193548,13.11534409,가파도,...,0.0,0.0,0.07151095732,0.473,0.527,0.118,0.18,0.217,0.271,0.214
4,3월,꼬닥꼬닥걸으멍,가정식,14.71612903,14.50403226,12.42322581,11.59139785,12.34193548,13.11534409,가파도,...,0.0,0.0,0.05740528129,0.387,0.613,0.068,0.172,0.254,0.319,0.186
5,3월,가파도용궁정식,가정식,14.71612903,14.50403226,12.42322581,11.59139785,12.34193548,13.11534409,가파도,...,0.03174603175,0.0,0.135725429,0.467,0.533,0.075,0.155,0.225,0.327,0.218


In [21]:
# df_col_34의 sample data 추출 (1000개)

# area와 MCT_TYPE 칼럼의 고유 값 추출
unique_areas = df_col_34_sorted['area'].unique()
unique_mct_types = df_col_34_sorted['MCT_TYPE'].unique()

# 고유 값 개수
num_areas = len(unique_areas)
num_mct_types = len(unique_mct_types)

# 최소 샘플 수 계산
min_samples_per_area = 1000 // num_areas
min_samples_per_mct_type = 1000 // num_mct_types

# 샘플링
samples = []

# 각 area에 대해 샘플 추출
for area in unique_areas:
    area_samples = df_col_34_sorted[df_col_34_sorted['area'] == area].sample(n=min_samples_per_area, replace=True)
    samples.append(area_samples)

# 각 MCT_TYPE에 대해 샘플 추출
for mct_type in unique_mct_types:
    mct_samples = df_col_34_sorted[df_col_34_sorted['MCT_TYPE'] == mct_type].sample(n=min_samples_per_mct_type, replace=True)
    samples.append(mct_samples)

# 모든 샘플 결합
final_samples = pd.concat(samples).drop_duplicates().sample(n=1000, replace=True)

# 결과 확인
print(final_samples.shape)  # (1000, 34) 형태 확인
final_samples

(1000, 34)


Unnamed: 0,YM,MCT_NM,MCT_TYPE,temp_05_11,temp_12_13,temp_14_17,temp_18_22,temp_23_04,TEMP_AVG,area,...,HR_18_22_UE_CNT_RAT,HR_23_4_UE_CNT_RAT,LOCAL_UE_CNT_RAT,RC_M12_MAL_CUS_CNT_RAT,RC_M12_FME_CUS_CNT_RAT,RC_M12_AGE_UND_20_CUS_CNT_RAT,RC_M12_AGE_30_CUS_CNT_RAT,RC_M12_AGE_40_CUS_CNT_RAT,RC_M12_AGE_50_CUS_CNT_RAT,RC_M12_AGE_OVR_60_CUS_CNT_RAT
49762,2월,다가미아라점,분식,7.150510,10.089286,9.873214,7.661429,6.314881,8.217864,북부,...,0.000000,0.000000,0.621227,0.379,0.621,0.157,0.345,0.306,0.155,0.038
8842,7월,쏭타이,단품요리 전문,25.917512,27.093548,27.018548,26.198065,25.588710,26.363277,남부,...,0.476190,0.000000,0.255763,0.517,0.483,0.123,0.328,0.320,0.163,0.067
18051,2월,소시오도넛,도너츠,6.745408,10.230357,9.727679,6.785000,5.783929,7.854474,동부,...,0.123810,0.000000,0.114286,0.491,0.509,0.235,0.285,0.365,0.101,0.014
66250,11월,소리원 저지점,중식,13.635238,15.081667,14.658333,13.349333,13.211667,13.987248,서부,...,0.079208,0.000000,0.624675,0.632,0.368,0.060,0.221,0.410,0.210,0.099
67766,2월,산호반점,중식,11.389286,11.131250,9.992857,9.317857,9.833163,10.332883,우도,...,0.000000,0.000000,0.038194,0.514,0.486,0.211,0.290,0.256,0.169,0.074
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
14,4월,블랑로쉐,단품요리 전문,16.941667,16.819167,15.181333,14.276667,15.133810,15.670529,가파도,...,0.000000,0.000000,0.079832,0.383,0.617,0.247,0.320,0.183,0.194,0.056
31739,5월,케이티 구내식당,구내식당/푸드코트,18.491244,21.191935,21.416129,19.196129,17.373656,19.533819,북부,...,0.000000,0.000000,0.892308,0.504,0.496,0.167,0.349,0.182,0.207,0.095
64858,4월,던킨 제주신화월드점,도너츠,14.330952,16.628333,16.259167,14.278000,13.264444,14.952179,서부,...,0.311250,0.000000,0.150355,0.456,0.544,0.082,0.353,0.441,0.093,0.031
9974,3월,서귀포파리바게뜨,베이커리,12.928111,15.572581,15.454032,13.434194,11.934409,13.864665,남부,...,0.348624,0.016514,0.561020,0.444,0.556,0.103,0.183,0.288,0.262,0.164


In [22]:
# final_samples도 정렬
final_samples = final_samples.sort_values(by=['area', 'MCT_TYPE', 'YM'])
final_samples.head()

Unnamed: 0,YM,MCT_NM,MCT_TYPE,temp_05_11,temp_12_13,temp_14_17,temp_18_22,temp_23_04,TEMP_AVG,area,...,HR_18_22_UE_CNT_RAT,HR_23_4_UE_CNT_RAT,LOCAL_UE_CNT_RAT,RC_M12_MAL_CUS_CNT_RAT,RC_M12_FME_CUS_CNT_RAT,RC_M12_AGE_UND_20_CUS_CNT_RAT,RC_M12_AGE_30_CUS_CNT_RAT,RC_M12_AGE_40_CUS_CNT_RAT,RC_M12_AGE_50_CUS_CNT_RAT,RC_M12_AGE_OVR_60_CUS_CNT_RAT
0,10월,가파도용궁정식,가정식,21.706452,21.534677,19.74129,19.097849,19.574194,20.330892,가파도,...,0.083333,0.0,0.161473,0.535,0.465,0.05,0.168,0.198,0.383,0.201
2,3월,꼬닥꼬닥걸으멍,가정식,14.716129,14.504032,12.423226,11.591398,12.341935,13.115344,가파도,...,0.0,0.0,0.057405,0.387,0.613,0.068,0.172,0.254,0.319,0.186
4,4월,꼬닥꼬닥걸으멍,가정식,16.941667,16.819167,15.181333,14.276667,15.13381,15.670529,가파도,...,0.0,0.0,0.055281,0.388,0.612,0.065,0.158,0.256,0.324,0.197
5,4월,전망대,가정식,16.941667,16.819167,15.181333,14.276667,15.13381,15.670529,가파도,...,0.0,0.0,0.07032,0.449,0.551,0.103,0.179,0.209,0.28,0.23
10,5월,꼬닥꼬닥걸으멍,가정식,19.670968,19.556452,18.103871,16.971505,17.905991,18.441757,가파도,...,0.0,0.0,0.056075,0.385,0.615,0.067,0.158,0.225,0.343,0.206


In [23]:
# sample without meta 저장
final_samples.to_csv("../data/sample_without_meta.csv", encoding='cp949', index=False)

In [24]:
# final_samples에 meta_data 추가
final_sampes_with_meta = pd.concat([df_meta_transposed, final_samples], ignore_index=True)
print(final_sampes_with_meta.shape)  # (1003, 34)
final_sampes_with_meta.head(10)

(1002, 34)


Unnamed: 0,YM,MCT_NM,MCT_TYPE,temp_05_11,temp_12_13,temp_14_17,temp_18_22,temp_23_04,TEMP_AVG,area,...,HR_18_22_UE_CNT_RAT,HR_23_4_UE_CNT_RAT,LOCAL_UE_CNT_RAT,RC_M12_MAL_CUS_CNT_RAT,RC_M12_FME_CUS_CNT_RAT,RC_M12_AGE_UND_20_CUS_CNT_RAT,RC_M12_AGE_30_CUS_CNT_RAT,RC_M12_AGE_40_CUS_CNT_RAT,RC_M12_AGE_50_CUS_CNT_RAT,RC_M12_AGE_OVR_60_CUS_CNT_RAT
0,기준연월,가맹점명,업종,5시 11시 평균 기온,12시 13시 평균 기온,14시 17시 평균 기온,18시 22시 평균 기온,23시 4시 평균 기온,월 평균 기온,지역,...,18시 22시 이용 건수 비중,23시 4시 이용 건수 비중,현지인 이용 건수 비중,최근 12개월 남성 회원수 비중,최근 12개월 여성 회원수 비중,최근 12개월 20대 이하 회원수 비중,최근 12개월 30대 회원수 비중,최근 12개월 40대 회원수 비중,최근 12개월 40대 회원수 비중,최근 12개월 60대 이상 회원수 비중
1,2023년 1월~12월,가맹점명,요식관련 30개 업종으로 구분,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,제주도를 10개의 지역으로 구분: 동부/서부/남부/북부/산지/가파도/마라도/비양도/...,...,음수값은 이상치로 판단하여 최빈값 대체,음수값은 이상치로 판단하여 최빈값 대체,고객 자택 주소가 제주도인 경우를 현지인으로 정의,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값
2,10월,가파도용궁정식,가정식,21.706452,21.534677,19.74129,19.097849,19.574194,20.330892,가파도,...,0.083333,0.0,0.161473,0.535,0.465,0.05,0.168,0.198,0.383,0.201
3,3월,꼬닥꼬닥걸으멍,가정식,14.716129,14.504032,12.423226,11.591398,12.341935,13.115344,가파도,...,0.0,0.0,0.057405,0.387,0.613,0.068,0.172,0.254,0.319,0.186
4,4월,꼬닥꼬닥걸으멍,가정식,16.941667,16.819167,15.181333,14.276667,15.13381,15.670529,가파도,...,0.0,0.0,0.055281,0.388,0.612,0.065,0.158,0.256,0.324,0.197
5,4월,전망대,가정식,16.941667,16.819167,15.181333,14.276667,15.13381,15.670529,가파도,...,0.0,0.0,0.07032,0.449,0.551,0.103,0.179,0.209,0.28,0.23
6,5월,꼬닥꼬닥걸으멍,가정식,19.670968,19.556452,18.103871,16.971505,17.905991,18.441757,가파도,...,0.0,0.0,0.056075,0.385,0.615,0.067,0.158,0.225,0.343,0.206
7,5월,꼬닥꼬닥걸으멍,가정식,19.670968,19.556452,18.103871,16.971505,17.905991,18.441757,가파도,...,0.0,0.0,0.056075,0.385,0.615,0.067,0.158,0.225,0.343,0.206
8,5월,가파도용궁정식,가정식,19.670968,19.556452,18.103871,16.971505,17.905991,18.441757,가파도,...,0.103448,0.0,0.166998,0.51,0.49,0.058,0.165,0.226,0.34,0.211
9,5월,꼬닥꼬닥걸으멍,가정식,19.670968,19.556452,18.103871,16.971505,17.905991,18.441757,가파도,...,0.0,0.0,0.056075,0.385,0.615,0.067,0.158,0.225,0.343,0.206


In [25]:
# 저장
final_sampes_with_meta.to_csv("../data/sample_with_meta.csv", encoding='cp949', index=False)