# 메타 데이터를 결합한 csv 파일 만들기

## 00. 기본 설정

In [1]:
import pandas as pd
import numpy as np

## 01. 파일 불러오기

In [2]:
# 전처리 완료 데이터
df = pd.read_csv("data\data_prep_final.csv", encoding='utf8')
print(df.shape)      # (67857, 42)
df.head()

(67857, 42)


Unnamed: 0,YM,MCT_NM,OP_YMD,TYPE,MCT_TYPE,temp_05_11,temp_12_13,temp_14_17,temp_18_22,temp_23_04,...,HR_18_22_UE_CNT_RAT,HR_23_4_UE_CNT_RAT,LOCAL_UE_CNT_RAT,RC_M12_MAL_CUS_CNT_RAT,RC_M12_FME_CUS_CNT_RAT,RC_M12_AGE_UND_20_CUS_CNT_RAT,RC_M12_AGE_30_CUS_CNT_RAT,RC_M12_AGE_40_CUS_CNT_RAT,RC_M12_AGE_50_CUS_CNT_RAT,RC_M12_AGE_OVR_60_CUS_CNT_RAT
0,202301,희야네식당,20000916,T1,가정식,6.720276,9.508065,9.43871,7.305806,6.284865,...,0.0,0.0,0.381616,0.644,0.356,0.183,0.232,0.351,0.171,0.063
1,202301,희신이네,20060515,T1,가정식,6.720276,9.508065,9.43871,7.305806,6.284865,...,0.264706,0.0,0.701183,0.686,0.314,0.118,0.261,0.342,0.19,0.089
2,202301,흥미,20030814,T1,가정식,6.233641,8.633871,8.46129,6.666452,5.849189,...,0.09434,0.0,0.736842,0.562,0.438,0.107,0.299,0.336,0.226,0.032
3,202301,흑심가,20220401,T1,가정식,6.53871,7.964516,7.733871,6.761935,6.317838,...,0.733333,0.033333,0.123656,0.544,0.456,0.239,0.3,0.233,0.139,0.089
4,202301,흑섬,20160419,T1,가정식,6.233641,8.633871,8.46129,6.666452,5.849189,...,0.806452,0.0,0.317136,0.585,0.415,0.175,0.278,0.283,0.206,0.059


In [3]:
# 메타데이터
df_meta = pd.read_csv("data\meta_V2.csv", encoding="utf8")
print(df_meta.shape)  # (39, 5)
df_meta

(39, 5)


Unnamed: 0,No,컬럼ID,컬럼명,타입,설명
0,1,YM,기준연월,STRING,기준연월
1,2,MCT_NM,가맹점명,STRING,가맹점명
2,3,OP_YMD,가맹점 개설일자,STRING,가맹점 개설일자
3,4,TYPE,업종 라벨링,OBJECT,업종 - 명목형 변수로 라벨링
4,5,MCT_TYPE,업종,STRING,업종 - 텍스트 자료형
5,6,temp_05_11,5시 11시 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산
6,7,temp_12_13,12시 13시 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산
7,8,temp_14_17,14시 17시 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산
8,9,temp_18_22,18시 22시 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산
9,10,temp_23_04,23시 4시 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산


<hr>

## 01. 전처리 완료 데이터 컬럼 수정 
- 전처리 완료 데이터의 shape(67857, 42)과 메타 데이터의 shape(39, 5)이 맞지 않음
- -> `UE_CNT_GRP`(이용건수구간), `UE_AMT_GRP`(이용금액구간), `UE_AMT_PER_TRSN_GRP`(건당평균이용금액구간) 이 세 개의 칼럼이 meta data에 없는 것을 확인
- -> `RANK_CNT`, `RANK_AMT`, `RANK_MEAN` 칼럼으로 대체했으므로 위 세 개의 행 삭제

<br>

- `YM`에서 월 데이터로 변경
- `개설일자`와 `polygon`, `TYPE` 칼럼 삭제

In [23]:
col_to_drop = ['UE_CNT_GRP', 'UE_AMT_GRP', 'UE_AMT_PER_TRSN_GRP', 'OP_YMD', 'Polygon', 'TYPE']
df_col_36 = df.drop(columns=col_to_drop)
df_col_36.shape         # (67857, 36)

(67857, 36)

In [24]:
# YM에서 -월로 수정
def convert_ym_to_month(ym):
    month_mapping = {
        '202301': '1월', '202302': '2월', '202303': '3월', '202304': '4월',
        '202305': '5월', '202306': '6월', '202307': '7월', '202308': '8월',
        '202309': '9월', '202310': '10월', '202311': '11월', '202312': '12월'
    }
    return month_mapping.get(str(ym), ym)  # 매핑되지 않는 값은 그대로 반환

df_col_36['YM'] = df_col_36['YM'].apply(convert_ym_to_month)

df_col_36.head(3)

Unnamed: 0,YM,MCT_NM,MCT_TYPE,temp_05_11,temp_12_13,temp_14_17,temp_18_22,temp_23_04,TEMP_AVG,latitude,...,HR_18_22_UE_CNT_RAT,HR_23_4_UE_CNT_RAT,LOCAL_UE_CNT_RAT,RC_M12_MAL_CUS_CNT_RAT,RC_M12_FME_CUS_CNT_RAT,RC_M12_AGE_UND_20_CUS_CNT_RAT,RC_M12_AGE_30_CUS_CNT_RAT,RC_M12_AGE_40_CUS_CNT_RAT,RC_M12_AGE_50_CUS_CNT_RAT,RC_M12_AGE_OVR_60_CUS_CNT_RAT
0,1월,희야네식당,가정식,6.720276,9.508065,9.43871,7.305806,6.284865,7.851544,33.279498,...,0.0,0.0,0.381616,0.644,0.356,0.183,0.232,0.351,0.171,0.063
1,1월,희신이네,가정식,6.720276,9.508065,9.43871,7.305806,6.284865,7.851544,33.263389,...,0.264706,0.0,0.701183,0.686,0.314,0.118,0.261,0.342,0.19,0.089
2,1월,흥미,가정식,6.233641,8.633871,8.46129,6.666452,5.849189,7.168889,33.490006,...,0.09434,0.0,0.736842,0.562,0.438,0.107,0.299,0.336,0.226,0.032


<hr>

## 02. 메타 데이터 수정 
- 전처리 완료 데이터의 shape(67857, 42)과 메타 데이터의 shape(39, 5)이 맞지 않음
- -> `UE_CNT_GRP`(이용건수구간), `UE_AMT_GRP`(이용금액구간), `UE_AMT_PER_TRSN_GRP`(건당평균이용금액구간) 이 세 개의 칼럼이 meta data에 없는 것을 확인

- `YM`, `MCT_TYPE`, `RANK_CNT`, `RANK_AMT`, `RANK_MEAN`, `Polygon`, `area`에 대한 칼럼 설명이 부족하다고 판단
- -> 아래 정보를 더 추가할 것임
  - 1	YM	기준연월	202301~202312
  - 4	MCT_TYPE	업종	요식관련 30개 업종
  - 6	RANK_CNT	이용건수구간	월별 업종별 이용건수 분위수 구간을 6개 구간으로 집계 시, 해당 가맹점의 이용건수가 포함되는 분위수 구간 * 1-상위10%이하 2-상위10~25% 3-상위25~50% 4-상위50~75% 5-상위75~90% 6-상위90% 초과(하위10%이하) * 상위 30% 매출 가맹점 내 분위수 구간임
  - 7	RANK_AMT	이용금액구간	월별 업종별 이용금액 분위수 구간을 6개 구간으로 집계 시, 해당 가맹점의 이용금액이 포함되는 분위수 구간 * 1-상위10%이하 2-상위10~25% 3-상위25~50% 4-상위50~75% 5-상위75~90% 6-상위90% 초과(하위10%이하) * 상위 30% 매출 가맹점 내 분위수 구간임
  - 8	RANK_MEAN	건당평균이용금액구간	STRING	N	월별 업종별 건당평균이용금액 분위수 구간을 6개 구간으로 집계 시, 해당 가맹점의 건당평균이용금액이 포함되는 분위수 구간 * 1-상위10%이하 2-상위10~25% 3-상위25~50% 4-상위50~75% 5-상위75~90% 6-상위90% 초과(하위10%이하) * 상위 30% 매출 가맹점 내 분위수 구간임
  - 14	Polygon	지역 라벨링	지역 - area 칼럼을 명목형 변수로 라벨링(P1-남부 P2-동부 P3-북부 P4-산지 P5-서부 P6-가파도 P7-마라도 P8-비양도 P9-우도 P10-추자도)
  - 15	area	지역	지역-텍스트 자료형(10개로 구분: 동부 서부 남부 북부 산지 가파도 마라도 비양도 우도 추자도)

<br>

- 전처리 완료 데이터와 칼럼 수를 맞추기 위해 `['OP_YMD', 'Polygon', 'TYPE']` 삭제

In [25]:
row_to_drop = ['OP_YMD', 'Polygon', 'TYPE']
df_meta_drop = df_meta[~df_meta['컬럼ID'].isin(row_to_drop)]
df_meta_drop.shape         # (36, 5)

(36, 5)

In [26]:
df_col_36['area'].value_counts()

area
북부     38617
남부     13044
서부      9307
동부      6289
우도       444
마라도       54
추자도       39
가파도       32
비양도       20
산지        11
Name: count, dtype: int64

In [27]:
# 변경할 [설명] 값을 변수에 저장
metadata_explanation = {
    'YM': '2023년 1월~12월',
    'MCT_TYPE': '요식관련 30개 업종으로 구분',
    'RANK_CNT': '월별 업종별 이용건수 분위수 구간을 6개 구간으로 집계 시 해당 가맹점의 이용건수가 포함되는 분위수 구간 * 1:상위10%이하 2:상위10~25% 3:상위25~50% 4:상위50~75% 5:상위75~90% 6:상위90% 초과(하위10%이하) * 상위 30% 매출 가맹점 내 분위수 구간임',
    'RANK_AMT': '월별 업종별 이용금액 분위수 구간을 6개 구간으로 집계 시 해당 가맹점의 이용금액이 포함되는 분위수 구간 * 1:상위10%이하 2:상위10~25% 3:상위25~50% 4:상위50~75% 5:상위75~90% 6:상위90% 초과(하위10%이하) * 상위 30% 매출 가맹점 내 분위수 구간임',
    'RANK_MEAN': '월별 업종별 건당평균이용금액 분위수 구간을 6개 구간으로 집계 시 해당 가맹점의 건당평균이용금액이 포함되는 분위수 구간 * 1:상위10%이하 2:상위10~25% 3:상위25~50% 4:상위50~75% 5:상위75~90% 6:상위90% 초과(하위10%이하) * 상위 30% 매출 가맹점 내 분위수 구간임',
    'area': '제주도 지역을 10개로 구분: 동부 서부 남부 북부 산지 가파도 마라도 비양도 우도 추자도'
}

In [28]:
# df_meta에 설명 업데이트
df_meta_drop.loc[:, '설명'] = (
    df_meta_drop['컬럼ID'].map(metadata_explanation).fillna(df_meta_drop['설명'])
)
df_meta_drop

Unnamed: 0,No,컬럼ID,컬럼명,타입,설명
0,1,YM,기준연월,STRING,2023년 1월~12월
1,2,MCT_NM,가맹점명,STRING,가맹점명
4,5,MCT_TYPE,업종,STRING,요식관련 30개 업종으로 구분
5,6,temp_05_11,5시 11시 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산
6,7,temp_12_13,12시 13시 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산
7,8,temp_14_17,14시 17시 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산
8,9,temp_18_22,18시 22시 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산
9,10,temp_23_04,23시 4시 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산
10,11,TEMP_AVG,월 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산
11,12,latitude,위도,FLOAT,Google Map API 활용하여 변환


In [29]:
# ['No', '타입'] 칼럼 삭제
df_meta_36 = df_meta_drop.drop(columns=['No', '타입'])
df_meta_36.head()

Unnamed: 0,컬럼ID,컬럼명,설명
0,YM,기준연월,2023년 1월~12월
1,MCT_NM,가맹점명,가맹점명
4,MCT_TYPE,업종,요식관련 30개 업종으로 구분
5,temp_05_11,5시 11시 평균 기온,기상청 데이터 활용하여 평균값 계산
6,temp_12_13,12시 13시 평균 기온,기상청 데이터 활용하여 평균값 계산


<hr>

## 03. df_col_39와 df_meta 결합

In [30]:
# shape 다시 확인
print(df_col_36.shape)
print(df_meta_36.shape)

(67857, 36)
(36, 3)


In [31]:
# 필요한 메타데이터 행들 추출
meta_column_names = df_meta_36['컬럼명'].values
meta_column_descriptions = df_meta_36['설명'].values

# 메타데이터를 DataFrame으로 변환
df_meta_transposed = pd.DataFrame([meta_column_names, meta_column_descriptions],
                                  columns=df_col_36.columns)  # 맛집 데이터의 컬럼과 동일하게 맞춤
df_meta_transposed

Unnamed: 0,YM,MCT_NM,MCT_TYPE,temp_05_11,temp_12_13,temp_14_17,temp_18_22,temp_23_04,TEMP_AVG,latitude,...,HR_18_22_UE_CNT_RAT,HR_23_4_UE_CNT_RAT,LOCAL_UE_CNT_RAT,RC_M12_MAL_CUS_CNT_RAT,RC_M12_FME_CUS_CNT_RAT,RC_M12_AGE_UND_20_CUS_CNT_RAT,RC_M12_AGE_30_CUS_CNT_RAT,RC_M12_AGE_40_CUS_CNT_RAT,RC_M12_AGE_50_CUS_CNT_RAT,RC_M12_AGE_OVR_60_CUS_CNT_RAT
0,기준연월,가맹점명,업종,5시 11시 평균 기온,12시 13시 평균 기온,14시 17시 평균 기온,18시 22시 평균 기온,23시 4시 평균 기온,월 평균 기온,위도,...,18시 22시 이용 건수 비중,23시 4시 이용 건수 비중,현지인 이용 건수 비중,최근 12개월 남성 회원수 비중,최근 12개월 여성 회원수 비중,최근 12개월 20대 이하 회원수 비중,최근 12개월 30대 회원수 비중,최근 12개월 40대 회원수 비중,최근 12개월 40대 회원수 비중,최근 12개월 60대 이상 회원수 비중
1,2023년 1월~12월,가맹점명,요식관련 30개 업종으로 구분,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,Google Map API 활용하여 변환,...,음수값은 이상치로 판단하여 최빈값 대체,음수값은 이상치로 판단하여 최빈값 대체,고객 자택 주소가 제주도인 경우를 현지인으로 정의,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값


In [32]:
# 메타데이터를 맛집 데이터 위에 추가
df_combined = pd.concat([df_meta_transposed, df_col_36], ignore_index=True)
df_combined.head(10)

Unnamed: 0,YM,MCT_NM,MCT_TYPE,temp_05_11,temp_12_13,temp_14_17,temp_18_22,temp_23_04,TEMP_AVG,latitude,...,HR_18_22_UE_CNT_RAT,HR_23_4_UE_CNT_RAT,LOCAL_UE_CNT_RAT,RC_M12_MAL_CUS_CNT_RAT,RC_M12_FME_CUS_CNT_RAT,RC_M12_AGE_UND_20_CUS_CNT_RAT,RC_M12_AGE_30_CUS_CNT_RAT,RC_M12_AGE_40_CUS_CNT_RAT,RC_M12_AGE_50_CUS_CNT_RAT,RC_M12_AGE_OVR_60_CUS_CNT_RAT
0,기준연월,가맹점명,업종,5시 11시 평균 기온,12시 13시 평균 기온,14시 17시 평균 기온,18시 22시 평균 기온,23시 4시 평균 기온,월 평균 기온,위도,...,18시 22시 이용 건수 비중,23시 4시 이용 건수 비중,현지인 이용 건수 비중,최근 12개월 남성 회원수 비중,최근 12개월 여성 회원수 비중,최근 12개월 20대 이하 회원수 비중,최근 12개월 30대 회원수 비중,최근 12개월 40대 회원수 비중,최근 12개월 40대 회원수 비중,최근 12개월 60대 이상 회원수 비중
1,2023년 1월~12월,가맹점명,요식관련 30개 업종으로 구분,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,Google Map API 활용하여 변환,...,음수값은 이상치로 판단하여 최빈값 대체,음수값은 이상치로 판단하여 최빈값 대체,고객 자택 주소가 제주도인 경우를 현지인으로 정의,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값
2,1월,희야네식당,가정식,6.720276,9.508065,9.43871,7.305806,6.284865,7.851544,33.279498,...,0.0,0.0,0.381616,0.644,0.356,0.183,0.232,0.351,0.171,0.063
3,1월,희신이네,가정식,6.720276,9.508065,9.43871,7.305806,6.284865,7.851544,33.263389,...,0.264706,0.0,0.701183,0.686,0.314,0.118,0.261,0.342,0.19,0.089
4,1월,흥미,가정식,6.233641,8.633871,8.46129,6.666452,5.849189,7.168889,33.490006,...,0.09434,0.0,0.736842,0.562,0.438,0.107,0.299,0.336,0.226,0.032
5,1월,흑심가,가정식,6.53871,7.964516,7.733871,6.761935,6.317838,7.063374,33.427396,...,0.733333,0.033333,0.123656,0.544,0.456,0.239,0.3,0.233,0.139,0.089
6,1월,흑섬,가정식,6.233641,8.633871,8.46129,6.666452,5.849189,7.168889,33.530351,...,0.806452,0.0,0.317136,0.585,0.415,0.175,0.278,0.283,0.206,0.059
7,1월,흑사돈,가정식,5.202765,8.459677,8.159677,5.323226,4.372973,6.303664,33.327631,...,1.0,0.0,0.139373,0.577,0.423,0.193,0.248,0.31,0.168,0.08
8,1월,흑본오겹 제주공항점,가정식,6.233641,8.633871,8.46129,6.666452,5.849189,7.168889,33.51271,...,0.680851,0.0,0.046218,0.527,0.473,0.338,0.299,0.175,0.154,0.035
9,1월,흑백돈,가정식,6.233641,8.633871,8.46129,6.666452,5.849189,7.168889,33.539644,...,0.818182,0.0,0.140078,0.592,0.408,0.234,0.252,0.312,0.138,0.064


<hr>

## 04. 결합 완료 데이터셋 저장 + sample 데이터 만들기

In [33]:
df_combined.to_csv("data/data_with_meta_ALL.csv", encoding='cp949', index=False)

In [34]:
# 데이터 확인
df_test = pd.read_csv('data/data_with_meta_ALL.csv', encoding='cp949')
print(df_test.shape)
df_test.head(6)

(67859, 36)


  df_test = pd.read_csv('data/data_with_meta_ALL.csv', encoding='cp949')


Unnamed: 0,YM,MCT_NM,MCT_TYPE,temp_05_11,temp_12_13,temp_14_17,temp_18_22,temp_23_04,TEMP_AVG,latitude,...,HR_18_22_UE_CNT_RAT,HR_23_4_UE_CNT_RAT,LOCAL_UE_CNT_RAT,RC_M12_MAL_CUS_CNT_RAT,RC_M12_FME_CUS_CNT_RAT,RC_M12_AGE_UND_20_CUS_CNT_RAT,RC_M12_AGE_30_CUS_CNT_RAT,RC_M12_AGE_40_CUS_CNT_RAT,RC_M12_AGE_50_CUS_CNT_RAT,RC_M12_AGE_OVR_60_CUS_CNT_RAT
0,기준연월,가맹점명,업종,5시 11시 평균 기온,12시 13시 평균 기온,14시 17시 평균 기온,18시 22시 평균 기온,23시 4시 평균 기온,월 평균 기온,위도,...,18시 22시 이용 건수 비중,23시 4시 이용 건수 비중,현지인 이용 건수 비중,최근 12개월 남성 회원수 비중,최근 12개월 여성 회원수 비중,최근 12개월 20대 이하 회원수 비중,최근 12개월 30대 회원수 비중,최근 12개월 40대 회원수 비중,최근 12개월 40대 회원수 비중,최근 12개월 60대 이상 회원수 비중
1,2023년 1월~12월,가맹점명,요식관련 30개 업종으로 구분,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,Google Map API 활용하여 변환,...,음수값은 이상치로 판단하여 최빈값 대체,음수값은 이상치로 판단하여 최빈값 대체,고객 자택 주소가 제주도인 경우를 현지인으로 정의,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값
2,1월,희야네식당,가정식,6.720276498,9.508064516,9.438709677,7.305806452,6.284864865,7.851544402,33.2794981,...,0.0,0.0,0.3816155989,0.644,0.356,0.183,0.232,0.351,0.171,0.063
3,1월,희신이네,가정식,6.720276498,9.508064516,9.438709677,7.305806452,6.284864865,7.851544402,33.2633891,...,0.2647058824,0.0,0.701183432,0.686,0.314,0.118,0.261,0.342,0.19,0.089
4,1월,흥미,가정식,6.233640553,8.633870968,8.461290323,6.666451613,5.849189189,7.168888529,33.4900057,...,0.09433962264,0.0,0.7368421053,0.562,0.438,0.107,0.299,0.336,0.226,0.032
5,1월,흑심가,가정식,6.538709677,7.964516129,7.733870968,6.761935484,6.317837838,7.063374019,33.4273959,...,0.7333333333,0.03333333333,0.123655914,0.544,0.456,0.239,0.3,0.233,0.139,0.089


In [35]:
# df_col_39의 sample data 추출 (1000개)

# area와 MCT_TYPE 칼럼의 고유 값 추출
unique_areas = df_col_36['area'].unique()
unique_mct_types = df_col_36['MCT_TYPE'].unique()

# 고유 값 개수
num_areas = len(unique_areas)
num_mct_types = len(unique_mct_types)

# 최소 샘플 수 계산
min_samples_per_area = 1000 // num_areas
min_samples_per_mct_type = 1000 // num_mct_types

# 샘플링
samples = []

# 각 area에 대해 샘플 추출
for area in unique_areas:
    area_samples = df_col_36[df_col_36['area'] == area].sample(n=min_samples_per_area, replace=True)
    samples.append(area_samples)

# 각 MCT_TYPE에 대해 샘플 추출
for mct_type in unique_mct_types:
    mct_samples = df_col_36[df_col_36['MCT_TYPE'] == mct_type].sample(n=min_samples_per_mct_type, replace=True)
    samples.append(mct_samples)

# 모든 샘플 결합
final_samples = pd.concat(samples).drop_duplicates().sample(n=1000, replace=True)

# 결과 확인
print(final_samples.shape)  # (1000, 39) 형태 확인
final_samples

(1000, 36)


Unnamed: 0,YM,MCT_NM,MCT_TYPE,temp_05_11,temp_12_13,temp_14_17,temp_18_22,temp_23_04,TEMP_AVG,latitude,...,HR_18_22_UE_CNT_RAT,HR_23_4_UE_CNT_RAT,LOCAL_UE_CNT_RAT,RC_M12_MAL_CUS_CNT_RAT,RC_M12_FME_CUS_CNT_RAT,RC_M12_AGE_UND_20_CUS_CNT_RAT,RC_M12_AGE_30_CUS_CNT_RAT,RC_M12_AGE_40_CUS_CNT_RAT,RC_M12_AGE_50_CUS_CNT_RAT,RC_M12_AGE_OVR_60_CUS_CNT_RAT
64722,12월,롯데리아 제주한림점,샌드위치/토스트,9.367143,10.893333,10.532500,9.358000,8.856354,9.801466,33.410586,...,0.242991,0.00000,0.608999,0.536,0.464,0.122,0.271,0.363,0.177,0.068
7824,2월,덕성식당,가정식,7.156122,8.630357,8.375000,7.292857,6.782143,7.647296,33.228577,...,0.170213,0.00000,0.080065,0.501,0.499,0.124,0.211,0.186,0.308,0.171
52880,10월,금능고깃집,가정식,18.788940,21.004839,20.695161,18.588387,17.938710,19.403207,33.386769,...,0.805556,0.00000,0.117264,0.513,0.487,0.193,0.323,0.286,0.115,0.082
36226,7월,써브웨이신제주연동신시가지점,샌드위치/토스트,27.581106,29.903226,29.922581,28.156129,26.804301,28.473469,33.480714,...,0.332326,0.00000,0.766341,0.437,0.563,0.264,0.299,0.263,0.143,0.031
53883,10월,마라도짜장면,중식,21.753226,21.600806,20.339355,19.985484,20.318894,20.799553,33.117668,...,0.000000,0.00000,0.035081,0.606,0.394,0.159,0.261,0.294,0.201,0.084
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
31062,6월,지미스,단품요리 전문,24.448276,24.731897,23.368000,22.200000,22.866667,23.522968,33.497851,...,0.000000,0.00000,0.029525,0.460,0.540,0.252,0.322,0.219,0.147,0.059
3764,1월,해진횟집,단품요리 전문,6.233641,8.633871,8.461290,6.666452,5.849189,7.168889,33.518424,...,0.853659,0.02439,0.099526,0.623,0.377,0.144,0.169,0.223,0.301,0.163
34717,7월,고수목마,가정식,26.261290,27.864516,27.700000,26.343226,25.529570,26.739720,33.327249,...,0.687500,0.00000,0.221957,0.691,0.309,0.107,0.248,0.181,0.227,0.237
67703,12월,괸당집신재주점,단품요리 전문,9.019048,11.520000,10.990833,9.248000,8.204420,9.796460,33.488747,...,1.000000,0.00000,0.690027,0.622,0.378,0.264,0.300,0.269,0.142,0.025


In [36]:
# final_samples에 meta_data 추가
final_sampes_with_meta = pd.concat([df_meta_transposed, final_samples], ignore_index=True)
print(final_sampes_with_meta.shape)  # (1003, 39)
final_sampes_with_meta.head(10)

(1002, 36)


Unnamed: 0,YM,MCT_NM,MCT_TYPE,temp_05_11,temp_12_13,temp_14_17,temp_18_22,temp_23_04,TEMP_AVG,latitude,...,HR_18_22_UE_CNT_RAT,HR_23_4_UE_CNT_RAT,LOCAL_UE_CNT_RAT,RC_M12_MAL_CUS_CNT_RAT,RC_M12_FME_CUS_CNT_RAT,RC_M12_AGE_UND_20_CUS_CNT_RAT,RC_M12_AGE_30_CUS_CNT_RAT,RC_M12_AGE_40_CUS_CNT_RAT,RC_M12_AGE_50_CUS_CNT_RAT,RC_M12_AGE_OVR_60_CUS_CNT_RAT
0,기준연월,가맹점명,업종,5시 11시 평균 기온,12시 13시 평균 기온,14시 17시 평균 기온,18시 22시 평균 기온,23시 4시 평균 기온,월 평균 기온,위도,...,18시 22시 이용 건수 비중,23시 4시 이용 건수 비중,현지인 이용 건수 비중,최근 12개월 남성 회원수 비중,최근 12개월 여성 회원수 비중,최근 12개월 20대 이하 회원수 비중,최근 12개월 30대 회원수 비중,최근 12개월 40대 회원수 비중,최근 12개월 40대 회원수 비중,최근 12개월 60대 이상 회원수 비중
1,2023년 1월~12월,가맹점명,요식관련 30개 업종으로 구분,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,Google Map API 활용하여 변환,...,음수값은 이상치로 판단하여 최빈값 대체,음수값은 이상치로 판단하여 최빈값 대체,고객 자택 주소가 제주도인 경우를 현지인으로 정의,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값
2,12월,롯데리아 제주한림점,샌드위치/토스트,9.367143,10.893333,10.5325,9.358,8.856354,9.801466,33.410586,...,0.242991,0.0,0.608999,0.536,0.464,0.122,0.271,0.363,0.177,0.068
3,2월,덕성식당,가정식,7.156122,8.630357,8.375,7.292857,6.782143,7.647296,33.228577,...,0.170213,0.0,0.080065,0.501,0.499,0.124,0.211,0.186,0.308,0.171
4,10월,금능고깃집,가정식,18.78894,21.004839,20.695161,18.588387,17.93871,19.403207,33.386769,...,0.805556,0.0,0.117264,0.513,0.487,0.193,0.323,0.286,0.115,0.082
5,7월,써브웨이신제주연동신시가지점,샌드위치/토스트,27.581106,29.903226,29.922581,28.156129,26.804301,28.473469,33.480714,...,0.332326,0.0,0.766341,0.437,0.563,0.264,0.299,0.263,0.143,0.031
6,10월,마라도짜장면,중식,21.753226,21.600806,20.339355,19.985484,20.318894,20.799553,33.117668,...,0.0,0.0,0.035081,0.606,0.394,0.159,0.261,0.294,0.201,0.084
7,4월,서가앤쿡 제주점,패밀리 레스토랑,15.011905,17.971667,17.876667,15.382667,13.548333,15.958248,33.517404,...,0.582418,0.0,0.569629,0.5,0.5,0.194,0.31,0.293,0.145,0.057
8,12월,정직한돈,가정식,9.367143,10.893333,10.5325,9.358,8.856354,9.801466,33.467408,...,0.795181,0.0,0.033333,0.502,0.498,0.324,0.284,0.19,0.142,0.061
9,8월,이삭토스트제주대점,샌드위치/토스트,28.137788,30.480645,30.81371,28.823226,27.365591,29.124192,33.459193,...,0.074286,0.0,0.766795,0.553,0.447,0.177,0.318,0.262,0.187,0.056


In [37]:
# 저장
final_sampes_with_meta.to_csv("data/sample_1000_with_meta.csv", encoding='cp949', index=False)