# 메타 데이터를 결합한 csv 파일 만들기

## 00. 기본 설정

In [1]:
import pandas as pd
import numpy as np

## 01. 파일 불러오기

In [3]:
# 전처리 완료 데이터
df = pd.read_csv("..\data\data_prep_final.csv", encoding='utf8')
print(df.shape)      # (67857, 42)
df.head()

(67857, 42)


Unnamed: 0,YM,MCT_NM,OP_YMD,TYPE,MCT_TYPE,temp_05_11,temp_12_13,temp_14_17,temp_18_22,temp_23_04,...,HR_18_22_UE_CNT_RAT,HR_23_4_UE_CNT_RAT,LOCAL_UE_CNT_RAT,RC_M12_MAL_CUS_CNT_RAT,RC_M12_FME_CUS_CNT_RAT,RC_M12_AGE_UND_20_CUS_CNT_RAT,RC_M12_AGE_30_CUS_CNT_RAT,RC_M12_AGE_40_CUS_CNT_RAT,RC_M12_AGE_50_CUS_CNT_RAT,RC_M12_AGE_OVR_60_CUS_CNT_RAT
0,202301,희야네식당,20000916,T1,가정식,6.720276,9.508065,9.43871,7.305806,6.284865,...,0.0,0.0,0.381616,0.644,0.356,0.183,0.232,0.351,0.171,0.063
1,202301,희신이네,20060515,T1,가정식,6.720276,9.508065,9.43871,7.305806,6.284865,...,0.264706,0.0,0.701183,0.686,0.314,0.118,0.261,0.342,0.19,0.089
2,202301,흥미,20030814,T1,가정식,6.233641,8.633871,8.46129,6.666452,5.849189,...,0.09434,0.0,0.736842,0.562,0.438,0.107,0.299,0.336,0.226,0.032
3,202301,흑심가,20220401,T1,가정식,6.53871,7.964516,7.733871,6.761935,6.317838,...,0.733333,0.033333,0.123656,0.544,0.456,0.239,0.3,0.233,0.139,0.089
4,202301,흑섬,20160419,T1,가정식,6.233641,8.633871,8.46129,6.666452,5.849189,...,0.806452,0.0,0.317136,0.585,0.415,0.175,0.278,0.283,0.206,0.059


In [4]:
# 메타데이터
df_meta = pd.read_csv("..\data\meta_V2.csv", encoding="utf8")
print(df_meta.shape)  # (39, 5)
df_meta

(39, 5)


Unnamed: 0,No,컬럼ID,컬럼명,타입,설명
0,1,YM,기준연월,STRING,기준연월
1,2,MCT_NM,가맹점명,STRING,가맹점명
2,3,OP_YMD,가맹점 개설일자,STRING,가맹점 개설일자
3,4,TYPE,업종 라벨링,OBJECT,업종 - 명목형 변수로 라벨링
4,5,MCT_TYPE,업종,STRING,업종 - 텍스트 자료형
5,6,temp_05_11,5시 11시 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산
6,7,temp_12_13,12시 13시 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산
7,8,temp_14_17,14시 17시 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산
8,9,temp_18_22,18시 22시 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산
9,10,temp_23_04,23시 4시 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산


<hr>

## 01. 전처리 완료 데이터 컬럼 수정 
- 전처리 완료 데이터의 shape(67857, 42)과 메타 데이터의 shape(39, 5)이 맞지 않음
- -> `UE_CNT_GRP`(이용건수구간), `UE_AMT_GRP`(이용금액구간), `UE_AMT_PER_TRSN_GRP`(건당평균이용금액구간) 이 세 개의 칼럼이 meta data에 없는 것을 확인
- -> `RANK_CNT`, `RANK_AMT`, `RANK_MEAN` 칼럼으로 대체했으므로 위 세 개의 행 삭제

<br>

- `YM`에서 월 데이터로 변경
- `개설일자`와 `polygon`, `TYPE`, `위/경도` 칼럼 삭제

In [7]:
col_to_drop = ['UE_CNT_GRP', 'UE_AMT_GRP', 'UE_AMT_PER_TRSN_GRP', 'OP_YMD', 'Polygon', 'TYPE', 'latitude', 'longitude']
df_col_34 = df.drop(columns=col_to_drop)
df_col_34.shape         # (67857, 34)

(67857, 34)

In [8]:
# YM에서 -월로 수정
def convert_ym_to_month(ym):
    month_mapping = {
        '202301': '1월', '202302': '2월', '202303': '3월', '202304': '4월',
        '202305': '5월', '202306': '6월', '202307': '7월', '202308': '8월',
        '202309': '9월', '202310': '10월', '202311': '11월', '202312': '12월'
    }
    return month_mapping.get(str(ym), ym)  # 매핑되지 않는 값은 그대로 반환

df_col_34['YM'] = df_col_34['YM'].apply(convert_ym_to_month)

df_col_34.head(3)

Unnamed: 0,YM,MCT_NM,MCT_TYPE,temp_05_11,temp_12_13,temp_14_17,temp_18_22,temp_23_04,TEMP_AVG,area,...,HR_18_22_UE_CNT_RAT,HR_23_4_UE_CNT_RAT,LOCAL_UE_CNT_RAT,RC_M12_MAL_CUS_CNT_RAT,RC_M12_FME_CUS_CNT_RAT,RC_M12_AGE_UND_20_CUS_CNT_RAT,RC_M12_AGE_30_CUS_CNT_RAT,RC_M12_AGE_40_CUS_CNT_RAT,RC_M12_AGE_50_CUS_CNT_RAT,RC_M12_AGE_OVR_60_CUS_CNT_RAT
0,1월,희야네식당,가정식,6.720276,9.508065,9.43871,7.305806,6.284865,7.851544,남부,...,0.0,0.0,0.381616,0.644,0.356,0.183,0.232,0.351,0.171,0.063
1,1월,희신이네,가정식,6.720276,9.508065,9.43871,7.305806,6.284865,7.851544,남부,...,0.264706,0.0,0.701183,0.686,0.314,0.118,0.261,0.342,0.19,0.089
2,1월,흥미,가정식,6.233641,8.633871,8.46129,6.666452,5.849189,7.168889,북부,...,0.09434,0.0,0.736842,0.562,0.438,0.107,0.299,0.336,0.226,0.032


<hr>

## 02. 메타 데이터 수정 
- 전처리 완료 데이터의 shape(67857, 42)과 메타 데이터의 shape(39, 5)이 맞지 않음
- -> `UE_CNT_GRP`(이용건수구간), `UE_AMT_GRP`(이용금액구간), `UE_AMT_PER_TRSN_GRP`(건당평균이용금액구간) 이 세 개의 칼럼이 meta data에 없는 것을 확인

- `YM`, `MCT_TYPE`, `RANK_CNT`, `RANK_AMT`, `RANK_MEAN`, `Polygon`, `area`에 대한 칼럼 설명이 부족하다고 판단
- -> 아래 정보를 더 추가할 것임
  - 1	YM	기준연월	202301~202312 >> 월로 변경
  - 4	MCT_TYPE	업종	요식관련 30개 업종
  - 6	RANK_CNT	이용건수구간	월별 업종별 이용건수 분위수 구간을 6개 구간으로 집계 시, 해당 가맹점의 이용건수가 포함되는 분위수 구간 * 1-상위10%이하 2-상위10~25% 3-상위25~50% 4-상위50~75% 5-상위75~90% 6-상위90% 초과(하위10%이하) * 상위 30% 매출 가맹점 내 분위수 구간임
  - 7	RANK_AMT	이용금액구간	월별 업종별 이용금액 분위수 구간을 6개 구간으로 집계 시, 해당 가맹점의 이용금액이 포함되는 분위수 구간 * 1-상위10%이하 2-상위10~25% 3-상위25~50% 4-상위50~75% 5-상위75~90% 6-상위90% 초과(하위10%이하) * 상위 30% 매출 가맹점 내 분위수 구간임
  - 8	RANK_MEAN	건당평균이용금액구간	STRING	N	월별 업종별 건당평균이용금액 분위수 구간을 6개 구간으로 집계 시, 해당 가맹점의 건당평균이용금액이 포함되는 분위수 구간 * 1-상위10%이하 2-상위10~25% 3-상위25~50% 4-상위50~75% 5-상위75~90% 6-상위90% 초과(하위10%이하) * 상위 30% 매출 가맹점 내 분위수 구간임
  - 15	area	지역	지역-텍스트 자료형(10개로 구분: 동부 서부 남부 북부 산지 가파도 마라도 비양도 우도 추자도)

<br>

- 전처리 완료 데이터와 칼럼 수를 맞추기 위해 `['OP_YMD', 'Polygon', 'TYPE', 위/경도]` 삭제

In [9]:
row_to_drop = ['OP_YMD', 'Polygon', 'TYPE', 'latitude', 'longitude']
df_meta_drop = df_meta[~df_meta['컬럼ID'].isin(row_to_drop)]
df_meta_drop.shape         # (34, 5)

(34, 5)

In [10]:
df_col_34['area'].value_counts()

area
북부     38617
남부     13044
서부      9307
동부      6289
우도       444
마라도       54
추자도       39
가파도       32
비양도       20
산지        11
Name: count, dtype: int64

In [11]:
# 변경할 [설명] 값을 변수에 저장
metadata_explanation = {
    'YM': '2023년 1월~12월',
    'MCT_TYPE': '요식관련 30개 업종으로 구분',
    'RANK_CNT': '월별 업종별 이용건수 분위수 구간을 6개 구간으로 집계 시 해당 가맹점의 이용건수가 포함되는 분위수 구간 * 1:상위10%이하 2:상위10~25% 3:상위25~50% 4:상위50~75% 5:상위75~90% 6:상위90% 초과(하위10%이하) * 상위 30% 매출 가맹점 내 분위수 구간임',
    'RANK_AMT': '월별 업종별 이용금액 분위수 구간을 6개 구간으로 집계 시 해당 가맹점의 이용금액이 포함되는 분위수 구간 * 1:상위10%이하 2:상위10~25% 3:상위25~50% 4:상위50~75% 5:상위75~90% 6:상위90% 초과(하위10%이하) * 상위 30% 매출 가맹점 내 분위수 구간임',
    'RANK_MEAN': '월별 업종별 건당평균이용금액 분위수 구간을 6개 구간으로 집계 시 해당 가맹점의 건당평균이용금액이 포함되는 분위수 구간 * 1:상위10%이하 2:상위10~25% 3:상위25~50% 4:상위50~75% 5:상위75~90% 6:상위90% 초과(하위10%이하) * 상위 30% 매출 가맹점 내 분위수 구간임',
    'area': '제주도를 10개의 지역으로 구분: 동부/서부/남부/북부/산지/가파도/마라도/비양도/우도/추자도'
}

In [12]:
# df_meta에 설명 업데이트
df_meta_drop.loc[:, '설명'] = (
    df_meta_drop['컬럼ID'].map(metadata_explanation).fillna(df_meta_drop['설명'])
)
df_meta_drop

Unnamed: 0,No,컬럼ID,컬럼명,타입,설명
0,1,YM,기준연월,STRING,2023년 1월~12월
1,2,MCT_NM,가맹점명,STRING,가맹점명
4,5,MCT_TYPE,업종,STRING,요식관련 30개 업종으로 구분
5,6,temp_05_11,5시 11시 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산
6,7,temp_12_13,12시 13시 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산
7,8,temp_14_17,14시 17시 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산
8,9,temp_18_22,18시 22시 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산
9,10,temp_23_04,23시 4시 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산
10,11,TEMP_AVG,월 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산
14,15,area,지역,STRING,제주도를 10개의 지역으로 구분: 동부/서부/남부/북부/산지/가파도/마라도/비양도/...


In [13]:
# ['No', '타입'] 칼럼 삭제
df_meta_34 = df_meta_drop.drop(columns=['No', '타입'])
df_meta_34.head()

Unnamed: 0,컬럼ID,컬럼명,설명
0,YM,기준연월,2023년 1월~12월
1,MCT_NM,가맹점명,가맹점명
4,MCT_TYPE,업종,요식관련 30개 업종으로 구분
5,temp_05_11,5시 11시 평균 기온,기상청 데이터 활용하여 평균값 계산
6,temp_12_13,12시 13시 평균 기온,기상청 데이터 활용하여 평균값 계산


<hr>

## 03. df_col_39와 df_meta 결합

In [14]:
# shape 다시 확인
print(df_meta_34.shape)
print(df_meta_34.shape)

(34, 3)
(34, 3)


In [15]:
# 필요한 메타데이터 행들 추출
meta_column_names = df_meta_34['컬럼명'].values
meta_column_descriptions = df_meta_34['설명'].values

# 메타데이터를 DataFrame으로 변환
df_meta_transposed = pd.DataFrame([meta_column_names, meta_column_descriptions],
                                  columns=df_col_34.columns)  # 맛집 데이터의 컬럼과 동일하게 맞춤
df_meta_transposed

Unnamed: 0,YM,MCT_NM,MCT_TYPE,temp_05_11,temp_12_13,temp_14_17,temp_18_22,temp_23_04,TEMP_AVG,area,...,HR_18_22_UE_CNT_RAT,HR_23_4_UE_CNT_RAT,LOCAL_UE_CNT_RAT,RC_M12_MAL_CUS_CNT_RAT,RC_M12_FME_CUS_CNT_RAT,RC_M12_AGE_UND_20_CUS_CNT_RAT,RC_M12_AGE_30_CUS_CNT_RAT,RC_M12_AGE_40_CUS_CNT_RAT,RC_M12_AGE_50_CUS_CNT_RAT,RC_M12_AGE_OVR_60_CUS_CNT_RAT
0,기준연월,가맹점명,업종,5시 11시 평균 기온,12시 13시 평균 기온,14시 17시 평균 기온,18시 22시 평균 기온,23시 4시 평균 기온,월 평균 기온,지역,...,18시 22시 이용 건수 비중,23시 4시 이용 건수 비중,현지인 이용 건수 비중,최근 12개월 남성 회원수 비중,최근 12개월 여성 회원수 비중,최근 12개월 20대 이하 회원수 비중,최근 12개월 30대 회원수 비중,최근 12개월 40대 회원수 비중,최근 12개월 40대 회원수 비중,최근 12개월 60대 이상 회원수 비중
1,2023년 1월~12월,가맹점명,요식관련 30개 업종으로 구분,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,제주도를 10개의 지역으로 구분: 동부/서부/남부/북부/산지/가파도/마라도/비양도/...,...,음수값은 이상치로 판단하여 최빈값 대체,음수값은 이상치로 판단하여 최빈값 대체,고객 자택 주소가 제주도인 경우를 현지인으로 정의,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값


In [16]:
# 메타데이터를 맛집 데이터 위에 추가
df_combined = pd.concat([df_meta_transposed, df_col_34], ignore_index=True)
df_combined.head(10)

Unnamed: 0,YM,MCT_NM,MCT_TYPE,temp_05_11,temp_12_13,temp_14_17,temp_18_22,temp_23_04,TEMP_AVG,area,...,HR_18_22_UE_CNT_RAT,HR_23_4_UE_CNT_RAT,LOCAL_UE_CNT_RAT,RC_M12_MAL_CUS_CNT_RAT,RC_M12_FME_CUS_CNT_RAT,RC_M12_AGE_UND_20_CUS_CNT_RAT,RC_M12_AGE_30_CUS_CNT_RAT,RC_M12_AGE_40_CUS_CNT_RAT,RC_M12_AGE_50_CUS_CNT_RAT,RC_M12_AGE_OVR_60_CUS_CNT_RAT
0,기준연월,가맹점명,업종,5시 11시 평균 기온,12시 13시 평균 기온,14시 17시 평균 기온,18시 22시 평균 기온,23시 4시 평균 기온,월 평균 기온,지역,...,18시 22시 이용 건수 비중,23시 4시 이용 건수 비중,현지인 이용 건수 비중,최근 12개월 남성 회원수 비중,최근 12개월 여성 회원수 비중,최근 12개월 20대 이하 회원수 비중,최근 12개월 30대 회원수 비중,최근 12개월 40대 회원수 비중,최근 12개월 40대 회원수 비중,최근 12개월 60대 이상 회원수 비중
1,2023년 1월~12월,가맹점명,요식관련 30개 업종으로 구분,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,제주도를 10개의 지역으로 구분: 동부/서부/남부/북부/산지/가파도/마라도/비양도/...,...,음수값은 이상치로 판단하여 최빈값 대체,음수값은 이상치로 판단하여 최빈값 대체,고객 자택 주소가 제주도인 경우를 현지인으로 정의,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값
2,1월,희야네식당,가정식,6.720276,9.508065,9.43871,7.305806,6.284865,7.851544,남부,...,0.0,0.0,0.381616,0.644,0.356,0.183,0.232,0.351,0.171,0.063
3,1월,희신이네,가정식,6.720276,9.508065,9.43871,7.305806,6.284865,7.851544,남부,...,0.264706,0.0,0.701183,0.686,0.314,0.118,0.261,0.342,0.19,0.089
4,1월,흥미,가정식,6.233641,8.633871,8.46129,6.666452,5.849189,7.168889,북부,...,0.09434,0.0,0.736842,0.562,0.438,0.107,0.299,0.336,0.226,0.032
5,1월,흑심가,가정식,6.53871,7.964516,7.733871,6.761935,6.317838,7.063374,서부,...,0.733333,0.033333,0.123656,0.544,0.456,0.239,0.3,0.233,0.139,0.089
6,1월,흑섬,가정식,6.233641,8.633871,8.46129,6.666452,5.849189,7.168889,북부,...,0.806452,0.0,0.317136,0.585,0.415,0.175,0.278,0.283,0.206,0.059
7,1월,흑사돈,가정식,5.202765,8.459677,8.159677,5.323226,4.372973,6.303664,동부,...,1.0,0.0,0.139373,0.577,0.423,0.193,0.248,0.31,0.168,0.08
8,1월,흑본오겹 제주공항점,가정식,6.233641,8.633871,8.46129,6.666452,5.849189,7.168889,북부,...,0.680851,0.0,0.046218,0.527,0.473,0.338,0.299,0.175,0.154,0.035
9,1월,흑백돈,가정식,6.233641,8.633871,8.46129,6.666452,5.849189,7.168889,북부,...,0.818182,0.0,0.140078,0.592,0.408,0.234,0.252,0.312,0.138,0.064


<hr>

## 04. 결합 완료 데이터셋 저장 + sample 데이터 만들기

In [18]:
df_combined.to_csv("../data/data_with_meta_ALL.csv", encoding='cp949', index=False)

In [19]:
# 데이터 확인
df_test = pd.read_csv('../data/data_with_meta_ALL.csv', encoding='cp949')
print(df_test.shape)
df_test.head(6)

(67859, 34)


  df_test = pd.read_csv('../data/data_with_meta_ALL.csv', encoding='cp949')


Unnamed: 0,YM,MCT_NM,MCT_TYPE,temp_05_11,temp_12_13,temp_14_17,temp_18_22,temp_23_04,TEMP_AVG,area,...,HR_18_22_UE_CNT_RAT,HR_23_4_UE_CNT_RAT,LOCAL_UE_CNT_RAT,RC_M12_MAL_CUS_CNT_RAT,RC_M12_FME_CUS_CNT_RAT,RC_M12_AGE_UND_20_CUS_CNT_RAT,RC_M12_AGE_30_CUS_CNT_RAT,RC_M12_AGE_40_CUS_CNT_RAT,RC_M12_AGE_50_CUS_CNT_RAT,RC_M12_AGE_OVR_60_CUS_CNT_RAT
0,기준연월,가맹점명,업종,5시 11시 평균 기온,12시 13시 평균 기온,14시 17시 평균 기온,18시 22시 평균 기온,23시 4시 평균 기온,월 평균 기온,지역,...,18시 22시 이용 건수 비중,23시 4시 이용 건수 비중,현지인 이용 건수 비중,최근 12개월 남성 회원수 비중,최근 12개월 여성 회원수 비중,최근 12개월 20대 이하 회원수 비중,최근 12개월 30대 회원수 비중,최근 12개월 40대 회원수 비중,최근 12개월 40대 회원수 비중,최근 12개월 60대 이상 회원수 비중
1,2023년 1월~12월,가맹점명,요식관련 30개 업종으로 구분,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,제주도를 10개의 지역으로 구분: 동부/서부/남부/북부/산지/가파도/마라도/비양도/...,...,음수값은 이상치로 판단하여 최빈값 대체,음수값은 이상치로 판단하여 최빈값 대체,고객 자택 주소가 제주도인 경우를 현지인으로 정의,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값
2,1월,희야네식당,가정식,6.720276498,9.508064516,9.438709677,7.305806452,6.284864865,7.851544402,남부,...,0.0,0.0,0.3816155989,0.644,0.356,0.183,0.232,0.351,0.171,0.063
3,1월,희신이네,가정식,6.720276498,9.508064516,9.438709677,7.305806452,6.284864865,7.851544402,남부,...,0.2647058824,0.0,0.701183432,0.686,0.314,0.118,0.261,0.342,0.19,0.089
4,1월,흥미,가정식,6.233640553,8.633870968,8.461290323,6.666451613,5.849189189,7.168888529,북부,...,0.09433962264,0.0,0.7368421053,0.562,0.438,0.107,0.299,0.336,0.226,0.032
5,1월,흑심가,가정식,6.538709677,7.964516129,7.733870968,6.761935484,6.317837838,7.063374019,서부,...,0.7333333333,0.03333333333,0.123655914,0.544,0.456,0.239,0.3,0.233,0.139,0.089


In [20]:
# df_col_34의 sample data 추출 (1000개)

# area와 MCT_TYPE 칼럼의 고유 값 추출
unique_areas = df_col_34['area'].unique()
unique_mct_types = df_col_34['MCT_TYPE'].unique()

# 고유 값 개수
num_areas = len(unique_areas)
num_mct_types = len(unique_mct_types)

# 최소 샘플 수 계산
min_samples_per_area = 1000 // num_areas
min_samples_per_mct_type = 1000 // num_mct_types

# 샘플링
samples = []

# 각 area에 대해 샘플 추출
for area in unique_areas:
    area_samples = df_col_34[df_col_34['area'] == area].sample(n=min_samples_per_area, replace=True)
    samples.append(area_samples)

# 각 MCT_TYPE에 대해 샘플 추출
for mct_type in unique_mct_types:
    mct_samples = df_col_34[df_col_34['MCT_TYPE'] == mct_type].sample(n=min_samples_per_mct_type, replace=True)
    samples.append(mct_samples)

# 모든 샘플 결합
final_samples = pd.concat(samples).drop_duplicates().sample(n=1000, replace=True)

# 결과 확인
print(final_samples.shape)  # (1000, 34) 형태 확인
final_samples

(1000, 34)


Unnamed: 0,YM,MCT_NM,MCT_TYPE,temp_05_11,temp_12_13,temp_14_17,temp_18_22,temp_23_04,TEMP_AVG,area,...,HR_18_22_UE_CNT_RAT,HR_23_4_UE_CNT_RAT,LOCAL_UE_CNT_RAT,RC_M12_MAL_CUS_CNT_RAT,RC_M12_FME_CUS_CNT_RAT,RC_M12_AGE_UND_20_CUS_CNT_RAT,RC_M12_AGE_30_CUS_CNT_RAT,RC_M12_AGE_40_CUS_CNT_RAT,RC_M12_AGE_50_CUS_CNT_RAT,RC_M12_AGE_OVR_60_CUS_CNT_RAT
31816,6월,투다리노형점한점,꼬치구이,22.633971,24.823729,25.437500,23.357333,21.668333,23.584173,북부,...,0.298246,0.701754,0.529052,0.673,0.327,0.189,0.264,0.263,0.209,0.076
26241,5월,터틀리애,단품요리 전문,18.504608,20.219355,20.366935,18.904516,17.471505,19.093384,남부,...,0.101124,0.000000,0.245810,0.538,0.462,0.071,0.413,0.299,0.136,0.082
8625,2월,리치망고신화월드점,주스,7.156122,8.630357,8.375000,7.292857,6.782143,7.647296,서부,...,0.300518,0.000000,0.069919,0.471,0.529,0.116,0.399,0.402,0.061,0.022
62753,12월,추자봉이네.해변장,가정식,9.919355,9.515323,8.487742,8.309140,8.663594,8.979031,추자도,...,0.300000,0.000000,0.705882,0.647,0.353,0.059,0.059,0.235,0.294,0.353
64729,12월,미미파스타,스테이크,9.402857,12.151667,11.806667,9.794667,8.750276,10.381227,남부,...,0.230769,0.000000,0.503650,0.405,0.595,0.082,0.213,0.309,0.271,0.124
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
42468,8월,우도 동글이네,분식,30.787097,30.810484,29.173548,28.382796,29.265438,29.683872,우도,...,0.000000,0.000000,0.062500,0.571,0.429,0.219,0.238,0.200,0.238,0.105
46102,9월,한거리푸줏간,가정식,25.353810,27.621667,27.159167,24.820667,23.935556,25.778173,동부,...,1.000000,0.000000,0.040816,0.492,0.508,0.308,0.381,0.181,0.100,0.031
28269,5월,신짜우베트남쌀국수,동남아/인도음식,18.491244,21.191935,21.416129,19.196129,17.373656,19.533819,북부,...,0.284091,0.000000,0.742818,0.477,0.523,0.136,0.337,0.317,0.132,0.078
52642,10월,섭지해녀의집,가정식,18.232258,22.017742,21.367742,17.363226,16.360215,19.068237,동부,...,0.000000,0.000000,0.052546,0.544,0.456,0.064,0.243,0.303,0.230,0.160


In [21]:
# final_samples에 meta_data 추가
final_sampes_with_meta = pd.concat([df_meta_transposed, final_samples], ignore_index=True)
print(final_sampes_with_meta.shape)  # (1003, 34)
final_sampes_with_meta.head(10)

(1002, 34)


Unnamed: 0,YM,MCT_NM,MCT_TYPE,temp_05_11,temp_12_13,temp_14_17,temp_18_22,temp_23_04,TEMP_AVG,area,...,HR_18_22_UE_CNT_RAT,HR_23_4_UE_CNT_RAT,LOCAL_UE_CNT_RAT,RC_M12_MAL_CUS_CNT_RAT,RC_M12_FME_CUS_CNT_RAT,RC_M12_AGE_UND_20_CUS_CNT_RAT,RC_M12_AGE_30_CUS_CNT_RAT,RC_M12_AGE_40_CUS_CNT_RAT,RC_M12_AGE_50_CUS_CNT_RAT,RC_M12_AGE_OVR_60_CUS_CNT_RAT
0,기준연월,가맹점명,업종,5시 11시 평균 기온,12시 13시 평균 기온,14시 17시 평균 기온,18시 22시 평균 기온,23시 4시 평균 기온,월 평균 기온,지역,...,18시 22시 이용 건수 비중,23시 4시 이용 건수 비중,현지인 이용 건수 비중,최근 12개월 남성 회원수 비중,최근 12개월 여성 회원수 비중,최근 12개월 20대 이하 회원수 비중,최근 12개월 30대 회원수 비중,최근 12개월 40대 회원수 비중,최근 12개월 40대 회원수 비중,최근 12개월 60대 이상 회원수 비중
1,2023년 1월~12월,가맹점명,요식관련 30개 업종으로 구분,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,기상청 데이터 활용하여 평균값 계산,제주도를 10개의 지역으로 구분: 동부/서부/남부/북부/산지/가파도/마라도/비양도/...,...,음수값은 이상치로 판단하여 최빈값 대체,음수값은 이상치로 판단하여 최빈값 대체,고객 자택 주소가 제주도인 경우를 현지인으로 정의,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값
2,6월,투다리노형점한점,꼬치구이,22.633971,24.823729,25.4375,23.357333,21.668333,23.584173,북부,...,0.298246,0.701754,0.529052,0.673,0.327,0.189,0.264,0.263,0.209,0.076
3,5월,터틀리애,단품요리 전문,18.504608,20.219355,20.366935,18.904516,17.471505,19.093384,남부,...,0.101124,0.0,0.24581,0.538,0.462,0.071,0.413,0.299,0.136,0.082
4,2월,리치망고신화월드점,주스,7.156122,8.630357,8.375,7.292857,6.782143,7.647296,서부,...,0.300518,0.0,0.069919,0.471,0.529,0.116,0.399,0.402,0.061,0.022
5,12월,추자봉이네.해변장,가정식,9.919355,9.515323,8.487742,8.30914,8.663594,8.979031,추자도,...,0.3,0.0,0.705882,0.647,0.353,0.059,0.059,0.235,0.294,0.353
6,12월,미미파스타,스테이크,9.402857,12.151667,11.806667,9.794667,8.750276,10.381227,남부,...,0.230769,0.0,0.50365,0.405,0.595,0.082,0.213,0.309,0.271,0.124
7,3월,주식회사 엠지신라,가정식,12.928111,15.572581,15.454032,13.434194,11.934409,13.864665,남부,...,0.68,0.0,0.051233,0.612,0.388,0.192,0.261,0.19,0.227,0.129
8,1월,제주미향해장국본사직영점(서귀포 중문점),가정식,6.720276,9.508065,9.43871,7.305806,6.284865,7.851544,남부,...,0.229508,0.0,0.298583,0.65,0.35,0.167,0.247,0.283,0.208,0.096
9,2월,우도물들이,가정식,11.389286,11.13125,9.992857,9.317857,9.833163,10.332883,우도,...,0.0,0.0,0.030979,0.484,0.516,0.268,0.305,0.193,0.158,0.076


In [22]:
# 저장
final_sampes_with_meta.to_csv("../data/sample_1000_with_meta.csv", encoding='cp949', index=False)