# LLM 모델학습을 위한 csv 파일 만들기

<br><hr>

### 00. 기본 설정

In [48]:
import pandas as pd

<br><hr>

### 01. 파일 불러오기

In [77]:
# 기온과 관광지가 포함된 데이터
df = pd.read_csv("../data/raw_data/data_prep_with_temp_spots.csv", encoding='utf8')
print(df.shape)      # (67857, 34)
df.head(1)

(67857, 34)


Unnamed: 0,YM,MCT_NM,MCT_TYPE,temp_05_11,temp_12_13,temp_14_17,temp_18_22,temp_23_04,area,ADDR,...,HR_23_4_UE_CNT_RAT,LOCAL_UE_CNT_RAT,RC_M12_MAL_CUS_CNT_RAT,RC_M12_FME_CUS_CNT_RAT,RC_M12_AGE_UND_20_CUS_CNT_RAT,RC_M12_AGE_30_CUS_CNT_RAT,RC_M12_AGE_40_CUS_CNT_RAT,RC_M12_AGE_50_CUS_CNT_RAT,RC_M12_AGE_OVR_60_CUS_CNT_RAT,Nearby Tourism Spots
0,1,희야네식당,가정식,6.720276,9.508065,9.43871,7.305806,6.284865,남부,제주 서귀포시 남원읍 남원리 100-3번지,...,0.0,0.381616,0.644,0.356,0.183,0.232,0.351,0.171,0.063,남원항 (남원포구)


In [78]:
df.columns

Index(['YM', 'MCT_NM', 'MCT_TYPE', 'temp_05_11', 'temp_12_13', 'temp_14_17',
       'temp_18_22', 'temp_23_04', 'area', 'ADDR', 'RANK_CNT', 'RANK_AMT',
       'RANK_MEAN', 'MON_UE_CNT_RAT', 'TUE_UE_CNT_RAT', 'WED_UE_CNT_RAT',
       'THU_UE_CNT_RAT', 'FRI_UE_CNT_RAT', 'SAT_UE_CNT_RAT', 'SUN_UE_CNT_RAT',
       'HR_5_11_UE_CNT_RAT', 'HR_12_13_UE_CNT_RAT', 'HR_14_17_UE_CNT_RAT',
       'HR_18_22_UE_CNT_RAT', 'HR_23_4_UE_CNT_RAT', 'LOCAL_UE_CNT_RAT',
       'RC_M12_MAL_CUS_CNT_RAT', 'RC_M12_FME_CUS_CNT_RAT',
       'RC_M12_AGE_UND_20_CUS_CNT_RAT', 'RC_M12_AGE_30_CUS_CNT_RAT',
       'RC_M12_AGE_40_CUS_CNT_RAT', 'RC_M12_AGE_50_CUS_CNT_RAT',
       'RC_M12_AGE_OVR_60_CUS_CNT_RAT', 'Nearby Tourism Spots'],
      dtype='object')

<br><hr>

### 02. `YM` 칼럼 수정

In [79]:
# YM에서 -월로 수정
month_mapping = {
    '1': '1월', '2': '2월', '3': '3월', '4': '4월',
    '5': '5월', '6': '6월', '7': '7월', '8': '8월',
    '9': '9월', '10': '10월', '11': '11월', '12': '12월'
}
df['YM'] = df['YM'].astype(str).map(month_mapping)
df.head(1)


Unnamed: 0,YM,MCT_NM,MCT_TYPE,temp_05_11,temp_12_13,temp_14_17,temp_18_22,temp_23_04,area,ADDR,...,HR_23_4_UE_CNT_RAT,LOCAL_UE_CNT_RAT,RC_M12_MAL_CUS_CNT_RAT,RC_M12_FME_CUS_CNT_RAT,RC_M12_AGE_UND_20_CUS_CNT_RAT,RC_M12_AGE_30_CUS_CNT_RAT,RC_M12_AGE_40_CUS_CNT_RAT,RC_M12_AGE_50_CUS_CNT_RAT,RC_M12_AGE_OVR_60_CUS_CNT_RAT,Nearby Tourism Spots
0,1월,희야네식당,가정식,6.720276,9.508065,9.43871,7.305806,6.284865,남부,제주 서귀포시 남원읍 남원리 100-3번지,...,0.0,0.381616,0.644,0.356,0.183,0.232,0.351,0.171,0.063,남원항 (남원포구)


<br><hr>

### 03. 소수점 반올림 (기온 & 비중 칼럼)

In [80]:
temp_cols = ['temp_05_11', 'temp_12_13', 'temp_14_17', 'temp_18_22', 'temp_23_04']

# 각 칼럼을 소수점 첫째 자리에서 반올림
df[temp_cols] = df[temp_cols].round(1)
df[temp_cols].head()

Unnamed: 0,temp_05_11,temp_12_13,temp_14_17,temp_18_22,temp_23_04
0,6.7,9.5,9.4,7.3,6.3
1,6.7,9.5,9.4,7.3,6.3
2,6.2,8.6,8.5,6.7,5.8
3,6.5,8.0,7.7,6.8,6.3
4,6.2,8.6,8.5,6.7,5.8


In [81]:
round_4_cols = ['MON_UE_CNT_RAT', 'TUE_UE_CNT_RAT', 'WED_UE_CNT_RAT', 'THU_UE_CNT_RAT', 'FRI_UE_CNT_RAT',
                'SAT_UE_CNT_RAT', 'SUN_UE_CNT_RAT', 'HR_5_11_UE_CNT_RAT', 'HR_12_13_UE_CNT_RAT',
                'HR_14_17_UE_CNT_RAT', 'HR_18_22_UE_CNT_RAT', 'HR_23_4_UE_CNT_RAT']

# 소수 넷째 자리에서 반올림
df[round_4_cols] = df[round_4_cols].round(4)
df[round_4_cols].head()

Unnamed: 0,MON_UE_CNT_RAT,TUE_UE_CNT_RAT,WED_UE_CNT_RAT,THU_UE_CNT_RAT,FRI_UE_CNT_RAT,SAT_UE_CNT_RAT,SUN_UE_CNT_RAT,HR_5_11_UE_CNT_RAT,HR_12_13_UE_CNT_RAT,HR_14_17_UE_CNT_RAT,HR_18_22_UE_CNT_RAT,HR_23_4_UE_CNT_RAT
0,0.1829,0.122,0.1951,0.1707,0.1707,0.1585,0.0,0.2683,0.5122,0.2195,0.0,0.0
1,0.1471,0.1618,0.2206,0.1176,0.0735,0.1765,0.1029,0.0882,0.4559,0.1912,0.2647,0.0
2,0.2453,0.1321,0.2264,0.283,0.1132,0.0,0.0,0.1509,0.5283,0.2264,0.0943,0.0
3,0.2667,0.0,0.1,0.1667,0.1,0.1,0.2667,0.0,0.0667,0.1667,0.7333,0.0333
4,0.1935,0.0323,0.0645,0.1613,0.0645,0.1613,0.3226,0.0,0.0323,0.1613,0.8065,0.0


<br><hr>

### 04. '산지' 데이터를 '남부'로 변경 

In [82]:
df_산지 = df[df['area'] == '산지'].copy()
df_산지.head(3)

Unnamed: 0,YM,MCT_NM,MCT_TYPE,temp_05_11,temp_12_13,temp_14_17,temp_18_22,temp_23_04,area,ADDR,...,HR_23_4_UE_CNT_RAT,LOCAL_UE_CNT_RAT,RC_M12_MAL_CUS_CNT_RAT,RC_M12_FME_CUS_CNT_RAT,RC_M12_AGE_UND_20_CUS_CNT_RAT,RC_M12_AGE_30_CUS_CNT_RAT,RC_M12_AGE_40_CUS_CNT_RAT,RC_M12_AGE_50_CUS_CNT_RAT,RC_M12_AGE_OVR_60_CUS_CNT_RAT,Nearby Tourism Spots
835,1월,오백장군과까마귀,가정식,2.0,1.7,-0.2,-0.5,-0.0,산지,제주 서귀포시 하원동 산 1-1번지,...,0.0,0.070563,0.559,0.441,0.103,0.201,0.255,0.286,0.155,"오백나한, 제주불교성지 순례길 절로 가는길 - 정진의 길"
6640,2월,오백장군과까마귀,가정식,4.0,3.7,1.5,1.2,1.6,산지,제주 서귀포시 하원동 산 1-1번지,...,0.0,0.069327,0.562,0.438,0.104,0.195,0.258,0.287,0.156,"오백나한, 제주불교성지 순례길 절로 가는길 - 정진의 길"
12361,3월,오백장군과까마귀,가정식,10.5,9.8,7.1,6.5,7.9,산지,제주 서귀포시 하원동 산 1-1번지,...,0.0,0.071976,0.561,0.439,0.102,0.192,0.261,0.29,0.155,"오백나한, 제주불교성지 순례길 절로 가는길 - 정진의 길"


In [83]:
# '남부' 지역에서 '기준년월'이 01월~12월인 temp_cols 값만 저장
south_df = df[df['area'] == '남부'].drop_duplicates(subset=['YM'])[['YM'] + temp_cols].set_index('YM')
south_df

Unnamed: 0_level_0,temp_05_11,temp_12_13,temp_14_17,temp_18_22,temp_23_04
YM,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1월,6.7,9.5,9.4,7.3,6.3
2월,8.8,11.6,11.5,9.3,8.0
3월,12.9,15.6,15.5,13.4,11.9
4월,15.4,17.8,17.7,15.6,14.3
5월,18.5,20.2,20.4,18.9,17.5
6월,22.3,23.8,23.9,22.7,21.6
7월,25.9,27.1,27.0,26.2,25.6
8월,27.7,29.6,29.5,27.8,27.0
9월,25.5,27.8,27.5,25.6,24.6
10월,19.4,22.8,22.4,19.3,18.0


In [84]:
# 'YM'을 기준으로 남부 지역의 온도 데이터 덮어쓰기
for ym in south_df.index:
    # 'YM'이 동일한 행에 대해 temp_cols 덮어쓰기
    df_산지.loc[df_산지['YM'] == ym, temp_cols] = south_df.loc[ym, temp_cols].values

# 덮어씌운 데이터를 원본 데이터프레임에 적용
df_updated = df.copy()

# '오백장군과까마귀'인 행만 'store_df' 데이터로 대체
df_updated.update(df_산지)
df_updated[df_updated['MCT_NM'] == '오백장군과까마귀'][['YM', 'area'] + temp_cols].head()

Unnamed: 0,YM,area,temp_05_11,temp_12_13,temp_14_17,temp_18_22,temp_23_04
835,1월,산지,6.7,9.5,9.4,7.3,6.3
6640,2월,산지,8.8,11.6,11.5,9.3,8.0
12361,3월,산지,12.9,15.6,15.5,13.4,11.9
18839,4월,산지,15.4,17.8,17.7,15.6,14.3
23811,5월,산지,18.5,20.2,20.4,18.9,17.5


In [85]:
# '오백장군과 까마귀'의 area를 '남부'로 변경
df_updated.loc[df_updated['area'] == '산지', 'area'] = '남부'
df_updated[df_updated['MCT_NM'] == '오백장군과까마귀'][['MCT_NM', 'area', 'ADDR']]

Unnamed: 0,MCT_NM,area,ADDR
835,오백장군과까마귀,남부,제주 서귀포시 하원동 산 1-1번지
6640,오백장군과까마귀,남부,제주 서귀포시 하원동 산 1-1번지
12361,오백장군과까마귀,남부,제주 서귀포시 하원동 산 1-1번지
18839,오백장군과까마귀,남부,제주 서귀포시 하원동 산 1-1번지
23811,오백장군과까마귀,남부,제주 서귀포시 하원동 산 1-1번지
29106,오백장군과까마귀,남부,제주 서귀포시 하원동 산 1-1번지
40917,오백장군과까마귀,남부,제주 서귀포시 하원동 산 1-1번지
45884,오백장군과까마귀,남부,제주 서귀포시 하원동 산 1-1번지
52501,오백장군과까마귀,남부,제주 서귀포시 하원동 산 1-1번지
57650,오백장군과까마귀,남부,제주 서귀포시 하원동 산 1-1번지


<br><hr>

### 05. 메타데이터 불러오기

In [86]:
# 메타데이터
df_meta = pd.read_csv("../data/raw_data/meta_V2.csv", encoding="utf8")
print(df_meta.shape)  # (39, 5)
df_meta

(39, 5)


Unnamed: 0,No,컬럼ID,컬럼명,타입,설명
0,1,YM,기준연월,STRING,기준연월
1,2,MCT_NM,가맹점명,STRING,가맹점명
2,3,OP_YMD,가맹점 개설일자,STRING,가맹점 개설일자
3,4,TYPE,업종 라벨링,OBJECT,업종 - 명목형 변수로 라벨링
4,5,MCT_TYPE,업종,STRING,업종 - 텍스트 자료형
5,6,temp_05_11,5시 11시 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산
6,7,temp_12_13,12시 13시 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산
7,8,temp_14_17,14시 17시 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산
8,9,temp_18_22,18시 22시 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산
9,10,temp_23_04,23시 4시 평균 기온,FLOAT,기상청 데이터 활용하여 평균값 계산


<br><hr>

### 06. 메타데이터 수정

- 사용하지 않을 `No`와 `타입` 열 삭제
- 전처리 완료 맛집 데이터의 shape(67857, 34)과 메타 데이터의 shape(39, 5)이 맞지 않음
  - 참고) 전처리 완료 맛집 데이터의 shape: (67857, 34)
  - 'TYPE' 'OP_YMD' 'TEMP_AVG' 'latitude' 'longitude'	'Polygon' 칼럼을 삭제하고, 관광지 데이터 칼럼 추가
<br>

- 설명이 부족하다고 생각되는 칼럼의 '설명'을 추가
  - `YM`, `MCT_TYPE`, `RANK_CNT`, `RANK_AMT`, `RANK_MEAN`, `area`
    - YM	기준연월	202301~202312 >> 월로 변경
    - MCT_TYPE	업종	요식관련 30개 업종
    - RANK_CNT	이용건수구간	월별 업종별 이용건수 분위수 구간을 6개 구간으로 집계 시, 해당 가맹점의 이용건수가 포함되는 분위수 구간 * 1-상위10%이하 2-상위10~25% 3-상위25~50% 4-상위50~75% 5-상위75~90% 6-상위90% 초과(하위10%이하)
    - RANK_AMT	이용금액구간	월별 업종별 이용금액 분위수 구간을 6개 구간으로 집계 시, 해당 가맹점의 이용금액이 포함되는 분위수 구간 * 1-상위10%이하 2-상위10~25% 3-상위25~50% 4-상위50~75% 5-상위75~90% 6-상위90% 초과(하위10%이하)
    - RANK_MEAN	건당평균이용금액구간	STRING	N	월별 업종별 건당평균이용금액 분위수 구간을 6개 구간으로 집계 시, 해당 가맹점의 건당평균이용금액이 포함되는 분위수 구간 * 1-상위10%이하 2-상위10~25% 3-상위25~50% 4-상위50~75% 5-상위75~90% 6-상위90% 초과(하위10%이하)
    - 15	area	지역	지역-텍스트 자료형(9개로 구분: 동부 서부 남부 북부 가파도 마라도 비양도 우도 추자도)

In [87]:
# ['No', '타입'] 칼럼 삭제
df_meta_drop = df_meta.drop(columns=['No', '타입'])
df_meta_drop.head(3)

Unnamed: 0,컬럼ID,컬럼명,설명
0,YM,기준연월,기준연월
1,MCT_NM,가맹점명,가맹점명
2,OP_YMD,가맹점 개설일자,가맹점 개설일자


In [88]:
row_to_drop = ['TYPE', 'OP_YMD', 'Polygon', 'latitude', 'longitude', 'TEMP_AVG']
df_meta_33 = df_meta_drop[~df_meta_drop['컬럼ID'].isin(row_to_drop)]
df_meta_33.shape         # (33, 3)

(33, 3)

In [89]:
# 주변 관광지 데이터 행 추가
new_row = pd.DataFrame([{
    '컬럼ID': 'Nearby Tourism Spots',
    '컬럼명': '맛집 주변 관광지',
    '설명': '맛집과 가까이 위치한 관광지 최대 두 개(Null값은 주변 관광지가 없다는 것을 의미)'
}])
df_meta_34 = pd.concat([df_meta_33, new_row], ignore_index=True)
df_meta_34.shape


(34, 3)

<br><hr>

### 07. ['컬럼명']을 모든 데이터의 컬럼명으로 사용

In [90]:
# 변경할 [설명] 값을 변수에 저장
metadata_namechange = {
    'YM': '기준년월',
    'MCT_NM':'가맹점명',
    'MCT_TYPE':'업종',
    'temp_05_11': '5시-11시 평균기온',
    'temp_12_13': '12시-13시 평균기온',
    'temp_14_17': '14시-17시 평균기온',
    'temp_18_22': '18시-22시 평균기온',
    'temp_23_04': '23시-4시 평균기온',
    'area':'지역',
    'ADDR':'주소',
    'RANK_CNT':'월별 업종별 이용건수 분위수 구간',
    'RANK_AMT':'월별 업종별 이용금액 분위수 구간',
    'RANK_MEAN':'월별 업종별 건당평균 이용금액 분위수 구간',
    'MON_UE_CNT_RAT':'월요일 이용건수 비중',
    'TUE_UE_CNT_RAT':'화요일 이용건수 비중',
    'WED_UE_CNT_RAT':'수요일 이용건수 비중',
    'THU_UE_CNT_RAT':'목요일 이용건수 비중',
    'FRI_UE_CNT_RAT':'금요일 이용건수 비중',
    'SAT_UE_CNT_RAT':'토요일 이용건수 비중',
    'SUN_UE_CNT_RAT':'일요일 이용건수 비중',
    'HR_5_11_UE_CNT_RAT':'5시-11시 이용건수 비중',
    'HR_12_13_UE_CNT_RAT':'12시-13시 이용건수 비중',
    'HR_14_17_UE_CNT_RAT':'14시-17시 이용건수비중',
    'HR_18_22_UE_CNT_RAT':'18시-22시 이용건수 비중',
    'HR_23_4_UE_CNT_RAT':'23시-4시 이용건수 비중',
    'LOCAL_UE_CNT_RAT':'현지인 이용건수 비중',
    'RC_M12_MAL_CUS_CNT_RAT':'남성 회원수 비중',
    'RC_M12_FME_CUS_CNT_RAT':'여성 회원수 비중',
    'RC_M12_AGE_UND_20_CUS_CNT_RAT':'20대 이하 회원수 비중',
    'RC_M12_AGE_30_CUS_CNT_RAT':'30대 회원수 비중',
    'RC_M12_AGE_40_CUS_CNT_RAT':'40대 회원수 비중',
    'RC_M12_AGE_50_CUS_CNT_RAT':'50대 회원수 비중',
    'RC_M12_AGE_OVR_60_CUS_CNT_RAT':'60대 이상 회원수 비중',
    'Nearby Tourism Spots': '맛집 주변 관광지'
}

In [91]:
# df_col_33_sorted 데이터 칼럼 변경
df_rename = df_updated.rename(columns=metadata_namechange)
df_rename.head(1)

Unnamed: 0,기준년월,가맹점명,업종,5시-11시 평균기온,12시-13시 평균기온,14시-17시 평균기온,18시-22시 평균기온,23시-4시 평균기온,지역,주소,...,23시-4시 이용건수 비중,현지인 이용건수 비중,남성 회원수 비중,여성 회원수 비중,20대 이하 회원수 비중,30대 회원수 비중,40대 회원수 비중,50대 회원수 비중,60대 이상 회원수 비중,맛집 주변 관광지
0,1월,희야네식당,가정식,6.7,9.5,9.4,7.3,6.3,남부,제주 서귀포시 남원읍 남원리 100-3번지,...,0.0,0.381616,0.644,0.356,0.183,0.232,0.351,0.171,0.063,남원항 (남원포구)


<br><hr>

### 추가) 순위 데이터 >> 구간 데이터로 변경
- ['월별-업종별 이용건수 순위', '월별-업종별 이용금액 순위', '월별-업종별 건당 평균 이용금액 순위'] >> ['월별 업종별 이용건수 분위수 구간', '월별 업종별 이용금액 분위수 구간', '월별 업종별 건당평균 이용금액 분위수 구간']
- 1: 상위 10% 이하
- 2: 상위 10~25%
- 3: 상위 25~50%
- 4: 상위 50~75%
- 5: 상위 75~90%
- 6: 상위 90% 초과 (하위 10% 이하)

In [92]:
quantile_mapping = {
    1: "상위 10% 이하",
    2: "상위 10~25%",
    3: "상위 25~50%",
    4: "상위 50~75%",
    5: "상위 75~90%",
    6: "상위 90% 초과 (하위 10% 이하)"
}

In [93]:
columns_to_map = [
    "월별 업종별 이용건수 분위수 구간",
    "월별 업종별 이용금액 분위수 구간",
    "월별 업종별 건당평균 이용금액 분위수 구간"
]

# 분위수 값을 매핑하여 변경
for column in columns_to_map:
    df_rename[column] = df_rename[column].map(quantile_mapping)

df_rename[columns_to_map]


Unnamed: 0,월별 업종별 이용건수 분위수 구간,월별 업종별 이용금액 분위수 구간,월별 업종별 건당평균 이용금액 분위수 구간
0,상위 25~50%,상위 50~75%,상위 50~75%
1,상위 25~50%,상위 50~75%,상위 50~75%
2,상위 50~75%,상위 50~75%,상위 50~75%
3,상위 75~90%,상위 25~50%,상위 10~25%
4,상위 75~90%,상위 25~50%,상위 10~25%
...,...,...,...
67852,상위 10~25%,상위 50~75%,상위 90% 초과 (하위 10% 이하)
67853,상위 75~90%,상위 50~75%,상위 10~25%
67854,상위 25~50%,상위 25~50%,상위 50~75%
67855,상위 10~25%,상위 25~50%,상위 50~75%


<br><hr>

### 08. 기온 데이터 분리

In [94]:
col_needed_for_temp_df = ['기준년월', '5시-11시 평균기온', '12시-13시 평균기온', '14시-17시 평균기온', '18시-22시 평균기온', '23시-4시 평균기온', '지역']
df_temp = df_rename[col_needed_for_temp_df]

print(df_temp.shape)  # (67857, 7)
df_temp.head(3)

(67857, 7)


Unnamed: 0,기준년월,5시-11시 평균기온,12시-13시 평균기온,14시-17시 평균기온,18시-22시 평균기온,23시-4시 평균기온,지역
0,1월,6.7,9.5,9.4,7.3,6.3,남부
1,1월,6.7,9.5,9.4,7.3,6.3,남부
2,1월,6.2,8.6,8.5,6.7,5.8,북부


In [95]:
# 월별 지역별로 행 하나씩만 남기기
df_unique_temp = df_temp.drop_duplicates().reset_index(drop=True)
df_unique_temp.shape  # (102, 7)

(102, 7)

In [96]:
df_unique_temp[df_unique_temp['기준년월']=='12월']

# 1월 비양도 없음
# 2월 추자도 없음
# 7월/8월 가파도 없음
# 12월 가파도, 비양도 없음
# (9 * 12) - 6 = 108 - 6 = 102

Unnamed: 0,기준년월,5시-11시 평균기온,12시-13시 평균기온,14시-17시 평균기온,18시-22시 평균기온,23시-4시 평균기온,지역
95,12월,9.4,10.9,10.5,9.4,8.9,서부
96,12월,8.3,11.2,10.5,8.2,7.4,동부
97,12월,9.4,12.2,11.8,9.8,8.8,남부
98,12월,9.0,11.5,11.0,9.2,8.2,북부
99,12월,9.9,9.5,8.5,8.3,8.7,추자도
100,12월,12.3,12.0,11.2,11.2,11.5,마라도
101,12월,11.2,11.0,10.1,9.7,10.0,우도


<br><hr>

### 09. 맛집 데이터와 메타데이터에서 기온 데이터 제거

In [97]:
col_temp = ['5시-11시 평균기온', '12시-13시 평균기온', '14시-17시 평균기온', '18시-22시 평균기온', '23시-4시 평균기온']
df_without_temp = df_rename.drop(col_temp, axis=1)

print(df_without_temp.shape)  # (67857, 29)
df_without_temp.head(1)

(67857, 29)


Unnamed: 0,기준년월,가맹점명,업종,지역,주소,월별 업종별 이용건수 분위수 구간,월별 업종별 이용금액 분위수 구간,월별 업종별 건당평균 이용금액 분위수 구간,월요일 이용건수 비중,화요일 이용건수 비중,...,23시-4시 이용건수 비중,현지인 이용건수 비중,남성 회원수 비중,여성 회원수 비중,20대 이하 회원수 비중,30대 회원수 비중,40대 회원수 비중,50대 회원수 비중,60대 이상 회원수 비중,맛집 주변 관광지
0,1월,희야네식당,가정식,남부,제주 서귀포시 남원읍 남원리 100-3번지,상위 25~50%,상위 50~75%,상위 50~75%,0.1829,0.122,...,0.0,0.381616,0.644,0.356,0.183,0.232,0.351,0.171,0.063,남원항 (남원포구)


In [98]:
# 메타 데이터에서도 제거
row_temp = ['temp_05_11', 'temp_12_13', 'temp_14_17', 'temp_18_22', 'temp_23_04']
df_meta_without_temp = df_meta_34[~df_meta_34['컬럼ID'].isin(row_temp)]
print(df_meta_without_temp.shape)  # (29, 3)

(29, 3)


<br><hr>

### 10. 메타데이터 설명 변경

In [99]:
df_meta_without_temp

Unnamed: 0,컬럼ID,컬럼명,설명
0,YM,기준연월,기준연월
1,MCT_NM,가맹점명,가맹점명
2,MCT_TYPE,업종,업종 - 텍스트 자료형
8,area,지역,지역 - 텍스트 자료형
9,ADDR,주소,가맹점 주소
10,RANK_CNT,월별 업종별 이용건수 순위,"월별 업종별 이용건수 분위수 구간을 6개 구간으로 집계 시, 해당 가맹점의 이용건수..."
11,RANK_AMT,월별 업종별 이용금액 순위,"월별 업종별 이용금액 분위수 구간을 6개 구간으로 집계 시, 해당 가맹점의 이용건수..."
12,RANK_MEAN,건당 평균 이용금액 순위,"월별 업종별 건당 평균 이용금액 분위수 구간을 6개 구간으로 집계 시, 해당 가맹점..."
13,MON_UE_CNT_RAT,월요일 이용 건수 비중,음수값은 이상치로 판단하여 최빈값 대체
14,TUE_UE_CNT_RAT,화요일 이용 건수 비중,음수값은 이상치로 판단하여 최빈값 대체


In [100]:
# 변경할 [설명] 값을 변수에 저장
metadata_explanation = {
    'YM': '2023년 1월~12월',
    'MCT_TYPE': '요식관련 30개 업종으로 구분',
    'area': '제주도를 9개의 지역으로 구분: 동부/서부/남부/북부/가파도/마라도/비양도/우도/추자도',
    'RANK_CNT': '월별 업종별 이용건수 분위수 구간을 6개 구간으로 집계 시 해당 가맹점의 이용건수가 포함되는 분위수 구간',
    'RANK_AMT': '월별 업종별 이용금액 분위수 구간을 6개 구간으로 집계 시 해당 가맹점의 이용금액이 포함되는 분위수 구간',
    'RANK_MEAN': '월별 업종별 건당평균이용금액 분위수 구간을 6개 구간으로 집계 시 해당 가맹점의 건당평균이용금액이 포함되는 분위수 구간',
    'MON_UE_CNT_RAT': '월요일 이용 건수 비중',
    'TUE_UE_CNT_RAT': '화요일 이용 건수 비중',
    'WED_UE_CNT_RAT': '수요일 이용 건수 비중', 
    'THU_UE_CNT_RAT': '목요일 이용 건수 비중',
    'FRI_UE_CNT_RAT': '금요일 이용 건수 비중',
    'SAT_UE_CNT_RAT': '토요일 이용 건수 비중',
    'SUN_UE_CNT_RAT': '일요일 이용 건수 비중',
    'HR_5_11_UE_CNT_RAT': '5시-11시 이용 건수 비중',
    'HR_12_13_UE_CNT_RAT': '12시-13시 이용 건수 비중',
    'HR_14_17_UE_CNT_RAT': '14시-17시 이용 건수 비중',
    'HR_18_22_UE_CNT_RAT': '18시-22시 이용 건수 비중',
    'HR_23_4_UE_CNT_RAT': '23시-4시 이용 건수 비중'
}

In [101]:
# df_meta에 설명 업데이트
df_meta_without_temp.loc[:, '설명'] = (
    df_meta_without_temp['컬럼ID'].map(metadata_explanation).fillna(df_meta_without_temp['설명'])
)
df_meta_without_temp.head(3)

Unnamed: 0,컬럼ID,컬럼명,설명
0,YM,기준연월,2023년 1월~12월
1,MCT_NM,가맹점명,가맹점명
2,MCT_TYPE,업종,요식관련 30개 업종으로 구분


In [102]:
#  `컬럼 ID` 칼럼 삭제
df_meta_final = df_meta_without_temp.drop(columns=['컬럼ID'])
df_meta_final.head(8)

Unnamed: 0,컬럼명,설명
0,기준연월,2023년 1월~12월
1,가맹점명,가맹점명
2,업종,요식관련 30개 업종으로 구분
8,지역,제주도를 9개의 지역으로 구분: 동부/서부/남부/북부/가파도/마라도/비양도/우도/추자도
9,주소,가맹점 주소
10,월별 업종별 이용건수 순위,월별 업종별 이용건수 분위수 구간을 6개 구간으로 집계 시 해당 가맹점의 이용건수가...
11,월별 업종별 이용금액 순위,월별 업종별 이용금액 분위수 구간을 6개 구간으로 집계 시 해당 가맹점의 이용금액이...
12,건당 평균 이용금액 순위,월별 업종별 건당평균이용금액 분위수 구간을 6개 구간으로 집계 시 해당 가맹점의 건...


In [103]:
# 컬럼명도 변경
df_meta_final['컬럼명'].replace({
    '월별 업종별 이용건수 순위': '월별 업종별 이용건수 분위수 구간',
    '월별 업종별 이용금액 순위': '월별 업종별 이용금액 분위수 구간',
    '건당 평균 이용금액 순위': '월별 업종별 건당평균 이용금액 분위수 구간'
}, inplace=True)

df_meta_final.head(8)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_meta_final['컬럼명'].replace({


Unnamed: 0,컬럼명,설명
0,기준연월,2023년 1월~12월
1,가맹점명,가맹점명
2,업종,요식관련 30개 업종으로 구분
8,지역,제주도를 9개의 지역으로 구분: 동부/서부/남부/북부/가파도/마라도/비양도/우도/추자도
9,주소,가맹점 주소
10,월별 업종별 이용건수 분위수 구간,월별 업종별 이용건수 분위수 구간을 6개 구간으로 집계 시 해당 가맹점의 이용건수가...
11,월별 업종별 이용금액 분위수 구간,월별 업종별 이용금액 분위수 구간을 6개 구간으로 집계 시 해당 가맹점의 이용금액이...
12,월별 업종별 건당평균 이용금액 분위수 구간,월별 업종별 건당평균이용금액 분위수 구간을 6개 구간으로 집계 시 해당 가맹점의 건...


<br><hr>

### 11. 데이터셋 정렬

In [104]:
df_sorted = df_without_temp.sort_values(by=['지역', '업종', '기준년월']).reset_index(drop=True)
df_sorted.head(1)

Unnamed: 0,기준년월,가맹점명,업종,지역,주소,월별 업종별 이용건수 분위수 구간,월별 업종별 이용금액 분위수 구간,월별 업종별 건당평균 이용금액 분위수 구간,월요일 이용건수 비중,화요일 이용건수 비중,...,23시-4시 이용건수 비중,현지인 이용건수 비중,남성 회원수 비중,여성 회원수 비중,20대 이하 회원수 비중,30대 회원수 비중,40대 회원수 비중,50대 회원수 비중,60대 이상 회원수 비중,맛집 주변 관광지
0,10월,가파도용궁정식,가정식,가파도,제주 서귀포시 대정읍 가파리 559-1번지 1층,상위 75~90%,상위 50~75%,상위 25~50%,0.3333,0.1111,...,0.0,0.161473,0.535,0.465,0.05,0.168,0.198,0.383,0.201,"가파도, 마라도등대"


<br><hr>

### 12. 데이터 저장

In [105]:
# 데이터만 저장
df_sorted.to_csv("../data/data_ALL_noTemp_without_metadata.csv", encoding='cp949', index=False)

In [106]:
# temp만 저장
df_unique_temp.to_csv('../data/data_TEMP.csv', encoding='cp949', index=False)

In [107]:
# 메타데이터 저장
df_meta_final.to_csv('../data/metadata_ALL.csv', encoding='cp949', index=False)

<br><hr>

### 13. 메타데이터 결합 저장

In [108]:
# shape 다시 확인
print(df_sorted.shape)
print(df_meta_final.shape)

(67857, 29)
(29, 2)


In [109]:
# 필요한 메타데이터 행들 추출
meta_column_descriptions = df_meta_final['설명'].values

# 메타데이터를 DataFrame으로 변환
df_meta_transposed = pd.DataFrame([meta_column_descriptions],
                                  columns=df_sorted.columns)  # 맛집 데이터의 컬럼과 동일하게 맞춤
df_meta_transposed

Unnamed: 0,기준년월,가맹점명,업종,지역,주소,월별 업종별 이용건수 분위수 구간,월별 업종별 이용금액 분위수 구간,월별 업종별 건당평균 이용금액 분위수 구간,월요일 이용건수 비중,화요일 이용건수 비중,...,23시-4시 이용건수 비중,현지인 이용건수 비중,남성 회원수 비중,여성 회원수 비중,20대 이하 회원수 비중,30대 회원수 비중,40대 회원수 비중,50대 회원수 비중,60대 이상 회원수 비중,맛집 주변 관광지
0,2023년 1월~12월,가맹점명,요식관련 30개 업종으로 구분,제주도를 9개의 지역으로 구분: 동부/서부/남부/북부/가파도/마라도/비양도/우도/추자도,가맹점 주소,월별 업종별 이용건수 분위수 구간을 6개 구간으로 집계 시 해당 가맹점의 이용건수가...,월별 업종별 이용금액 분위수 구간을 6개 구간으로 집계 시 해당 가맹점의 이용금액이...,월별 업종별 건당평균이용금액 분위수 구간을 6개 구간으로 집계 시 해당 가맹점의 건...,월요일 이용 건수 비중,화요일 이용 건수 비중,...,23시-4시 이용 건수 비중,고객 자택 주소가 제주도인 경우를 현지인으로 정의,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,맛집과 가까이 위치한 관광지 최대 두 개(Null값은 주변 관광지가 없다는 것을 의미)


In [110]:
# 메타데이터를 맛집 데이터 위에 추가
df_combined = pd.concat([df_meta_transposed, df_sorted], ignore_index=True)
df_combined.head(3)

Unnamed: 0,기준년월,가맹점명,업종,지역,주소,월별 업종별 이용건수 분위수 구간,월별 업종별 이용금액 분위수 구간,월별 업종별 건당평균 이용금액 분위수 구간,월요일 이용건수 비중,화요일 이용건수 비중,...,23시-4시 이용건수 비중,현지인 이용건수 비중,남성 회원수 비중,여성 회원수 비중,20대 이하 회원수 비중,30대 회원수 비중,40대 회원수 비중,50대 회원수 비중,60대 이상 회원수 비중,맛집 주변 관광지
0,2023년 1월~12월,가맹점명,요식관련 30개 업종으로 구분,제주도를 9개의 지역으로 구분: 동부/서부/남부/북부/가파도/마라도/비양도/우도/추자도,가맹점 주소,월별 업종별 이용건수 분위수 구간을 6개 구간으로 집계 시 해당 가맹점의 이용건수가...,월별 업종별 이용금액 분위수 구간을 6개 구간으로 집계 시 해당 가맹점의 이용금액이...,월별 업종별 건당평균이용금액 분위수 구간을 6개 구간으로 집계 시 해당 가맹점의 건...,월요일 이용 건수 비중,화요일 이용 건수 비중,...,23시-4시 이용 건수 비중,고객 자택 주소가 제주도인 경우를 현지인으로 정의,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,맛집과 가까이 위치한 관광지 최대 두 개(Null값은 주변 관광지가 없다는 것을 의미)
1,10월,가파도용궁정식,가정식,가파도,제주 서귀포시 대정읍 가파리 559-1번지 1층,상위 75~90%,상위 50~75%,상위 25~50%,0.3333,0.1111,...,0.0,0.161473,0.535,0.465,0.05,0.168,0.198,0.383,0.201,"가파도, 마라도등대"
2,3월,전망대,가정식,가파도,제주 서귀포시 대정읍 가파리 268번지,상위 25~50%,상위 90% 초과 (하위 10% 이하),상위 90% 초과 (하위 10% 이하),0.1343,0.2239,...,0.0,0.071511,0.473,0.527,0.118,0.18,0.217,0.271,0.214,"가파도, 마라도등대"


<br><hr>

### 14. 메타데이터 결합한 데이터 저장

In [111]:
df_combined.to_csv("../data/data_ALL_noTemp_with_metadata.csv", encoding='cp949', index=False)

<br><hr>

### 15. sample 데이터 만들기

In [112]:
# df_sorted의 sample data 추출 (1000개)

# area와 MCT_TYPE 칼럼의 고유 값 추출
unique_areas = df_sorted['지역'].unique()
unique_mct_types = df_sorted['업종'].unique()

# 고유 값 개수
num_areas = len(unique_areas)
num_mct_types = len(unique_mct_types)

# 최소 샘플 수 계산
min_samples_per_area = 1000 // num_areas
min_samples_per_mct_type = 1000 // num_mct_types

# 샘플링
samples = []

# 각 area에 대해 샘플 추출
for area in unique_areas:
    area_samples = df_sorted[df_sorted['지역'] == area].sample(n=min_samples_per_area, replace=True)
    samples.append(area_samples)

# 각 MCT_TYPE에 대해 샘플 추출
for mct_type in unique_mct_types:
    mct_samples = df_sorted[df_sorted['업종'] == mct_type].sample(n=min_samples_per_mct_type, replace=True)
    samples.append(mct_samples)

# 모든 샘플 결합
final_samples = pd.concat(samples).drop_duplicates().sample(n=1000, replace=True)

# 결과 확인
print(final_samples.shape)  # (1000, 29) 형태 확인
final_samples.head(3)

(1000, 29)


Unnamed: 0,기준년월,가맹점명,업종,지역,주소,월별 업종별 이용건수 분위수 구간,월별 업종별 이용금액 분위수 구간,월별 업종별 건당평균 이용금액 분위수 구간,월요일 이용건수 비중,화요일 이용건수 비중,...,23시-4시 이용건수 비중,현지인 이용건수 비중,남성 회원수 비중,여성 회원수 비중,20대 이하 회원수 비중,30대 회원수 비중,40대 회원수 비중,50대 회원수 비중,60대 이상 회원수 비중,맛집 주변 관광지
50452,12월,롯데리아 제주공항국내선탑승점,샌드위치/토스트,북부,제주 제주시 용담이동 2002번지 국내선 2층,상위 10% 이하,상위 10% 이하,상위 90% 초과 (하위 10% 이하),0.1335,0.1192,...,0.0,0.104833,0.501,0.499,0.269,0.296,0.257,0.131,0.046,다끄네포구(용담포구)
52787,3월,리치망고도두해안로점,주스,북부,제주 제주시 도두일동 1753-1번지 1층,상위 25~50%,상위 90% 초과 (하위 10% 이하),상위 75~90%,0.1132,0.1604,...,0.0,0.092455,0.409,0.591,0.328,0.36,0.171,0.103,0.037,"도두동 무지개 해안도로, 도두봉"
13954,2월,평대전복,가정식,동부,제주 제주시 구좌읍 평대리 515-9번지 1층,상위 50~75%,상위 25~50%,상위 25~50%,0.1509,0.2642,...,0.0,0.101675,0.481,0.519,0.123,0.273,0.229,0.22,0.156,"감성을담다, 감수굴 밭담길"


In [113]:
# final_samples도 정렬
final_samples = final_samples.sort_values(by=['지역', '업종', '기준년월'])
final_samples.head(3)

Unnamed: 0,기준년월,가맹점명,업종,지역,주소,월별 업종별 이용건수 분위수 구간,월별 업종별 이용금액 분위수 구간,월별 업종별 건당평균 이용금액 분위수 구간,월요일 이용건수 비중,화요일 이용건수 비중,...,23시-4시 이용건수 비중,현지인 이용건수 비중,남성 회원수 비중,여성 회원수 비중,20대 이하 회원수 비중,30대 회원수 비중,40대 회원수 비중,50대 회원수 비중,60대 이상 회원수 비중,맛집 주변 관광지
2,3월,꼬닥꼬닥걸으멍,가정식,가파도,제주 서귀포시 대정읍 가파리 355-1번지,상위 10~25%,상위 75~90%,상위 90% 초과 (하위 10% 이하),0.1448,0.1586,...,0.0,0.057405,0.387,0.613,0.068,0.172,0.254,0.319,0.186,"가파도, 마라도등대"
1,3월,전망대,가정식,가파도,제주 서귀포시 대정읍 가파리 268번지,상위 25~50%,상위 90% 초과 (하위 10% 이하),상위 90% 초과 (하위 10% 이하),0.1343,0.2239,...,0.0,0.071511,0.473,0.527,0.118,0.18,0.217,0.271,0.214,"가파도, 마라도등대"
5,4월,전망대,가정식,가파도,제주 서귀포시 대정읍 가파리 268번지,상위 10% 이하,상위 25~50%,상위 90% 초과 (하위 10% 이하),0.132,0.0627,...,0.0,0.07032,0.449,0.551,0.103,0.179,0.209,0.28,0.23,"가파도, 마라도등대"


In [114]:
# sample without meta 저장
final_samples.to_csv("../data/sample_noTemp_without_meta.csv", encoding='cp949', index=False)

In [115]:
# final_samples에 meta_data 추가
final_sampes_with_meta = pd.concat([df_meta_transposed, final_samples], ignore_index=True)
print(final_sampes_with_meta.shape)  # (1001, 29)
final_sampes_with_meta.head(3)

(1001, 29)


Unnamed: 0,기준년월,가맹점명,업종,지역,주소,월별 업종별 이용건수 분위수 구간,월별 업종별 이용금액 분위수 구간,월별 업종별 건당평균 이용금액 분위수 구간,월요일 이용건수 비중,화요일 이용건수 비중,...,23시-4시 이용건수 비중,현지인 이용건수 비중,남성 회원수 비중,여성 회원수 비중,20대 이하 회원수 비중,30대 회원수 비중,40대 회원수 비중,50대 회원수 비중,60대 이상 회원수 비중,맛집 주변 관광지
0,2023년 1월~12월,가맹점명,요식관련 30개 업종으로 구분,제주도를 9개의 지역으로 구분: 동부/서부/남부/북부/가파도/마라도/비양도/우도/추자도,가맹점 주소,월별 업종별 이용건수 분위수 구간을 6개 구간으로 집계 시 해당 가맹점의 이용건수가...,월별 업종별 이용금액 분위수 구간을 6개 구간으로 집계 시 해당 가맹점의 이용금액이...,월별 업종별 건당평균이용금액 분위수 구간을 6개 구간으로 집계 시 해당 가맹점의 건...,월요일 이용 건수 비중,화요일 이용 건수 비중,...,23시-4시 이용 건수 비중,고객 자택 주소가 제주도인 경우를 현지인으로 정의,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,기준연월 포함 최근 12개월 집계한 값,맛집과 가까이 위치한 관광지 최대 두 개(Null값은 주변 관광지가 없다는 것을 의미)
1,3월,꼬닥꼬닥걸으멍,가정식,가파도,제주 서귀포시 대정읍 가파리 355-1번지,상위 10~25%,상위 75~90%,상위 90% 초과 (하위 10% 이하),0.1448,0.1586,...,0.0,0.057405,0.387,0.613,0.068,0.172,0.254,0.319,0.186,"가파도, 마라도등대"
2,3월,전망대,가정식,가파도,제주 서귀포시 대정읍 가파리 268번지,상위 25~50%,상위 90% 초과 (하위 10% 이하),상위 90% 초과 (하위 10% 이하),0.1343,0.2239,...,0.0,0.071511,0.473,0.527,0.118,0.18,0.217,0.271,0.214,"가파도, 마라도등대"


In [116]:
# 저장
final_sampes_with_meta.to_csv("../data/sample_noTemp_with_meta.csv", encoding='cp949', index=False)