In [None]:
import pandas as pd
import os

# eda/code -> eda/data
data_path = '../data/'
output_path = '../data/merged_data.csv'

# ---------------------------------------
# 1. 모든 CSV 파일 읽기 (8개)
# ---------------------------------------
commercial_change = pd.read_csv(os.path.join(data_path, 'commercial_change_data.csv')) # 상권변화
floating_population = pd.read_csv(os.path.join(data_path, 'floating_population.csv')) # 유동인구
income_consumption = pd.read_csv(os.path.join(data_path, 'income_consumption_data.csv')) # 소득
rent = pd.read_csv(os.path.join(data_path, 'rent_data.csv')) # 임대료
resident_population = pd.read_csv(os.path.join(data_path, 'resident_population.csv')) # 주거인구
seling_count = pd.read_csv(os.path.join(data_path, 'seling_count_data.csv')) 
# 매출
stores = pd.read_csv(os.path.join(data_path, 'stores_data.csv')) # 점포
working_population = pd.read_csv(os.path.join(data_path, 'working_population_data.csv')) # 직장인구


In [17]:
# ---------------------------------------
# 2. 업종 데이터 있는 파일 병합 (stores + seling_count)
# ---------------------------------------
service_df = pd.merge(stores, seling_count, on=['기준_년분기_코드', '자치구_코드_명', '서비스_업종_코드_명'], how='outer')

service_df.shape

(64715, 56)

In [18]:
# ---------------------------------------
# 3. 자치구 데이터 병합 (나머지 6개)
# ---------------------------------------
district_dfs = [commercial_change, floating_population, income_consumption, rent, resident_population, working_population] # 업종없는 데이터
# 첫 번째 데이터프레임 기준으로 초기화 - commercial_change
merged_district_df = district_dfs[0]
# 나머지 데이터프레임 순차적으로 병합
for df in district_dfs[1:]:
    merged_district_df = pd.merge(merged_district_df, df, on=['기준_년분기_코드', '자치구_코드_명'], how='outer')
    
merged_district_df.shape

(650, 88)

In [19]:
# ---------------------------------------
# 4. 최종 병합 (Left Join) - 서비스 업종 있는 df + 없는 df 병합
# ---------------------------------------
final_df = pd.merge(service_df, merged_district_df, on=['기준_년분기_코드', '자치구_코드_명'], how='left')

final_df.shape

(64715, 142)

In [None]:
# ---------------------------------------
# 5. 컬럼 제거 및 결과 저장
# ---------------------------------------
# 혹시 unnamed column 대비해서 drop
unnamed_cols = [col for col in final_df.columns if 'Unnamed' in col]
final_df.drop(columns=unnamed_cols, inplace=True)

# seling_count에 없는 업종 제거
final_df.dropna(inplace=True)

# csv로 저장: eda/data/merged_data.csv
final_df.to_csv(output_path, index=False)

print(f"최종 데이터셋 크기: {final_df.shape}")
print(f"최종 데이터셋 컬럼 수: {len(final_df.columns)}")

최종 데이터셋 크기: (39975, 137)
최종 데이터셋 컬럼 수: 137


In [22]:
# DataFrame 컬럼 전체 출력
pd.set_option('display.max_columns', None)

# DataFrame 행 전체 출력
pd.set_option('display.max_rows', None)

# DataFrame의 최대 출력 너비 설정
pd.set_option('display.max_colwidth', None)

In [24]:
final_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 39975 entries, 1 to 64713
Columns: 137 entries, 기준_년분기_코드 to 여성연령대_60_이상_직장_인구_수
dtypes: float64(132), int64(2), object(3)
memory usage: 42.1+ MB


In [26]:
final_df.isna().sum()

기준_년분기_코드              0
자치구_코드_명               0
서비스_업종_코드_명            0
점포_수                   0
유사_업종_점포_수             0
개업_률                   0
개업_점포_수                0
폐업_률                   0
폐업_점포_수                0
프랜차이즈_점포_수             0
당월_매출_금액               0
당월_매출_건수               0
월요일_매출_금액              0
화요일_매출_금액              0
수요일_매출_금액              0
목요일_매출_금액              0
금요일_매출_금액              0
토요일_매출_금액              0
일요일_매출_금액              0
시간대_00_06_매출_금액        0
시간대_06_11_매출_금액        0
시간대_11_14_매출_금액        0
시간대_14_17_매출_금액        0
시간대_17_21_매출_금액        0
시간대_21_24_매출_금액        0
남성_매출_금액               0
여성_매출_금액               0
연령대_10_매출_금액           0
연령대_20_매출_금액           0
연령대_30_매출_금액           0
연령대_40_매출_금액           0
연령대_50_매출_금액           0
연령대_60_이상_매출_금액        0
월요일_매출_건수              0
화요일_매출_건수              0
수요일_매출_건수              0
목요일_매출_건수              0
금요일_매출_건수              0
토요일_매출_건수              0
일요일_매출_건수              0
