# Step 3. 30개의 csv 파일을 하나로 합치기

In [1]:
import pandas as pd
import glob
import os

# processed_data 폴더 경로 설정
folder_path = '/home/super/workspace/donghyun/apart_prj/processed_data'

# 폴더 내 모든 CSV 파일 경로 가져오기
csv_files = glob.glob(os.path.join(folder_path, '*.csv'))

# 모든 CSV 파일을 읽어서 하나의 DataFrame으로 병합
dataframes = []

for file in csv_files:
    df = pd.read_csv(file)
    
    # 파일명에서 구 정보와 매매 유형 정보 추출
    filename = os.path.basename(file)
    parts = filename.split('_')
    district = parts[0]  # 구 이름 (예: 의창구, 성산구)
    property_type = parts[1]  # 매매 유형 (예: 단독다가구(매매))
    
    # 비고 컬럼에 구와 매매 유형 정보 추가
    df['비고'] = f"{district}_{property_type}"
    
    dataframes.append(df)

# 모든 DataFrame을 세로로 연결
merged_df = pd.concat(dataframes, ignore_index=True)

print(f"총 {len(csv_files)}개의 CSV 파일을 병합했습니다.")
print(f"병합된 DataFrame의 크기: {merged_df.shape}")
print(f"컬럼 정보:")
print(merged_df.columns.tolist())
print(f"\n비고 컬럼의 고유값:")
print(merged_df['비고'].unique())
print(f"\n데이터 미리보기:")
merged_df.head()

총 30개의 CSV 파일을 병합했습니다.
병합된 DataFrame의 크기: (11300, 12)
컬럼 정보:
['시군구', '번지', '주택유형', '도로조건', '연면적(㎡)', '대지면적(㎡)', '계약년월', '계약일', '거래금액(만원)', '건축년도', '도로명', '비고']

비고 컬럼의 고유값:
['2. 성산구_단독다가구(매매)' '5. 진해구_단독다가구(매매)' '3. 마산합포구_단독다가구(매매)'
 '4. 마산회원구_단독다가구(매매)' '1. 의창구_단독다가구(매매)']

데이터 미리보기:


Unnamed: 0,시군구,번지,주택유형,도로조건,연면적(㎡),대지면적(㎡),계약년월,계약일,거래금액(만원),건축년도,도로명,비고
0,경상남도 창원성산구 가음동,3*,다가구,12m미만,231.78,255.2,201508,25,53000,1997.0,가양로52번길,2. 성산구_단독다가구(매매)
1,경상남도 창원성산구 가음동,4*,다가구,12m미만,236.05,257.4,201606,27,53000,1999.0,가음로92번길,2. 성산구_단독다가구(매매)
2,경상남도 창원성산구 가음동,*,다가구,12m미만,381.05,268.7,201604,14,70000,2013.0,가음정로23번길,2. 성산구_단독다가구(매매)
3,경상남도 창원성산구 가음동,*,다가구,12m미만,265.88,269.7,201605,16,65000,2016.0,가음정로11번길,2. 성산구_단독다가구(매매)
4,경상남도 창원성산구 가음동,4*,단독,12m미만,350.01,248.0,201509,24,60000,1997.0,가양로34번길,2. 성산구_단독다가구(매매)


In [None]:
# 저장할 파일명과 경로 설정 (폴더는 기존 folder_path 사용)
out_fname = 'I-3. merged_df_processed'
out_path = os.path.join(folder_path, out_fname)

# 디렉터리 존재 확인(없으면 생성)
os.makedirs(os.path.dirname(out_path), exist_ok=True)

# CSV로 저장 (한글 깨짐 방지 위해 utf-8-sig 사용, 인덱스는 저장하지 않음)
try:
    merged_df.to_csv(out_path, index=False, encoding='utf-8-sig')
    print(f"Saved merged_df to: {out_path} (rows={len(merged_df)})")
except Exception as e:
    print(f"Failed to save CSV: {e}")

Saved merged_df to: /home/super/workspace/donghyun/apart_prj/processed_data/merged_df_processed.csv (rows=11300)
