각 월별 데이터들을 하나로 합치기(Train)

In [None]:
import pandas as pd
import os

# 1) 원본 파일들이 있는 디렉토리
base_dir = '/content/drive/MyDrive/data/train/3.승인매출정보'

# 2) 추출할 컬럼 리스트
cols = [
    'ID',
    '_2순위업종_이용금액',
    '최대이용금액_일시불_R12M',
    '납부_기타이용금액',
    '쇼핑_편의점_이용금액',
    '_2순위교통업종_이용금액',
    '최대이용금액_CA_R12M',
    '교통_정비이용금액'
]

# 3) 월별로 읽어올 파일명 패턴
months = range(7, 13)  # 7,8,9,10,11,12월

# 4) 데이터프레임 리스트에 담기
df_list = []
for m in months:
    ym = f'2018{m:02d}'
    path = os.path.join(base_dir, f'{ym}_train_승인매출정보.parquet')
    # parquet에서 필요한 컬럼만 읽기
    tmp = pd.read_parquet(path, columns=cols)
    # 기준년월 컬럼 추가
    tmp['기준년월'] = ym
    df_list.append(tmp)

# 5) 한 번에 합치기
merged = pd.concat(df_list, ignore_index=True)

# 6) CSV로 저장 (원하시는 경로로 변경하세요)
out_path = '/content/drive/MyDrive/03.승인매출 정보_선택칼럼(train).csv'
merged.to_csv(out_path, index=False, encoding='utf-8-sig')

print(f"✅ 저장 완료: {out_path}")

✅ 저장 완료: /content/drive/MyDrive/03.승인매출 정보_선택칼럼(train).csv


각 월별 데이터들을 하나로 합치기(Test)

In [None]:

# 1) 테스트 데이터가 있는 디렉토리
test_dir = '/content/drive/MyDrive/data/test/3.승인매출정보'

# 2) 추출할 컬럼 리스트 (앞서 선택했던 것과 동일)
cols = [
    'ID',
    '_2순위업종_이용금액',
    '최대이용금액_일시불_R12M',
    '납부_기타이용금액',
    '쇼핑_편의점_이용금액',
    '_2순위교통업종_이용금액',
    '최대이용금액_CA_R12M',
    '교통_정비이용금액'
]

# 3) 201807~201812 파일을 순회하며 읽기
df_list = []
for m in range(7, 13):
    ym = f'2018{m:02d}'
    file_name = f'{ym}_test_승인매출정보.parquet'
    path = os.path.join(test_dir, file_name)

    # 필요한 컬럼만 읽고
    tmp = pd.read_parquet(path, columns=cols)
    # 기준년월 컬럼 추가
    tmp['기준년월'] = ym
    df_list.append(tmp)

# 4) 하나로 합치기
merged_test = pd.concat(df_list, ignore_index=True)

# 5) CSV로 저장 (원하는 경로로 변경)
out_path = '/content/drive/MyDrive/03.승인매출 정보_선택칼럼(test).csv'
merged_test.to_csv(out_path, index=False, encoding='utf-8-sig')

print(f"✅ 테스트 데이터 저장 완료: {out_path}")

✅ 테스트 데이터 저장 완료: /content/drive/MyDrive/03.승인매출 정보_선택칼럼(test).csv
