In [9]:
# 기본
import pandas as pd  # 데이터프레임 처리
import numpy as np  # 수치 계산
import matplotlib.pyplot as plt  # 데이터 시각화
import seaborn as sns  # 고급 시각화

# 경고 뜨지 않게 설정
import warnings  # 경고 무시 설정
warnings.filterwarnings('ignore')

# 그래프 설정
sns.set()

# 그래프 기본 설정
plt.rcParams['font.family'] = 'Malgun Gothic'  # 한글 폰트 설정
# plt.rcParams['font.family'] = 'AppleGothic'
plt.rcParams['figure.figsize'] = 12, 6  # 그래프 크기 설정
plt.rcParams['font.size'] = 14  # 글자 크기
plt.rcParams['axes.unicode_minus'] = False  # 마이너스 깨짐 방지


### 데이터 준비

In [11]:
# parquet 파일 데이터를 읽어온다.
df1_train = pd.read_parquet('open/train/3.승인매출정보/201807_train_승인매출정보.parquet')
df2_train = pd.read_parquet('open/train/3.승인매출정보/201808_train_승인매출정보.parquet')
df3_train = pd.read_parquet('open/train/3.승인매출정보/201809_train_승인매출정보.parquet')
df4_train = pd.read_parquet('open/train/3.승인매출정보/201810_train_승인매출정보.parquet')
df5_train = pd.read_parquet('open/train/3.승인매출정보/201811_train_승인매출정보.parquet')
df6_train = pd.read_parquet('open/train/3.승인매출정보/201812_train_승인매출정보.parquet')

In [12]:

columns = [
    '기준년월', 'ID',
    '정상청구원금_B5M', '정상청구원금_B0M', '정상청구원금_B2M',
    '이용금액_일시불_R12M', '이용금액_일시불_B0M', '이용금액_오프라인_B0M',
    '이용금액_일시불_R6M', '이용금액_일시불_R3M', '정상입금원금_B5M',
    '정상입금원금_B0M', '이용금액_오프라인_R3M', '이용금액_오프라인_R6M',
    '정상입금원금_B2M', '_3순위업종_이용금액', '_2순위업종_이용금액',
    '이용건수_신용_R12M', '_2순위쇼핑업종_이용금액', '최대이용금액_일시불_R12M',
    '이용건수_신판_R12M', '이용건수_일시불_R12M', '_1순위업종_이용금액',
    '_3순위쇼핑업종_이용금액', '이용가맹점수', '이용건수_오프라인_B0M',
    '이용건수_오프라인_R6M', '이용건수_오프라인_R3M', '쇼핑_도소매_이용금액',
    '이용건수_신용_R6M', '이용건수_신용_B0M', '이용건수_신용_R3M',
    '이용건수_신판_R6M', '이용건수_신판_B0M', '이용건수_신판_R3M',
    '이용건수_일시불_R6M', '이용건수_일시불_B0M', '이용건수_일시불_R3M',
    '_1순위교통업종_이용금액', '연체입금원금_B0M', '쇼핑_마트_이용금액',
    '쇼핑_슈퍼마켓_이용금액', '교통_주유이용금액', '이용금액_온라인_B0M',
    '연체입금원금_B5M', '연체입금원금_B2M', '이용금액_페이_온라인_B0M',
    '_1순위쇼핑업종_이용금액', '연속유실적개월수_기본_24M_카드', '이용금액대'
]


In [13]:
df1_train = df1_train[columns]
df2_train = df2_train[columns]
df3_train = df3_train[columns]
df4_train = df4_train[columns]
df5_train = df5_train[columns]
df6_train = df6_train[columns]

In [14]:
all_df = pd.concat([df1_train, df2_train, df3_train, df4_train, df5_train, df6_train], axis=0, ignore_index=True)

In [15]:
all_df.columns

Index(['기준년월', 'ID', '정상청구원금_B5M', '정상청구원금_B0M', '정상청구원금_B2M', '이용금액_일시불_R12M',
       '이용금액_일시불_B0M', '이용금액_오프라인_B0M', '이용금액_일시불_R6M', '이용금액_일시불_R3M',
       '정상입금원금_B5M', '정상입금원금_B0M', '이용금액_오프라인_R3M', '이용금액_오프라인_R6M',
       '정상입금원금_B2M', '_3순위업종_이용금액', '_2순위업종_이용금액', '이용건수_신용_R12M',
       '_2순위쇼핑업종_이용금액', '최대이용금액_일시불_R12M', '이용건수_신판_R12M', '이용건수_일시불_R12M',
       '_1순위업종_이용금액', '_3순위쇼핑업종_이용금액', '이용가맹점수', '이용건수_오프라인_B0M',
       '이용건수_오프라인_R6M', '이용건수_오프라인_R3M', '쇼핑_도소매_이용금액', '이용건수_신용_R6M',
       '이용건수_신용_B0M', '이용건수_신용_R3M', '이용건수_신판_R6M', '이용건수_신판_B0M',
       '이용건수_신판_R3M', '이용건수_일시불_R6M', '이용건수_일시불_B0M', '이용건수_일시불_R3M',
       '_1순위교통업종_이용금액', '연체입금원금_B0M', '쇼핑_마트_이용금액', '쇼핑_슈퍼마켓_이용금액',
       '교통_주유이용금액', '이용금액_온라인_B0M', '연체입금원금_B5M', '연체입금원금_B2M',
       '이용금액_페이_온라인_B0M', '_1순위쇼핑업종_이용금액', '연속유실적개월수_기본_24M_카드', '이용금액대'],
      dtype='object')

In [16]:
print(len(all_df.columns))

50


In [21]:
all_df.to_parquet("승인매출정보_변수추출_1차.parquet", index=False)