In [1]:
# 기본 라이브러리
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

sns.set()

# 그래프 기본 설정
plt.rcParams['font.family'] = 'Malgun Gothic'
# plt.rcParams['font.family'] = 'AppleGothic'
plt.rcParams['figure.figsize'] = 12, 6
plt.rcParams['font.size'] = 14
plt.rcParams['axes.unicode_minus'] = False

# 경고 뜨지 않게
import warnings
warnings.filterwarnings('ignore')

In [2]:
# 6개 parquet 파일 경로 리스트 
file_list = [
    'open/train/1.회원정보/201807_train_회원정보.parquet',
    'open/train/1.회원정보/201808_train_회원정보.parquet',
    'open/train/1.회원정보/201809_train_회원정보.parquet',
    'open/train/1.회원정보/201810_train_회원정보.parquet',
    'open/train/1.회원정보/201811_train_회원정보.parquet',
    'open/train/1.회원정보/201812_train_회원정보.parquet'
]

# 빈 데이터프레임 리스트 생성
dfs = []

# 각 파일을 읽어서 dfs 리스트에 추가
for file in file_list:
    df = pd.read_parquet(file)
    dfs.append(df)

# 데이터프레임 합치기 (행 기준으로 아래로 붙이기)
merged_df = pd.concat(dfs, ignore_index=True)

In [3]:
# 합친 데이터 확인
print(merged_df.shape)
print(merged_df.head())

(2400000, 78)
     기준년월            ID  남녀구분코드   연령 Segment  회원여부_이용가능  회원여부_이용가능_CA  \
0  201807  TRAIN_000000       2  40대       D          1             1   
1  201807  TRAIN_000001       1  30대       E          1             1   
2  201807  TRAIN_000002       1  30대       C          1             1   
3  201807  TRAIN_000003       2  40대       D          1             1   
4  201807  TRAIN_000004       2  40대       E          1             1   

   회원여부_이용가능_카드론  소지여부_신용  소지카드수_유효_신용  ...  할인금액_제휴연회비_B0M  청구금액_기본연회비_B0M  \
0              0        1            1  ...               0               0   
1              1        1            1  ...               0               0   
2              0        1            1  ...               0               0   
3              0        1            2  ...               0               0   
4              1        1            1  ...               0               0   

   청구금액_제휴연회비_B0M  상품관련면제카드수_B0M  임직원면제카드수_B0M  우수회원면제카드수_B0M  기타면제카드수_B

In [4]:
# 필요하면 하나로 합친 데이터 저장
merged_df.to_parquet('open/train/1.회원정보/2018_train_회원정보.parquet')

In [5]:
df = pd.read_parquet ('open/train/1.회원정보/2018_train_회원정보.parquet')
df

Unnamed: 0,기준년월,ID,남녀구분코드,연령,Segment,회원여부_이용가능,회원여부_이용가능_CA,회원여부_이용가능_카드론,소지여부_신용,소지카드수_유효_신용,...,할인금액_제휴연회비_B0M,청구금액_기본연회비_B0M,청구금액_제휴연회비_B0M,상품관련면제카드수_B0M,임직원면제카드수_B0M,우수회원면제카드수_B0M,기타면제카드수_B0M,카드신청건수,Life_Stage,최종카드발급경과월
0,201807,TRAIN_000000,2,40대,D,1,1,0,1,1,...,0,0,0,0개,0개,0개,0개,0,자녀성장(2),22
1,201807,TRAIN_000001,1,30대,E,1,1,1,1,1,...,0,0,0,0개,0개,0개,0개,0,자녀성장(1),18
2,201807,TRAIN_000002,1,30대,C,1,1,0,1,1,...,0,0,0,0개,0개,0개,0개,0,자녀출산기,20
3,201807,TRAIN_000003,2,40대,D,1,1,0,1,2,...,0,0,0,0개,0개,0개,0개,1,자녀성장(2),17
4,201807,TRAIN_000004,2,40대,E,1,1,1,1,1,...,0,0,0,0개,0개,0개,0개,1,자녀성장(1),15
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2399995,201812,TRAIN_399995,2,70대이상,E,1,1,1,1,1,...,0,0,0,0개,0개,0개,0개,0,노년생활,39
2399996,201812,TRAIN_399996,2,50대,D,1,1,1,1,1,...,0,0,0,0개,0개,0개,0개,0,자녀성장(2),24
2399997,201812,TRAIN_399997,1,30대,C,1,1,0,1,1,...,0,0,0,0개,0개,0개,0개,0,자녀출산기,18
2399998,201812,TRAIN_399998,1,40대,E,1,1,1,1,1,...,0,0,0,0개,0개,0개,0개,0,자녀성장(1),27


In [6]:
# 결측치가 있는 컬럼만 출력
for col in merged_df.columns:
    missing_count = merged_df[col].isnull().sum()
    if missing_count > 0:
        print(f"{col}: {missing_count}")

가입통신회사코드: 387570
직장시도명: 244969
_1순위신용체크구분: 27950
_2순위신용체크구분: 958115
최종유효년월_신용_이용가능: 210447
최종유효년월_신용_이용: 534231
최종카드발급일자: 41965


In [7]:
# 체크할 결측치 대체값 리스트
missing_values = [-99, -1]

# 결과 저장용 리스트
results = []

for col in merged_df.columns:
    for val in missing_values:
        count = (merged_df[col] == val).sum()
        if count > 0:
            results.append({'column': col, 'missing_value': val, 'count': count})

# 결과를 데이터프레임으로 변환
missing_summary = pd.DataFrame(results)

# 결과 출력
print(missing_summary)

          column  missing_value  count
0  이용금액_R3M_신용체크            -99     77
1  이용금액_R3M_신용체크             -1     70
2    이용금액_R3M_신용            -99     91
3    이용금액_R3M_신용             -1     74
4     _1순위카드이용금액            -99     88
5     _1순위카드이용금액             -1    108
6     _1순위카드이용건수             -1  66230
7     _2순위카드이용금액            -99      7
8     _2순위카드이용금액             -1      9
9     _2순위카드이용건수             -1   6180


In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2400000 entries, 0 to 2399999
Data columns (total 78 columns):
 #   Column              Dtype  
---  ------              -----  
 0   기준년월                int64  
 1   ID                  object 
 2   남녀구분코드              int64  
 3   연령                  object 
 4   Segment             object 
 5   회원여부_이용가능           int64  
 6   회원여부_이용가능_CA        int64  
 7   회원여부_이용가능_카드론       int64  
 8   소지여부_신용             int64  
 9   소지카드수_유효_신용         int64  
 10  소지카드수_이용가능_신용       int64  
 11  입회일자_신용             int64  
 12  입회경과개월수_신용          int64  
 13  회원여부_연체             int64  
 14  이용거절여부_카드론          int64  
 15  동의여부_한도증액안내         int64  
 16  수신거부여부_TM           int64  
 17  수신거부여부_DM           int64  
 18  수신거부여부_메일           int64  
 19  수신거부여부_SMS          int64  
 20  가입통신회사코드            object 
 21  탈회횟수_누적             int64  
 22  최종탈회후경과월            int64  
 23  탈회횟수_발급6개월이내        int64  
 24  탈회횟수_발급1년이내         int6

In [16]:
# 수치형 컬럼만 선택
numeric_cols = df.select_dtypes(include=['number']).columns

# 각 수치형 컬럼의 값별 개수 전체 출력
for col in numeric_cols:
    print(f"\n🔢 [컬럼: {col}] 값별 빈도수 (전체)")
    print(df[col].value_counts(dropna=False).sort_index())


🔢 [컬럼: 기준년월] 값별 빈도수 (전체)
기준년월
201807    400000
201808    400000
201809    400000
201810    400000
201811    400000
201812    400000
Name: count, dtype: int64

🔢 [컬럼: 남녀구분코드] 값별 빈도수 (전체)
남녀구분코드
1    1255308
2    1144692
Name: count, dtype: int64

🔢 [컬럼: 회원여부_이용가능] 값별 빈도수 (전체)
회원여부_이용가능
0     113820
1    2286180
Name: count, dtype: int64

🔢 [컬럼: 회원여부_이용가능_CA] 값별 빈도수 (전체)
회원여부_이용가능_CA
0     287757
1    2112243
Name: count, dtype: int64

🔢 [컬럼: 회원여부_이용가능_카드론] 값별 빈도수 (전체)
회원여부_이용가능_카드론
0     908852
1    1491148
Name: count, dtype: int64

🔢 [컬럼: 소지여부_신용] 값별 빈도수 (전체)
소지여부_신용
0      41887
1    2358113
Name: count, dtype: int64

🔢 [컬럼: 소지카드수_유효_신용] 값별 빈도수 (전체)
소지카드수_유효_신용
0      41882
1    1845949
2     391523
3     120560
4         86
Name: count, dtype: int64

🔢 [컬럼: 소지카드수_이용가능_신용] 값별 빈도수 (전체)
소지카드수_이용가능_신용
0     205225
1    1723263
2     370561
3     100951
Name: count, dtype: int64

🔢 [컬럼: 입회일자_신용] 값별 빈도수 (전체)
입회일자_신용
19901101         6
19910501         6
19910801         6
19910901       

In [10]:
10 / 0

ZeroDivisionError: division by zero

In [None]:
col = '이용금액_R3M_신용체크'

plt.figure(figsize=(8, 6))
sns.boxplot(x=merged_df[col])
plt.title(f'Boxplot of {col}')
plt.show()

In [None]:
col = '이용금액_R3M_신용'

plt.figure(figsize=(8, 6))
sns.boxplot(x=merged_df[col])
plt.title(f'Boxplot of {col}')
plt.show()

In [None]:
col = '이용금액_R3M_신용_가족'

plt.figure(figsize=(8, 6))
sns.boxplot(x=merged_df[col])
plt.title(f'Boxplot of {col}')
plt.show()

In [None]:
col = '_1순위카드이용금액'

plt.figure(figsize=(8, 6))
sns.boxplot(x=merged_df[col])
plt.title(f'Boxplot of {col}')
plt.show()

In [None]:
col = '_1순위카드이용건수'

plt.figure(figsize=(8, 6))
sns.boxplot(x=merged_df[col])
plt.title(f'Boxplot of {col}')
plt.show()

In [None]:
col = '_2순위카드이용금액'

plt.figure(figsize=(8, 6))
sns.boxplot(x=merged_df[col])
plt.title(f'Boxplot of {col}')
plt.show()

In [None]:
col = '_2순위카드이용건수'

plt.figure(figsize=(8, 6))
sns.boxplot(x=merged_df[col])
plt.title(f'Boxplot of {col}')
plt.show()