In [1]:
# 기본
import pandas as pd  # 데이터프레임 처리
import numpy as np  # 수치 계산
import matplotlib.pyplot as plt  # 데이터 시각화
import seaborn as sns  # 고급 시각화

# 경고 뜨지 않게 설정
import warnings  # 경고 무시 설정
warnings.filterwarnings('ignore')

# 그래프 설정
sns.set()

# 그래프 기본 설정
plt.rcParams['font.family'] = 'Malgun Gothic'  # 한글 폰트 설정
# plt.rcParams['font.family'] = 'AppleGothic'
plt.rcParams['figure.figsize'] = 12, 6  # 그래프 크기 설정
plt.rcParams['font.size'] = 14  # 글자 크기
plt.rcParams['axes.unicode_minus'] = False  # 마이너스 깨짐 방지


### 데이터 준비

In [3]:
# parquet 파일 데이터를 읽어온다.
# x 값으로 쓸 데이터 
df1_train = pd.read_parquet('open/train/3.승인매출정보/201807_train_승인매출정보.parquet')
df2_train = pd.read_parquet('open/train/3.승인매출정보/201808_train_승인매출정보.parquet')
df3_train = pd.read_parquet('open/train/3.승인매출정보/201809_train_승인매출정보.parquet')
df4_train = pd.read_parquet('open/train/3.승인매출정보/201810_train_승인매출정보.parquet')
df5_train = pd.read_parquet('open/train/3.승인매출정보/201811_train_승인매출정보.parquet')
df6_train = pd.read_parquet('open/train/3.승인매출정보/201812_train_승인매출정보.parquet')

In [4]:
# 결과데이터를 불러온다. 
segment_df = pd.read_csv('Segment.csv')
segment_df

Unnamed: 0,기준년월,ID,Segment
0,201807,TRAIN_000000,D
1,201807,TRAIN_000001,E
2,201807,TRAIN_000002,C
3,201807,TRAIN_000003,D
4,201807,TRAIN_000004,E
...,...,...,...
2399995,201812,TRAIN_399995,E
2399996,201812,TRAIN_399996,D
2399997,201812,TRAIN_399997,C
2399998,201812,TRAIN_399998,E


In [5]:
# 데이터프레임의 컬럼 이름을 리스트에 담는다. 
column_list = df1_train.columns.tolist()

In [6]:
# 슬라이싱
column_list = column_list[:130]

In [7]:
# 최대 500줄까지 출력
pd.set_option('display.max_rows', 500)
print(column_list)

['기준년월', 'ID', '최종이용일자_기본', '최종이용일자_신판', '최종이용일자_CA', '최종이용일자_카드론', '최종이용일자_체크', '최종이용일자_일시불', '최종이용일자_할부', '이용건수_신용_B0M', '이용건수_신판_B0M', '이용건수_일시불_B0M', '이용건수_할부_B0M', '이용건수_할부_유이자_B0M', '이용건수_할부_무이자_B0M', '이용건수_부분무이자_B0M', '이용건수_CA_B0M', '이용건수_체크_B0M', '이용건수_카드론_B0M', '이용금액_일시불_B0M', '이용금액_할부_B0M', '이용금액_할부_유이자_B0M', '이용금액_할부_무이자_B0M', '이용금액_부분무이자_B0M', '이용금액_CA_B0M', '이용금액_체크_B0M', '이용금액_카드론_B0M', '이용후경과월_신용', '이용후경과월_신판', '이용후경과월_일시불', '이용후경과월_할부', '이용후경과월_할부_유이자', '이용후경과월_할부_무이자', '이용후경과월_부분무이자', '이용후경과월_CA', '이용후경과월_체크', '이용후경과월_카드론', '이용건수_신용_R12M', '이용건수_신판_R12M', '이용건수_일시불_R12M', '이용건수_할부_R12M', '이용건수_할부_유이자_R12M', '이용건수_할부_무이자_R12M', '이용건수_부분무이자_R12M', '이용건수_CA_R12M', '이용건수_체크_R12M', '이용건수_카드론_R12M', '이용금액_일시불_R12M', '이용금액_할부_R12M', '이용금액_할부_유이자_R12M', '이용금액_할부_무이자_R12M', '이용금액_부분무이자_R12M', '이용금액_CA_R12M', '이용금액_체크_R12M', '이용금액_카드론_R12M', '최대이용금액_일시불_R12M', '최대이용금액_할부_R12M', '최대이용금액_할부_유이자_R12M', '최대이용금액_할부_무이자_R12M', '최대이용금액_부분무이자_R12M', '최대이용금액_CA_R12M', '최대이용금액_체크_R12M', '

In [8]:
df1_train = df1_train[column_list]

In [9]:
df2_train = df2_train[column_list]
df3_train = df3_train[column_list]
df4_train = df4_train[column_list]
df5_train = df5_train[column_list]
df6_train = df6_train[column_list]

In [10]:
combined_df = pd.concat([df1_train, df2_train, df3_train, df4_train, df5_train, df6_train], 
                         axis=0,        # 행 방향
                         ignore_index=True)  # 인덱스 초기화

In [24]:
print(combined_df.isna().sum().to_string())

기준년월                  0
ID                    0
최종이용일자_기본             0
최종이용일자_신판             0
최종이용일자_CA             0
최종이용일자_카드론            0
최종이용일자_체크             0
최종이용일자_일시불            0
최종이용일자_할부             0
이용건수_신용_B0M           0
이용건수_신판_B0M           0
이용건수_일시불_B0M          0
이용건수_할부_B0M           0
이용건수_할부_유이자_B0M       0
이용건수_할부_무이자_B0M       0
이용건수_부분무이자_B0M        0
이용건수_CA_B0M           0
이용건수_체크_B0M           0
이용건수_카드론_B0M          0
이용금액_일시불_B0M          0
이용금액_할부_B0M           0
이용금액_할부_유이자_B0M       0
이용금액_할부_무이자_B0M       0
이용금액_부분무이자_B0M        0
이용금액_CA_B0M           0
이용금액_체크_B0M           0
이용금액_카드론_B0M          0
이용후경과월_신용             0
이용후경과월_신판             0
이용후경과월_일시불            0
이용후경과월_할부             0
이용후경과월_할부_유이자         0
이용후경과월_할부_무이자         0
이용후경과월_부분무이자          0
이용후경과월_CA             0
이용후경과월_체크             0
이용후경과월_카드론            0
이용건수_신용_R12M          0
이용건수_신판_R12M          0
이용건수_일시불_R12M         0
이용건수_할부_R12M          0
이용건수_할부_유이자_R12M

In [26]:
for col in column_list:
    try:
        var_value = combined_df[col].var()
        print(f"{col}: {var_value:.2f}")
    except TypeError:
        print(f"❌ 분산 계산 불가 (문자열 포함): {col}")

기준년월: 2.92
❌ 분산 계산 불가 (문자열 포함): ID
최종이용일자_기본: 15164506136473.34
최종이용일자_신판: 15290383035759.30
최종이용일자_CA: 88162643539604.62
최종이용일자_카드론: 57709158372772.21
최종이용일자_체크: 94398686619799.09
최종이용일자_일시불: 16014268555037.79
최종이용일자_할부: 81531881958688.75
이용건수_신용_B0M: 397.45
이용건수_신판_B0M: 396.95
이용건수_일시불_B0M: 393.04
이용건수_할부_B0M: 0.20
이용건수_할부_유이자_B0M: 0.03
이용건수_할부_무이자_B0M: 0.14
이용건수_부분무이자_B0M: 0.00
이용건수_CA_B0M: 0.16
이용건수_체크_B0M: 80.43
이용건수_카드론_B0M: 0.00
이용금액_일시불_B0M: 21094276.07
이용금액_할부_B0M: 2220701.16
이용금액_할부_유이자_B0M: 514047.01
이용금액_할부_무이자_B0M: 1354412.20
이용금액_부분무이자_B0M: 0.00
이용금액_CA_B0M: 4662026.63
이용금액_체크_B0M: 3700739.70
이용금액_카드론_B0M: 205861.13
이용후경과월_신용: 17.05
이용후경과월_신판: 17.32
이용후경과월_일시불: 16.10
이용후경과월_할부: 21.31
이용후경과월_할부_유이자: 11.53
이용후경과월_할부_무이자: 20.23
이용후경과월_부분무이자: 1.27
이용후경과월_CA: 8.36
이용후경과월_체크: 17.51
이용후경과월_카드론: 1.80
이용건수_신용_R12M: 51273.49
이용건수_신판_R12M: 51186.08
이용건수_일시불_R12M: 50377.42
이용건수_할부_R12M: 41.24
이용건수_할부_유이자_R12M: 3.98
이용건수_할부_무이자_R12M: 28.52
이용건수_부분무이자_R12M: 0.00
이용건수_CA_R12M: 12.26
이용건

In [32]:


def print_value_counts(df, columns=None, dropna=False):

    if columns is None:
        columns = df.columns.tolist()
    
    for col in columns:
        print(f"\n[🔢 Value Counts for '{col}']\n")
        print(df[col].value_counts(dropna=dropna))

In [36]:
zero_cols = [
    "이용건수_부분무이자_B0M",
    "이용건수_카드론_B0M",
    "이용금액_부분무이자_B0M",
    "이용건수_부분무이자_R12M",
    "이용건수_카드론_R12M",
    "이용건수_부분무이자_R6M",
    "이용건수_카드론_R6M",
    "이용개월수_부분무이자_R6M",
    "이용건수_부분무이자_R3M",
    "이용건수_카드론_R3M",
    "이용개월수_부분무이자_R3M",
    "이용개월수_카드론_R3M"
]

print_value_counts(combined_df, columns=zero_cols)


[🔢 Value Counts for '이용건수_부분무이자_B0M']

이용건수_부분무이자_B0M
0    2400000
Name: count, dtype: int64

[🔢 Value Counts for '이용건수_카드론_B0M']

이용건수_카드론_B0M
0    2399902
1         98
Name: count, dtype: int64

[🔢 Value Counts for '이용금액_부분무이자_B0M']

이용금액_부분무이자_B0M
0    2400000
Name: count, dtype: int64

[🔢 Value Counts for '이용건수_부분무이자_R12M']

이용건수_부분무이자_R12M
0    2399651
3        347
2          2
Name: count, dtype: int64

[🔢 Value Counts for '이용건수_카드론_R12M']

이용건수_카드론_R12M
0    2270123
2      63978
1      63404
3       2495
Name: count, dtype: int64

[🔢 Value Counts for '이용건수_부분무이자_R6M']

이용건수_부분무이자_R6M
0    2390712
1       9288
Name: count, dtype: int64

[🔢 Value Counts for '이용건수_카드론_R6M']

이용건수_카드론_R6M
0    2357850
1      41983
2        167
Name: count, dtype: int64

[🔢 Value Counts for '이용개월수_부분무이자_R6M']

이용개월수_부분무이자_R6M
0    2389590
1      10410
Name: count, dtype: int64

[🔢 Value Counts for '이용건수_부분무이자_R3M']

이용건수_부분무이자_R3M
0    2398548
1       1452
Name: count, dtype: int64

[🔢 Value Counts 

- 이용금액_부분무이자_B0M, 이용건수_부분무이자_B0M 컬럼은 제거해야함

In [None]:
10/0

In [None]:
### 컬럼의 정보를 알아보는 함수를 만든다. 

def analyze_column(col):
    # 1. 값의 분포 출력
    print(f"\n[📊 Value Counts for '{col}']\n")
    print(all_df[col].value_counts(dropna=False))  # 결측값도 포함

    # 2. 히스토그램
    print(f"\n[📈 Histogram for '{col}']\n")
    plt.figure(figsize=(10, 4))
    sns.histplot(data=all_df, x=col, kde=True, bins=30)
    plt.title(f"Histogram of {col}")
    plt.xlabel(col)
    plt.ylabel("Frequency")
    plt.grid(True)
    plt.show()

    # 3. 박스플롯
    print(f"\n[📦 Boxplot for '{col}']\n")
    plt.figure(figsize=(10, 2))
    sns.boxplot(data=all_df, x=col)
    plt.title(f"Boxplot of {col}")
    plt.xlabel(col)
    plt.grid(True)
    plt.show()

In [None]:
# 컬럼 하나하나 반복해서 출력하게 해준다.
for a1 in column_list:
    analyze_column(f"{a1}")
    print('-' * 150)
    print('-' * 150)
    print('-' * 150)
    print('-' * 150)

In [None]:
all_df.duplicated().sum()

In [None]:
all_df[column_list].dtypes