In [2]:
# 기본
import pandas as pd  # 데이터프레임 처리
import numpy as np  # 수치 계산
import matplotlib.pyplot as plt  # 데이터 시각화
import seaborn as sns  # 고급 시각화

# 경고 뜨지 않게 설정
import warnings  # 경고 무시 설정
warnings.filterwarnings('ignore')

# 그래프 설정
sns.set()

# 그래프 기본 설정
plt.rcParams['font.family'] = 'Malgun Gothic'  # 한글 폰트 설정
# plt.rcParams['font.family'] = 'AppleGothic'
plt.rcParams['figure.figsize'] = 12, 6  # 그래프 크기 설정
plt.rcParams['font.size'] = 14  # 글자 크기
plt.rcParams['axes.unicode_minus'] = False  # 마이너스 깨짐 방지


### 데이터 준비

In [59]:
# parquet 파일 데이터를 읽어온다.
# x 값으로 쓸 데이터 
df1_train = pd.read_parquet('open/train/5.잔액정보/201807_train_잔액정보.parquet')
df2_train = pd.read_parquet('open/train/5.잔액정보/201808_train_잔액정보.parquet')
df3_train = pd.read_parquet('open/train/5.잔액정보/201809_train_잔액정보.parquet')
df4_train = pd.read_parquet('open/train/5.잔액정보/201810_train_잔액정보.parquet')
df5_train = pd.read_parquet('open/train/5.잔액정보/201811_train_잔액정보.parquet')
df6_train = pd.read_parquet('open/train/5.잔액정보/201812_train_잔액정보.parquet')

In [61]:
combined_df = pd.concat([df1_train, df2_train, df3_train, df4_train, df5_train, df6_train], 
                         axis=0,        # 행 방향
                         ignore_index=True)  # 인덱스 초기화

In [63]:
print(combined_df.isna().sum().to_string())

기준년월                       0
ID                         0
잔액_일시불_B0M                 0
잔액_할부_B0M                  0
잔액_현금서비스_B0M               0
잔액_리볼빙일시불이월_B0M            0
잔액_리볼빙CA이월_B0M             0
잔액_카드론_B0M                 0
월중평잔_일시불_B0M               0
월중평잔_할부_B0M                0
월중평잔_CA_B0M                0
카드론잔액_최종경과월                0
연체일자_B0M             2394336
연체잔액_B0M                   0
연체잔액_일시불_B0M               0
연체잔액_할부_B0M                0
연체잔액_현금서비스_B0M             0
연체잔액_카드론_B0M               0
연체잔액_대환론_B0M               0
잔액_현금서비스_B1M               0
잔액_현금서비스_B2M               0
잔액_카드론_B1M                 0
잔액_카드론_B2M                 0
잔액_카드론_B3M                 0
잔액_카드론_B4M                 0
잔액_카드론_B5M                 0
잔액_할부_B1M                  0
잔액_할부_B2M                  0
잔액_일시불_B1M                 0
잔액_일시불_B2M                 0
연체일수_B1M                   0
연체일수_B2M                   0
연체원금_B1M                   0
연체원금_B2M                   0
연체일수_최근       

In [65]:
all_df = combined_df

In [67]:
# 데이터프레임의 컬럼 이름을 리스트에 담는다. 
column_list = all_df.columns.tolist()

In [69]:
for col in column_list:
    try:
        var_value = all_df[col].var()
        print(f"{col}: {var_value:.2f}")
    except TypeError:
        print(f"❌ 분산 계산 불가 (문자열 포함): {col}")

기준년월: 2.92
❌ 분산 계산 불가 (문자열 포함): ID
잔액_일시불_B0M: 41318623.10
잔액_할부_B0M: 10610047.01
잔액_현금서비스_B0M: 13239686.58
잔액_리볼빙일시불이월_B0M: 4765789.02
잔액_리볼빙CA이월_B0M: 169078.21
잔액_카드론_B0M: 136220279.12
월중평잔_일시불_B0M: 50385002.96
월중평잔_할부_B0M: 25834298.20
월중평잔_CA_B0M: 16644408.66
카드론잔액_최종경과월: 0.00
연체일자_B0M: 25902.46
연체잔액_B0M: 81358.66
연체잔액_일시불_B0M: 1918.63
연체잔액_할부_B0M: 6653.29
연체잔액_현금서비스_B0M: 34806.29
연체잔액_카드론_B0M: 4919.21
연체잔액_대환론_B0M: 1876.35
잔액_현금서비스_B1M: 17493635.48
잔액_현금서비스_B2M: 17090472.40
잔액_카드론_B1M: 163221885.21
잔액_카드론_B2M: 167361531.73
잔액_카드론_B3M: 169694501.57
잔액_카드론_B4M: 170834139.42
잔액_카드론_B5M: 174951439.76
잔액_할부_B1M: 28570364.72
잔액_할부_B2M: 32349219.41
잔액_일시불_B1M: 54850890.69
잔액_일시불_B2M: 54880103.89
연체일수_B1M: 102457105802.76
연체일수_B2M: 105880896194.46
연체원금_B1M: 115320.15
연체원금_B2M: 129771.31
연체일수_최근: 15525723595.28
연체원금_최근: 93570.52
최종연체회차: 2180.39
매각잔액_B1M: 909.02
최종연체개월수_R15M: 0.00
RV_평균잔액_R12M: 10115801.80
RV_최대잔액_R12M: 16336593.94
RV_평균잔액_R6M: 6844361.14
RV_최대잔액_R6M: 9734519.88
RV_평균잔액_R3M:

In [71]:
def print_value_counts(df, columns=None, dropna=False):

    if columns is None:
        columns = df.columns.tolist()
    
    for col in columns:
        print(f"\n[🔢 Value Counts for '{col}']\n")
        print(df[col].value_counts(dropna=dropna))

In [73]:
zero_variance_cols  = []
# 각 컬럼별 분산 계산
for col in column_list:
    try:
        var_value = all_df[col].var()
        if var_value == 0:
            zero_variance_cols.append(col)
    except TypeError:
        # 숫자형이 아닌 경우 무시
        pass

# 결과 출력
print("📌 분산이 0인 컬럼:")
for col in zero_variance_cols:
    print(f"{col}")

📌 분산이 0인 컬럼:
카드론잔액_최종경과월
최종연체개월수_R15M
RV잔액이월횟수_R6M
RV잔액이월횟수_R3M
연체잔액_일시불_해외_B0M
연체잔액_RV일시불_해외_B0M
연체잔액_할부_해외_B0M
연체잔액_CA_해외_B0M


In [75]:
print_value_counts(all_df, columns=zero_variance_cols)


[🔢 Value Counts for '카드론잔액_최종경과월']

카드론잔액_최종경과월
0    2400000
Name: count, dtype: int64

[🔢 Value Counts for '최종연체개월수_R15M']

최종연체개월수_R15M
0    2400000
Name: count, dtype: int64

[🔢 Value Counts for 'RV잔액이월횟수_R6M']

RV잔액이월횟수_R6M
0    2400000
Name: count, dtype: int64

[🔢 Value Counts for 'RV잔액이월횟수_R3M']

RV잔액이월횟수_R3M
0    2400000
Name: count, dtype: int64

[🔢 Value Counts for '연체잔액_일시불_해외_B0M']

연체잔액_일시불_해외_B0M
0    2400000
Name: count, dtype: int64

[🔢 Value Counts for '연체잔액_RV일시불_해외_B0M']

연체잔액_RV일시불_해외_B0M
0    2400000
Name: count, dtype: int64

[🔢 Value Counts for '연체잔액_할부_해외_B0M']

연체잔액_할부_해외_B0M
0    2400000
Name: count, dtype: int64

[🔢 Value Counts for '연체잔액_CA_해외_B0M']

연체잔액_CA_해외_B0M
0    2400000
Name: count, dtype: int64


In [None]:
10/0

In [None]:
print(column_list)

In [None]:
column_list = column_list[2:]

In [None]:
print(column_list)

In [None]:
### 컬럼의 정보를 알아보는 함수를 만든다. 

def analyze_column(col):
    # 1. 값의 분포 출력
    print(f"\n[📊 Value Counts for '{col}']\n")
    print(all_df[col].value_counts(dropna=False))  # 결측값도 포함

    # 2. 히스토그램
    print(f"\n[📈 Histogram for '{col}']\n")
    plt.figure(figsize=(10, 4))
    sns.histplot(data=all_df, x=col, kde=True, bins=30)
    plt.title(f"Histogram of {col}")
    plt.xlabel(col)
    plt.ylabel("Frequency")
    plt.grid(True)
    plt.show()

    # 3. 박스플롯
    print(f"\n[📦 Boxplot for '{col}']\n")
    plt.figure(figsize=(10, 2))
    sns.boxplot(data=all_df, x=col)
    plt.title(f"Boxplot of {col}")
    plt.xlabel(col)
    plt.grid(True)
    plt.show()


In [None]:
# 컬럼 하나하나 반복해서 출력하게 해준다.
for a1 in column_list:
    analyze_column(f"{a1}")
    print('-' * 150)
    print('-' * 150)
    print('-' * 150)
    print('-' * 150)