In [4]:
# 경고 메시지 무시
import warnings
warnings.filterwarnings("ignore")

# 한글 폰트 설정 (Matplotlib에서 한글 깨짐 방지)
import matplotlib.pyplot as plt

plt.rc("font", family="NanumGothic")  # Windows 사용자의 경우

# 마이너스 기호 깨짐 방지
plt.rcParams["axes.unicode_minus"] = False

# 기본 라이브러리
import polars as pl
import pandas as pd
import seaborn as sns
import numpy as np

# 시각화용 색상 팔레트
color_palette = sns.color_palette("Set2", as_cmap=False)

# 상품집계_고객집계_클러스터링전 데이터 

In [None]:
CUSTOMER_SCORE = pl.read_csv("C:/Users/campus3S031/Desktop/iMBank/iM_DiGital_Banker_academy/projects/iMBank_pj5/data/CUSTOMER_SCORE_금리.csv")

In [6]:
def aggregate_customer_data(df: pl.DataFrame) -> pl.DataFrame:
    """
    고객 단위로 주요 금융 항목을 집계하여 요약 데이터를 생성합니다.

    처리 내용:
    1. '기준금리', '성별' 컬럼 제거
    2. 고객ID 기준 그룹화 후 다음과 같이 집계:
        - 입출금예금, 기타예금, 비이자상품, 카드, 대출, 총점수: 평균값
        - 거래기간(개월), 연령대: 최대값
        - 보유상품수:
            - 최대_보유상품종류: 최대값
            - 평균_보유상품종류: 평균값을 반올림 후 Int8 형으로 변환

    Parameters:
        df (pl.DataFrame): 원본 고객 월별 데이터

    Returns:
        pl.DataFrame: 고객ID 기준으로 집계된 요약 데이터프레임
    """
    df_dropped = df.drop(["기준금리", "성별"])

    df_agg = (
        df_dropped
        .group_by("고객ID")
        .agg([
            pl.col("입출금예금").mean().alias("평균_입출금예금"),
            pl.col("기타예금").mean().alias("평균_기타예금"),
            pl.col("비이자상품").mean().alias("평균_비이자상품"),
            pl.col("카드").mean().alias("평균_카드"),
            pl.col("대출").mean().alias("평균_대출"),
            pl.col("총점수").mean().alias("평균_총점수"),
            pl.col("거래기간(개월)").max().alias("거래기간(개월)"),
            pl.col("연령대").max().alias("연령대"),
            pl.col("보유상품수").max().alias("최대_보유상품종류"),
            pl.col("보유상품수").mean().round(0).cast(pl.Int8).alias("평균_보유상품종류"),
            pl.col("고객등급").max().alias("최대_고객등급")
        ])
    )
    return df_agg

In [7]:
상품집계_고객집계_클러스터링전 = aggregate_customer_data(CUSTOMER_SCORE)

In [8]:
상품집계_고객집계_클러스터링전.head()

고객ID,평균_입출금예금,평균_기타예금,평균_비이자상품,평균_카드,평균_대출,평균_총점수,거래기간(개월),연령대,최대_보유상품종류,평균_보유상품종류,최대_고객등급
i64,f64,f64,f64,f64,f64,f64,i64,i64,i64,i8,str
7152620614,7012900.0,0.0,0.0,100000.0,0.0,608.0,31,50,2,1,"""일반등급"""
7413041802,3648400.0,0.0,0.0,216451.612903,0.0,358.486022,31,50,2,2,"""일반등급"""
2864040708,325000.0,0.0,0.0,0.0,30929000.0,12439.619048,28,50,2,2,"""일반등급"""
4862016971,2041900.0,16894000.0,0.0,0.0,0.0,813.075269,31,30,2,1,"""일반등급"""
6273376621,312903.225806,0.0,0.0,0.0,0.0,43.806452,31,60,1,1,"""일반등급"""


In [9]:
#상품집계_고객집계_클러스터링전.write_csv('./dataset/상품집계_고객집계_클러스터링전.csv')

# 상품전체_고객집계_클러스터링전
- 코드 상 21년도만 실행, 22, 23년도는 같은 방식으로 진행
- 3개년도 전처리 후, concat하여 상품전체_고객집계_클러스터링전.csv 생성

In [10]:
#CUSTOMER_21_N = pl.read_csv('./dataset/CUSTOMER_21_N.csv')
# CUSTOMER_22_N = pl.read_csv('./dataset/CUSTOMER_22_N.csv')
# CUSTOMER_23_N = pl.read_csv('./dataset/CUSTOMER_23_N.csv')

FileNotFoundError: 지정된 경로를 찾을 수 없습니다. (os error 3): ./dataset/CUSTOMER_21_N.csv

In [23]:
def aggregate_customer_data_all(df: pl.DataFrame) -> pl.DataFrame:
    """
    고객 단위로 주요 금융 항목을 집계하여 요약 데이터를 생성합니다.

    처리 내용:
    1. '기준금리', '성별' 컬럼 제거
    2. 고객ID 기준 그룹화 후 다음과 같이 집계:
        - 입출금예금, 기타예금, 비이자상품, 카드, 대출, 총점수: 평균값
        - 거래기간(개월), 연령대: 최대값
        - 보유상품수:
            - 최대_보유상품종류: 최대값
            - 평균_보유상품종류: 평균값을 반올림 후 Int8 형으로 변환

    Parameters:
        df (pl.DataFrame): 원본 고객 월별 데이터

    Returns:
        pl.DataFrame: 고객ID 기준으로 집계된 요약 데이터프레임
    """

    df_agg = (
        df
        .group_by("고객ID")
        .agg([
            pl.col("수신_요구불예금").mean().alias("평균_수신_요구불금예금"),
            pl.col("수신_거치식예금").mean().alias("평균_수신_거치식예금"),
            pl.col("수신_적립식예금").mean().alias("평균_수신_적립식예금"),
            pl.col("수신_펀드").mean().alias("평균_수신_펀드"),
            pl.col("수신_외화예금").mean().alias("평균_수신_외화예금"),
            pl.col("대출금액").mean().alias("평균_대출금액"),
            pl.col("카드_사용횟수").mean().alias("평균_카드_사용횟수"),
            pl.col("카드_승인금액").mean().alias("평균_카드_승인금액"),
            pl.col("카드_사용여부").mean().alias("평균_카드_사용여부"),
            pl.col("연령대").max().alias("연령대"),
            pl.col("고객등급").max().alias("최대_고객등급"),
            # 클러스터 관련 컬럼 (대표값으로 유지)
            #pl.col("KMeans_DB_KneeLocato_2030").first().alias("KMeans_DB_KneeLocato_2030"),
            #pl.col("중분류").first().alias("중분류")
        ])
    )
    return df_agg

In [24]:
# CUSTOMER_21_N_고객집계 = aggregate_customer_data_all(CUSTOMER_21_N)
# CUSTOMER_22_N_고객집계 = aggregate_customer_data_all(CUSTOMER_22_N)
# CUSTOMER_23_N_고객집계 = aggregate_customer_data_all(CUSTOMER_23_N)

In [None]:
# 상품전체_고객집계_클러스터링전 = pl.concat([CUSTOMER_21_N_고객집계, CUSTOMER_22_N_고객집계, CUSTOMER_23_N_고객집계], how="vertical")

In [None]:
# 상품전체_고객집계_클러스터링전.write_csv('./dataset/상품전체_고객집계_클러스터링전.csv')