In [1]:
import io
import pandas as pd
import numpy as np

import os

In [26]:
def analyze_dataframe(df, chunk_size=10, print_info=True):
    """
    데이터프레임을 분석하여 정보를 출력하고 null 값이 있는 컬럼 목록을 반환합니다.
    
    Parameters:
    - df: 분석할 pandas 데이터프레임
    - chunk_size: 열 정보를 출력할 때 한 번에 보여줄 열의 개수
    - print_info: 분석 정보를 출력할지 여부
    
    Returns:
    - null_columns: null 값을 포함하는 컬럼 목록
    """
    # null 값이 존재하는 변수를 리스트에 저장
    null_columns = df.columns[df.isnull().any() == True].tolist()
    
    # 정보 출력 여부 확인
    if print_info:
        print("\n데이터프레임 정보:")
        
        # 정보 출력을 위한 버퍼 생성
        buffer = io.StringIO()
        df.info(buf=buffer)
        info_str = buffer.getvalue()
        
        # 정보 문자열을 줄 단위로 분할
        info_lines = info_str.split('\n')
        
        # 헤더 정보 출력
        for line in info_lines[:6]:
            print(line)
        
        # 열 정보를 chunk_size씩 나누어 출력
        column_lines = info_lines[6:-2]
        total_chunks = (len(column_lines) + chunk_size - 1) // chunk_size
        
        for i in range(total_chunks):
            start_idx = i * chunk_size
            end_idx = min((i + 1) * chunk_size, len(column_lines))
            
            print("\n열 %d에서 %d까지:" % (start_idx, end_idx-1))
            for j in range(start_idx, end_idx):
                print(column_lines[j])
        
        # 푸터 정보 출력
        for line in info_lines[-2:]:
            print("\n" + line)
        
        # null 값이 있는 컬럼 출력
        print("\n\nNull 값이 존재하는 변수:")
        print(null_columns)
    
    return null_columns


In [20]:
# Replace 'your_file.parquet' with the actual path to your parquet file
menber07 = pd.read_parquet('../data/train/1.회원정보/201807_train_회원정보.parquet')
credit07 = pd.read_parquet('../data/train/2.신용정보/201807_train_신용정보.parquet')
sales07 = pd.read_parquet('../data/train/3.승인매출정보/201807_train_승인매출정보.parquet')
claim07 = pd.read_parquet('../data/train/4.청구입금정보/201807_train_청구정보.parquet')
balance07 = pd.read_parquet('../data/train/5.잔액정보/201807_train_잔액정보.parquet')
channel07 = pd.read_parquet('../data/train/6.채널정보/201807_train_채널정보.parquet')
marketing07 = pd.read_parquet('../data/train/7.마케팅정보/201807_train_마케팅정보.parquet')
performance07 = pd.read_parquet('../data/train/8.성과정보/201807_train_성과정보.parquet')

In [29]:
# 8개의 데이터 프레임에 대하여 컬럼리스트와 널값이 있는 컬럼리스트를 저장
menber07_columns = menber07.columns.tolist()
credit07_columns = credit07.columns.tolist()
sales07_columns = sales07.columns.tolist()
claim07_columns = claim07.columns.tolist()
balance07_columns = balance07.columns.tolist()
channel07_columns = channel07.columns.tolist()
marketing07_columns = marketing07.columns.tolist()
performance07_columns = performance07.columns.tolist()
# 8개의 데이터 프레임에 대하여 널값이 있는 컬럼리스트 저장
menber07_null_columns = analyze_dataframe(menber07, print_info=False)
credit07_null_columns = analyze_dataframe(credit07, print_info=False)
sales07_null_columns = analyze_dataframe(sales07, print_info=False)
claim07_null_columns = analyze_dataframe(claim07, print_info=False)
balance07_null_columns = analyze_dataframe(balance07, print_info=False)
channel07_null_columns = analyze_dataframe(channel07, print_info=False)
marketing07_null_columns = analyze_dataframe(marketing07, print_info=False)
performance07_null_columns = analyze_dataframe(performance07, print_info=False)


In [30]:

# 출력
print("회원정보 컬럼 리스트:")
print(len(menber07_columns))
print(menber07_columns)
print("\n회원정보 null 컬럼 리스트:")
print(len(menber07_null_columns))
print(menber07_null_columns)

print("\n신용정보 컬럼 리스트:")
print(len(credit07_columns))
print(credit07_columns)
print("\n신용정보 null 컬럼 리스트:")
print(len(credit07_null_columns))
print(credit07_null_columns)

print("\n승인매출정보 컬럼 리스트:")
print(len(sales07_columns))
print(sales07_columns[:70])  # 컬럼이 많으므로 일부만 출력
print("...(총 %d개 컬럼)" % len(sales07_columns))
print("\n승인매출정보 null 컬럼 리스트:")
print(len(sales07_null_columns))
print(sales07_null_columns)

print("\n청구입금정보 컬럼 리스트:")
print(len(claim07_columns))
print(claim07_columns)
print("\n청구입금정보 null 컬럼 리스트:")
print(len(claim07_null_columns))
print(claim07_null_columns)

print("\n잔액정보 컬럼 리스트:")
print(len(balance07_columns))
print(balance07_columns)
print("\n잔액정보 null 컬럼 리스트:")
print(len(balance07_null_columns))
print(balance07_null_columns)

print("\n채널정보 컬럼 리스트:")
print(len(channel07_columns))
print(channel07_columns)
print("\n채널정보 null 컬럼 리스트:")
print(len(channel07_null_columns))
print(channel07_null_columns)

print("\n마케팅정보 컬럼 리스트:")
print(len(marketing07_columns))
print(marketing07_columns)
print("\n마케팅정보 null 컬럼 리스트:")
print(len(marketing07_null_columns))
print(marketing07_null_columns)

print("\n성과정보 컬럼 리스트:")
print(len(performance07_columns))
print(performance07_columns)
print("\n성과정보 null 컬럼 리스트:")
print(len(performance07_null_columns))
print(performance07_null_columns)



회원정보 컬럼 리스트:
78
['기준년월', 'ID', '남녀구분코드', '연령', 'Segment', '회원여부_이용가능', '회원여부_이용가능_CA', '회원여부_이용가능_카드론', '소지여부_신용', '소지카드수_유효_신용', '소지카드수_이용가능_신용', '입회일자_신용', '입회경과개월수_신용', '회원여부_연체', '이용거절여부_카드론', '동의여부_한도증액안내', '수신거부여부_TM', '수신거부여부_DM', '수신거부여부_메일', '수신거부여부_SMS', '가입통신회사코드', '탈회횟수_누적', '최종탈회후경과월', '탈회횟수_발급6개월이내', '탈회횟수_발급1년이내', '거주시도명', '직장시도명', '마케팅동의여부', '유효카드수_신용체크', '유효카드수_신용', '유효카드수_신용_가족', '유효카드수_체크', '유효카드수_체크_가족', '이용가능카드수_신용체크', '이용가능카드수_신용', '이용가능카드수_신용_가족', '이용가능카드수_체크', '이용가능카드수_체크_가족', '이용카드수_신용체크', '이용카드수_신용', '이용카드수_신용_가족', '이용카드수_체크', '이용카드수_체크_가족', '이용금액_R3M_신용체크', '이용금액_R3M_신용', '이용금액_R3M_신용_가족', '이용금액_R3M_체크', '이용금액_R3M_체크_가족', '_1순위카드이용금액', '_1순위카드이용건수', '_1순위신용체크구분', '_2순위카드이용금액', '_2순위카드이용건수', '_2순위신용체크구분', '최종유효년월_신용_이용가능', '최종유효년월_신용_이용', '최종카드발급일자', '보유여부_해외겸용_본인', '이용가능여부_해외겸용_본인', '이용여부_3M_해외겸용_본인', '보유여부_해외겸용_신용_본인', '이용가능여부_해외겸용_신용_본인', '이용여부_3M_해외겸용_신용_본인', '연회비발생카드수_B0M', '연회비할인카드수_B0M', '기본연회비_B0M', '제휴연회비_B0M', '할인금액_기본연회비_B0M', '할인금액_제휴연회비_B0M', '청구금

In [23]:
# Segment의 unique 값 출력
print("Segment의 unique 값:")
print(menber07['Segment'].unique())

Segment의 unique 값:
['D' 'E' 'C' 'A' 'B']


# EDA

In [2]:
os.getcwd()

'c:\\Users\\erich\\Desktop\\HYU\\신용카드 고객 세그먼트 분류 공모전\\eda'

In [3]:
customer = pd.read_parquet("../data/train/1.회원정보/201807_train_회원정보.parquet")
customer.columns

Index(['기준년월', 'ID', '남녀구분코드', '연령', 'Segment', '회원여부_이용가능', '회원여부_이용가능_CA',
       '회원여부_이용가능_카드론', '소지여부_신용', '소지카드수_유효_신용', '소지카드수_이용가능_신용', '입회일자_신용',
       '입회경과개월수_신용', '회원여부_연체', '이용거절여부_카드론', '동의여부_한도증액안내', '수신거부여부_TM',
       '수신거부여부_DM', '수신거부여부_메일', '수신거부여부_SMS', '가입통신회사코드', '탈회횟수_누적',
       '최종탈회후경과월', '탈회횟수_발급6개월이내', '탈회횟수_발급1년이내', '거주시도명', '직장시도명', '마케팅동의여부',
       '유효카드수_신용체크', '유효카드수_신용', '유효카드수_신용_가족', '유효카드수_체크', '유효카드수_체크_가족',
       '이용가능카드수_신용체크', '이용가능카드수_신용', '이용가능카드수_신용_가족', '이용가능카드수_체크',
       '이용가능카드수_체크_가족', '이용카드수_신용체크', '이용카드수_신용', '이용카드수_신용_가족', '이용카드수_체크',
       '이용카드수_체크_가족', '이용금액_R3M_신용체크', '이용금액_R3M_신용', '이용금액_R3M_신용_가족',
       '이용금액_R3M_체크', '이용금액_R3M_체크_가족', '_1순위카드이용금액', '_1순위카드이용건수',
       '_1순위신용체크구분', '_2순위카드이용금액', '_2순위카드이용건수', '_2순위신용체크구분',
       '최종유효년월_신용_이용가능', '최종유효년월_신용_이용', '최종카드발급일자', '보유여부_해외겸용_본인',
       '이용가능여부_해외겸용_본인', '이용여부_3M_해외겸용_본인', '보유여부_해외겸용_신용_본인',
       '이용가능여부_해외겸용_신용_본인', '이용여부_3M_해외겸용_신용_본인', '연회비발생카드수_B0M',
 

### Segment 인원 수 확인

In [4]:
customer["Segment"].value_counts()

Segment
E    320342
D     58207
C     21265
A       162
B        24
Name: count, dtype: int64

뭔가 E가 제일 일반인들을 모아놓은 것 같음.

또한 클래스 별 비율 차이가 심하기 때문에, 오버샘플링 또는 언더샘플링을 통해 비율을 어느정도는 맞춰줄 필요가 있어보임

### 그룹 별 EDA

### 이용가능 여부

In [6]:
customer.groupby("Segment")['회원여부_이용가능'].sum()

Segment
A       162
B        24
C     21114
D     57642
E    303878
Name: 회원여부_이용가능, dtype: int64

A, B는 전부 이용가능 했음.

뭔진 모르겠지만...

In [6]:
customer.groupby("Segment")['회원여부_이용가능_CA'].sum()

Segment
A       160
B        23
C     20147
D     54775
E    279951
Name: 회원여부_이용가능_CA, dtype: int64

CA의 경우 차이가 더 큼.

A, B에서는 빠지는 사람이 그렇게 많지 않은 것으로 보아

뭔가 VIP라고 추정 됨.

In [9]:
customer.groupby("Segment")["회원여부_이용가능_카드론"].sum()

Segment
A        99
B         9
C     12785
D     35173
E    196942
Name: 회원여부_이용가능_카드론, dtype: int64

In [12]:
회원여부_이용가능 = customer.groupby("Segment").agg({
    "회원여부_이용가능" : ['sum', 'mean'],
    "회원여부_이용가능_CA" : ['sum', 'mean'],
    "회원여부_이용가능_카드론" : ['sum', 'mean']
})

회원여부_이용가능.columns = ["-".join(col) for col in 회원여부_이용가능.columns]

segment_count = customer.groupby("Segment").size().to_frame("회원 수")

회원여부_이용가능.join(segment_count)

Unnamed: 0_level_0,회원여부_이용가능-sum,회원여부_이용가능-mean,회원여부_이용가능_CA-sum,회원여부_이용가능_CA-mean,회원여부_이용가능_카드론-sum,회원여부_이용가능_카드론-mean,회원 수
Segment,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
A,162,1.0,160,0.987654,99,0.611111,162
B,24,1.0,23,0.958333,9,0.375,24
C,21114,0.992899,20147,0.947425,12785,0.601223,21265
D,57642,0.990293,54775,0.941038,35173,0.604274,58207
E,303878,0.948605,279951,0.873913,196942,0.614787,320342


### 소지 여부

### 수신 거부 여부, 마케팅 동의 여부

In [16]:
customer.groupby("Segment").agg({
    "수신거부여부_TM" : ["sum", "mean"],
    "수신거부여부_DM" : ["sum", "mean"],
    "수신거부여부_메일" : ["sum", "mean"],
    "수신거부여부_SMS" : ["sum", "mean"],
    "마케팅동의여부" : ["sum", "mean"]
})

Unnamed: 0_level_0,수신거부여부_TM,수신거부여부_TM,수신거부여부_DM,수신거부여부_DM,수신거부여부_메일,수신거부여부_메일,수신거부여부_SMS,수신거부여부_SMS,마케팅동의여부,마케팅동의여부
Unnamed: 0_level_1,sum,mean,sum,mean,sum,mean,sum,mean,sum,mean
Segment,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
A,85,0.524691,70,0.432099,75,0.462963,90,0.555556,123,0.759259
B,10,0.416667,7,0.291667,8,0.333333,10,0.416667,21,0.875
C,10279,0.483376,9087,0.427322,9234,0.434235,10390,0.488596,16129,0.758476
D,26333,0.452403,23119,0.397186,23409,0.402168,26329,0.452334,45447,0.780782
E,105341,0.328839,90533,0.282614,91693,0.286235,110896,0.34618,262757,0.820239


이건 뭐 큰 의미가 없는 듯?

In [17]:
customer.columns

Index(['기준년월', 'ID', '남녀구분코드', '연령', 'Segment', '회원여부_이용가능', '회원여부_이용가능_CA',
       '회원여부_이용가능_카드론', '소지여부_신용', '소지카드수_유효_신용', '소지카드수_이용가능_신용', '입회일자_신용',
       '입회경과개월수_신용', '회원여부_연체', '이용거절여부_카드론', '동의여부_한도증액안내', '수신거부여부_TM',
       '수신거부여부_DM', '수신거부여부_메일', '수신거부여부_SMS', '가입통신회사코드', '탈회횟수_누적',
       '최종탈회후경과월', '탈회횟수_발급6개월이내', '탈회횟수_발급1년이내', '거주시도명', '직장시도명', '마케팅동의여부',
       '유효카드수_신용체크', '유효카드수_신용', '유효카드수_신용_가족', '유효카드수_체크', '유효카드수_체크_가족',
       '이용가능카드수_신용체크', '이용가능카드수_신용', '이용가능카드수_신용_가족', '이용가능카드수_체크',
       '이용가능카드수_체크_가족', '이용카드수_신용체크', '이용카드수_신용', '이용카드수_신용_가족', '이용카드수_체크',
       '이용카드수_체크_가족', '이용금액_R3M_신용체크', '이용금액_R3M_신용', '이용금액_R3M_신용_가족',
       '이용금액_R3M_체크', '이용금액_R3M_체크_가족', '_1순위카드이용금액', '_1순위카드이용건수',
       '_1순위신용체크구분', '_2순위카드이용금액', '_2순위카드이용건수', '_2순위신용체크구분',
       '최종유효년월_신용_이용가능', '최종유효년월_신용_이용', '최종카드발급일자', '보유여부_해외겸용_본인',
       '이용가능여부_해외겸용_본인', '이용여부_3M_해외겸용_본인', '보유여부_해외겸용_신용_본인',
       '이용가능여부_해외겸용_신용_본인', '이용여부_3M_해외겸용_신용_본인', '연회비발생카드수_B0M',
 

### 가입통신회사코드

이건 의미가 없을 것으로보임.

왜냐면 내가 생각하기에 segment를 나누어둔 기준이 있을 것이고, 그 기준은 금융과 관련된 기준일 것 같음.

근데 통신사는 의미가 크게 없을 것 같음.

In [18]:
customer.groupby("Segment")["가입통신회사코드"].value_counts()

Segment  가입통신회사코드
A        S사              85
         K사              53
         L사              12
B        S사              16
         K사               5
         L사               2
C        S사           11150
         K사            4678
         L사            2897
D        S사           27310
         K사           12539
         L사            9264
E        S사          126602
         K사           75286
         L사           62737
Name: count, dtype: int64