In [1]:
# 1) 기본 라이브러리 임포트
import pandas as pd             
import numpy as np             
import matplotlib.pyplot as plt 
import seaborn as sns           
import math        # 수학 연산 계산
import gc          # 가비지 컬렉션으로 메모리 정리
import re          # 정규 표현식으로 문자열 패턴 처리
from collections import defaultdict  # 기본값 자동 제공하는 딕셔너리 생성

# 2) 경고 메시지 억제
import warnings
warnings.filterwarnings('ignore')   

# 3) 그래프 스타일 설정
sns.set()                           # seaborn 기본 스타일 적용

# 4) matplotlib 그래프 기본 설정
plt.rcParams['font.family'] = 'Malgun Gothic'  # 한글 폰트 설정
# plt.rcParams['font.family'] = 'AppleGothic'  
plt.rcParams['figure.figsize'] = (12, 6)       # 그림 크기 설정 (가로, 세로)
plt.rcParams['font.size'] = 14                 # 폰트 크기 설정
plt.rcParams['axes.unicode_minus'] = False     # 마이너스 기호 깨짐 방지

# 5) 결측치 시각화 라이브러리 임포트
import missingno                          # 결측치 분포를 시각화하는 유틸리티

# 6) 범주형 변수 인코딩 도구 임포트
from sklearn.preprocessing import LabelEncoder  # 레이블 인코딩 클래스

from scipy.stats.mstats import winsorize

### 데이터 병합

In [2]:
# 채널정보 파일 읽기
channel_df = pd.read_parquet('open/concat/2018_채널정보.parquet')

# 회원정보 파일 읽기
member_df  = pd.read_parquet('open/concat/2018_회원정보.parquet')

# 회원정보에서 ID와 Segment 컬럼만 추출
member_seg = member_df[['ID', 'Segment']]

# 중복된 ID 개수 확인
dup_count = member_seg['ID'].duplicated().sum()
print(f'중복된 ID 개수: {dup_count}')

# 중복된 ID를 첫 번째 항목만 남기고 제거
member_seg_unique = member_seg.drop_duplicates(subset='ID', keep='first')
print(f'중복 제거 후 행 수: {len(member_seg_unique)}')

# 채널정보에 Segment 컬럼 병합 (1:1 조인 보장)
df = channel_df.merge(member_seg_unique, on='ID', how='left')

# 결과 확인
print("병합 후 데이터프레임 크기:", df.shape)
print(df.head())

# 병합된 파일 저장
df.to_parquet('2018_채널정보_with_segment.parquet', index=False)

중복된 ID 개수: 2500000
중복 제거 후 행 수: 500000
병합 후 데이터프레임 크기: (3000000, 106)
     기준년월            ID 인입횟수_ARS_R6M 이용메뉴건수_ARS_R6M  인입일수_ARS_R6M  \
0  201807  TRAIN_000000       10회 이상         10회 이상             8   
1  201807  TRAIN_000001        1회 이상          1회 이상             0   
2  201807  TRAIN_000002        1회 이상          1회 이상             1   
3  201807  TRAIN_000003       10회 이상         10회 이상            10   
4  201807  TRAIN_000004        1회 이상          1회 이상             0   

   인입월수_ARS_R6M  인입후경과월_ARS  인입횟수_ARS_B0M  이용메뉴건수_ARS_B0M  인입일수_ARS_B0M  ...  \
0             6           0             2               6             2  ...   
1             0           0             0               0             0  ...   
2             1           0             2               5             1  ...   
3             6           0             2               6             2  ...   
4             0           0             0               0             0  ...   

  당사PAY_방문월수_R6M 당사멤버쉽_방문횟수_B0M  당

In [3]:
# 데이터를 불러온다.
df = pd.read_parquet('2018_채널정보_with_segment.parquet')
df

Unnamed: 0,기준년월,ID,인입횟수_ARS_R6M,이용메뉴건수_ARS_R6M,인입일수_ARS_R6M,인입월수_ARS_R6M,인입후경과월_ARS,인입횟수_ARS_B0M,이용메뉴건수_ARS_B0M,인입일수_ARS_B0M,...,당사PAY_방문월수_R6M,당사멤버쉽_방문횟수_B0M,당사멤버쉽_방문횟수_R6M,당사멤버쉽_방문월수_R6M,OS구분코드,홈페이지_금융건수_R6M,홈페이지_선결제건수_R6M,홈페이지_금융건수_R3M,홈페이지_선결제건수_R3M,Segment
0,201807,TRAIN_000000,10회 이상,10회 이상,8,6,0,2,6,2,...,0,22,221,6,Android,0,0,0,0,D
1,201807,TRAIN_000001,1회 이상,1회 이상,0,0,0,0,0,0,...,0,0,0,0,,0,0,0,0,E
2,201807,TRAIN_000002,1회 이상,1회 이상,1,1,0,2,5,1,...,0,0,0,0,Android,11,6,5,5,C
3,201807,TRAIN_000003,10회 이상,10회 이상,10,6,0,2,6,2,...,0,23,219,6,Android,0,0,0,0,D
4,201807,TRAIN_000004,1회 이상,1회 이상,0,0,0,0,0,0,...,0,0,0,0,Android,0,0,0,0,E
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2999995,201812,TEST_99995,1회 이상,1회 이상,0,0,0,0,0,0,...,0,0,0,0,,0,0,0,0,
2999996,201812,TEST_99996,1회 이상,1회 이상,0,0,0,0,0,0,...,0,0,0,0,,3,7,3,3,
2999997,201812,TEST_99997,1회 이상,1회 이상,0,0,0,0,0,0,...,0,0,0,0,,0,0,0,0,
2999998,201812,TEST_99998,1회 이상,1회 이상,0,0,0,0,0,0,...,0,0,0,0,Android,7,22,4,12,


### 결측치 찾기

In [4]:
# 전체 행 개수 계산
total_rows = len(df)

# 각 컬럼의 결측치 개수 계산
missing_count = df.isna().sum()

# 결측치 비율 계산 (전체 행 대비 %)
missing_pct = (missing_count / total_rows * 100).round(2)

# 결측치 정보 데이터프레임으로 정리
missing_info = pd.DataFrame({
    'missing_count': missing_count,
    'missing_pct': missing_pct
})

# 결측치가 있는 컬럼만 출력
print("\n결측치 정보 (개수 및 전체 대비 비율 %):")
print(missing_info[missing_info['missing_count'] > 0])

# ----------------------------

# 'OS구분코드' 컬럼의 빈도수 계산 (결측 포함)
os_count = df['OS구분코드'].value_counts(dropna=False)

# 각 값의 비율 계산 (전체 행 대비 %)
os_pct = (os_count / total_rows * 100).round(2)

# OS구분코드 정보 데이터프레임으로 정리
os_info = pd.DataFrame({
    'count': os_count,
    'pct': os_pct
})

# OS구분코드 분포 및 비율 출력
print("\nOS구분코드 분포 및 비율 (%):")
print(os_info)


결측치 정보 (개수 및 전체 대비 비율 %):
         missing_count  missing_pct
OS구분코드         2041218        68.04
Segment         600000        20.00

OS구분코드 분포 및 비율 (%):
           count    pct
OS구분코드                 
None     2041218  68.04
Android   743772  24.79
IOS       215010   7.17


### 결측치 비율이 너무 높아 제거하기로 결정

In [5]:
# OS구분코드 컬럼 드롭하여 새로운 DataFrame 생성
df.drop(columns=['OS구분코드'], inplace = True)

# 결과 확인
print("드롭 후 DataFrame shape:", df.shape)

드롭 후 DataFrame shape: (3000000, 105)


### 값이 모두 0인 컬러도 제외

In [6]:
# 전부 0인 컬럼 찾기
zero_cols = [c for c in df.columns if df[c].eq(0).all()]

print("모두 0인 컬럼 (제거 대상):")
print(zero_cols)

# 전부 0인 컬럼 제거
df.drop(columns=zero_cols, inplace = True)

# 4) 결과 확인
print("최종 DataFrame shape:", df.shape)
print("남은 컬럼:", df.columns.tolist())

모두 0인 컬럼 (제거 대상):
['인입횟수_금융_IB_R6M', '인입불만횟수_IB_R6M', '인입불만일수_IB_R6M', '인입불만월수_IB_R6M', '인입불만횟수_IB_B0M', '인입불만일수_IB_B0M', 'IB문의건수_한도_B0M', 'IB문의건수_결제_B0M', 'IB문의건수_할부_B0M', 'IB문의건수_정보변경_B0M', 'IB문의건수_결제일변경_B0M', 'IB문의건수_명세서_B0M', 'IB문의건수_비밀번호_B0M', 'IB문의건수_SMS_B0M', 'IB문의건수_APP_B0M', 'IB문의건수_부대서비스_B0M', 'IB문의건수_포인트_B0M', 'IB문의건수_BL_B0M', 'IB문의건수_분실도난_B0M', 'IB문의건수_CA_B0M', 'IB상담건수_VOC_B0M', 'IB상담건수_VOC민원_B0M', 'IB상담건수_VOC불만_B0M', 'IB상담건수_금감원_B0M', 'IB문의건수_명세서_R6M', 'IB문의건수_APP_R6M', 'IB상담건수_VOC_R6M', 'IB상담건수_VOC민원_R6M', 'IB상담건수_VOC불만_R6M', 'IB상담건수_금감원_R6M', '불만제기건수_B0M', '불만제기건수_R12M', '당사PAY_방문횟수_B0M', '당사PAY_방문횟수_R6M', '당사PAY_방문월수_R6M']
최종 DataFrame shape: (3000000, 70)
남은 컬럼: ['기준년월', 'ID', '인입횟수_ARS_R6M', '이용메뉴건수_ARS_R6M', '인입일수_ARS_R6M', '인입월수_ARS_R6M', '인입후경과월_ARS', '인입횟수_ARS_B0M', '이용메뉴건수_ARS_B0M', '인입일수_ARS_B0M', '방문횟수_PC_R6M', '방문일수_PC_R6M', '방문월수_PC_R6M', '방문후경과월_PC_R6M', '방문횟수_앱_R6M', '방문일수_앱_R6M', '방문월수_앱_R6M', '방문후경과월_앱_R6M', '방문횟수_모바일웹_R6M', '방문일수_모바일웹_R6M', '방문월수_모바일웹_R6

### 숫자+문자 컬럼 숫자로 변환하기

In [7]:
# 숫자와 문자가 섞여 있는 컬럼 리스트 정의
cols_to_clean = [
    '인입횟수_ARS_R6M',
    '이용메뉴건수_ARS_R6M',
    '방문횟수_PC_R6M',
    '방문일수_PC_R6M',
    '방문횟수_앱_R6M'
]

# 각 컬럼을 순회하며 숫자만 남기고 나머지는 제거
for col in cols_to_clean:
    # 컬럼 전체에서 숫자가 아닌(\D+) 모든 문자를 빈 문자열('')로 대체
    # inplace=True 옵션을 주면 df1[col] 자체가 바로 바뀝니다.
    df[col].replace(r'\D+', '', regex=True, inplace=True)
    
    # 문자열로 남아있는 숫자를 정수형으로 변환
    # errors='coerce' 옵션은 숫자로 변환할 수 없는 값(빈 문자열 등)은 NaN으로 처리
    df[col] = pd.to_numeric(df[col], errors='coerce')

In [8]:
# drop 이후, 저장 직전의 컬럼과 0/NaN 컬럼 재확인
zero_cols = [c for c in df.columns if df[c].eq(0).all()]
na_cols   = [c for c in df.columns if df[c].isna().any()]

print("저장 직전 0 전부 컬럼:", zero_cols)
print("저장 직전 NaN 있는 컬럼:", na_cols)
print("저장 직전 전체 컬럼 수:", len(df.columns))

저장 직전 0 전부 컬럼: []
저장 직전 NaN 있는 컬럼: ['Segment']
저장 직전 전체 컬럼 수: 70


In [9]:
# Parquet 파일로 저장
df.to_parquet('채널정보_결측치_제거data.parquet', engine='pyarrow', index=False)

In [10]:
# 저장된 파일 불러와서 확인하기
df2 = pd.read_parquet('채널정보_결측치_제거data.parquet')
zero_after = [c for c in df2.columns if df2[c].eq(0).all()]
na_after   = [c for c in df2.columns if df2[c].isna().any()]

print("로드 후 0 전부 컬럼:", zero_after)
print("로드 후 NaN 있는 컬럼:", na_after)
print("로드 후 전체 컬럼 수:", len(df2.columns))

로드 후 0 전부 컬럼: []
로드 후 NaN 있는 컬럼: ['Segment']
로드 후 전체 컬럼 수: 70


### 이상치 처리 생략
- 대부분의 값이 0에 밀집되어 있어 개별 이상치 제거가 오히려 주요 분포 파악을 방해하므로, 별도의 이상치 필터링 없이 바로 EDA를 진행할 예정