In [1]:
import os
import sys

PROJECT_ROOT = os.path.abspath("..") # 상위 폴더의 절대 경로 얻음 
sys.path.insert(0, PROJECT_ROOT) #모듈 경로를 강제로 추가해서 import 에러 방지

In [3]:
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib import rc
from src.config import MART_COLUMNS_PATH, TPS_YN_PATH,VOD_LOG_SAMPLE_PATH
from src.eda_utils import plot_bar
from collections import OrderedDict
rc('font', family='Malgun Gothic')
plt.rcParams['axes.unicode_minus'] = False

In [4]:
# 데이터 로드
user = pd.read_pickle(MART_COLUMNS_PATH)
vod  = pd.read_pickle(TPS_YN_PATH)
log  = pd.read_pickle(VOD_LOG_SAMPLE_PATH)

In [5]:
# 샘플링
user_sample = user.sample(n=100_000, random_state=42)
vod_sample = vod.sample(n=100_000, random_state=42)
log_sample = log.sample(n=100_000, random_state=42)

In [6]:
import pandas as pd

def show_columns_grid(df, df_name):
    print(f"\n===== {df_name} =====")
    
    cols = list(df.columns)
    dtypes = [df[col].dtype for col in cols]
    sample_values = [df[col].dropna().unique()[:3] for col in cols]
    
    summary = pd.DataFrame({
        '컬럼명': cols,
        'dtype': dtypes,
        '샘플값': sample_values
    })
    
    display(summary)

# 적용
for df_name, df in zip(['user_sample', 'vod_sample', 'log_sample'], 
                       [user_sample, vod_sample, log_sample]):
    show_columns_grid(df, df_name)



===== user_sample =====


Unnamed: 0,컬럼명,dtype,샘플값
0,asset_nm,object,"[(SD)(더빙)포켓몬스터 1기 26회, (자막)마술사 오펜 뜻밖의 여행 성역편 0..."
1,asset_prod,category,"['FOD', 'RVOD', 'SVOD'] Categories (3, object)..."
2,category,string[python],"[키즈어린이/만화동산/(SD)(더빙)포켓몬스터1기, 애니메이션/(HD)애니플러스/(..."
3,crt_ymd,datetime64[ns],"[2021-12-09 00:00:00, 2023-05-15 00:00:00, 202..."
4,ct_cl,category,"['키즈', 'TV애니메이션', '기타'] Categories (15, object..."
5,cts_id,object,"[0060CFAB, 00768B30, 00785741]"
6,director,string[python],"[유야마 쿠니히코, 하마나 타카유키, 천영진]"
7,disp_rtm,int32,"[21, 23, 24]"
8,epsd_id,object,"[(SD)(더빙)포켓몬스터1기_26, (자막)마술사 오펜 뜻밖의 여행 성역편_5, ..."
9,epsd_no,Int64,"[26, 5, 43]"



===== vod_sample =====


Unnamed: 0,컬럼명,dtype,샘플값
0,sha2_hash,object,[80a60d465c9b528fc1572258d05cd8ce3d7fe57d27248...
1,SVC_USE_DAYS_GRP,category,"['36개월 이상', '12개월~24개월미만', '6개월~12개월미만'] Categ..."
2,MEDIA_NM_GRP,category,"['UHD', 'HD', '기타'] Categories (3, object): ['..."
3,PROD_NM_GRP,category,"['베이직', '프리미엄', '이코노미'] Categories (6, object)..."
4,PROD_OLD_YN,category,"['N', 'Y'] Categories (2, object): ['N', 'Y']"
5,PROD_ONE_PLUS_YN,category,"['N', 'Y'] Categories (2, object): ['N', 'Y']"
6,AGMT_KIND_NM,category,"['재약정', '약정승계', '신규'] Categories (7, object): ..."
7,STB_RES_1M_YN,category,"['N', 'Y'] Categories (2, object): ['N', 'Y']"
8,SVOD_SCRB_CNT_GRP,category,"['0건', '2건', '1건'] Categories (5, object): ['0..."
9,PAID_CHNL_CNT_GRP,category,"['0건', '1건', '3건 이상'] Categories (5, object): ..."



===== log_sample =====


Unnamed: 0,컬럼명,dtype,샘플값
0,sha2_hash,category,['74b8cfaf8ef5d5a2fd3d7c05e960702dcdb8cc8902c2...
1,asset,category,"['cjc|M5053603LFOJ57458001', 'cjc|M0468468LFOK..."
2,asset_nm,category,"['왜 오수재인가 03회(22/06/10)', '황제를 위하여', '술취한 여직원의..."
3,CT_CL,category,"['TV드라마', '영화', '기타'] Categories (15, object):..."
4,genre_of_ct_cl,category,"['기타', '액션/어드벤쳐', '드라마'] Categories (50, objec..."
5,use_tms,float32,"[3780.0, 161.0, 252.0]"
6,disp_rtm,category,"['01:03', '01:44', '01:01'] Categories (323, o..."
7,strt_dt,datetime64[ns],"[2023-05-06 14:19:06, 2023-01-24 16:23:07, 202..."
8,category,category,"['SBS/(HD)SBS 드라마/왜 오수재인가', '영화/무료영화/액션', '영화월..."


In [13]:
# 구독 유형 지정
def get_sub_type(tv, internet):
    if tv == 1 and internet == 0:
        return 'TV_ONLY'
    elif tv == 1 and internet == 1:
        return 'TV+INTERNET'
    else:
        return None

vod_sample['sub_type'] = vod_sample.apply(lambda x: get_sub_type(x[TV_SUB], x[INTERNET_SUB]), axis=1)

# TV 관련 구독만 필터링
filtered = vod_sample[vod_sample['sub_type'].notnull()]


In [14]:
plot_crosstab(
    vod_sample,        # 샘플 데이터 사용
    "sub_type",         # 컬럼명
    IS_CANCELED,        # 컬럼명
    "../outputs/figures/sub_type_cancel_bar.png",
    "../outputs/tables/sub_type_cancel_crosstab.csv"
)



**가설(H1)**: 연령대에 따라 해지율이 다르다.  

- 관련 변수: `AGE_DECADE`, `IS_AGE_DECADE, IS_CANCELED`

In [15]:
age_cancel_list = [AGE_DECADE,IS_AGE_DECADE,IS_CANCELED]

In [17]:
for col in age_cancel_list:
    print(f"{col}: dtype={vod_sample[col].dtype}, "
          f"missing={vod_sample[col].isna().sum()}, "
          f"unique={vod_sample[col].unique()[:20]}")

AGE_GRP10_p: dtype=category, missing=0, unique=['70대', '60대', '40대', '80대', '50대', '30대', '90대이상', '연령없음', '20대', '10대']
Categories (10, object): ['10대', '20대', '30대', '40대', ..., '70대', '80대', '90대이상', '연령없음']
AGE_GRP10_yn: dtype=category, missing=0, unique=['70대', '60대', '40대', '80대', '50대', '30대', '90대이상', '연령없음', '20대', '10대']
Categories (11, object): ['10대', '10대미만', '20대', '30대', ..., '70대', '80대', '90대이상', '연령없음']
cancel_yn: dtype=category, missing=0, unique=['유지', '해지']
Categories (2, object): ['유지', '해지']


In [18]:
# 1️⃣ category → str
vod_sample[IS_CANCELED] = vod_sample[IS_CANCELED].astype(str)

# 2️⃣ 연령없음 제거
vod_sample = vod_sample[vod_sample[AGE_DECADE] != '연령없음'].copy()

# 3️⃣ '유지', '해지' → 0/1 float 변환
vod_sample[IS_CANCELED] = vod_sample[IS_CANCELED].map({'유지':0, '해지':1})

# 4️⃣ 확인
print(vod_sample[IS_CANCELED].unique())
print(vod_sample[[AGE_DECADE, IS_CANCELED]].head())


[0 1]
       AGE_GRP10_p  cancel_yn
978720         70대          0
300040         60대          0
314349         40대          0
855771         60대          0
603785         70대          0


In [19]:
# 그룹별 해지율 계산
age_cancel_rate = vod_sample.groupby(AGE_DECADE, as_index=False)[IS_CANCELED].mean()
age_cancel_rate.rename(columns={IS_CANCELED:'cancel_rate'}, inplace=True)

print(age_cancel_rate)


  AGE_GRP10_p  cancel_rate
0         10대     0.000000
1         20대     0.142365
2         30대     0.102802
3         40대     0.068744
4         50대     0.063678
5         60대     0.048226
6         70대     0.041929
7         80대     0.059601
8       90대이상     0.087730
9        연령없음          NaN


  age_cancel_rate = vod_sample.groupby(AGE_DECADE, as_index=False)[IS_CANCELED].mean()


In [20]:
boxplot_by_group(
    vod_sample,
    IS_CANCELED,  # 숫자형 컬럼
    AGE_DECADE,   # 그룹(범주형)
    "../outputs/figures/age_cancel_boxplot.png"
)


**가설(H2)**: 마케팅 수신 동의 여부가 해지율과 관련 있다 

- 관련 변수: `EMAIL_RECV_CLS_NM`, `SMS_SEND_CLS_NM`

**EDA 방법**
- 교차표, 막대그래프

In [6]:
h2_marketing_consent_list = ['EMAIL_RECV_CLS_NM','SMS_SEND_CLS_NM']

In [7]:
for col in h2_marketing_consent_list:
    print(f"{col}: dtype={vod_sample[col].dtype}, "
          f"missing={vod_sample[col].isna().sum()}, "
          f"unique={vod_sample[col].unique()[:20]}")

EMAIL_RECV_CLS_NM: dtype=category, missing=0, unique=['수신', '전체거부', '광고거부', '미응답']
Categories (5, object): ['광고거부', '미응답', '수신', '전체거부', '정보없음']
SMS_SEND_CLS_NM: dtype=category, missing=0, unique=['수신', '전체거부', '미응답', '광고거부']
Categories (5, object): ['광고거부', '미응답', '수신', '전체거부', '정보없음']


In [8]:
plot_bar(
    vod_sample,
    "EMAIL_RECV_CLS_NM",
    "cancel_yn",
    "../outputs/figures/EMAIL_cancel.png",
    
)


In [9]:
plot_bar(
    vod_sample,
    "SMS_SEND_CLS_NM",
    "cancel_yn",
    "../outputs/figures/SMS.cancel.png",

)


**가설(H3)**: TV, 디지털, 인터넷 등 서비스 결합 여부가 해지율에 영향을 준다 

- 관련 변수: `TV_SCRB, DIGITAL_SCRB, BUNDLE_YN,IS_CANCELED`

In [7]:
h3_bundle_list = ['TV_SCRB','DIGITAL_SCRB', 'BUNDLE_YN']

In [8]:
for col in h3_bundle_list:
    print(f"{col}: dtype={vod_sample[col].dtype}, "
          f"missing={vod_sample[col].isna().sum()}, "
          f"unique={vod_sample[col].unique()[:20]}")

TV_SCRB: dtype=float32, missing=0, unique=[ 1.  3.  2.  4.  5.  7. 19. 22.  9. 17. 15. 13. 20.  8. 12. 16. 50. 18.
  6. 14.]
DIGITAL_SCRB: dtype=float32, missing=0, unique=[ 1.  3.  2.  4.  5. 19. 22.  9.  7.  6. 15. 13. 20.  8. 12. 16. 50. 18.
 14. 23.]
BUNDLE_YN: dtype=category, missing=0, unique=['Y', 'N']
Categories (2, object): ['N', 'Y']


**가설(H4)**: 계약 종료 예정일/ 종료 여부가 해지에 직접적 영향을 준다 

- 관련 변수: `AGMT_END_YMD_p, AGMT_END_YMD_yn`

In [13]:
h4_agmt_end_list = ['AGMT_END_YMD_p','AGMT_END_YMD_yn']

In [14]:
for col in h4_agmt_end_list:
    print(f"{col}: dtype={vod_sample[col].dtype}, "
          f"missing={vod_sample[col].isna().sum()}, "
          f"unique={vod_sample[col].unique()[:20]}")

AGMT_END_YMD_p: dtype=category, missing=0, unique=['20241223', '20190918', '20260313', '20200528', '20260220', ..., '20190122', '20250818', '20190927', '20241208', '20240906']
Length: 20
Categories (5260, object): ['20070207', '20081214', '20090209', '20090213', ..., '20271222', '20271225', '20271228', '무약정']
AGMT_END_YMD_yn: dtype=category, missing=0, unique=['20241223', '20190918', '20260313', '20200528', '20260220', ..., '20190122', '20250818', '20190927', '20241208', '20240906']
Length: 20
Categories (6632, object): ['20041013', '20070207', '20070510', '20071013', ..., '20271229', '20271230', '무약정', '정보없음']


**가설(H5)**: 최근 1개월 평균 시청 시간이 높을 수록 해지율이 낮다

- 관련 변수: `CH_HH_AVG_MONTH1`

In [20]:
col = 'CH_HH_AVG_MONTH1'

print(f"{col}: dtype={vod_sample[col].dtype}, "
      f"missing={vod_sample[col].isna().sum()}, "
      f"unique={vod_sample[col].unique()[:20]}")


CH_HH_AVG_MONTH1: dtype=float32, missing=0, unique=[ 4.64  8.42  6.65  3.48  7.84  2.89  2.36  4.98  1.94  0.    3.01  2.68
  9.45  5.27  2.23 11.86  1.96  6.92  3.26  2.  ]


**가설(H6)**: 특정 연령 비율 시청이 높으면 해지율이 다르다 

- 관련 변수: `CH_25_RATIO_MONTH1, CH_25_RATIO_MEAN_3MM`

In [23]:
h6_ch25_ratio_list = ['CH_25_RATIO_MONTH1', 'CH_25_RATIO_MEAN_3MM']   

In [24]:
for col in h6_ch25_ratio_list:
    print(f"{col}: dtype={vod_sample[col].dtype}, "
          f"missing={vod_sample[col].isna().sum()}, "
          f"unique={vod_sample[col].unique()[:20]}")

CH_25_RATIO_MONTH1: dtype=float32, missing=0, unique=[ 3.98  0.85  2.76  1.29  2.98  0.    0.03  1.51  0.04 10.38  9.02  2.49
  0.18  0.14  0.26  1.01  0.3   3.49  4.8   0.2 ]
CH_25_RATIO_MEAN_3MM: dtype=float32, missing=0, unique=[ 3.98  0.85  2.76  1.29  2.98  0.    0.03  1.51  0.04 10.38  9.02  2.49
  0.18  0.14  0.26  1.01  0.3   3.49  4.8   0.2 ]


**가설(H7)**: 키즈 콘텐츠 이용량과 해지율의 관계 

- 관련 변수: `KIDS_USE_PV_MONTH1`

In [None]:
h7_col = 'KIDS_USE_PV_MONTH1'

print(f"{col}: dtype={vod_sample[col].dtype}, "
      f"missing={vod_sample[col].isna().sum()}, "
      f"unique={vod_sample[col].unique()[:20]}")


KIDS_USE_PV_MONTH1: dtype=float32, missing=0, unique=[  1.   0.   2.   3.   8.   4.  11.  81.  17.  62.   6.  13. 103.  12.
 132.   5.  10.  14.   9.   7.]


**가설(H8)**: SVOD 가입 수가 많으면 해지율이 낮다 

- 관련 변수: `SVOD_SCRB_CNT_GRP`

In [None]:
h8_col = 'SVOD_SCRB_CNT_GRP'

print(f"{col}: dtype={vod_sample[col].dtype}, "
      f"missing={vod_sample[col].isna().sum()}, "
      f"unique={vod_sample[col].unique()[:20]}")


SVOD_SCRB_CNT_GRP: dtype=category, missing=0, unique=['0건', '2건', '1건', '3건 이상']
Categories (5, object): ['0건', '1건', '2건', '3건 이상', '기타']


**가설(H9)**: Netflix/YouTube 이용 여부가 해지율에 영향을 준다

- 관련 변수: `NFX_USE_YN, YTB_USE_YN`

**가설(H10)**: TV, 디지털, 인터넷 등 서비스 결합 여부가 해지율에 영향을 준다 

- 관련 변수: `TV_SCRB, DIGITAL_SCRB, BUNDLE_YN`

**가설(H11)**: 최근 1개월 VOC 경험 여부가 해지와 관련 있다

- 관련 변수: `VOC_TOTAL_MONTH1_YN, VOC_STOP_CANCEL_MONTH1_YN`

**가설(H12)**: 마지막 시청 후 경과일이 길수록 해지율이 높다

- 관련 변수: `CH_LAST_DAYS_BF_GRP`

In [28]:
h12_col = 'CH_LAST_DAYS_BF_GRP'

print(f"{col}: dtype={vod_sample[col].dtype}, "
      f"missing={vod_sample[col].isna().sum()}, "
      f"unique={vod_sample[col].unique()[:20]}")


CH_LAST_DAYS_BF_GRP: dtype=category, missing=0, unique=['일주일내', '3개월내없음', '일주일전', '3주일전', '2주일전', '4주일전']
Categories (6, object): ['2주일전', '3개월내없음', '3주일전', '4주일전', '일주일내', '일주일전']
