In [21]:
%%writefile module/myApp3.py
import streamlit as st
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.ndimage import gaussian_filter

st.set_page_config(layout="wide")
st.title("Screen 2: Retention & Magic Moment (Survival-based)")

# -----------------------------
# 1. 데이터 로드
# -----------------------------
df = pd.read_csv("data/Subscription_Service_Churn_Dataset.csv")

# AccountAge = 총 사용 개월 수
df['tenure_months'] = df['AccountAge']


# 장기 유지 여부 (6개월 이상)
df['long_term'] = df['tenure_months'] >= 6

# -----------------------------
# 2. Survival Cohort Heatmap
# (AccountAge 기반)
# -----------------------------

# 가입 연차 코호트 (0~3, 4~6, 7~12, 12+)
df['cohort_group'] = pd.cut(
    df['tenure_months'],
    bins=[0,3,6,12,24,100],
    labels=['0-3m','4-6m','7-12m','1-2y','2y+']
)

cohort_data = (
    df.groupby(['cohort_group','tenure_months'])['CustomerID']
    .nunique()
    .reset_index()
)

cohort_pivot = cohort_data.pivot(
    index='cohort_group',
    columns='tenure_months',
    values='CustomerID'
)

cohort_size = cohort_pivot.iloc[:,0]
retention = cohort_pivot.divide(cohort_size, axis=0)
retention = retention.iloc[::-1]
retention_smooth = gaussian_filter(retention.values, sigma=1)

fig1, ax1 = plt.subplots(figsize=(14,7))
sns.heatmap(
    retention,
    cmap="viridis",
    vmin=0,
    vmax=1,
    ax=ax1,
    cbar_kws={'label': 'Survival Probability'}
)
ax1.set_title(" Survival Heatmap (AccountAge based)")
ax1.set_xlabel("Months Since Signup")
ax1.set_ylabel("Account Age Cohort")

ax1.set_xticklabels(ax1.get_xticklabels(), rotation=0)
ax1.set_yticklabels(ax1.get_yticklabels(), rotation=0)

xticks = np.arange(0, retention.shape[1], 6)
ax1.set_xticks(xticks)
ax1.set_xticklabels(xticks)

st.pyplot(fig1)

# -----------------------------
# 3. Magic Moment Scatter
# -----------------------------
df['weekly_hours'] = df['ViewingHoursPerWeek']
df['tenure_months'] = df['AccountAge']

fig2, ax2 = plt.subplots(figsize=(10,6))
sns.scatterplot(
    data=df,
    x='weekly_hours',
    y='tenure_months',
    hue='long_term',
    alpha=0.6,
    ax=ax2
)

ax2.axvline(10, linestyle='--')
ax2.axhline(6, linestyle='--')
ax2.set_title("Magic Moment: Weekly Viewing vs Survival")
ax2.set_xlabel("Viewing Hours Per Week")
ax2.set_ylabel("Account Age (Months)")

st.pyplot(fig2)

# -----------------------------
# 4. Magic Moment 정량화
# -----------------------------
# Engagement Score 생성
df['engagement_score'] = (
    df['ViewingHoursPerWeek'] * 0.4 +
    df['ContentDownloadsPerMonth'] * 0.3 +
    df['WatchlistSize'] * 0.2 +
    df['UserRating'] * 0.1
)

# 상위 25%를 Magic Group으로 정의
threshold = df['engagement_score'].quantile(0.75)

df['magic_user'] = df['engagement_score'] >= threshold
df['long_term'] = df['AccountAge'] >= 6

baseline = df['long_term'].mean()
magic_prob = df[df['magic_user']]['long_term'].mean()
lift = magic_prob - baseline

threshold = 10
magic_users = df[df['weekly_hours'] >= threshold]

prob = magic_users['long_term'].mean()
baseline = df['long_term'].mean()
lift = prob - baseline

st.metric("전체 평균 6개월 유지율", f"{baseline*100:.1f}%")
st.metric("주 10시간 이상 시청 유지율", f"{prob*100:.1f}%")
st.metric("Lift 효과", f"+{lift*100:.1f}%p")

st.markdown(f"""
### Insight 

주당 {threshold}시간 이상 콘텐츠를 시청하는 이용자는  
전체 평균 대비 **{lift*100:.1f}%p 확률**로  
6개월 이상 장기 사용자로 유지되었다.  

이는 **콘텐츠 소비 강도(Viewing Intensity)** 가  
구독 서비스의 생존기간을 설명하는  
핵심 행동 지표(Magic Moment)임을 시사한다.
""")


Overwriting module/myApp3.py


In [10]:
print(df.columns)

Index(['AccountAge', 'MonthlyCharges', 'TotalCharges', 'SubscriptionType',
       'PaymentMethod', 'PaperlessBilling', 'ContentType', 'MultiDeviceAccess',
       'DeviceRegistered', 'ViewingHoursPerWeek', 'AverageViewingDuration',
       'ContentDownloadsPerMonth', 'GenrePreference', 'UserRating',
       'SupportTicketsPerMonth', 'Gender', 'WatchlistSize', 'ParentalControl',
       'SubtitlesEnabled', 'CustomerID', 'Churn'],
      dtype='object')


In [23]:
%%writefile module/myApp3.py
import streamlit as st
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.ndimage import gaussian_filter

st.set_page_config(layout="wide")
st.title("Screen 2: \n  Retention & Magic Moment (Survival-based)")

# -----------------------------
# 1. 데이터 로드
# -----------------------------
df = pd.read_csv("data/Subscription_Service_Churn_Dataset.csv")

# AccountAge = 총 사용 개월 수
df['tenure_months'] = df['AccountAge']


# 장기 유지 여부 (6개월 이상)
df['long_term'] = df['tenure_months'] >= 6

# -----------------------------
# 2. Survival Cohort Heatmap
# (AccountAge 기반)
# -----------------------------

# 가입 연차 코호트 (0~3, 4~6, 7~12, 12+)
df['cohort_group'] = pd.cut(
    df['tenure_months'],
    bins=[0,3,6,12,24,100],
    labels=['0-3m','4-6m','7-12m','1-2y','2y+']
)

cohort_data = (
    df.groupby(['cohort_group','tenure_months'])['CustomerID']
    .nunique()
    .reset_index()
)

cohort_pivot = cohort_data.pivot(
    index='cohort_group',
    columns='tenure_months',
    values='CustomerID'
)

cohort_size = cohort_pivot.iloc[:,0]
retention = cohort_pivot.divide(cohort_size, axis=0)
retention = retention.iloc[::-1]
retention_smooth = gaussian_filter(retention.values, sigma=1)

fig1, ax1 = plt.subplots(figsize=(14,7))
sns.heatmap(
    retention,
    cmap="viridis",
    vmin=0,
    vmax=1,
    ax=ax1,
    cbar_kws={'label': 'Survival Probability'}
)
ax1.set_title(" Survival Heatmap (AccountAge based)")
ax1.set_xlabel("Months Since Signup")
ax1.set_ylabel("Account Age Cohort")

ax1.set_xticklabels(ax1.get_xticklabels(), rotation=0)
ax1.set_yticklabels(ax1.get_yticklabels(), rotation=0)

xticks = np.arange(0, retention.shape[1], 6)
ax1.set_xticks(xticks)
ax1.set_xticklabels(xticks)

st.pyplot(fig1)

# -----------------------------
# 3. Magic Moment Scatter
# -----------------------------
df['weekly_hours'] = df['ViewingHoursPerWeek']
df['tenure_months'] = df['AccountAge']

fig2, ax2 = plt.subplots(figsize=(10,6))
sns.scatterplot(
    data=df,
    x='weekly_hours',
    y='tenure_months',
    hue='long_term',
    alpha=0.6,
    ax=ax2
)

ax2.axvline(10, linestyle='--')
ax2.axhline(6, linestyle='--')
ax2.set_title("Magic Moment: Weekly Viewing vs Survival")
ax2.set_xlabel("Viewing Hours Per Week")
ax2.set_ylabel("Account Age (Months)")

st.pyplot(fig2)

# -----------------------------
# 4. Magic Moment 정량화
# -----------------------------
# Engagement Score 생성
df['engagement_score'] = (
    df['ViewingHoursPerWeek'] * 0.4 +
    df['ContentDownloadsPerMonth'] * 0.3 +
    df['WatchlistSize'] * 0.2 +
    df['UserRating'] * 0.1
)

# 상위 25%를 Magic Group으로 정의
threshold = df['engagement_score'].quantile(0.75)

df['magic_user'] = df['engagement_score'] >= threshold
df['long_term'] = df['AccountAge'] >= 6

baseline = df['long_term'].mean()
magic_prob = df[df['magic_user']]['long_term'].mean()
lift = magic_prob - baseline

threshold = 10
magic_users = df[df['weekly_hours'] >= threshold]

prob = magic_users['long_term'].mean()
baseline = df['long_term'].mean()
lift = prob - baseline

st.metric("전체 평균 6개월 유지율", f"{baseline*100:.1f}%")
st.metric("주 10시간 이상 시청 유지율", f"{prob*100:.1f}%")
st.metric("Lift 효과", f"+{lift*100:.1f}%p")

st.markdown(f"""
### Insight 

주당 {threshold}시간 이상 콘텐츠를 시청하는 이용자는  
전체 평균 대비 **{lift*100:.1f}%p 확률**로  
6개월 이상 장기 사용자로 유지되었다.  

이는 **콘텐츠 소비 강도(Viewing Intensity)** 가  
구독 서비스의 생존기간을 설명하는  
핵심 행동 지표(Magic Moment)임을 시사한다.
""")

st.header(" Churn Drivers")

features = [
    'ViewingHoursPerWeek',
    'SupportTicketsPerMonth',
    'MonthlyCharges',
    'ContentDownloadsPerMonth',
    'WatchlistSize'
]

corr = df[features + ['Churn']].corr()

fig3, ax3 = plt.subplots(figsize=(8,6))
sns.heatmap(corr, annot=True, cmap="coolwarm", ax=ax3)
ax3.set_title("Correlation with Churn")

st.pyplot(fig3)

st.markdown("""
### Insight
SupportTickets와 MonthlyCharges는 Churn과 양의 상관을,  
ViewingHours와 WatchlistSize는 음의 상관을 보인다.  
이는 서비스 불만도와 비용 부담이 이탈을 증가시키는 반면,  
콘텐츠 몰입도는 이탈을 억제하는 요인임을 시사한다.
""")

from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

st.header(" User Segmentation")

seg_features = df[
    ['ViewingHoursPerWeek','WatchlistSize',
     'ContentDownloadsPerMonth','SupportTicketsPerMonth']
]

X = StandardScaler().fit_transform(seg_features)
kmeans = KMeans(n_clusters=4, random_state=42)
df['segment'] = kmeans.fit_predict(X)

fig4, ax4 = plt.subplots(figsize=(8,6))
sns.scatterplot(
    data=df,
    x='ViewingHoursPerWeek',
    y='WatchlistSize',
    hue='segment',
    palette='tab10',
    ax=ax4
)

ax4.set_title("User Segments by Behavior")
st.pyplot(fig4)

st.markdown("""
### Segment Interpretation
- Segment 0: Heavy Users (high watch, large watchlist)  
- Segment 1: Casual Users  
- Segment 2: High Support Demand  
- Segment 3: Low Engagement  

이는 사용자 행동이 최소 4개의 구조적 유형으로 분화됨을 보여준다.
""")



Overwriting module/myApp3.py


In [3]:
%%writefile module/myApp3.py
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm
import os

# 한글 폰트 설정 (Windows)
font_path = "C:/Windows/Fonts/malgun.ttf"
font_name = fm.FontProperties(fname=font_path).get_name()
plt.rc('font', family=font_name)

# 마이너스 깨짐 방지
plt.rcParams['axes.unicode_minus'] = False

import streamlit as st
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from lifelines import KaplanMeierFitter

st.set_page_config(layout="wide")
st.title("OTT Churn Analysis: 현황 → 원인 → 전략")

# =========================
# 1. 데이터 로드
# =========================
df = pd.read_csv("data/Subscription_Service_Churn_Dataset.csv")

# 핵심 변수
df['tenure'] = df['AccountAge']
df['churn'] = df['Churn']
df['long_term'] = df['tenure'] >= 6

# =========================
# A. 현황: 3개월 이탈 패턴
# =========================
st.header("1. 현황: 가입 후 3개월 이탈 급증")

kmf = KaplanMeierFitter()
kmf.fit(df['tenure'], event_observed=df['churn'])

fig1, ax1 = plt.subplots(figsize=(7,5))
kmf.plot_survival_function(ax=ax1)
ax1.axvline(3, color='red', linestyle='--')
ax1.set_title("Survival Curve (Churn over Time)")
ax1.set_xlabel("Months")
ax1.set_ylabel("Survival Probability")
st.pyplot(fig1)

st.markdown("""
**해석**  
가입 후 약 **3개월 시점에서 생존 확률이 급격히 감소**.  
→ 대부분의 이탈은 *초기 3개월 내* 발생.
""")

# =========================
# B. 원인 1: 내부 행동 요인
# =========================
st.header("2-1. 내부 원인: 행동 패턴")

df['user_type'] = np.where(
    df['ViewingHoursPerWeek'] >= df['ViewingHoursPerWeek'].median(),
    'Heavy User', 'Light User'
)

fig2, ax2 = plt.subplots(figsize=(7,5))
sns.lineplot(
    data=df,
    x='tenure',
    y='ViewingHoursPerWeek',
    hue='user_type',
    estimator='mean',
    ax=ax2
)
ax2.set_title("Customer Journey: Heavy vs Light")
ax2.set_xlabel("Account Age (Months)")
ax2.set_ylabel("Viewing Hours / Week")
st.pyplot(fig2)

st.markdown("""
**해석**  
Light User는 **2~3개월부터 시청량 급락 → churn**.  
Heavy User는 시청 유지 → 생존.
""")

# =========================
# B. 원인 2: 외부 구조 요인 (PDF 기반)
# =========================
st.header("2-2. 외부 원인: 시장 구조 (PDF)")

market_df = pd.DataFrame({
    'Reason': ['볼 콘텐츠 부족', '스포츠/라이브 부재', '가격 부담'],
    'Percent': [44, 64, 53]
})

fig3, ax3 = plt.subplots(figsize=(7,5))
sns.barplot(data=market_df, x='Reason', y='Percent', ax=ax3)
ax3.set_title("Why Users Churn (Market Survey)")
ax3.set_ylabel("응답 비율 (%)")
st.pyplot(fig3)

st.markdown("""
**해석**  
넷플릭스는 **스포츠/라이브 콘텐츠 부재** → 구조적 약점.  
가격 부담도 주요 이탈 요인.
""")

# =========================
# C. 전략 1: 3개월 무료권 효과
# =========================
st.header("3-1. 전략: 3개월차 무료권 개입")

baseline = df['long_term'].mean()

# 가정: 3개월에 무료권 제공 시 churn 20% 감소
improved_prob = baseline + 0.20

fig4, ax4 = plt.subplots(figsize=(5,4))
ax4.bar(['기존', '무료권 개입'], [baseline, improved_prob])
ax4.set_ylim(0,1)
ax4.set_title("Retention Improvement Simulation")
ax4.set_ylabel("6개월 생존 확률")
st.pyplot(fig4)

# =========================
# C. 전략 2: 스포츠 도입 효과
# =========================
st.header("3-2. 전략: 스포츠/라이브 도입")

sports_df = pd.DataFrame({
    'Service': ['Netflix', 'Tving', 'Coupang Play'],
    'LiveContent': [0, 1, 1]
})

fig5, ax5 = plt.subplots(figsize=(5,4))
sns.barplot(data=sports_df, x='Service', y='LiveContent', ax=ax5)
ax5.set_title("Live Content Availability")
ax5.set_ylabel("Live 제공 여부")
st.pyplot(fig5)

st.markdown("""
**해석**  
경쟁사 대비 Netflix는 **라이브 콘텐츠 구조적으로 불리**.  
→ 스포츠 도입은 churn 감소의 구조적 전략.
""")

# =========================
# C. 전략 3: 결합상품 효과
# =========================
st.header("3-3. 전략: 결합상품")

bundle_df = pd.DataFrame({
    '구독 개수': ['1개', '2개', '3개 이상'],
    '비율': [28, 45, 27]
})

fig6, ax6 = plt.subplots(figsize=(5,4))
ax6.pie(bundle_df['비율'], labels=bundle_df['구독 개수'], autopct='%1.0f%%')
ax6.set_title("Multi-OTT Subscription")
st.pyplot(fig6)

st.markdown("""
**해석**  
대다수 사용자는 이미 **2개 이상 OTT 사용**.  
→ 단독 상품보다 **결합상품이 구조적으로 유리**.
""")

# =========================
# 최종 전략 요약
# =========================
st.header("최종 결론: 데이터 기반 전략")

st.markdown("""
### 현황
- 가입 후 **3개월 시점 이탈 집중**
- Light User는 시청량 급락 후 churn

### 원인
- 내부: 콘텐츠 소비 감소
- 외부: 스포츠/라이브 부재, 가격 부담

### 전략
1. **3개월차 무료권 자동 제공**
2. **스포츠/라이브 콘텐츠 도입**
3. **통신사/플랫폼 결합상품**

> OTT 이탈은 개인 만족 문제가 아니라  
> **콘텐츠 포트폴리오 + 가격 구조 문제**다.
""")


Overwriting module/myApp3.py


In [25]:
pip install lifelines

Collecting lifelines
  Downloading lifelines-0.30.1-py3-none-any.whl.metadata (3.4 kB)
Collecting autograd>=1.5 (from lifelines)
  Downloading autograd-1.8.0-py3-none-any.whl.metadata (7.5 kB)
Collecting autograd-gamma>=0.3 (from lifelines)
  Downloading autograd-gamma-0.5.0.tar.gz (4.0 kB)
  Installing build dependencies: started
  Installing build dependencies: finished with status 'done'
  Getting requirements to build wheel: started
  Getting requirements to build wheel: finished with status 'done'
  Preparing metadata (pyproject.toml): started
  Preparing metadata (pyproject.toml): finished with status 'done'
Collecting formulaic>=0.2.2 (from lifelines)
  Downloading formulaic-1.2.1-py3-none-any.whl.metadata (7.0 kB)
Collecting interface-meta>=1.2.0 (from formulaic>=0.2.2->lifelines)
  Downloading interface_meta-1.3.0-py3-none-any.whl.metadata (6.7 kB)
Downloading lifelines-0.30.1-py3-none-any.whl (350 kB)
Downloading autograd-1.8.0-py3-none-any.whl (51 kB)
Downloading formulaic-1