# 💼 경제활동에 따른 금연 성공 상관관계 분석

**담당자:** 오흥재  
**목표:** 경제활동 상태가 금연 성공(churn)에 미치는 영향 분석

---

## 📋 분석 계획

### 1️⃣ **핵심 변수**
- `soa_01z1`: 경제활동 여부 (예/아니오)
- `soa_06z2`: 직업분류 (관리자, 전문가, 사무직...)
- `soa_07z1`: 종사상지위 (고용주, 임금근로자, 무급가족종사자)
- `churn`: 금연 성공 여부 (1=성공, 0=실패)

### 2️⃣ **분석 단계**
1. 경제활동 변수 기초 분석
2. 경제활동 여부 × 금연 성공률
3. 직업분류 × 금연 성공률
4. 종사상지위 × 금연 성공률
5. 통계적 검정 및 인사이트

In [None]:
# 환경 설정
import sys
import os
project_root = os.path.abspath('../../..')
if project_root not in sys.path:
    sys.path.insert(0, project_root)

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

from utils.variable_decoder import VariableDecoder

plt.rcParams['font.family'] = 'Malgun Gothic'
plt.rcParams['axes.unicode_minus'] = False
plt.rcParams['figure.figsize'] = (14, 6)
sns.set_palette('husl')

print('✅ 환경 설정 완료!')

## 📂 Step 1: 데이터 로드 및 변수 디코딩

In [None]:
# 데이터 로드
df = pd.read_csv('../../../data/analy_data.csv')
decoder = VariableDecoder()

# 경제활동 관련 변수 디코딩
econ_vars = ['soa_01z1', 'soa_06z2', 'soa_07z1']
df_work = decoder.decode_multiple_columns(df, econ_vars)

print(f'전체 데이터: {df_work.shape}')
print('\n✅ 디코딩 완료!')
df_work[['soa_01z1_decoded', 'soa_06z2_decoded', 'soa_07z1_decoded', 'churn']].head(10)

## 🔍 Step 2: 경제활동 변수 기초 분석

In [None]:
# 경제활동 여부 분포
print('=== 경제활동 여부 분포 ===')
econ_status = decoder.create_value_counts_decoded(df_work, 'soa_01z1')
print(econ_status)

fig, ax = plt.subplots(figsize=(8, 6))
econ_status.plot(kind='bar', ax=ax, color=['#4ECDC4', '#FF6B6B'])
ax.set_title('경제활동 여부 분포', fontsize=16, fontweight='bold')
ax.set_xlabel('경제활동 여부')
ax.set_ylabel('빈도')
plt.xticks(rotation=0)
for i, v in enumerate(econ_status):
    ax.text(i, v + 500, f'{v:,}\n({v/econ_status.sum()*100:.1f}%)', ha='center', fontweight='bold')
plt.tight_layout()
plt.show()

In [None]:
# 직업분류 분포 (경제활동자만)
print('\n=== 직업분류 분포 (경제활동자) ===')
job_dist = decoder.create_value_counts_decoded(
    df_work[df_work['soa_01z1'] == 1.0], 
    'soa_06z2'
)
print(job_dist.head(10))

fig, ax = plt.subplots(figsize=(12, 8))
job_dist.head(10).plot(kind='barh', ax=ax, color='steelblue')
ax.set_title('직업분류 Top 10', fontsize=16, fontweight='bold')
ax.set_xlabel('빈도')
ax.set_ylabel('직업분류')
for i, v in enumerate(job_dist.head(10)):
    ax.text(v + 100, i, f'{v:,}', va='center')
plt.tight_layout()
plt.show()

## 📊 Step 3: 경제활동 × 금연 성공률

In [None]:
# 경제활동 여부별 금연 성공률
success_by_econ = df_work.groupby('soa_01z1_decoded')['churn'].agg(['sum', 'count', 'mean'])
success_by_econ['success_rate(%)'] = success_by_econ['mean'] * 100

print('=== 경제활동 여부별 금연 성공률 ===')
print(success_by_econ[['count', 'sum', 'success_rate(%)']])

# 시각화
fig, axes = plt.subplots(1, 2, figsize=(14, 6))

# 성공률 막대그래프
success_by_econ['success_rate(%)'].plot(kind='bar', ax=axes[0], color=['#4ECDC4', '#FF6B6B'])
axes[0].set_title('경제활동 여부별 금연 성공률', fontsize=14, fontweight='bold')
axes[0].set_ylabel('성공률 (%)')
axes[0].set_xlabel('경제활동 여부')
axes[0].axhline(df_work['churn'].mean() * 100, color='red', linestyle='--', label='전체 평균')
axes[0].legend()
plt.setp(axes[0].xaxis.get_majorticklabels(), rotation=0)

for i, v in enumerate(success_by_econ['success_rate(%)']):
    axes[0].text(i, v + 1, f'{v:.1f}%', ha='center', fontweight='bold')

# 스택 바 차트
churn_cross = pd.crosstab(df_work['soa_01z1_decoded'], df_work['churn'], normalize='index') * 100
churn_cross.plot(kind='bar', stacked=True, ax=axes[1], color=['#FF6B6B', '#4ECDC4'])
axes[1].set_title('경제활동 여부별 금연 성공/실패 비율', fontsize=14, fontweight='bold')
axes[1].set_ylabel('비율 (%)')
axes[1].set_xlabel('경제활동 여부')
axes[1].legend(['실패', '성공'], title='Churn')
plt.setp(axes[1].xaxis.get_majorticklabels(), rotation=0)

plt.tight_layout()
plt.show()

## 💼 Step 4: 직업분류 × 금연 성공률

In [None]:
# 직업분류별 금연 성공률 (경제활동자만, 최소 100명 이상)
job_success = df_work[df_work['soa_01z1'] == 1.0].groupby('soa_06z2_decoded')['churn'].agg(
    ['sum', 'count', 'mean']
)
job_success = job_success[job_success['count'] >= 100]  # 최소 표본 크기
job_success['success_rate(%)'] = job_success['mean'] * 100
job_success = job_success.sort_values('success_rate(%)', ascending=False)

print('=== 직업분류별 금연 성공률 (표본 100명 이상) ===')
print(job_success[['count', 'success_rate(%)']])

# 시각화
fig, ax = plt.subplots(figsize=(12, 8))
job_success['success_rate(%)'].plot(kind='barh', ax=ax, color='coral')
ax.set_title('직업분류별 금연 성공률', fontsize=16, fontweight='bold')
ax.set_xlabel('성공률 (%)')
ax.set_ylabel('직업분류')
ax.axvline(df_work['churn'].mean() * 100, color='red', linestyle='--', label='전체 평균')
ax.legend()

for i, v in enumerate(job_success['success_rate(%)']):
    ax.text(v + 0.5, i, f'{v:.1f}%', va='center')

plt.tight_layout()
plt.show()

## 👔 Step 5: 종사상지위 × 금연 성공률

In [None]:
# 종사상지위별 금연 성공률
emp_success = df_work[df_work['soa_01z1'] == 1.0].groupby('soa_07z1_decoded')['churn'].agg(
    ['sum', 'count', 'mean']
)
emp_success['success_rate(%)'] = emp_success['mean'] * 100

print('=== 종사상지위별 금연 성공률 ===')
print(emp_success[['count', 'success_rate(%)']])

# 시각화
fig, ax = plt.subplots(figsize=(10, 6))
emp_success['success_rate(%)'].plot(kind='bar', ax=ax, color='lightseagreen')
ax.set_title('종사상지위별 금연 성공률', fontsize=16, fontweight='bold')
ax.set_ylabel('성공률 (%)')
ax.set_xlabel('종사상지위')
ax.axhline(df_work['churn'].mean() * 100, color='red', linestyle='--', label='전체 평균')
ax.legend()
plt.xticks(rotation=45, ha='right')

for i, v in enumerate(emp_success['success_rate(%)']):
    ax.text(i, v + 1, f'{v:.1f}%', ha='center', fontweight='bold')

plt.tight_layout()
plt.show()

## 📈 Step 6: 통계적 검정

In [None]:
# 1. 경제활동 여부 × 금연 성공
print('=== 경제활동 여부 × 금연 성공 카이제곱 검정 ===')
ct1 = pd.crosstab(df_work['soa_01z1_decoded'], df_work['churn'])
chi2_1, p_1, dof_1, _ = stats.chi2_contingency(ct1)
print(f'χ² = {chi2_1:.2f}, p-value = {p_1:.4e}')
print(f'결론: {"✅ 유의한 상관관계 있음" if p_1 < 0.05 else "❌ 유의하지 않음"}')

# 2. 직업분류 × 금연 성공
print('\n=== 직업분류 × 금연 성공 카이제곱 검정 ===')
ct2 = pd.crosstab(df_work[df_work['soa_01z1'] == 1.0]['soa_06z2_decoded'], 
                   df_work[df_work['soa_01z1'] == 1.0]['churn'])
chi2_2, p_2, dof_2, _ = stats.chi2_contingency(ct2)
print(f'χ² = {chi2_2:.2f}, p-value = {p_2:.4e}')
print(f'결론: {"✅ 유의한 상관관계 있음" if p_2 < 0.05 else "❌ 유의하지 않음"}')

# 3. 종사상지위 × 금연 성공
print('\n=== 종사상지위 × 금연 성공 카이제곱 검정 ===')
ct3 = pd.crosstab(df_work[df_work['soa_01z1'] == 1.0]['soa_07z1_decoded'], 
                   df_work[df_work['soa_01z1'] == 1.0]['churn'])
chi2_3, p_3, dof_3, _ = stats.chi2_contingency(ct3)
print(f'χ² = {chi2_3:.2f}, p-value = {p_3:.4e}')
print(f'결론: {"✅ 유의한 상관관계 있음" if p_3 < 0.05 else "❌ 유의하지 않음"}')

## 💡 Step 7: 주요 발견사항 및 인사이트

### 📌 분석 결과 요약

**[분석 후 작성]**

1. **경제활동 여부의 영향**
   - 경제활동자 vs 비경제활동자 금연 성공률 차이
   
2. **직업별 특성**
   - 금연 성공률이 높은/낮은 직업군
   
3. **종사상지위의 영향**
   - 고용주, 임금근로자, 무급가족종사자 간 차이

4. **모델링 시사점**
   - Feature Engineering 아이디어
   - 중요 변수 선택

---

### ✅ 다음 단계
- [ ] 교육수준 분석 결과와 통합
- [ ] 상호작용 효과 분석 (교육 × 경제활동)
- [ ] Feature Engineering
- [ ] 모델링 준비