# 📊 교육 수준에 따른 흡연율 상관관계 분석

**담당자:** 오흥재  
**목표:** 교육 수준(sob_01z1)과 흡연율(sma_03z2) 간의 상관관계 파악

---

## 📋 분석 계획

### 1️⃣ **데이터 준비**
- 교육수준(sob_01z1) 변수 확인
- 흡연상태(sma_03z2) 변수 확인
- 결측치 및 이상치 처리

### 2️⃣ **탐색적 데이터 분석 (EDA)**
- 교육수준별 분포
- 흡연상태별 분포
- 교육수준 × 흡연상태 교차표

### 3️⃣ **상관관계 분석**
- 교육수준별 흡연율 계산
- 시각화 (막대그래프, 히트맵)
- 통계적 검정 (카이제곱 검정)

### 4️⃣ **인사이트 도출**
- 주요 발견사항
- 모델링 시사점

In [None]:
# 환경 설정
import sys
import os
project_root = os.path.abspath('../../..')
if project_root not in sys.path:
    sys.path.insert(0, project_root)

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

from utils.variable_decoder import VariableDecoder

plt.rcParams['font.family'] = 'Malgun Gothic'
plt.rcParams['axes.unicode_minus'] = False
plt.rcParams['figure.figsize'] = (12, 6)
sns.set_palette('husl')

print('✅ 환경 설정 완료!')

## 📂 Step 1: 데이터 로드 및 변수 디코딩

In [None]:
# 데이터 로드
df = pd.read_csv('../../../data/analy_data.csv')
decoder = VariableDecoder()

print(f'전체 데이터: {df.shape}')
print(f'\n핵심 변수 존재 확인:')
print(f"  - sob_01z1 (교육수준): {'✅' if 'sob_01z1' in df.columns else '❌'}")
print(f"  - sma_03z2 (흡연상태): {'✅' if 'sma_03z2' in df.columns else '❌'}")
print(f"  - churn (타겟): {'✅' if 'churn' in df.columns else '❌'}")

In [None]:
# 변수 디코딩
df_work = decoder.decode_multiple_columns(df, ['sob_01z1', 'sma_03z2'])

# 디코딩 결과 확인
print('✅ 디코딩 완료!')
df_work[['sob_01z1', 'sob_01z1_decoded', 'sma_03z2', 'sma_03z2_decoded', 'churn']].head(10)

## 🔍 Step 2: 탐색적 데이터 분석 (EDA)

In [None]:
# 교육수준 분포
print('=== 교육수준 분포 ===')
edu_dist = decoder.create_value_counts_decoded(df_work, 'sob_01z1')
print(edu_dist)

# 시각화
fig, ax = plt.subplots(figsize=(12, 6))
edu_dist.plot(kind='barh', ax=ax, color='steelblue')
ax.set_title('교육수준별 분포', fontsize=16, fontweight='bold')
ax.set_xlabel('빈도')
ax.set_ylabel('교육수준')

# 막대 위에 값 표시
for i, v in enumerate(edu_dist):
    ax.text(v + 100, i, f'{v:,}', va='center')

plt.tight_layout()
plt.show()

In [None]:
# 흡연상태 분포
print('\n=== 흡연상태 분포 ===')
smoke_dist = decoder.create_value_counts_decoded(df_work, 'sma_03z2')
print(smoke_dist)

# 시각화
fig, ax = plt.subplots(figsize=(10, 6))
smoke_dist.plot(kind='bar', ax=ax, color=['#FF6B6B', '#4ECDC4', '#95E1D3'])
ax.set_title('흡연상태 분포', fontsize=16, fontweight='bold')
ax.set_xlabel('흡연상태')
ax.set_ylabel('빈도')
plt.xticks(rotation=45, ha='right')

for i, v in enumerate(smoke_dist):
    ax.text(i, v + 500, f'{v:,}', ha='center')

plt.tight_layout()
plt.show()

## 📊 Step 3: 교차분석 (교육수준 × 흡연상태)

In [None]:
# 교차표 생성
crosstab = pd.crosstab(
    df_work['sob_01z1_decoded'], 
    df_work['sma_03z2_decoded'],
    margins=True
)

print('=== 교육수준 × 흡연상태 교차표 ===')
crosstab

In [None]:
# 비율로 변환 (행 기준)
crosstab_pct = pd.crosstab(
    df_work['sob_01z1_decoded'], 
    df_work['sma_03z2_decoded'],
    normalize='index'
) * 100

print('\n=== 교육수준별 흡연상태 비율 (%) ===')
crosstab_pct.round(2)

In [None]:
# 히트맵 시각화
fig, ax = plt.subplots(figsize=(10, 8))
sns.heatmap(crosstab_pct, annot=True, fmt='.1f', cmap='YlOrRd', 
            cbar_kws={'label': '비율 (%)'}, ax=ax)
ax.set_title('교육수준별 흡연상태 비율 (%)', fontsize=16, fontweight='bold')
ax.set_xlabel('흡연상태', fontsize=12)
ax.set_ylabel('교육수준', fontsize=12)
plt.tight_layout()
plt.show()

## 🎯 Step 4: 교육수준별 흡연율 계산

In [None]:
# 현재 흡연자만 필터링 (매일 + 가끔)
# sma_03z2: 1=매일피운다, 2=가끔피운다, 3=과거피웠으나현재안피움

# 교육수준별 현재 흡연율 계산
smoking_rate = df_work.groupby('sob_01z1_decoded').apply(
    lambda x: (x['sma_03z2'].isin([1.0, 2.0])).sum() / len(x) * 100
).sort_values(ascending=False)

print('=== 교육수준별 현재 흡연율 (%) ===')
print(smoking_rate.round(2))

In [None]:
# 흡연율 시각화
fig, ax = plt.subplots(figsize=(12, 6))
smoking_rate.plot(kind='barh', ax=ax, color='coral')
ax.set_title('교육수준별 현재 흡연율 (%)', fontsize=16, fontweight='bold')
ax.set_xlabel('흡연율 (%)')
ax.set_ylabel('교육수준')
ax.axvline(smoking_rate.mean(), color='red', linestyle='--', label=f'평균: {smoking_rate.mean():.1f}%')
ax.legend()

for i, v in enumerate(smoking_rate):
    ax.text(v + 0.5, i, f'{v:.1f}%', va='center')

plt.tight_layout()
plt.show()

## 📈 Step 5: 통계적 검정 (카이제곱 검정)

In [None]:
# 카이제곱 검정
# H0: 교육수준과 흡연상태는 독립이다 (상관관계 없음)
# H1: 교육수준과 흡연상태는 독립이 아니다 (상관관계 있음)

contingency_table = pd.crosstab(df_work['sob_01z1_decoded'], df_work['sma_03z2_decoded'])
chi2, p_value, dof, expected = stats.chi2_contingency(contingency_table)

print('=== 카이제곱 검정 결과 ===')
print(f'카이제곱 통계량: {chi2:.2f}')
print(f'p-value: {p_value:.4e}')
print(f'자유도: {dof}')
print(f'\n결론: ', end='')
if p_value < 0.05:
    print('✅ 교육수준과 흡연상태는 통계적으로 유의한 상관관계가 있습니다 (p < 0.05)')
else:
    print('❌ 교육수준과 흡연상태 간 유의한 상관관계를 발견하지 못했습니다 (p ≥ 0.05)')

## 💡 Step 6: 주요 발견사항 및 인사이트

### 📌 분석 결과 요약

**[여기에 주요 발견사항 작성]**

1. **교육수준별 흡연율 차이**
   - (분석 후 작성)

2. **통계적 유의성**
   - (분석 후 작성)

3. **모델링 시사점**
   - (분석 후 작성)

---

### ✅ 다음 단계
- [ ] 교육수준 변수 전처리 방법 결정
- [ ] Feature Engineering 아이디어 도출
- [ ] 경제활동 분석과 통합