In [1]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler

# 1. 데이터 로드
df = pd.read_csv('data/spotify_churn_dataset.csv')

print("원본 데이터 크기:", df.shape)
print("원본 이탈 비율:\n", df['is_churned'].value_counts(normalize=True))

# [Step 1] 기본 전처리 (Cleaning & Encoding)

# 1-1. 불필요한 컬럼 제거 (user_id)
df_clean = df.drop(columns=['user_id'])

# 1-2. 특성(X)과 타겟(y) 분리
X = df_clean.drop(columns=['is_churned'])
y = df_clean['is_churned']

# 1-3. 범주형 변수 원-핫 인코딩 (One-Hot Encoding)
# 문자열(Gender, Country 등)을 숫자(0, 1)로 변환
X_encoded = pd.get_dummies(X, columns=['gender', 'country', 'subscription_type', 'device_type'], drop_first=True)

# [Step 2] 데이터 스케일링 (Scaling)

# 수치형 변수만 골라서 스케일링을 진행 (범주형 0/1은 건드리지 않음)
numerical_cols = ['age', 'listening_time', 'songs_played_per_day', 'skip_rate', 'ads_listened_per_week', 'offline_listening']

scaler = StandardScaler()
# 수치형 컬럼만 스케일링 적용
X_encoded[numerical_cols] = scaler.fit_transform(X_encoded[numerical_cols])

print("\n>>> 전처리(인코딩+스케일링) 완료된 데이터 크기:", X_encoded.shape)

# [Step 3] 최종 데이터 저장 (SMOTE 과정 생략)

# X(특성)와 y(타겟)를 다시 하나로 합칩니다.
final_df = pd.concat([X_encoded, y], axis=1)

# 파일 저장
save_path = 'data/spotify_processed.csv'
final_df.to_csv(save_path, index=False)

print(f"\n✅ 최종 처리가 완료되었습니다!")
print(f"저장된 파일 경로: {save_path}")
print(f"최종 데이터 크기: {final_df.shape} (8000개 유지됨)")
print("최종 이탈 비율 확인:\n", final_df['is_churned'].value_counts(normalize=True))

원본 데이터 크기: (8000, 12)
원본 이탈 비율:
 is_churned
0    0.741125
1    0.258875
Name: proportion, dtype: float64

>>> 전처리(인코딩+스케일링) 완료된 데이터 크기: (8000, 20)

✅ 최종 처리가 완료되었습니다!
저장된 파일 경로: data/spotify_processed_no_smote.csv
최종 데이터 크기: (8000, 21) (8000개 유지됨)
최종 이탈 비율 확인:
 is_churned
0    0.741125
1    0.258875
Name: proportion, dtype: float64
