# 📄 전처리 결과서

## 1. 프로젝트 개요
- **프로젝트명**: 고객 이탈 예측 모델 개발
- **목표**: 고객 이탈 여부를 예측하기 위한 모델 학습을 위한 데이터 전처리 수행
- **데이터 출처**: 내부 CRM 시스템 또는 Kaggle 공개 데이터셋 (예: Telco Customer Churn)

---

## 2. 원본 데이터 개요
- **총 관측치**: 7,043개
- **총 변수 수**: 21개
- **타겟 변수**: `Churn` (고객 이탈 여부)
- **주요 변수**:
  - `gender`, `SeniorCitizen`, `tenure`, `MonthlyCharges`, `TotalCharges`, `Contract`, `InternetService`, `PaymentMethod` 등

---

## 3. 전처리 단계

| 단계 | 변수/내용 | 처리 내용 및 이유 |
|------|------------|---------------------|
| 1. 결측치 처리 | `TotalCharges` | 문자열형으로 되어 있어 공백이 결측으로 존재. `pd.to_numeric()`으로 형변환 후 평균값으로 대체 |
| 2. 이상치 제거 | 없음 | 주요 수치형 변수에 대해 boxplot과 Z-score 분석 결과, 제거할 이상치는 없음 |
| 3. 변수 형 변환 | `SeniorCitizen` | 정수형(0,1)을 범주형으로 변환 (`astype(str)`) |
| 4. 범주형 변수 인코딩 | `gender`, `Contract`, `PaymentMethod`, `InternetService` 등 | `pd.get_dummies()`로 원-핫 인코딩 |
| 5. 파생 변수 생성 | `is_long_term` | `Contract`가 "One year", "Two year"이면 1, 아니면 0인 변수 추가 |
| 6. 스케일링 | `tenure`, `MonthlyCharges`, `TotalCharges` | `StandardScaler`로 표준화 처리 |

---

## 4. 전처리 후 데이터셋 요약
- **총 관측치**: 7,043건 (변동 없음)
- **총 변수 수**: 30개 (더미 변수 포함, 파생 변수 추가됨)
- **타겟 변수 분포**:
  - `Churn = 0` (유지): 5,174명 (73.5%)
  - `Churn = 1` (이탈): 1,869명 (26.5%)

---

## 5. 전처리 코드 예시 (일부 발췌)

```python
# TotalCharges 형변환 및 결측치 처리
df['TotalCharges'] = pd.to_numeric(df['TotalCharges'], errors='coerce')
df['TotalCharges'] = df['TotalCharges'].fillna(df['TotalCharges'].mean())

# 파생변수 생성
df['is_long_term'] = df['Contract'].apply(lambda x: 1 if x in ['One year', 'Two year'] else 0)

# 스케일링
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
df[['tenure', 'MonthlyCharges', 'TotalCharges']] = scaler.fit_transform(df[['tenure', 'MonthlyCharges', 'TotalCharges']])

# 원-핫 인코딩
df = pd.get_dummies(df, columns=['gender', 'Contract', 'PaymentMethod', 'InternetService'])
