#  KDD 

**KDD(Knowledge Discovery in Databases)** 
**EDA(Exploratory Data Analysis)**

---

##  KDD 개념 정리 표

| 단계 | 설명 |
|------|------|
| **1. 문제 정의** | 분석 목적과 비즈니스 목표를 명확히 설정 |
| **2. 데이터 선택** | 문제 해결에 필요한 데이터셋을 선택 |
| **3. 데이터 전처리** | 결측치 처리, 이상치 제거, 인코딩 등 데이터 정제 과정 |
| **4. 데이터 변환** | 스케일링, 차원 축소, 변수 변환 등의 최적화 과정 |
| **5. EDA** | 히스토그램, 박스플롯, 산점도, 상관계수 계산, 요약 통계 |
| **6. 데이터 마이닝** | 알고리즘을 사용해 패턴·규칙·예측 모델 생성 |
| **7. 패턴 평가 및 해석** | 모델 평가(정확도, 정밀도, 재현율, AUC 등) 및 인사이트 도출 |
| **8. 지식 표현 및 활용** | 분석 결과를 시각화하고 의사결정에 활용 |


---

##  EDA 개념 

| 항목 | 설명 |
|------|------|
| **목적** | 데이터 구조·패턴·이상치·분포 등을 탐색하여 분석 방향 설정 |
| **주요 기법** | 히스토그램, 박스플롯, 산점도, 상관계수 계산, 요약 통계 |
| **접근 방식** | 가설 없이 탐색 중심, 직관적/유연한 분석 |
| **활용 시점** | 분석 초기 단계에서 데이터 이해용 |
| **결과물** | 데이터 요약, 시각화, 모델링에 필요한 인사이트 도출 |

---


##  KDD 예시 정리 표 (고객 이탈 예측)

| 단계 | 설명 |
|------|------|
| **문제 정의** | 고객 이탈 가능성 높은 고객을 예측 |
| **데이터 선택** | Age, Tenure, MonthlyCharges, ContractType 등 선택 |
| **전처리** | 결측 처리, 이상치 제거, 범주형 인코딩 |
| **변환** | 스케일링, PCA 등 |
| **데이터 마이닝** | Logistic Regression, Decision Tree, Random Forest 모델링 |
| **평가/해석** | 혼동행렬, 정확도, 중요 변수 분석 |
| **지식 활용** | 이탈 가능 고객에게 맞춤형 혜택 제공 |

---


#  KDD(Knowledge Discovery in Databases) 예시  
## ▶ 고객 이탈(Churn) 예측 분석 — *EDA 포함 버전*

---

# 1. 문제 정의 (Understanding the Problem)

##  목표
- 고객 이탈을 예측하고 **이탈 위험 고객을 조기 식별**
- 비즈니스 전략(프로모션, 상담, 장기계약 유도)에 활용

---

# 2. 데이터 선택 (Data Selection)

| 변수명 | 설명 |
|--------|------|
| CustomerID | 고객 고유 ID |
| Age | 나이 |
| Tenure | 가입 기간(개월) |
| MonthlyCharges | 월 평균 요금 |
| ContractType | 계약 형태(단기/장기) |
| Churn | 이탈 여부(1/0) |

---

# 3. 데이터 전처리 (Data Preprocessing)

### ✔ 결측값 처리
- Age, MonthlyCharges 결측 → 평균/중앙값 대체

### ✔ 이상치 처리
- IQR 기반 이상치 제거 또는 Winsorizing

### ✔ 범주형 인코딩
- ContractType → Label Encoding (단기=0, 장기=1)

---

# 4. 데이터 변환 (Data Transformation)

### ✔ 스케일링  
`StandardScaler`로 Age, Tenure, MonthlyCharges 정규화

### ✔ 특성 선택  
상관관계/정보량 기반 중요도 낮은 변수 제거

### ✔ 필요 시 차원 축소(PCA)  
고차원 → 2~3차원으로 축소(시각화 가능)

---

# 5. EDA (Exploratory Data Analysis)
```text
4. EDA (Exploratory Data Analysis: 탐색적 데이터 분석)

4-1. 기술통계 확인
평균 Age, 평균 Tenure, 평균 MonthlyCharges
Churn(0/1) 비율 → 불균형 여부 체크

4-2. 시각화 EDA
● 변수 분포
Age 히스토그램
MonthlyCharges 히스토그램
Tenure 분포그래프
● 이탈 여부에 따른 비교
boxplot(MonthlyCharges vs Churn)
countplot(ContractType vs Churn)

● 상관관계 분석
Numeric 변수 간 heatmap
MonthlyCharges, Age, Tenure ↔ Churn 상관 확인

4-3. EDA 해석 예시

가입기간(Tenure)가 짧을수록 이탈 비율 높음
단기계약 고객이 이탈률이 더 높음
월 요금이 높을수록 이탈하는 경향 존재
“EDA → 데이터 마이닝 전에 필수적인 인사이트 단계”
```

##  6. 데이터 마이닝 (Data Mining)

###  적용 모델
- **Logistic Regression**
- **Decision Tree**
- **Random Forest**

>  목표: Churn = 1(이탈) 여부를 정확히 예측하는 모델 생성

###  예측 결과 생성
각 모델은 고객의 이탈 확률을 예측하며  
`0.0 ~ 1.0` 사이의 확률 값을 출력

---

##  7. 패턴 평가 및 해석  
(Pattern Evaluation and Interpretation)

###  모델 평가 지표
| 지표 | 의미 |
|------|-------|
| **Accuracy** | 전체 예측 중 맞춘 비율 |
| **Precision** | 이탈이라고 예측한 고객 중 실제 이탈 비율 |
| **Recall** | 실제 이탈 고객 중 모델이 찾은 비율 |
| **F1-Score** | Precision + Recall의 조화 평균 |
| **Confusion Matrix** | TN, FP, FN, TP 기반의 분류 성능 확인 |

###  해석 예시
- MonthlyCharges ↑ → 이탈 확률 ↑  
- 단기 계약 고객 → 장기 계약 고객보다 이탈률 높음  
- Tenure(가입 기간)가 낮은 신규 고객의 이탈 확률이 높음

---

##  8. 지식 표현 및 활용 (Knowledge Representation & Use)

###  시각화 예시
- 변수 중요도(Feature Importance) 바 차트
- 이탈 고객의 요금 분포 히스토그램
- 계약 유형별 이탈률 비교 그래프

###  활용 전략
- **이탈 위험 고객 그룹**에 대한  
  - 할인 쿠폰 제공  
  - 장기 계약 전환 프로모션  
  - 고객 만족 상담 캠페인 실행  

---

##  결론

- KDD 프로세스를 통해 고객 이탈을 예측하고  
  데이터 기반의 **실제 비즈니스 전략을 수립**할 수 있음  
- 데이터 선택 → 전처리 → 모델링 → 평가 → 적용 예시
---

#  KDD(Knowledge Discovery in Databases) 예시  

---

# 1. 문제 정의 (Understanding the Problem)

###  목표
- 고객 이탈 여부를 예측하여 **이탈 위험 고객을 조기 식별**하고  
  **효율적인 고객 유지 전략(프로모션·상담·혜택)을 설계**한다.

### 비즈니스 질문
- 어떤 고객이 이탈할 가능성이 높은가?
- 어떤 변수들이 이탈에 강한 영향을 미치는가?
- 신규 고객/고요금 고객/단기 고객 중 어떤 집단이 위험한가?

---

# 2. 데이터 선택 (Data Selection)

###  사용 변수
| 변수명 | 설명 |
|--------|------|
| CustomerID | 고객 ID |
| Age | 나이 |
| Tenure | 가입 기간(개월) |
| MonthlyCharges | 월 평균 요금 |
| ContractType | 계약 유형 (단기 / 장기) |
| Churn | 고객 이탈 여부 (1=이탈, 0=유지) |

---

# 3. 데이터 전처리 (Data Preprocessing)

###  주요 작업
- **결측값 처리**  
  Age, MonthlyCharges 등의 결측값을 평균/중앙값으로 대체
- **이상치 처리**  
  MonthlyCharges의 극단값 제거 또는 Winsorization
- **범주형 변환**  
  ContractType → 0(단기), 1(장기)
- **타깃 설정**  
  Churn을 예측할 Label로 설정

---

# 4. 데이터 분석(EDA) — 통계 및 시각화 포함

##  4-1. 기초 통계 분석

###  기본 통계량 확인
- Age, Tenure, MonthlyCharges의 평균/최대/최소/분산/표준편차 분석  
- Churn 분포 확인(이탈률이 전체 대비 얼마나 되는지)

예:
- 평균 나이: 42.3세  
- 평균 가입 기간: 30개월  
- 평균 요금: 68.5달러  
- 이탈률: 전체 고객 중 약 26%

---

##  4-2. 시각화를 통한 데이터 이해

###  (1) 히스토그램 — 분포 확인
- Age 분포  
- Tenure 분포 (신규 고객 많음?)  
- MonthlyCharges 분포 (고요금 고객군 존재 여부)

###  (2) 박스플롯 — 이상치 탐색
- MonthlyCharges의 이상값 확인
- Tenure의 신규 고객·장기 고객 범위 확인

###  (3) 이탈 여부별 비교 분석
- **이탈 고객 vs 유지 고객의 차이 시각화**

| 분석 항목 | 목표 |
|-----------|------|
| Churn별 Age 박스플롯 | 특정 연령대 이탈이 높은가? |
| Churn별 MonthlyCharges 박스플롯 | 고요금 고객이 더 많이 이탈하는가? |
| Churn별 Tenure 카운트플롯 | 신규 고객의 이탈률이 높은가? |

주요 관찰 예시:
- MonthlyCharges ↑ → Churn 비율 ↑  
- Tenure ↓ → 신규 고객은 Churn 확률이 매우 높음  
- ContractType이 단기일수록 이탈률이 높음  

---

##  4-3. 변수 간 상관관계 분석

###  상관계수(pearson correlation)
- MonthlyCharges ↗ Churn : 양의 상관  
- Tenure ↘ Churn : 음의 상관  
- ContractType ↘ Churn : 장기 고객은 이탈률 낮음  
- Age는 Churn과 약한 상관  

###  Heatmap 시각화
- 강한 상관선을 가진 변수 조합 파악  
- 필요 없는 변수 제거(상관 낮거나 중복되는 변수)

---

# 5. 데이터 변환 (Data Transformation)

###  주요 변환 예시
- **스케일링(StandardScaler)**  
  Age, Tenure, MonthlyCharges를 표준화
- **원-핫 인코딩**(필요 시)  
  ContractType이 여러 수준이면 원-핫 인코딩 사용
- **특성 선택(Feature Selection)**  
  불필요한 변수 제거
- **PCA(주성분 분석)**  
  고차원일 경우 차원 축소하여 시각화 또는 모델 성능 개선

---

# 6. 데이터 마이닝 (Data Mining)

###  적용 모델
- Logistic Regression
- Decision Tree
- Random Forest
- Gradient Boosting (선택)

###  예측 결과
- 각 모델은 고객의 **이탈 확률(P(churn=1))**을 예측

---

# 7. 패턴 평가 및 해석  
(Pattern Evaluation and Interpretation)

##  모델 성능 지표
- Accuracy  
- Precision  
- Recall  
- F1-score  
- Confusion Matrix  
- ROC-AUC

##  패턴 해석 예시
- 신규 고객(tenure 낮음) → 높은 churn  
- 월 요금 높음 → churn 증가  
- 장기 고객(contractType=long) → churn 확률 낮음  
- 특정


```python

# ============================================
# 0. 라이브러리 임포트
# ============================================
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import (
    accuracy_score, confusion_matrix, classification_report
)

plt.style.use("ggplot")


1. 샘플 데이터 생성

```python
# ============================================
# 1. 샘플 데이터 생성
# ============================================


np.random.seed(42)

n = 500

df = pd.DataFrame({
    "CustomerID": np.arange(1, n+1),
    "Age": np.random.randint(20, 70, n),
    "Tenure": np.random.randint(1, 72, n),  # 1~72개월
    "MonthlyCharges": np.random.normal(70, 20, n).clip(20, 150),
    "ContractType": np.random.choice(["Short", "Long"], n, p=[0.7, 0.3]),
})

# Churn 만들기(약간의 패턴 포함)
df["Churn"] = (
    (df["Tenure"] < 12).astype(int) |      # 신규 고객 → 이탈 확률 높음
    (df["MonthlyCharges"] > 90).astype(int)
).astype(int)

df.head()



2. 기본 정보 확인

```python
df.info()
df.describe()


3. EDA — 시각화 & 통계 분석
```python
(1) Churn 분포

sns.countplot(x="Churn", data=df)
plt.title("Churn Distribution")
plt.show()

(2) 수치형 변수 히스토그램
df[["Age", "Tenure", "MonthlyCharges"]].hist(figsize=(12, 4))
plt.show()


(3) Boxplot — 이상치 탐색
plt.figure(figsize=(10,4))
sns.boxplot(data=df[["Age", "Tenure", "MonthlyCharges"]])
plt.title("Numeric Feature Boxplot")
plt.show()

(4) Churn별 월 요금 비교
sns.boxplot(x="Churn", y="MonthlyCharges", data=df)
plt.title("Monthly Charges by Churn")
plt.show()

(5) 상관관계 Heatmap
plt.figure(figsize=(8,6))
sns.heatmap(df[["Age", "Tenure", "MonthlyCharges", "Churn"]].corr(), 
            annot=True, cmap="coolwarm")
plt.title("Correlation Heatmap")
plt.show()

```python

4. 데이터 전처리 (Preprocessing)
(1) 범주형 인코딩
df["ContractType"] = df["ContractType"].map({"Short": 0, "Long": 1})

(2) 스케일링
scaler = StandardScaler()
features = ["Age", "Tenure", "MonthlyCharges", "ContractType"]
X = scaler.fit_transform(df[features])
y = df["Churn"]

5. 모델링 (Logistic Regression)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

model = LogisticRegression()
model.fit(X_train, y_train)

pred = model.predict(X_test)

6. 성능 평가
print("Accuracy:", accuracy_score(y_test, pred))
print("\nClassification Report:\n", classification_report(y_test, pred))

cm = confusion_matrix(y_test, pred)
sns.heatmap(cm, annot=True, fmt="d", cmap="Blues")
plt.title("Confusion Matrix")
plt.show()

7. Feature Importance 확인
importance = pd.DataFrame({
    "Feature": features,
    "Coefficient": model.coef_[0]
}).sort_values(by="Coefficient", ascending=False)

importance

| 단계 | 내용                             |
| -- | ------------------------------ |
| 1  | 샘플 데이터 생성                      |
| 2  | 기본 정보 확인                       |
| 3  | EDA(히스토그램, 박스플롯, 상관 분석, 분포 비교) |
| 4  | 인코딩, 스케일링 등 전처리                |
| 5  | 로지스틱 회귀 모델 학습                  |
| 6  | 성능 평가 (정확도 · 리포트 · 혼동행렬)       |
| 7  | 변수 중요도 분석                      |
