# Day12_0: 머신러닝 개론 (ML Introduction) - 정답

---

## Q1. ML 유형 구분하기

**문제**: 다음 문제들이 지도학습인지 비지도학습인지 분류하세요.

In [None]:
# 정답 코드
problems = [
    "고객 이탈 예측",
    "고객 세분화",
    "스팸 메일 분류",
    "이상 거래 탐지 (레이블 없음)"
]

# 지도학습: 레이블(정답)이 있는 문제
# 비지도학습: 레이블 없이 패턴 발견

ml_types = {
    "고객 이탈 예측": "지도학습",         # 이탈 여부 레이블 있음
    "고객 세분화": "비지도학습",          # 그룹 레이블 없음, 클러스터링
    "스팸 메일 분류": "지도학습",         # 스팸/정상 레이블 있음
    "이상 거래 탐지 (레이블 없음)": "비지도학습"  # 정상 패턴 학습
}

for problem in problems:
    print(f"{problem} -> {ml_types[problem]}")

In [None]:
# 테스트
assert ml_types["고객 이탈 예측"] == "지도학습"
assert ml_types["고객 세분화"] == "비지도학습"
assert ml_types["스팸 메일 분류"] == "지도학습"
print("모든 테스트 통과!")

### 풀이 설명

**접근 방법**:
- 핵심 질문: "정답(레이블)이 있는가?"
- 지도학습: X -> y 매핑 학습 (레이블 필요)
- 비지도학습: 숨겨진 구조 발견 (레이블 불필요)

**핵심 개념**:
- 지도학습: 분류, 회귀 (예측/분류 문제)
- 비지도학습: 클러스터링, 이상탐지 (패턴 발견)

**실무 팁**:
- 이상 탐지는 레이블 유무에 따라 지도/비지도 모두 가능
- 문제에서 "레이블 없음"이 명시되면 비지도학습

---

## Q2. 분류 vs 회귀 판단

**문제**: 다음 예측 타겟이 분류 문제인지 회귀 문제인지 판단하세요.

In [None]:
# 정답 코드
targets = [
    "주택 가격 (만원)",
    "합격 여부 (합격/불합격)",
    "판매량 (개)",
    "고객 등급 (VIP/일반/신규)"
]

# 분류: 이산형 타겟 (카테고리)
# 회귀: 연속형 타겟 (숫자)

problem_types = {
    "주택 가격 (만원)": "회귀",           # 연속형 숫자
    "합격 여부 (합격/불합격)": "분류",    # 2개 카테고리
    "판매량 (개)": "회귀",               # 연속형 숫자 (정수지만 범위가 넓음)
    "고객 등급 (VIP/일반/신규)": "분류"   # 3개 카테고리
}

for target in targets:
    print(f"{target} -> {problem_types[target]}")

In [None]:
# 테스트
assert problem_types["주택 가격 (만원)"] == "회귀"
assert problem_types["합격 여부 (합격/불합격)"] == "분류"
assert problem_types["판매량 (개)"] == "회귀"
assert problem_types["고객 등급 (VIP/일반/신규)"] == "분류"
print("모든 테스트 통과!")

### 풀이 설명

**접근 방법**:
- 핵심 질문: "타겟이 카테고리인가, 숫자인가?"
- 분류: 이산적 값 (예/아니오, A/B/C)
- 회귀: 연속적 값 (가격, 수량, 점수)

**핵심 개념**:
- 분류: 정확도, F1, AUC로 평가
- 회귀: RMSE, MAE, R2로 평가

**흔한 실수**:
- 판매량(개)이 정수라서 분류로 착각
- 하지만 0, 1, 2, ..., 1000 등 범위가 넓으면 회귀

---

## Q3. ML 워크플로우 순서

**문제**: 다음 ML 단계들을 올바른 순서로 정렬하세요.

In [None]:
# 정답 코드
steps = [
    "모델 평가",
    "데이터 전처리",
    "문제 정의",
    "모델 훈련",
    "데이터 수집"
]

# 올바른 순서
correct_order = [
    "문제 정의",      # 1. 무엇을 예측/분류할지 정의
    "데이터 수집",    # 2. 필요한 데이터 확보
    "데이터 전처리",  # 3. 데이터 정제 및 준비
    "모델 훈련",      # 4. 알고리즘으로 학습
    "모델 평가"       # 5. 성능 측정
]

print("ML 워크플로우 순서:")
for i, step in enumerate(correct_order, 1):
    print(f"  {i}. {step}")

In [None]:
# 테스트
assert correct_order[0] == "문제 정의"
assert correct_order[-1] == "모델 평가"
assert correct_order.index("데이터 수집") < correct_order.index("데이터 전처리")
assert correct_order.index("모델 훈련") < correct_order.index("모델 평가")
print("모든 테스트 통과!")

### 풀이 설명

**접근 방법**:
- 논리적 의존 관계 파악
- 문제 정의 -> 데이터 -> 모델 -> 평가

**핵심 개념**:
- 각 단계는 이전 단계의 결과물에 의존
- 실제로는 반복적 과정 (평가 후 다시 전처리 등)

**실무 팁**:
- 문제 정의가 가장 중요! 잘못된 정의 = 잘못된 모델
- EDA는 전처리와 함께 진행

---

## Q4. Confusion Matrix 이해

**문제**: 혼동 행렬에서 Precision과 Recall을 계산하세요.

In [None]:
# 정답 코드
TP, FP, TN, FN = 40, 10, 45, 5

# Precision = TP / (TP + FP) : 양성 예측 중 실제 양성 비율
precision = TP / (TP + FP)

# Recall = TP / (TP + FN) : 실제 양성 중 양성으로 예측한 비율
recall = TP / (TP + FN)

print(f"Precision: {precision:.2%}")
print(f"Recall: {recall:.2%}")

# 추가: Accuracy, F1
accuracy = (TP + TN) / (TP + TN + FP + FN)
f1 = 2 * precision * recall / (precision + recall)

print(f"\nAccuracy: {accuracy:.2%}")
print(f"F1 Score: {f1:.2%}")

In [None]:
# 테스트
assert abs(precision - 0.80) < 0.01, f"Precision 오류: {precision}"
assert abs(recall - 0.8889) < 0.01, f"Recall 오류: {recall}"
print("모든 테스트 통과!")

### 풀이 설명

**접근 방법**:
- Precision: 양성 예측의 정확도 (FP 줄이기)
- Recall: 양성 탐지율 (FN 줄이기)

**핵심 개념**:
- Precision = TP / (TP + FP)
- Recall = TP / (TP + FN)
- Trade-off 관계 (하나 올리면 다른 하나 내려감)

**실무 팁**:
- 스팸 필터: Precision 중시 (정상 메일을 스팸으로 분류하면 안 됨)
- 질병 진단: Recall 중시 (환자를 놓치면 안 됨)

---

## Q5. 데이터 분할

**문제**: 데이터를 훈련/테스트로 분할하세요 (테스트 비율 20%, stratify 적용).

In [None]:
# 정답 코드
from sklearn.model_selection import train_test_split

X = [[1, 2], [3, 4], [5, 6], [7, 8], [9, 10], [11, 12], [13, 14], [15, 16], [17, 18], [19, 20]]
y = [0, 0, 0, 0, 0, 1, 1, 1, 1, 1]

# train_test_split 사용
X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.2,      # 테스트 20%
    random_state=42,    # 재현성
    stratify=y          # 클래스 비율 유지
)

print(f"훈련 데이터: {len(X_train)}개")
print(f"테스트 데이터: {len(X_test)}개")
print(f"\n훈련 y: {y_train}")
print(f"테스트 y: {y_test}")

In [None]:
# 테스트
assert len(X_train) == 8
assert len(X_test) == 2
assert sum(y_train) / len(y_train) == sum(y) / len(y)  # stratify 확인
print("모든 테스트 통과!")

### 풀이 설명

**접근 방법**:
- train_test_split()으로 간단히 분할
- stratify=y로 클래스 비율 유지

**핵심 개념**:
- test_size: 테스트 데이터 비율 (0.2 = 20%)
- random_state: 재현성 보장
- stratify: 불균형 데이터에서 중요

**실무 팁**:
- 항상 random_state 설정 (결과 재현)
- 분류 문제는 stratify 권장

---

## Q6. StandardScaler 적용

**문제**: 데이터에 StandardScaler를 적용하세요.

In [None]:
# 정답 코드
from sklearn.preprocessing import StandardScaler
import numpy as np

data = [[100, 1], [200, 2], [300, 3], [400, 4], [500, 5]]

# StandardScaler 생성 및 적용
scaler = StandardScaler()
data_scaled = scaler.fit_transform(data)

print("원본 데이터:")
print(np.array(data))

print("\n스케일링된 데이터:")
print(data_scaled)

print(f"\n평균: {scaler.mean_}")
print(f"표준편차: {scaler.scale_}")

In [None]:
# 테스트
assert data_scaled.shape == (5, 2)
assert abs(data_scaled.mean()) < 0.01  # 평균 약 0
assert abs(data_scaled.std() - 1.0) < 0.2  # 표준편차 약 1
print("모든 테스트 통과!")

### 풀이 설명

**접근 방법**:
- StandardScaler로 Z-score 정규화
- fit_transform()으로 학습 + 변환 동시 수행

**핵심 개념**:
- StandardScaler: (x - mean) / std
- 결과: 평균 0, 표준편차 1

**실무 팁**:
- 훈련 데이터: fit_transform()
- 테스트 데이터: transform()만 (fit 하면 안 됨!)

---

## Q7. Logistic Regression 훈련

**문제**: Iris 데이터셋에서 이진 분류 모델을 훈련하세요.

In [None]:
# 정답 코드
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

# 데이터 로드
iris = load_iris()
X = iris.data
y = (iris.target != 0).astype(int)  # setosa(0) vs non-setosa(1)

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)

# 모델 훈련
model = LogisticRegression(random_state=42)
model.fit(X_train, y_train)

# 평가
accuracy = model.score(X_test, y_test)
print(f"테스트 정확도: {accuracy:.2%}")

In [None]:
# 테스트
assert accuracy > 0.9, f"정확도가 너무 낮음: {accuracy}"
assert len(X_train) + len(X_test) == 150
print("모든 테스트 통과!")

### 풀이 설명

**접근 방법**:
1. 다중 클래스를 이진 클래스로 변환
2. train_test_split으로 분할
3. fit()으로 훈련, score()로 평가

**핵심 개념**:
- LogisticRegression: 이진 분류의 기본 알고리즘
- score(): 정확도 반환

**실무 팁**:
- 베이스라인 모델로 LogisticRegression 자주 사용
- 해석 가능한 계수 제공

---

## Q8. Pipeline 구성

**문제**: StandardScaler + LogisticRegression 파이프라인을 구성하세요.

In [None]:
# 정답 코드
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

# 데이터 준비
iris = load_iris()
X, y = iris.data, iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Pipeline 구성
pipeline = Pipeline([
    ('scaler', StandardScaler()),           # 단계 1: 스케일링
    ('classifier', LogisticRegression())    # 단계 2: 분류
])

# 학습
pipeline.fit(X_train, y_train)

# 평가
accuracy = pipeline.score(X_test, y_test)
print(f"파이프라인 정확도: {accuracy:.2%}")

# 예측
predictions = pipeline.predict(X_test[:5])
print(f"\n예측 결과: {predictions}")
print(f"실제 값: {y_test[:5]}")

In [None]:
# 테스트
assert accuracy > 0.9
assert len(pipeline.steps) == 2
assert pipeline.steps[0][0] == 'scaler'
assert pipeline.steps[1][0] == 'classifier'
print("모든 테스트 통과!")

### 풀이 설명

**접근 방법**:
- Pipeline으로 전처리와 모델을 하나로 묶음
- 튜플 리스트로 단계 정의: (이름, 변환기/모델)

**핵심 개념**:
- Pipeline.fit(): 모든 단계 순차적으로 fit
- Pipeline.predict(): 변환 후 예측
- 데이터 누수 자동 방지

**실무 팁**:
- 교차 검증과 함께 사용하면 강력
- 모델 저장/로드 시 전처리까지 함께 저장

---

## Q9. 모델 평가 지표

**문제**: 예측 결과로 Accuracy, Precision, Recall, F1 Score를 계산하세요.

In [None]:
# 정답 코드
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

y_true = [1, 0, 1, 1, 0, 1, 0, 0, 1, 1]
y_pred = [1, 0, 1, 0, 0, 1, 1, 0, 1, 1]

# 각 지표 계산
accuracy = accuracy_score(y_true, y_pred)
precision = precision_score(y_true, y_pred)
recall = recall_score(y_true, y_pred)
f1 = f1_score(y_true, y_pred)

print("평가 지표:")
print(f"  Accuracy:  {accuracy:.2%}")
print(f"  Precision: {precision:.2%}")
print(f"  Recall:    {recall:.2%}")
print(f"  F1 Score:  {f1:.2%}")

In [None]:
# 테스트
assert abs(accuracy - 0.8) < 0.01
assert precision > 0.8
assert recall > 0.8
print("모든 테스트 통과!")

### 풀이 설명

**접근 방법**:
- sklearn.metrics 모듈의 함수 사용
- y_true, y_pred 순서로 전달

**핵심 개념**:
- Accuracy: 전체 정확도
- Precision: 양성 예측의 정확도
- Recall: 실제 양성 탐지율
- F1: Precision과 Recall의 조화 평균

**실무 팁**:
- 불균형 데이터: Accuracy보다 F1 중시
- classification_report()로 한 번에 확인 가능

---

## Q10. 종합: 고객 이탈 예측 파이프라인

**문제**: 고객 데이터로 이탈 예측 모델을 구축하세요.

In [None]:
# 정답 코드
import pandas as pd
import numpy as np
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# 고객 데이터 생성
np.random.seed(42)
n = 200

customer_df = pd.DataFrame({
    'age': np.random.randint(20, 60, n),
    'tenure': np.random.randint(1, 60, n),
    'monthly_charge': np.random.uniform(30, 150, n),
    'complaints': np.random.randint(0, 10, n),
    'churned': np.random.choice([0, 1], n, p=[0.7, 0.3])
})

print("데이터 미리보기:")
print(customer_df.head())

# 1. 특성과 타겟 분리
X = customer_df[['age', 'tenure', 'monthly_charge', 'complaints']]
y = customer_df['churned']

# 2. 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.2,
    random_state=42,
    stratify=y
)

print(f"\n훈련 데이터: {len(X_train)}개")
print(f"테스트 데이터: {len(X_test)}개")
print(f"이탈 비율: {y.mean():.1%}")

In [None]:
# 3. Pipeline 구성 및 학습
pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('classifier', LogisticRegression(random_state=42))
])

pipeline.fit(X_train, y_train)

# 4. 예측
y_pred = pipeline.predict(X_test)

# 5. 평가
print("\n분류 리포트:")
print(classification_report(y_test, y_pred, target_names=['유지', '이탈']))

In [None]:
# 추가: 모델 해석
print("\n모델 계수 (특성 중요도):")
feature_names = ['age', 'tenure', 'monthly_charge', 'complaints']
for name, coef in zip(feature_names, pipeline.named_steps['classifier'].coef_[0]):
    direction = "이탈 증가" if coef > 0 else "유지 증가"
    print(f"  {name}: {coef:.4f} ({direction})")

In [None]:
# 테스트
assert len(X_train) == 160
assert len(X_test) == 40
assert len(pipeline.steps) == 2
print("모든 테스트 통과!")

### 풀이 설명

**접근 방법**:
1. 데이터 로드 및 특성/타겟 분리
2. train_test_split (stratify 적용)
3. Pipeline 구성 (스케일링 + 분류)
4. 학습 및 예측
5. classification_report로 평가

**핵심 개념**:
- 전체 ML 워크플로우 실습
- Pipeline으로 전처리-모델 통합
- classification_report로 상세 평가

**대안**:
- RandomForest, XGBoost 등 다른 알고리즘
- GridSearchCV로 하이퍼파라미터 튜닝

**흔한 실수**:
- stratify 미적용 (불균형 데이터)
- 테스트 데이터에 fit 적용 (데이터 누수)

**실무 팁**:
- 모델 계수로 특성 중요도 해석
- 양수 계수: 해당 특성 증가시 이탈 확률 증가

---

## 학습 정리

### Part 1: ML 기초 개념 핵심 요약

| 개념 | 정의 | 핵심 포인트 |
|-----|------|------------|
| 머신러닝 | 데이터에서 패턴을 학습하는 알고리즘 | 규칙을 직접 만들지 않고 데이터에서 학습 |
| 지도학습 | 레이블이 있는 데이터로 학습 | 분류(이산), 회귀(연속) |
| 비지도학습 | 레이블 없이 패턴 발견 | 클러스터링, 차원 축소, 이상 탐지 |
| 강화학습 | 보상을 최대화하도록 학습 | 에이전트-환경 상호작용 |

### Part 2: ML 프로세스 핵심 요약

| 단계 | 핵심 활동 | 결과물 |
|-----|----------|--------|
| 문제 정의 | 비즈니스 목표 -> ML 문제 변환 | 문제 유형, 평가 지표 |
| 데이터 준비 | 수집, 탐색, 전처리 | 정제된 데이터셋 |
| 모델링 | 알고리즘 선택, 훈련, 평가 | 훈련된 모델 |
| 배포 | 서비스 적용, 모니터링 | API, 대시보드 |

### Part 3: scikit-learn 핵심 요약

| 메서드 | 용도 | 사용 대상 |
|-------|-----|----------|
| fit(X, y) | 모델/전처리기 학습 | 훈련 데이터만 |
| predict(X) | 예측 수행 | 모델 |
| transform(X) | 데이터 변환 | 전처리기 |
| fit_transform(X) | 학습 + 변환 | 훈련 데이터 전처리 |
| score(X, y) | 성능 평가 | 모델 |

### 실무 팁

1. **문제 정의가 가장 중요**: 잘못된 문제 정의는 잘못된 모델로 이어짐
2. **데이터 품질 > 알고리즘**: Garbage In, Garbage Out
3. **베이스라인 먼저**: 복잡한 모델 전에 간단한 모델로 기준선 설정
4. **데이터 누수 주의**: fit은 훈련 데이터만, transform은 테스트에도
5. **Pipeline 활용**: 전처리-모델을 하나로 묶어 관리