# Day12_0: 머신러닝 개론 (ML Introduction)

## 학습 목표

**Part 1: ML 기초 개념**
1. 머신러닝의 정의와 종류 이해하기
2. 지도학습 (Supervised Learning) 개념 이해하기
3. 비지도학습 (Unsupervised Learning) 개념 이해하기
4. 강화학습 (Reinforcement Learning) 소개
5. 분류 vs 회귀 문제 구분하기

**Part 2: ML 프로세스**
1. ML 워크플로우 전체 이해하기
2. 문제 정의와 데이터 준비 단계 이해하기
3. 모델 선택과 훈련 과정 이해하기
4. 평가와 배포 단계 이해하기

**Part 3: scikit-learn 소개**
1. scikit-learn 라이브러리 구조 이해하기
2. estimator 인터페이스 (fit, predict, transform) 익히기
3. 간단한 모델 훈련 실습하기

---

## 왜 이것을 배우나요?

| 개념 | 비즈니스 활용 | 실무 예시 |
|------|-------------|----------|
| 지도학습 | 예측/분류 자동화 | 고객 이탈 예측, 대출 승인 |
| 비지도학습 | 패턴 발견 | 고객 세분화, 이상 탐지 |
| ML 워크플로우 | 체계적 문제 해결 | Kaggle 대회, 실무 프로젝트 |
| scikit-learn | 빠른 프로토타입 | 모델 실험, 성능 비교 |

**분석가 관점**: Week 4 Kaggle 미니 대회를 위한 ML 기초! 비즈니스 문제를 데이터로 해결하는 첫걸음입니다.

---

# Part 1: ML 기초 개념

---

## 1.1 머신러닝이란?

### 정의

**머신러닝(Machine Learning)**: 명시적으로 프로그래밍하지 않고, 데이터로부터 학습하여 패턴을 찾고 예측하는 알고리즘

```
전통적 프로그래밍: 데이터 + 규칙 -> 결과
머신러닝:         데이터 + 결과 -> 규칙(모델)
```

In [1]:
# 전통적 프로그래밍: 규칙을 직접 작성
def is_spam_traditional(email_text):
    """규칙 기반 스팸 필터"""
    spam_keywords = ["무료", "당첨", "대출", "광고"]
    for keyword in spam_keywords:
        if keyword in email_text:
            return True
    return False

# 테스트
emails = [
    "무료 이벤트 당첨!",
    "내일 회의 일정 안내",
    "대출 상담 안내"
]

for email in emails:
    result = "스팸" if is_spam_traditional(email) else "정상"
    print(f"'{email}' -> {result}")

'무료 이벤트 당첨!' -> 스팸
'내일 회의 일정 안내' -> 정상
'대출 상담 안내' -> 스팸


In [2]:
# 머신러닝 방식: 데이터로부터 규칙을 학습
# (실제 모델 학습은 Part 3에서 진행)

# 학습 데이터
training_data = [
    {"text": "무료 경품 이벤트", "label": "spam"},
    {"text": "회의 일정 변경", "label": "normal"},
    {"text": "대출 한도 안내", "label": "spam"},
    {"text": "프로젝트 진행 상황", "label": "normal"},
]

print("머신러닝은 이 데이터에서 '스팸의 특징'을 스스로 학습합니다.")
print(f"학습 데이터: {len(training_data)}개")

머신러닝은 이 데이터에서 '스팸의 특징'을 스스로 학습합니다.
학습 데이터: 4개


### 실무 예시: 규칙 기반 vs ML 기반

| 구분 | 규칙 기반 | ML 기반 |
|------|----------|--------|
| 스팸 필터 | 키워드 리스트 관리 | 스팸 패턴 자동 학습 |
| 대출 심사 | 점수표 기반 | 과거 데이터에서 패턴 학습 |
| 상품 추천 | 카테고리 매칭 | 구매 이력 기반 추천 |
| 이상 탐지 | 임계값 설정 | 정상 패턴 학습 후 이탈 탐지 |

---

## 1.2 머신러닝의 종류

### 학습 방식에 따른 분류

```
머신러닝
├── 지도학습 (Supervised Learning)
│   ├── 분류 (Classification): 이산형 타겟
│   └── 회귀 (Regression): 연속형 타겟
├── 비지도학습 (Unsupervised Learning)
│   ├── 클러스터링 (Clustering)
│   └── 차원 축소 (Dimensionality Reduction)
└── 강화학습 (Reinforcement Learning)
```

In [3]:
# 머신러닝 종류 정리
ml_types = {
    "지도학습 (Supervised)": {
        "특징": "정답(레이블)이 있는 데이터로 학습",
        "예시": ["스팸 분류", "집값 예측", "고객 이탈 예측"],
        "키워드": "X -> y 예측"
    },
    "비지도학습 (Unsupervised)": {
        "특징": "정답 없이 데이터의 패턴을 발견",
        "예시": ["고객 세분화", "이상 탐지", "토픽 모델링"],
        "키워드": "숨겨진 구조 발견"
    },
    "강화학습 (Reinforcement)": {
        "특징": "환경과 상호작용하며 보상 최대화",
        "예시": ["게임 AI", "로봇 제어", "추천 시스템"],
        "키워드": "시행착오로 학습"
    }
}

for ml_type, info in ml_types.items():
    print(f"\n{ml_type}")
    print(f"  특징: {info['특징']}")
    print(f"  예시: {', '.join(info['예시'])}")
    print(f"  키워드: {info['키워드']}")


지도학습 (Supervised)
  특징: 정답(레이블)이 있는 데이터로 학습
  예시: 스팸 분류, 집값 예측, 고객 이탈 예측
  키워드: X -> y 예측

비지도학습 (Unsupervised)
  특징: 정답 없이 데이터의 패턴을 발견
  예시: 고객 세분화, 이상 탐지, 토픽 모델링
  키워드: 숨겨진 구조 발견

강화학습 (Reinforcement)
  특징: 환경과 상호작용하며 보상 최대화
  예시: 게임 AI, 로봇 제어, 추천 시스템
  키워드: 시행착오로 학습


---

## 1.3 지도학습 (Supervised Learning)

### 핵심 개념

- **입력(X)**: 특성(feature), 독립변수
- **출력(y)**: 타겟(target), 레이블, 종속변수
- **목표**: X로부터 y를 예측하는 함수(모델) 학습

In [4]:
# 지도학습 데이터 예시: 고객 이탈 예측
customer_data = [
    # 특성(X): 나이, 이용기간(월), 월 사용액, 불만건수
    # 타겟(y): 이탈 여부 (0: 유지, 1: 이탈)
    {"age": 25, "tenure": 6, "monthly_charge": 50, "complaints": 3, "churned": 1},
    {"age": 45, "tenure": 36, "monthly_charge": 100, "complaints": 0, "churned": 0},
    {"age": 35, "tenure": 12, "monthly_charge": 75, "complaints": 2, "churned": 0},
    {"age": 28, "tenure": 3, "monthly_charge": 45, "complaints": 5, "churned": 1},
]

print("고객 이탈 예측 데이터:")
print("-" * 70)
print(f"{'나이':>6} {'이용기간':>8} {'월사용액':>8} {'불만건수':>8} {'이탈여부':>8}")
print("-" * 70)
for c in customer_data:
    churn_label = "이탈" if c['churned'] == 1 else "유지"
    print(f"{c['age']:>6} {c['tenure']:>8} {c['monthly_charge']:>8} {c['complaints']:>8} {churn_label:>8}")

고객 이탈 예측 데이터:
----------------------------------------------------------------------
    나이     이용기간     월사용액     불만건수     이탈여부
----------------------------------------------------------------------
    25        6       50        3       이탈
    45       36      100        0       유지
    35       12       75        2       유지
    28        3       45        5       이탈


### 분류 (Classification) vs 회귀 (Regression)

| 구분 | 분류 | 회귀 |
|------|-----|-----|
| 타겟 | 이산형 (카테고리) | 연속형 (숫자) |
| 예시 | 스팸/정상, 합격/불합격 | 집값, 매출액 |
| 평가 | 정확도, F1, AUC | RMSE, MAE, R2 |

In [5]:
# 분류 문제 예시
classification_examples = [
    {"문제": "이메일 스팸 분류", "타겟": "스팸/정상 (2개 클래스)"},
    {"문제": "고객 이탈 예측", "타겟": "이탈/유지 (2개 클래스)"},
    {"문제": "상품 카테고리 분류", "타겟": "의류/전자/식품/... (다중 클래스)"},
    {"문제": "대출 승인 여부", "타겟": "승인/거절 (2개 클래스)"},
]

print("분류(Classification) 문제 예시:")
for ex in classification_examples:
    print(f"  - {ex['문제']}: {ex['타겟']}")

분류(Classification) 문제 예시:
  - 이메일 스팸 분류: 스팸/정상 (2개 클래스)
  - 고객 이탈 예측: 이탈/유지 (2개 클래스)
  - 상품 카테고리 분류: 의류/전자/식품/... (다중 클래스)
  - 대출 승인 여부: 승인/거절 (2개 클래스)


In [6]:
# 회귀 문제 예시
regression_examples = [
    {"문제": "주택 가격 예측", "타겟": "가격 (원)"},
    {"문제": "매출 예측", "타겟": "매출액 (만원)"},
    {"문제": "재고 수요 예측", "타겟": "판매량 (개)"},
    {"문제": "고객 생애 가치", "타겟": "LTV (원)"},
]

print("회귀(Regression) 문제 예시:")
for ex in regression_examples:
    print(f"  - {ex['문제']}: {ex['타겟']}")

회귀(Regression) 문제 예시:
  - 주택 가격 예측: 가격 (원)
  - 매출 예측: 매출액 (만원)
  - 재고 수요 예측: 판매량 (개)
  - 고객 생애 가치: LTV (원)


### 실무 예시: 문제 유형 판단하기

**핵심 질문**: "예측하려는 타겟이 카테고리인가, 숫자인가?"

In [7]:
def classify_problem(target_description):
    """
    타겟 설명을 보고 문제 유형 판단
    """
    # 분류 키워드
    classification_keywords = ["여부", "분류", "종류", "카테고리", "예/아니오", "합격", "불합격"]
    
    # 회귀 키워드  
    regression_keywords = ["가격", "금액", "개수", "량", "수량", "점수", "율"]
    
    for kw in classification_keywords:
        if kw in target_description:
            return "분류 (Classification)"
    
    for kw in regression_keywords:
        if kw in target_description:
            return "회귀 (Regression)"
    
    return "판단 필요"

# 테스트
problems = [
    "고객 이탈 여부 예측",
    "다음 달 매출 금액 예측",
    "상품 카테고리 분류",
    "부동산 가격 예측",
    "대출 승인 여부"
]

print("문제 유형 판단:")
for problem in problems:
    problem_type = classify_problem(problem)
    print(f"  '{problem}' -> {problem_type}")

문제 유형 판단:
  '고객 이탈 여부 예측' -> 분류 (Classification)
  '다음 달 매출 금액 예측' -> 회귀 (Regression)
  '상품 카테고리 분류' -> 분류 (Classification)
  '부동산 가격 예측' -> 회귀 (Regression)
  '대출 승인 여부' -> 분류 (Classification)


---

## 1.4 비지도학습 (Unsupervised Learning)

### 핵심 개념

- **정답(레이블) 없이** 데이터의 숨겨진 패턴을 발견
- 주요 유형: 클러스터링, 차원 축소, 이상 탐지

In [8]:
# 비지도학습 예시: 고객 세분화
# 정답(레이블) 없이 비슷한 고객끼리 그룹화

customers = [
    {"id": 1, "purchase_freq": 20, "avg_amount": 150000},  # 고빈도-고액
    {"id": 2, "purchase_freq": 2, "avg_amount": 500000},   # 저빈도-고액
    {"id": 3, "purchase_freq": 15, "avg_amount": 180000},  # 고빈도-고액
    {"id": 4, "purchase_freq": 3, "avg_amount": 30000},    # 저빈도-저액
    {"id": 5, "purchase_freq": 1, "avg_amount": 450000},   # 저빈도-고액
    {"id": 6, "purchase_freq": 25, "avg_amount": 50000},   # 고빈도-저액
]

print("고객 세분화 (클러스터링)")
print("정답 없이 비슷한 특성의 고객을 그룹화합니다.")
print("\n고객 데이터:")
for c in customers:
    print(f"  고객{c['id']}: 구매빈도 {c['purchase_freq']}회, 평균금액 {c['avg_amount']:,}원")

고객 세분화 (클러스터링)
정답 없이 비슷한 특성의 고객을 그룹화합니다.

고객 데이터:
  고객1: 구매빈도 20회, 평균금액 150,000원
  고객2: 구매빈도 2회, 평균금액 500,000원
  고객3: 구매빈도 15회, 평균금액 180,000원
  고객4: 구매빈도 3회, 평균금액 30,000원
  고객5: 구매빈도 1회, 평균금액 450,000원
  고객6: 구매빈도 25회, 평균금액 50,000원


In [9]:
# 비지도학습 활용 사례
unsupervised_cases = {
    "클러스터링": {
        "설명": "비슷한 데이터끼리 그룹화",
        "활용": ["고객 세분화", "문서 그룹화", "이미지 분류"],
        "알고리즘": ["K-Means", "DBSCAN", "Hierarchical"]
    },
    "차원 축소": {
        "설명": "고차원 데이터를 저차원으로 압축",
        "활용": ["시각화", "노이즈 제거", "특성 추출"],
        "알고리즘": ["PCA", "t-SNE", "UMAP"]
    },
    "이상 탐지": {
        "설명": "정상 패턴에서 벗어난 데이터 탐지",
        "활용": ["사기 탐지", "장비 고장 예측", "네트워크 침입 탐지"],
        "알고리즘": ["Isolation Forest", "One-Class SVM", "LOF"]
    }
}

for case_name, info in unsupervised_cases.items():
    print(f"\n{case_name}")
    print(f"  설명: {info['설명']}")
    print(f"  활용: {', '.join(info['활용'])}")
    print(f"  알고리즘: {', '.join(info['알고리즘'])}")


클러스터링
  설명: 비슷한 데이터끼리 그룹화
  활용: 고객 세분화, 문서 그룹화, 이미지 분류
  알고리즘: K-Means, DBSCAN, Hierarchical

차원 축소
  설명: 고차원 데이터를 저차원으로 압축
  활용: 시각화, 노이즈 제거, 특성 추출
  알고리즘: PCA, t-SNE, UMAP

이상 탐지
  설명: 정상 패턴에서 벗어난 데이터 탐지
  활용: 사기 탐지, 장비 고장 예측, 네트워크 침입 탐지
  알고리즘: Isolation Forest, One-Class SVM, LOF


---

## 1.5 강화학습 (Reinforcement Learning) 소개

### 핵심 개념

- **에이전트(Agent)**: 학습 주체
- **환경(Environment)**: 에이전트가 상호작용하는 세계
- **보상(Reward)**: 행동에 대한 피드백
- **목표**: 누적 보상을 최대화하는 정책(Policy) 학습

In [10]:
# 강화학습 개념 (간단한 비유)
print("강화학습 비유: 게임 플레이 학습")
print("="*50)
print()
print("1. 에이전트: 게임 플레이어 (AI)")
print("2. 환경: 게임 화면, 규칙")
print("3. 상태: 현재 게임 상황")
print("4. 행동: 이동, 점프, 공격 등")
print("5. 보상: 점수 획득(+), 사망(-)") 
print()
print("학습 과정:")
print("  시행착오 -> 보상/벌점 -> 전략 개선 -> 반복")
print()
print("실무 활용:")
print("  - 게임 AI (AlphaGo, Atari)")
print("  - 로봇 제어")
print("  - 추천 시스템 (탐색/활용 균형)")
print("  - 자율 주행")

강화학습 비유: 게임 플레이 학습

1. 에이전트: 게임 플레이어 (AI)
2. 환경: 게임 화면, 규칙
3. 상태: 현재 게임 상황
4. 행동: 이동, 점프, 공격 등
5. 보상: 점수 획득(+), 사망(-)

학습 과정:
  시행착오 -> 보상/벌점 -> 전략 개선 -> 반복

실무 활용:
  - 게임 AI (AlphaGo, Atari)
  - 로봇 제어
  - 추천 시스템 (탐색/활용 균형)
  - 자율 주행


### 실무 예시: 지도/비지도/강화학습 비교

| 구분 | 지도학습 | 비지도학습 | 강화학습 |
|------|---------|-----------|----------|
| 데이터 | X, y 쌍 | X만 | 환경에서 획득 |
| 피드백 | 정답 레이블 | 없음 | 보상 신호 |
| 목표 | y 예측 | 패턴 발견 | 보상 최대화 |
| 예시 | 스팸 분류 | 고객 세분화 | 게임 AI |

---

# Part 2: ML 프로세스 (워크플로우)

---

## 2.1 ML 워크플로우 전체 그림

```
1. 문제 정의
      ↓
2. 데이터 수집
      ↓
3. 데이터 탐색(EDA) & 전처리
      ↓
4. 특성 엔지니어링
      ↓
5. 모델 선택 & 훈련
      ↓
6. 모델 평가
      ↓
7. 하이퍼파라미터 튜닝
      ↓
8. 배포 & 모니터링
```

In [11]:
# ML 워크플로우 단계별 설명
ml_workflow = [
    {
        "단계": "1. 문제 정의",
        "질문": "무엇을 예측/분류할 것인가?",
        "결과물": "문제 유형 (분류/회귀), 평가 지표, 성공 기준"
    },
    {
        "단계": "2. 데이터 수집",
        "질문": "필요한 데이터를 어떻게 확보할 것인가?",
        "결과물": "원시 데이터셋 (CSV, DB, API)"
    },
    {
        "단계": "3. 데이터 탐색 & 전처리",
        "질문": "데이터의 품질과 특성은?",
        "결과물": "정제된 데이터, EDA 리포트"
    },
    {
        "단계": "4. 특성 엔지니어링",
        "질문": "어떤 특성이 예측에 유용한가?",
        "결과물": "학습용 특성 행렬 (X)"
    },
    {
        "단계": "5. 모델 선택 & 훈련",
        "질문": "어떤 알고리즘을 사용할 것인가?",
        "결과물": "훈련된 모델"
    },
    {
        "단계": "6. 모델 평가",
        "질문": "모델 성능이 충분한가?",
        "결과물": "평가 지표 (정확도, RMSE 등)"
    },
    {
        "단계": "7. 하이퍼파라미터 튜닝",
        "질문": "모델을 더 개선할 수 있는가?",
        "결과물": "최적화된 모델"
    },
    {
        "단계": "8. 배포 & 모니터링",
        "질문": "실제 환경에서 어떻게 사용할 것인가?",
        "결과물": "API, 대시보드, 알림 시스템"
    }
]

print("ML 워크플로우 8단계")
print("=" * 60)
for step in ml_workflow:
    print(f"\n{step['단계']}")
    print(f"  핵심 질문: {step['질문']}")
    print(f"  결과물: {step['결과물']}")

ML 워크플로우 8단계

1. 문제 정의
  핵심 질문: 무엇을 예측/분류할 것인가?
  결과물: 문제 유형 (분류/회귀), 평가 지표, 성공 기준

2. 데이터 수집
  핵심 질문: 필요한 데이터를 어떻게 확보할 것인가?
  결과물: 원시 데이터셋 (CSV, DB, API)

3. 데이터 탐색 & 전처리
  핵심 질문: 데이터의 품질과 특성은?
  결과물: 정제된 데이터, EDA 리포트

4. 특성 엔지니어링
  핵심 질문: 어떤 특성이 예측에 유용한가?
  결과물: 학습용 특성 행렬 (X)

5. 모델 선택 & 훈련
  핵심 질문: 어떤 알고리즘을 사용할 것인가?
  결과물: 훈련된 모델

6. 모델 평가
  핵심 질문: 모델 성능이 충분한가?
  결과물: 평가 지표 (정확도, RMSE 등)

7. 하이퍼파라미터 튜닝
  핵심 질문: 모델을 더 개선할 수 있는가?
  결과물: 최적화된 모델

8. 배포 & 모니터링
  핵심 질문: 실제 환경에서 어떻게 사용할 것인가?
  결과물: API, 대시보드, 알림 시스템


---

## 2.2 문제 정의 (Problem Definition)

### 좋은 문제 정의의 조건

1. **명확한 비즈니스 목표**: "고객 이탈을 줄이고 싶다"
2. **측정 가능한 타겟**: "이탈 여부 (0/1)"
3. **적절한 평가 지표**: "AUC-ROC 0.8 이상"
4. **데이터 가용성**: "고객 행동 데이터 확보 가능"

In [12]:
# 문제 정의 템플릿
def define_ml_problem(business_goal, target, problem_type, metric, threshold):
    """
    ML 문제 정의 문서 생성
    """
    problem_doc = {
        "비즈니스 목표": business_goal,
        "예측 타겟": target,
        "문제 유형": problem_type,
        "평가 지표": metric,
        "성공 기준": f"{metric} >= {threshold}"
    }
    return problem_doc

# 예시: 고객 이탈 예측
churn_problem = define_ml_problem(
    business_goal="고객 이탈률을 20% 감소시키기",
    target="이탈 여부 (churned: 0/1)",
    problem_type="이진 분류 (Binary Classification)",
    metric="AUC-ROC",
    threshold=0.8
)

print("ML 문제 정의서: 고객 이탈 예측")
print("-" * 40)
for key, value in churn_problem.items():
    print(f"{key}: {value}")

ML 문제 정의서: 고객 이탈 예측
----------------------------------------
비즈니스 목표: 고객 이탈률을 20% 감소시키기
예측 타겟: 이탈 여부 (churned: 0/1)
문제 유형: 이진 분류 (Binary Classification)
평가 지표: AUC-ROC
성공 기준: AUC-ROC >= 0.8


In [13]:
# 예시: 중고차 가격 예측 (Week 4 Kaggle 주제 후보)
car_price_problem = define_ml_problem(
    business_goal="중고차 적정 가격 산정 자동화",
    target="중고차 가격 (만원)",
    problem_type="회귀 (Regression)",
    metric="RMSE",
    threshold=500  # 500만원 이내 오차
)

print("\nML 문제 정의서: 중고차 가격 예측")
print("-" * 40)
for key, value in car_price_problem.items():
    print(f"{key}: {value}")


ML 문제 정의서: 중고차 가격 예측
----------------------------------------
비즈니스 목표: 중고차 적정 가격 산정 자동화
예측 타겟: 중고차 가격 (만원)
문제 유형: 회귀 (Regression)
평가 지표: RMSE
성공 기준: RMSE >= 500


---

## 2.3 데이터 수집 및 전처리

### 데이터 품질 체크리스트

- [ ] 결측치(Missing Values) 확인
- [ ] 이상치(Outliers) 탐지
- [ ] 중복 데이터 제거
- [ ] 데이터 타입 확인 및 변환
- [ ] 클래스 불균형 확인 (분류 문제)

In [14]:
import pandas as pd
import numpy as np

# 예시 데이터 생성
np.random.seed(42)
n_samples = 100

data = pd.DataFrame({
    'age': np.random.randint(20, 60, n_samples),
    'tenure_months': np.random.randint(1, 60, n_samples),
    'monthly_charge': np.random.uniform(30, 150, n_samples),
    'total_charge': np.random.uniform(100, 5000, n_samples),
    'complaints': np.random.randint(0, 10, n_samples),
    'churned': np.random.choice([0, 1], n_samples, p=[0.7, 0.3])
})

# 결측치 추가 (실제 상황 시뮬레이션)
data.loc[5, 'monthly_charge'] = np.nan
data.loc[10, 'total_charge'] = np.nan
data.loc[15, 'complaints'] = np.nan

print("샘플 데이터 (처음 10행):")
print(data.head(10))

샘플 데이터 (처음 10행):
   age  tenure_months  monthly_charge  total_charge  complaints  churned
0   58             48       37.787070    313.658482         9.0        0
1   48             55       60.469850   4973.297503         9.0        0
2   34             23       59.625128   2402.728119         4.0        0
3   27             24      113.556513   1469.845675         6.0        0
4   40             37      115.472471   4429.120709         3.0        0
5   58             35             NaN   3763.821992         0.0        1
6   38             44      149.728858   4770.052050         4.0        1
7   42             40       62.013722   1720.676493         6.0        1
8   30             22      147.193795   2808.548337         9.0        0
9   30             27       79.324442   2904.233099         9.0        0


In [15]:
# 데이터 품질 체크
print("데이터 품질 체크")
print("=" * 40)

# 1. 기본 정보
print(f"\n1. 데이터 크기: {data.shape[0]}행 x {data.shape[1]}열")

# 2. 결측치
print(f"\n2. 결측치:")
print(data.isnull().sum())

# 3. 클래스 분포 (타겟 변수)
print(f"\n3. 타겟 분포 (churned):")
print(data['churned'].value_counts())
print(f"   이탈 비율: {data['churned'].mean():.1%}")

데이터 품질 체크

1. 데이터 크기: 100행 x 6열

2. 결측치:
age               0
tenure_months     0
monthly_charge    1
total_charge      1
complaints        1
churned           0
dtype: int64

3. 타겟 분포 (churned):
churned
0    65
1    35
Name: count, dtype: int64
   이탈 비율: 35.0%


---

## 2.4 모델 선택 및 훈련

### 알고리즘 선택 가이드

| 문제 유형 | 데이터 크기 | 추천 알고리즘 |
|----------|-----------|-------------|
| 분류 (이진) | 소규모 | Logistic Regression |
| 분류 (이진) | 중규모 | Random Forest, XGBoost |
| 회귀 | 소규모 | Linear Regression, Ridge |
| 회귀 | 중규모 | Random Forest, XGBoost |

In [16]:
# 알고리즘 선택 가이드
algorithm_guide = {
    "Logistic Regression": {
        "유형": "분류",
        "장점": "해석 가능, 빠른 학습",
        "단점": "비선형 패턴 학습 어려움",
        "추천": "베이스라인, 해석이 중요할 때"
    },
    "Decision Tree": {
        "유형": "분류/회귀",
        "장점": "직관적, 해석 가능",
        "단점": "과적합 경향",
        "추천": "규칙 기반 의사결정"
    },
    "Random Forest": {
        "유형": "분류/회귀",
        "장점": "강건함, 과적합 방지",
        "단점": "느린 예측",
        "추천": "대부분의 정형 데이터"
    },
    "XGBoost/LightGBM": {
        "유형": "분류/회귀",
        "장점": "높은 성능, 빠른 학습",
        "단점": "튜닝 필요",
        "추천": "Kaggle 대회, 최고 성능 필요시"
    }
}

print("알고리즘 선택 가이드")
print("=" * 60)
for algo, info in algorithm_guide.items():
    print(f"\n{algo}")
    for key, value in info.items():
        print(f"  {key}: {value}")

알고리즘 선택 가이드

Logistic Regression
  유형: 분류
  장점: 해석 가능, 빠른 학습
  단점: 비선형 패턴 학습 어려움
  추천: 베이스라인, 해석이 중요할 때

Decision Tree
  유형: 분류/회귀
  장점: 직관적, 해석 가능
  단점: 과적합 경향
  추천: 규칙 기반 의사결정

Random Forest
  유형: 분류/회귀
  장점: 강건함, 과적합 방지
  단점: 느린 예측
  추천: 대부분의 정형 데이터

XGBoost/LightGBM
  유형: 분류/회귀
  장점: 높은 성능, 빠른 학습
  단점: 튜닝 필요
  추천: Kaggle 대회, 최고 성능 필요시


---

## 2.5 모델 평가

### 분류 문제 평가 지표

| 지표 | 설명 | 언제 사용? |
|-----|------|----------|
| Accuracy | 전체 정확도 | 균형 데이터 |
| Precision | 양성 예측의 정확도 | FP 비용이 클 때 |
| Recall | 실제 양성 탐지율 | FN 비용이 클 때 |
| F1 Score | Precision-Recall 조화 | 불균형 데이터 |
| AUC-ROC | 분류 성능 종합 | 확률 예측 필요시 |

In [17]:
# 평가 지표 설명
print("분류 평가 지표 이해하기")
print("=" * 50)

# 혼동 행렬 설명
print("""
혼동 행렬 (Confusion Matrix):

                 예측
              Positive  Negative
실제 Positive    TP        FN
     Negative    FP        TN

TP (True Positive): 이탈 고객을 이탈로 예측 (O)
TN (True Negative): 유지 고객을 유지로 예측 (O)
FP (False Positive): 유지 고객을 이탈로 예측 (X) - 불필요한 리텐션 비용
FN (False Negative): 이탈 고객을 유지로 예측 (X) - 이탈 방치
""")

# 지표 계산 예시
TP, FP, TN, FN = 30, 10, 50, 10

accuracy = (TP + TN) / (TP + TN + FP + FN)
precision = TP / (TP + FP)
recall = TP / (TP + FN)
f1 = 2 * precision * recall / (precision + recall)

print(f"예시 계산 (TP={TP}, FP={FP}, TN={TN}, FN={FN}):")
print(f"  Accuracy: {accuracy:.2%}")
print(f"  Precision: {precision:.2%}")
print(f"  Recall: {recall:.2%}")
print(f"  F1 Score: {f1:.2%}")

분류 평가 지표 이해하기

혼동 행렬 (Confusion Matrix):

                 예측
              Positive  Negative
실제 Positive    TP        FN
     Negative    FP        TN

TP (True Positive): 이탈 고객을 이탈로 예측 (O)
TN (True Negative): 유지 고객을 유지로 예측 (O)
FP (False Positive): 유지 고객을 이탈로 예측 (X) - 불필요한 리텐션 비용
FN (False Negative): 이탈 고객을 유지로 예측 (X) - 이탈 방치

예시 계산 (TP=30, FP=10, TN=50, FN=10):
  Accuracy: 80.00%
  Precision: 75.00%
  Recall: 75.00%
  F1 Score: 75.00%


### 회귀 문제 평가 지표

| 지표 | 설명 | 특징 |
|-----|------|------|
| MAE | 평균 절대 오차 | 해석 쉬움 |
| RMSE | 평균 제곱근 오차 | 큰 오차에 민감 |
| R2 | 결정 계수 | 0~1 범위 |

In [18]:
# 회귀 평가 지표 예시
y_true = np.array([100, 150, 200, 250, 300])
y_pred = np.array([110, 140, 220, 230, 320])

# MAE
mae = np.mean(np.abs(y_true - y_pred))

# RMSE
rmse = np.sqrt(np.mean((y_true - y_pred) ** 2))

# R2
ss_res = np.sum((y_true - y_pred) ** 2)
ss_tot = np.sum((y_true - np.mean(y_true)) ** 2)
r2 = 1 - (ss_res / ss_tot)

print("회귀 평가 지표 예시")
print("=" * 40)
print(f"실제값: {y_true}")
print(f"예측값: {y_pred}")
print(f"\nMAE: {mae:.2f} (평균 {mae:.0f}만원 오차)")
print(f"RMSE: {rmse:.2f} (큰 오차에 민감)")
print(f"R2: {r2:.2%} (설명력)")

회귀 평가 지표 예시
실제값: [100 150 200 250 300]
예측값: [110 140 220 230 320]

MAE: 16.00 (평균 16만원 오차)
RMSE: 16.73 (큰 오차에 민감)
R2: 94.40% (설명력)


---

# Part 3: scikit-learn 소개

---

## 3.1 scikit-learn 개요

### 핵심 특징

- Python ML 표준 라이브러리
- 일관된 API (fit, predict, transform)
- 풍부한 알고리즘 제공
- 활발한 커뮤니티

In [20]:
# scikit-learn 임포트
import sklearn
print(f"scikit-learn 버전: {sklearn.__version__}")

scikit-learn 버전: 1.8.0


In [21]:
# scikit-learn 주요 모듈
sklearn_modules = {
    "sklearn.model_selection": "데이터 분할, 교차 검증, 하이퍼파라미터 튜닝",
    "sklearn.preprocessing": "스케일링, 인코딩, 정규화",
    "sklearn.linear_model": "선형 회귀, 로지스틱 회귀, Ridge, Lasso",
    "sklearn.tree": "결정 트리",
    "sklearn.ensemble": "Random Forest, Gradient Boosting, AdaBoost",
    "sklearn.metrics": "평가 지표 (accuracy, f1, rmse 등)",
    "sklearn.pipeline": "전처리-모델 파이프라인",
    "sklearn.cluster": "K-Means, DBSCAN 등 클러스터링"
}

print("scikit-learn 주요 모듈")
print("=" * 60)
for module, description in sklearn_modules.items():
    print(f"\n{module}")
    print(f"  -> {description}")

scikit-learn 주요 모듈

sklearn.model_selection
  -> 데이터 분할, 교차 검증, 하이퍼파라미터 튜닝

sklearn.preprocessing
  -> 스케일링, 인코딩, 정규화

sklearn.linear_model
  -> 선형 회귀, 로지스틱 회귀, Ridge, Lasso

sklearn.tree
  -> 결정 트리

sklearn.ensemble
  -> Random Forest, Gradient Boosting, AdaBoost

sklearn.metrics
  -> 평가 지표 (accuracy, f1, rmse 등)

sklearn.pipeline
  -> 전처리-모델 파이프라인

sklearn.cluster
  -> K-Means, DBSCAN 등 클러스터링


---

## 3.2 Estimator 인터페이스

### 핵심 메서드

```python
# 모든 scikit-learn 모델의 공통 인터페이스
model.fit(X, y)       # 모델 훈련
model.predict(X)      # 예측
model.score(X, y)     # 평가

# 전처리기 (Transformer)
scaler.fit(X)         # 변환 규칙 학습
scaler.transform(X)   # 변환 적용
scaler.fit_transform(X)  # 학습 + 변환 동시
```

In [22]:
# Estimator 인터페이스 예시
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

# 데이터 준비 (앞서 생성한 데이터 사용)
# 결측치 제거
data_clean = data.dropna()

# 특성(X)과 타겟(y) 분리
feature_cols = ['age', 'tenure_months', 'monthly_charge', 'complaints']
X = data_clean[feature_cols]
y = data_clean['churned']

print(f"특성(X) shape: {X.shape}")
print(f"타겟(y) shape: {y.shape}")
print(f"\n특성 목록: {feature_cols}")

특성(X) shape: (97, 4)
타겟(y) shape: (97,)

특성 목록: ['age', 'tenure_months', 'monthly_charge', 'complaints']


In [23]:
# 1. 데이터 분할: train_test_split
X_train, X_test, y_train, y_test = train_test_split(
    X, y, 
    test_size=0.2,      # 테스트 데이터 20%
    random_state=42,    # 재현성을 위한 시드
    stratify=y          # 클래스 비율 유지
)

print("데이터 분할 결과:")
print(f"  훈련 데이터: {X_train.shape[0]}개")
print(f"  테스트 데이터: {X_test.shape[0]}개")
print(f"\n훈련 데이터 이탈 비율: {y_train.mean():.1%}")
print(f"테스트 데이터 이탈 비율: {y_test.mean():.1%}")

데이터 분할 결과:
  훈련 데이터: 77개
  테스트 데이터: 20개

훈련 데이터 이탈 비율: 35.1%
테스트 데이터 이탈 비율: 35.0%


In [24]:
# 2. 전처리: StandardScaler (fit + transform)
scaler = StandardScaler()

# 훈련 데이터로 fit (변환 규칙 학습)
scaler.fit(X_train)
print("스케일러 학습 완료")
print(f"  평균: {scaler.mean_}")
print(f"  표준편차: {scaler.scale_}")

# transform 적용
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)  # 훈련 데이터의 통계로 변환!

print(f"\n스케일링 전 (첫 샘플): {X_train.iloc[0].values}")
print(f"스케일링 후 (첫 샘플): {X_train_scaled[0]}")

스케일러 학습 완료
  평균: [39.24675325 32.77922078 98.85022076  4.38961039]
  표준편차: [11.48930145 16.19092529 33.70005444  3.14645067]

스케일링 전 (첫 샘플): [ 30.          37.         106.35991418   0.        ]
스케일링 후 (첫 샘플): [-0.80481423  0.26068796  0.22283921 -1.39509907]


In [25]:
# 3. 모델 훈련: fit
model = LogisticRegression(random_state=42)

# 모델 학습
model.fit(X_train_scaled, y_train)
print("모델 훈련 완료!")
print(f"\n모델 계수 (coefficients):")
for feature, coef in zip(feature_cols, model.coef_[0]):
    print(f"  {feature}: {coef:.4f}")

모델 훈련 완료!

모델 계수 (coefficients):
  age: 0.3402
  tenure_months: 0.3243
  monthly_charge: 0.2745
  complaints: -0.1759


In [26]:
# 4. 예측: predict
y_pred = model.predict(X_test_scaled)

print("예측 결과 (처음 10개):")
print(f"  실제: {y_test.values[:10]}")
print(f"  예측: {y_pred[:10]}")

# 확률 예측
y_pred_proba = model.predict_proba(X_test_scaled)
print(f"\n이탈 확률 (처음 5개):")
for i in range(5):
    print(f"  샘플 {i}: 유지 {y_pred_proba[i][0]:.2%}, 이탈 {y_pred_proba[i][1]:.2%}")

예측 결과 (처음 10개):
  실제: [0 1 0 0 0 1 0 0 1 0]
  예측: [0 0 0 0 0 0 0 0 0 0]

이탈 확률 (처음 5개):
  샘플 0: 유지 68.97%, 이탈 31.03%
  샘플 1: 유지 76.88%, 이탈 23.12%
  샘플 2: 유지 71.29%, 이탈 28.71%
  샘플 3: 유지 68.13%, 이탈 31.87%
  샘플 4: 유지 73.86%, 이탈 26.14%


In [27]:
# 5. 평가: score 및 metrics
from sklearn.metrics import accuracy_score, classification_report

# 기본 score (정확도)
accuracy = model.score(X_test_scaled, y_test)
print(f"테스트 정확도: {accuracy:.2%}")

# 상세 평가 리포트
print("\n분류 리포트:")
print(classification_report(y_test, y_pred, target_names=['유지', '이탈']))

테스트 정확도: 65.00%

분류 리포트:
              precision    recall  f1-score   support

          유지       0.65      1.00      0.79        13
          이탈       0.00      0.00      0.00         7

    accuracy                           0.65        20
   macro avg       0.33      0.50      0.39        20
weighted avg       0.42      0.65      0.51        20



  _warn_prf(average, modifier, f"{metric.capitalize()} is", result.shape[0])
  _warn_prf(average, modifier, f"{metric.capitalize()} is", result.shape[0])
  _warn_prf(average, modifier, f"{metric.capitalize()} is", result.shape[0])


### 실무 예시: fit/transform 주의사항

**중요**: 테스트 데이터에는 `transform`만 적용! (데이터 누수 방지)

In [None]:
# 올바른 사용법 vs 잘못된 사용법
print("fit/transform 올바른 사용법")
print("=" * 50)

print("""
# 올바른 방법
scaler.fit(X_train)           # 훈련 데이터로만 fit
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)  # 훈련 통계로 transform

# 잘못된 방법 (데이터 누수!)
scaler.fit(X)                 # 전체 데이터로 fit
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)

왜 문제인가?
- 테스트 데이터의 정보가 전처리에 반영됨
- 실제 서비스에서는 미래 데이터를 알 수 없음
- 과대평가된 성능으로 이어짐
""")

---

## 3.3 간단한 ML 파이프라인 실습

### 전체 흐름 요약

In [None]:
# scikit-learn Pipeline으로 전처리-모델 통합
from sklearn.pipeline import Pipeline

# 파이프라인 정의
pipeline = Pipeline([
    ('scaler', StandardScaler()),           # 전처리
    ('classifier', LogisticRegression())    # 모델
])

# 한 번에 fit!
pipeline.fit(X_train, y_train)

# 한 번에 predict!
y_pred_pipe = pipeline.predict(X_test)

# 평가
accuracy_pipe = pipeline.score(X_test, y_test)
print(f"파이프라인 정확도: {accuracy_pipe:.2%}")

In [None]:
# 파이프라인의 장점
print("Pipeline 장점")
print("=" * 40)
print("""
1. 코드 간결화
   - fit/transform 자동 관리
   - 데이터 누수 방지

2. 재현성
   - 전처리 + 모델이 하나의 객체
   - 저장/로드 용이

3. 교차 검증 호환
   - cross_val_score와 함께 사용
   - 각 fold에서 올바르게 fit/transform
""")

---

## 실습 퀴즈

**난이도**: (쉬움) ~ (어려움)

---

### Q1. ML 유형 구분하기 

**문제**: 다음 문제들이 지도학습인지 비지도학습인지 분류하세요.

```python
problems = [
    "고객 이탈 예측",
    "고객 세분화",
    "스팸 메일 분류",
    "이상 거래 탐지 (레이블 없음)"
]
```

**기대 결과**: 각 문제에 대해 "지도학습" 또는 "비지도학습" 출력

In [None]:
problems = [
    "고객 이탈 예측",
    "고객 세분화",
    "스팸 메일 분류",
    "이상 거래 탐지 (레이블 없음)"
]

# 여기에 코드를 작성하세요


### Q2. 분류 vs 회귀 판단 

**문제**: 다음 예측 타겟이 분류 문제인지 회귀 문제인지 판단하세요.

```python
targets = [
    "주택 가격 (만원)",
    "합격 여부 (합격/불합격)",
    "판매량 (개)",
    "고객 등급 (VIP/일반/신규)"
]
```

In [None]:
targets = [
    "주택 가격 (만원)",
    "합격 여부 (합격/불합격)",
    "판매량 (개)",
    "고객 등급 (VIP/일반/신규)"
]

# 여기에 코드를 작성하세요


### Q3. ML 워크플로우 순서 

**문제**: 다음 ML 단계들을 올바른 순서로 정렬하세요.

```python
steps = [
    "모델 평가",
    "데이터 전처리",
    "문제 정의",
    "모델 훈련",
    "데이터 수집"
]
```

**기대 결과**: 1~5 순서로 정렬된 리스트

In [None]:
steps = [
    "모델 평가",
    "데이터 전처리",
    "문제 정의",
    "모델 훈련",
    "데이터 수집"
]

# 여기에 코드를 작성하세요


### Q4. Confusion Matrix 이해 

**문제**: 아래 혼동 행렬에서 Precision과 Recall을 계산하세요.

```
TP = 40, FP = 10, TN = 45, FN = 5
```

**기대 결과**: Precision, Recall 값 출력

In [None]:
TP, FP, TN, FN = 40, 10, 45, 5

# 여기에 코드를 작성하세요


### Q5. 데이터 분할 

**문제**: 아래 데이터를 훈련/테스트로 분할하세요 (테스트 비율 20%, stratify 적용).

```python
X = [[1, 2], [3, 4], [5, 6], [7, 8], [9, 10], [11, 12], [13, 14], [15, 16], [17, 18], [19, 20]]
y = [0, 0, 0, 0, 0, 1, 1, 1, 1, 1]
```

In [None]:
from sklearn.model_selection import train_test_split

X = [[1, 2], [3, 4], [5, 6], [7, 8], [9, 10], [11, 12], [13, 14], [15, 16], [17, 18], [19, 20]]
y = [0, 0, 0, 0, 0, 1, 1, 1, 1, 1]

# 여기에 코드를 작성하세요


### Q6. StandardScaler 적용 

**문제**: 아래 데이터에 StandardScaler를 적용하세요. (fit_transform 사용)

```python
data = [[100, 1], [200, 2], [300, 3], [400, 4], [500, 5]]
```

**기대 결과**: 스케일링된 데이터와 평균, 표준편차 출력

In [None]:
from sklearn.preprocessing import StandardScaler
import numpy as np

data = [[100, 1], [200, 2], [300, 3], [400, 4], [500, 5]]

# 여기에 코드를 작성하세요


### Q7. Logistic Regression 훈련 

**문제**: Iris 데이터셋에서 이진 분류 모델을 훈련하세요.

조건:
- setosa(0) vs non-setosa(1) 이진 분류
- test_size=0.3
- 정확도 출력

In [None]:
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

# 데이터 로드
iris = load_iris()
X = iris.data
y = (iris.target != 0).astype(int)  # setosa vs non-setosa

# 여기에 코드를 작성하세요


### Q8. Pipeline 구성 

**문제**: StandardScaler + LogisticRegression 파이프라인을 구성하고 Iris 데이터에 적용하세요.

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

# 데이터 준비
iris = load_iris()
X, y = iris.data, iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 여기에 코드를 작성하세요


### Q9. 모델 평가 지표 

**문제**: 다음 예측 결과로 Accuracy, Precision, Recall, F1 Score를 계산하세요.

```python
y_true = [1, 0, 1, 1, 0, 1, 0, 0, 1, 1]
y_pred = [1, 0, 1, 0, 0, 1, 1, 0, 1, 1]
```

In [None]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

y_true = [1, 0, 1, 1, 0, 1, 0, 0, 1, 1]
y_pred = [1, 0, 1, 0, 0, 1, 1, 0, 1, 1]

# 여기에 코드를 작성하세요


### Q10. 종합: 고객 이탈 예측 파이프라인 

**문제**: 아래 고객 데이터로 이탈 예측 모델을 구축하세요.

요구사항:
1. 데이터 분할 (test_size=0.2, stratify)
2. Pipeline (StandardScaler + LogisticRegression)
3. classification_report 출력

In [None]:
import pandas as pd
import numpy as np
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# 고객 데이터 생성
np.random.seed(42)
n = 200

customer_df = pd.DataFrame({
    'age': np.random.randint(20, 60, n),
    'tenure': np.random.randint(1, 60, n),
    'monthly_charge': np.random.uniform(30, 150, n),
    'complaints': np.random.randint(0, 10, n),
    'churned': np.random.choice([0, 1], n, p=[0.7, 0.3])
})

print("데이터 미리보기:")
print(customer_df.head())

# 여기에 코드를 작성하세요


: 

---

## 학습 정리

### Part 1: ML 기초 개념 핵심 요약

| 개념 | 정의 | 핵심 포인트 |
|-----|------|------------|
| 머신러닝 | 데이터에서 패턴을 학습하는 알고리즘 | 규칙을 직접 만들지 않고 데이터에서 학습 |
| 지도학습 | 레이블이 있는 데이터로 학습 | 분류(이산), 회귀(연속) |
| 비지도학습 | 레이블 없이 패턴 발견 | 클러스터링, 차원 축소, 이상 탐지 |
| 강화학습 | 보상을 최대화하도록 학습 | 에이전트-환경 상호작용 |

### Part 2: ML 프로세스 핵심 요약

| 단계 | 핵심 활동 | 결과물 |
|-----|----------|--------|
| 문제 정의 | 비즈니스 목표 -> ML 문제 변환 | 문제 유형, 평가 지표 |
| 데이터 준비 | 수집, 탐색, 전처리 | 정제된 데이터셋 |
| 모델링 | 알고리즘 선택, 훈련, 평가 | 훈련된 모델 |
| 배포 | 서비스 적용, 모니터링 | API, 대시보드 |

### Part 3: scikit-learn 핵심 요약

| 메서드 | 용도 | 사용 대상 |
|-------|-----|----------|
| fit(X, y) | 모델/전처리기 학습 | 훈련 데이터만 |
| predict(X) | 예측 수행 | 모델 |
| transform(X) | 데이터 변환 | 전처리기 |
| fit_transform(X) | 학습 + 변환 | 훈련 데이터 전처리 |
| score(X, y) | 성능 평가 | 모델 |

### 실무 팁

1. **문제 정의가 가장 중요**: 잘못된 문제 정의는 잘못된 모델로 이어짐
2. **데이터 품질 > 알고리즘**: Garbage In, Garbage Out
3. **베이스라인 먼저**: 복잡한 모델 전에 간단한 모델로 기준선 설정
4. **데이터 누수 주의**: fit은 훈련 데이터만, transform은 테스트에도
5. **Pipeline 활용**: 전처리-모델을 하나로 묶어 관리