# 교육문제해결형 머신러닝 — 1주차 실습

## 실습 환경 설정 및 첫 번째 ML 체험: `fit` · `predict` · `score`

| 항목 | 내용 |
|------|------|
| **데이터** | `student_learning_data_kr.csv` (학생 학습 데이터 14,003건) |
| **피처(X)** | 주당학습시간, 출석률, 나이, 온라인강좌수, 과제완료율, 시험점수 |
| **타겟(y)** | 최종성적 (A / B / C / D) — **분류(Classification)** 문제 |
| **모델** | k-NN → DecisionTree 교체 체험 |
| **핵심 패턴** | `model → fit → predict → score` |

---
## 0단계: 환경 확인

Python · scikit-learn · numpy · pandas · matplotlib 버전을 출력하여
실습 환경이 정상 작동하는지 확인한다.

In [None]:
import sklearn
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

print("scikit-learn:", sklearn.__version__)
print("numpy:", np.__version__)
print("pandas:", pd.__version__)

---
## 1단계: 데이터 준비 — CSV 로드 → X, y 확인

- **피처(X)**: 모델에게 제공하는 입력 정보 ("무엇을 보고 판단할 것인가")
- **타겟(y)**: 모델이 맞춰야 하는 출력 ("무엇을 맞출 것인가")

이번 실습의 타겟은 **최종성적(A/B/C/D)** — 범주형이므로 **분류** 문제이다.

In [None]:
# CSV 파일 로드
df = pd.read_csv("student_learning_data_kr.csv")

print(f"전체 데이터: {df.shape[0]}행 × {df.shape[1]}열")
df.head()

In [None]:
# 피처(X): 수치형 변수 6개 선택
feature_columns = ["주당학습시간", "출석률", "나이", "온라인강좌수", "과제완료율", "시험점수"]
X = df[feature_columns].values

# 타겟(y): 최종성적 (A/B/C/D)
y = df["최종성적"].values

print(f"피처 shape: {X.shape}")  # (14003, 6) — 14,003명, 6개 피처
print(f"타겟 shape: {y.shape}")  # (14003,)  — 학생별 정답 1개
print(f"\n타겟 클래스: {np.unique(y)}")

---
## 2단계: 데이터 분리 — 훈련용 70% / 테스트용 30%

- 훈련 데이터(train): 모델을 **학습**시킬 때 사용
- 테스트 데이터(test): 학습이 끝난 뒤 **평가**할 때만 사용
- 시험 문제를 미리 보여주고 시험을 보면 진짜 실력을 알 수 없는 것과 같은 원리

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)

print(f"훈련 데이터: {X_train.shape}")  # (9802, 6)
print(f"테스트 데이터: {X_test.shape}")  # (4201, 6)

---
## 3단계: 모델 생성 + 학습(fit) — k-NN 분류기

scikit-learn 핵심 3줄 패턴:
1. `model = 모델이름()` — 모델 준비
2. `model.fit(X_train, y_train)` — 훈련 데이터로 패턴 학습
3. `model.predict(X_test)` — 새 데이터에 대해 예측

> **절대 규칙**: `fit` 없이 `predict`를 호출하면 오류가 발생한다.

In [None]:
from sklearn.neighbors import KNeighborsClassifier

model = KNeighborsClassifier()
model.fit(X_train, y_train)

---
## 4단계: 예측(predict) — 테스트 데이터에 대해 예측 수행

> `predict`에는 **X만** 입력한다. 정답 y는 비교용이다.

In [None]:
predictions = model.predict(X_test)

print(f"예측(처음 10개): {predictions[:10]}")
print(f"정답(처음 10개): {y_test[:10]}")

---
## 5단계: 정확도 확인(score) — accuracy_score

- `accuracy_score(정답, 예측)` — 순서 주의: **정답이 먼저, 예측이 뒤**
- 0 = 전부 틀림, 1 = 전부 맞음
- 정확도는 **'평가의 시작'**이지 **'평가의 끝'**이 아니다 (4주차에서 심화)

In [None]:
from sklearn.metrics import accuracy_score

accuracy = accuracy_score(y_test, predictions)
print(f"[k-NN] 정확도: {accuracy:.4f}")

---
## 보너스: 모델 교체 체험 — DecisionTreeClassifier

scikit-learn의 핵심 철학: **모델 이름만 바꿔도 `fit`/`predict` 패턴은 동일**하다.

```
KNeighborsClassifier()  →  DecisionTreeClassifier()
```

나머지 코드는 한 글자도 바뀌지 않는다.

In [None]:
from sklearn.tree import DecisionTreeClassifier

model_dt = DecisionTreeClassifier(random_state=42)
model_dt.fit(X_train, y_train)

predictions_dt = model_dt.predict(X_test)
accuracy_dt = accuracy_score(y_test, predictions_dt)

print(f"[DecisionTree] 정확도: {accuracy_dt:.4f}")

In [None]:
# 두 모델 정확도 비교
print("=" * 40)
print(f"  k-NN 정확도:          {accuracy:.4f}")
print(f"  DecisionTree 정확도:  {accuracy_dt:.4f}")
print("=" * 40)
print("\n→ 모델을 바꿔도 fit/predict 패턴은 동일하다!")

---
## 학습 정리

| # | 핵심 | 설명 |
|---|------|------|
| 1 | **scikit-learn 핵심 패턴** | `model` → `fit` → `predict` |
| 2 | **ML 전체 흐름** | 준비 → 분리 → 학습 → 예측 → 평가 |
| 3 | **모델 교체** | 모델 이름만 바꾸면 나머지 코드는 동일 |
| 4 | **정확도 주의** | 평가의 시작이지, 평가의 끝이 아니다 |

### 초심자 실수 3가지
1. `fit` 없이 `predict` 호출 → **오류**
2. `fit`에 `X_test`, `y_test`를 넣음 → **시험 문제로 공부한 것** (평가 무의미)
3. `predict`에 `y_test`까지 넣음 → **오류** (예측은 X만)