# 지도학습 분류 맛보기

## 목표
- 이진분류와 다중분류의 개념 이해
- K-최근접 이웃(KNN) 알고리즘의 작동 원리 파악
- 데이터 전처리와 정규화의 중요성 학습
- 머신러닝 모델의 기본 파이프라인 이해

In [None]:
import numpy as np          
import pandas as pd         
import matplotlib.pyplot as plt 

In [None]:
# 한글 폰트 설정 (matplotlib에서 한글이 깨지지 않도록)
import matplotlib.font_manager as fm  # 폰트 관리 모듈
import matplotlib

# Windows 시스템의 한글 폰트 경로 설정
font_path = 'C:\\Windows\\Fonts\\H2HDRM.TTF'  # 한글 폰트 파일 경로
font = fm.FontProperties(fname=font_path).get_name()  # 폰트 이름 추출
matplotlib.rc('font', family=font)  # matplotlib 기본 폰트를 한글 폰트로 설정

### 생선 이진분류 - 도미(bream) or 빙어(smelt)

**이진분류란?**
- 두 개의 클래스 중 하나를 선택하는 분류 문제
- 0과 1로 구분하여 표현
- 도미인가? (1), 도미가 아닌가? (0)

**데이터 설명:**
- **특성(Feature)**: 길이(length), 무게(weight) - 2차원 입력 데이터
- **라벨(Label)**: 도미(1) 또는 빙어(0) - 정답 데이터
- **목표**: 새로운 생선의 길이와 무게를 보고 도미인지 빙어인지 예측

In [None]:
# 도미 데이터 준비
# 도미의 길이 데이터 (cm 단위) - 35개의 샘플
bream_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0, 35.0, 35.0, 35.0, 36.0, 36.0, 37.0, 38.5, 38.5, 39.5, 41.0, 41.0]

# 도미의 무게 데이터 (g 단위) - 35개의 샘플
bream_weight = [242.0, 290.0, 340.0, 363.0, 430.0, 450.0, 500.0, 390.0, 450.0, 500.0, 475.0, 500.0, 500.0, 340.0, 600.0, 600.0, 700.0, 700.0, 610.0, 650.0, 575.0, 685.0, 620.0, 680.0, 700.0, 725.0, 720.0, 714.0, 850.0, 1000.0, 920.0, 955.0, 925.0, 975.0, 950.0]

# 데이터 개수 확인 (길이와 무게 데이터의 개수가 일치하는지 확인)
len(bream_length), len(bream_weight)  # (35, 35) - 35개의 도미 데이터

In [None]:
# 빙어 데이터 준비
# 빙어의 길이 데이터 (cm 단위) - 14개의 샘플
smelt_length = [9.8, 10.5, 10.6, 11.0, 11.2, 11.3, 11.8, 11.8, 12.0, 12.2, 12.4, 13.0, 14.3, 15.0]

# 빙어의 무게 데이터 (g 단위) - 14개의 샘플
smelt_weight = [6.7, 7.5, 7.0, 9.7, 9.8, 8.7, 10.0, 9.9, 9.8, 12.2, 13.4, 12.2, 19.7, 19.9]

# 데이터 개수 확인 (길이와 무게 데이터의 개수가 일치하는지 확인)
len(smelt_length), len(smelt_weight)  # (14, 14) - 14개의 빙어 데이터

In [None]:
# 데이터 분포 확인 (산점도)




##### 데이터 전처리 (Data Preprocessing)

**머신러닝 모델이 원하는 형태로 데이터를 가공하는 과정**

**입력 데이터 (특성, Feature):**
- 형태: [길이, 무게] 2차원 배열 (샘플 수 × 특성 수)
- 예시: [[25.4, 242.0], [26.3, 290.0], ...]

**출력 데이터 (라벨, Label):**
- 형태: 도미 or 빙어 → 1, 0으로 구성된 1차원 배열
- 예시: [1, 1, 1, ..., 0, 0, 0, ...] (도미=1, 빙어=0)

**전처리의 중요성:**
- 머신러닝 알고리즘은 숫자 데이터만 처리 가능
- 일관된 데이터 형태로 변환 필요
- 데이터 품질 향상으로 모델 성능 개선

##### K-최근접 이웃 분류 모델 (K-Nearest Neighbors Classifier)

**KNN 알고리즘의 작동 원리:**
1. 새로운 데이터 포인트가 주어지면
2. 기존 훈련 데이터 중에서 가장 가까운 k개의 이웃을 찾음
3. 이웃들의 클래스를 확인하여 다수결로 예측
4. 거리 측정: 유클리드 거리 사용

**장점:**
- 간단하고 직관적인 알고리즘
- 훈련 과정이 빠름 (데이터를 단순히 저장)
- 비선형 패턴도 잘 처리

**단점:**
- 예측 시 모든 훈련 데이터와의 거리 계산 필요
- 메모리 사용량이 많음
- 차원의 저주 문제

In [None]:
# K-최근접 이웃 분류기 import
from sklearn.neighbors import KNeighborsClassifier 

- distances : 모델 데이터포인트와의 거리 (유클리드 거리 측정 방식)
- index : 모델 데이터포인트의 인덱스

In [None]:
# k 개수 변경
kn49 = KNeighborsClassifier(n_neighbors=49)

kn49.fit(train_input, train_label)
kn49.score(train_input, train_label)

##### 훈련데이터-테스트(평가)데이터 분리

##### 정규화
- 데이터포인트의 값의 범위를 재정의하는 것
    - StandardScaler
    - MinMaxScaler

##### 표준 점수 (Z-Score)
- 평균에서 얼마나 떨어져 있는지를 표준편차 단위로 계산한 값
$$
    표준 점수 = \frac{데이터포인트 - 평균}{표준편차}
$$

**StandardScaler란?** 
- **StandardScaler**는 데이터의 각 특성(feature)을 평균이 0, 표준편차가 1이 되도록 변환(표준화, Standardization)하는 전처리 도구입니다.
- 데이터의 분포를 표준정규분포(평균 0, 표준편차 1)로 맞춰줌으로써, <br>
     모든 특성이 동일한 스케일을 가지게 합니다.



### 2. 표준화(standardization) 공식

$$
z = \frac{x - \mu}{\sigma}
$$

- $x$ : 원래 데이터 값
- $\mu$ : 특성(feature)의 평균
- $\sigma$ : 특성(feature)의 표준편차

---

### 3. 효과

- 표준화를 거치면, 특성의 단위와 값의 크기가 달라도 <br>
동일한 기준에서 모델을 학습시킬 수 있어 알고리즘의 성능이 좋아질 수 있습니다.

In [None]:
# StandardScaler
# 특히 거리 기반 모델(KNN, SVM), 로지스틱 회귀, 신경망 등은
# 데이터의 스케일 차이에 민감하기 때문에 표준화가 필수입니다.
from sklearn.preprocessing import StandardScaler
std_scaler = StandardScaler()
train_scaled = std_scaler.fit_transform(train_input)
train_scaled

---

### 생선 다중분류
**다중분류(Multi-class Classification) 는** 
- 입력 데이터가 여러 개의 클래스(범주) 중 하나의 클래스에 속하도록 예측하는 문제
<br>

> 💡 즉, “A냐 B냐”처럼 2가지가 아닌
> - “A, B, C, … 중 하나”를 예측하는 문제입니다.

In [None]:
# 생선 데이터 로딩
# CSV 파일에서 생선 데이터를 읽어와서 DataFrame으로 변환
# 이 데이터에는 여러 종류의 생선 정보가 들어있음
df = pd.read_csv('./data/fish.csv')
df

##### 데이터 전처리
- 훈련 데이터의 규격 : input + label (numpy ndarray)
- 훈련 데이터/테스트(평가) 데이터 분리
- 정규화 (컬럼값 사이의 차이를 완화)

##### 훈련

##### 평가

##### 다중분류 작동 방식
- 다중분류 클래스 값의 크기와 같은 배열 형태로 결과를 도출