# 2진분류의 확장 다중 분류 문제 해결
* 이진 분류(Binary Classification):
    * 정의: 종속 변수가 두 개의 클래스로 구성된 지도 학습 문제로, 두 클래스 중 하나에 속하는지 예측하는 문제입니다.
    * 목적: 주어진 입력 데이터를 기반으로 두 개의 클래스 중 하나로 분류하여 판단하고 예측하는 것을 목표로 합니다.    
  
* 다중 분류(Multiclass Classification):
    * 정의: 종속 변수가 두 개 이상의 범주로 구성된 지도 학습 문제로, 여러 클래스 중 하나에 속하는지 예측하는 문제입니다.
    * 목적: 주어진 입력 데이터를 기반으로 여러 클래스 중 하나로 분류하여 판단하고 예측하는 것을 목표로 합니다.

## 붓꽃 문제

In [1]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import StandardScaler

# 데이터 로드
iris = load_iris()
X, y = iris.data, iris.target

In [2]:
iris.data[:5]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2]])

In [3]:
iris.target[:10]

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [4]:
set(iris.target) # label의 유일값을 확인해 보니 0,1,2 다중 클래스를 포함하고 있다.

{0, 1, 2}

In [5]:
# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# Feature 표준화
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 모델 초기화
knn_classifier = KNeighborsClassifier(n_neighbors=3)

# 모델 훈련
knn_classifier.fit(X_train_scaled, y_train)

# 테스트 데이터로 예측
y_pred = knn_classifier.predict(X_test_scaled)

# 정확도 평가
accuracy = accuracy_score(y_test, y_pred) # 인자1: 실제 라벨값, 인자2: 예측 라벨값
print("Accuracy:", accuracy)

Accuracy: 0.9333333333333333


# 실습

## 펭귄 종류 예측 모델

* 아래 데이터 셋을 활용하여 펭귄의 종류를 예측해 보세요.

In [6]:
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings('ignore')
import seaborn as sns
penguins = sns.load_dataset('penguins')

In [7]:
penguins.head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female


## 전처리 mission

* 결측치는 drop
* Feature 선정
    * 문자 데이터 중에 ordinal 데이터는 포함, nominal 데이터는 불포함
* Label(Target) 정보에 대한 전처리
    * species: 라벨