# Multi classification - 다중 분류

둘 중 하나를 고르는 binary classification(이항 분류)과는 달리  
multi classification(다중 분류)은 여러 개 중에 어떤 것이 답인지를 예측한다.

붓꽃 데이터의 정보를 통해 어떤 품종인지 알아보는 예제를 통해 다중 분류를 알아본다.

In [None]:
# 붓꽃 품종 분류 데이터
# !git clone https: // github.com / taehojo / data.git

# 데이터 확인
import pandas as pd

df = pd.read_csv("./data/iris3.csv")
df.head(10)

In [None]:
# 데이터 상관도 확인
import seaborn as sns
import matplotlib.pyplot as plt

sns.pairplot(df, hue="species")  # 특정 컬럼을 중심으로 그래프를 그릴지 정한다
plt.figure(figsize=(10, 6))  # graph size 설정
plt.show()  

In [None]:
# one-hot encoding
X = df.iloc[:, 0:4]

# 여러개의 결과값을 0과 1로 이뤄진 형태로 만들어주는 과정이 필요하다
y = df.iloc[:, 4]
y = pd.get_dummies(y)  # one-hot encoding

y.head()

In [None]:
# 다중분류 모델
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

# 모델 설정
model = Sequential()
model.add(Dense(12, input_dim=4, activation="relu"))
model.add(Dense(8, activation="relu"))
model.add(Dense(3, activation="softmax"))  # 붓꽃 품종 세가지에 대한 확률을 구해야하므로 sigmoid가 아닌 softmax를 사용한다
model.summary()
print("---------")

# 모델 컴파일 및 실행
model.compile(
    loss="categorical_crossentropy",  # multi classification을 위해 categorical_crossentropy loss function 사용
    optimizer="adam",
    metrics=["accuracy"],
)
model.fit(X, y, epochs=50, batch_size=5)