# 14_Multi-Class Classification


#### 머신러닝 코드 구조 <br>

![이미지](https://github.com/DA4BAM/dataset/blob/master/new_code.png?raw=true "code step1")



## 00 환경준비

### 01.Import

In [None]:
import numpy as np
import pandas as pd
import tensorflow as tf
import tensorflow.keras as keras
import matplotlib.pyplot as plt

### 02.read_csv

In [None]:
from sklearn.datasets import load_iris
iris = load_iris()

In [None]:
x = iris.data
y = iris.target

In [None]:
x.shape, y.shape

In [None]:
print(iris.DESCR)

## 10.데이터 이해

![이미지](https://github.com/DA4BAM/dataset/blob/master/new_code.png?raw=true "code step1")

### 11.둘러보기

### 12.기초통계량

In [None]:
iris.feature_names

In [None]:
# 숫자형 변수들의 통계량을 살펴 봅니다.
pd.DataFrame(x).describe()

### 13.탐색하기

#### 1단계 : 개별변수의 분포

#### 2단계 : x -> y

## 20.데이터 준비

![이미지](https://github.com/DA4BAM/dataset/blob/master/new_code.png?raw=true "code step1")

### 21.변수 정리

### 22.NA 처리

### 23.Feature Engineering

### 24.Dummy Variable(one-hot encoding)
Feature들에 대한 처리

### 25.Data Split

sklearn의 데이터 분할 함수를 사용해 봅시다.

* 요인, x, feature, 조작변수, 통제변수, 리스크백터, Input, (독립변수)
* 결과, y, target, label, Output, (종속변수)

In [None]:
# 데이터 분할
from sklearn.model_selection import train_test_split
# 전체에서 train : test = 7 : 3
train_x, test_x, train_y, test_y = train_test_split(x, y, test_size=0.3, random_state=1)


In [None]:
print(train_x.shape)
print(test_x.shape)

### 범주형 Target(Label) One-hot Encoding

In [None]:
# train_y(Label)를 one-hot encoding (dummy variable)
from tensorflow.keras.utils import to_categorical
train_y = to_categorical(train_y)

In [None]:
train_y[:10]

In [None]:
iris.target_names

### 26.Scaling & NA처리




* NA 처리 : knn imputation

* scaling : min-max 방식

In [None]:
# 필요한 함수 로딩
from sklearn.preprocessing import MinMaxScaler

# 함수 선언
scaler = MinMaxScaler()

# 함수 적용하기
train_x = scaler.fit_transform(train_x)
test_x = scaler.transform(test_x)

### 27.Dataframe to Numpy array

In [None]:
train_x.shape

## 30.모델링

![이미지](https://github.com/DA4BAM/dataset/blob/master/new_code.png?raw=true "code step1")

모델링 다시 연습해 봅시다.  
hidden layer 없이 모델링 합시다.

### 31.import

### 32.모델선언

In [None]:
# ①세션 비우기 : 기계적으로 수행하자.


# ② 모델 정의



# ③ Layer 추가하기
# Multi-class에서 output layer의 activation은 'softmax'.


# ④ 컴파일
# Multi-class에서 loss = 'categorical_crossentropy'


In [None]:
model.summary()

### 33.모델링(학습)

In [None]:
model.fit(train_x, train_y, epochs = 10)

### 34.예측

In [None]:
# 각 범주별 확률로 예측
test_pred = model.predict(test_x)

In [None]:
# 범주별 숫자로 출력하려면.
test_pred_cl = model.predict_classes(test_x)

In [None]:
test_pred[:10]

In [None]:
test_pred_cl[:10]

### 35.평가

In [None]:
from sklearn.metrics import confusion_matrix, classification_report
from sklearn.metrics import accuracy_score, precision_recall_fscore_support

In [None]:
# confusion matrix
print(confusion_matrix(test_y, test_pred_cl))

In [None]:
# classification report
print(classification_report(test_y, test_pred_cl))

In [None]:
print(accuracy_score(test_y, test_pred_cl))

##[실습] Deep Neural Net 모델링

* 히든레이어를 추가하여 모델링 합시다.

In [None]:
# ①세션 비우기 : 기계적으로 수행하자.
keras.backend.clear_session()

# ② 모델 정의
model = keras.models.Sequential()

# ③ Layer 추가하기
# hidden layer의 activation은 'relu'
# Multi-class에서 output layer의 activation은 'softmax'.
model.add(keras.layers.Dense(10, input_shape = [4,], activation='relu'))
model.add(keras.layers.Dense(3, activation='softmax'))

# ④ 컴파일
# Multi-class에서 loss = 'categorical_crossentropy'
model.compile(loss = 'categorical_crossentropy', optimizer = 'adam', metrics = 'accuracy')


## [추가]


### 1) 옵션을 문자열이 아닌 함수로 지정해 봅시다.

In [None]:
# ①세션 비우기 : 기계적으로 수행하자.
keras.backend.clear_session()

# ② 모델 정의
model = keras.models.Sequential()

# ③ Layer 추가하기
# hidden layer의 activation은 'relu'
# Multi-class에서 output layer의 activation은 'softmax'.
model.add(keras.layers.Dense(10, input_shape = [4,], activation= keras.activations.relu))
model.add(keras.layers.Dense(3, activation= keras.activations.softmax))

# ④ 컴파일
# Multi-class에서 loss = 'categorical_crossentropy'
model.compile(loss = keras.losses.categorical_crossentropy, optimizer = keras.optimizers.Adam(),
              metrics = keras.metrics.Accuracy())


### 2) 함수만 import해서 코드를 간략하게

In [None]:
from keras.backend import clear_session
from keras.models import Sequential
from keras.layers import Dense
from keras.activations import sigmoid, softmax, relu
from keras.losses import mse, binary_crossentropy, categorical_crossentropy, sparse_categorical_crossentropy
from keras.optimizers import Adam
from keras.metrics import Accuracy

In [None]:
# ①세션 비우기 : 기계적으로 수행하자.
clear_session()

# ② 모델 정의
model = Sequential()

# ③ Layer 추가하기
model.add(Dense(10, input_shape = [4,], activation= relu))
model.add(Dense(3, activation= softmax))

# ④ 컴파일
# Multi-class에서 loss = 'categorical_crossentropy'
model.compile(loss = categorical_crossentropy, optimizer = Adam(),
              metrics = Accuracy())


### 3)Functional API

In [None]:
# ①세션 비우기 : 기계적으로 수행하자.
clear_session()

# ② 모델 정의 + # ③ Layer 추가하기
in_l = keras.layers.Input(shape=[4,])
hi_l1 = keras.layers.Dense(10, activation = relu)(in_l)
out_l = keras.layers.Dense(3, activation = softmax)(hi_l1)

model = keras.models.Model(in_l, out_l)


# ④ 컴파일
# Multi-class에서 loss = 'categorical_crossentropy'
model.compile(loss = categorical_crossentropy, optimizer = Adam(),
              metrics = Accuracy())


### 4) 좀 더 복잡한 데이터 실습 : Fashion MNIST
시간이 가용한 범위 내에서 진행합니다!

#### 4.1 데이터 불러오기

In [None]:
fashion_mnist = keras.datasets.fashion_mnist

(train_x, train_y), (test_x, test_y) = fashion_mnist.load_data()

In [None]:
train_y.shape

In [None]:
class_names = ['T-shirt/top', 'Trouser', 'Pullover', 'Dress', 'Coat',
               'Sandal', 'Shirt', 'Sneaker', 'Bag', 'Ankle boot']

In [None]:
train_x.shape, train_y.shape

#### 4.2 데이터 살펴보기

In [None]:
# 아래 숫자를 바꿔가며 화면에 그려 봅시다.
n = 213

plt.figure()
plt.imshow(train_x[n])
plt.colorbar()
plt.grid(False)
plt.show()

In [None]:
plt.figure(figsize=(10,10))
for i in range(25):
    plt.subplot(5,5,i+1)
    plt.xticks([])
    plt.yticks([])
    plt.grid(False)
    plt.imshow(train_x[i], cmap=plt.cm.binary)
    plt.xlabel(class_names[train_y[i]])
plt.show()

#### 4.3 데이터 전처리

① Target을 one-hot encoding 합니다.

In [None]:
# 이번에는 모델링 할 때, loss fuction으로 sparse_categorical_crossentropy를 사용합니다.
# 그렇게되면, one-hot encoding이 필요하지 않습니다.
# train_y2 = to_categorical(train_y,10)

② Scaling : Min-Max
* 0-255 값으로 되어 있는 데이터를 0-1사이 값으로 변환
* train_x, test_x를 그냥 255로 나누면 됨

In [None]:
train_x = train_x / 255.
test_x = test_x / 255.

#### 4.4 모델링
Sequential API Style로 모델링 해 봅시다.

In [None]:
keras.backend.clear_session()

model = keras.models.Sequential()

# 28 * 28 2차원 array를, 1*784 1차원 array로 flatten 시킴.
model.add(keras.layers.Flatten(input_shape=(28, 28))) 
model.add(keras.layers.Dense(10, input_shape=(28*28,), activation='softmax'))

model.compile(loss = 'sparse_categorical_crossentropy', optimizer = 'adam',
              metrics = ['accuracy'])

In [None]:
model.fit(train_x,train_y,epochs=10)

In [None]:
test_pred = model.predict(test_x)

In [None]:
test_pred[:2]

In [None]:
# 범주별 숫자로 출력하려면.
test_pred_cl = model.predict_classes(test_x)

In [None]:
from sklearn.metrics import accuracy_score
accuracy_score(test_y, test_pred_cl)

#### 4.5 실습 : Functional API Style로 모델링 해 봅시다.