## 신경망을 위한 데이터 전처리하기

In [10]:
from sklearn import preprocessing
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [3]:
# 특성 생성

features=np.array([[-100.1, 3240.1],
                   [-200.2, -234.1],
                   [5000.5, 150.1],
                   [6000.6, -125.1],
                   [9000.9,-673.1]])

In [4]:
scaler=preprocessing.StandardScaler()

In [7]:
features_scaled=scaler.fit_transform(features)

In [8]:
features_scaled

array([[-1.12541308,  1.96429418],
       [-1.15329466, -0.50068741],
       [ 0.29529406, -0.22809346],
       [ 0.57385917, -0.42335076],
       [ 1.40955451, -0.81216255]])

In [19]:
# 평균과 표준편차 출력
print('평균 :',round(features_scaled[:,0].mean()))
print('표준편차 :',features_scaled[:,0].std())

평균 : 0.0
표준편차 : 0.9999999999999999


## 신경망 구성하기

In [21]:
from keras import models
from keras import layers

In [33]:
# 신경망 모델 생성

network=models.Sequential()

In [34]:
# 렐루 활성화 함수를 사용한 완전 연결층 추가

network.add(layers.Dense(units=16, activation='relu', input_shape=(10,)))

In [35]:
# 렐루 활성화 함수를 사용한 완전 연결층 추가

network.add(layers.Dense(units=16, activation='relu'))

In [36]:
# 시그모이드 활성화 함수를 사용한 완전 연결층 추가

network.add(layers.Dense(units=1, activation='sigmoid'))

In [37]:
# 신경망의 모델 설정 완료

network.compile(loss='binary_crossentropy',# 크로스 엔트로피
                optimizer='rmsprop', #옵티마이저
                metrics=['accuracy']) # 성능지표

#### 자주 사용하는 출력층 유형

- 이진분류 : 시그모이드 함수와 하나의 유닛

- 다중분류 : 소프트맥스 활성화 함수와 k개의 유닛(k는 타깃 클래스의 개수)

- 회귀 : 활성화함수x, 하나의 유닛
---
#### 손실함수(예측값이 타깃값과 얼마나 잘 맞는지 측정하는 함수)

- 이진분류 : 이진 크로스엔트로피

- 다중분류 : 범주형 크로스엔트로피

- 회귀 : 평균제곱오차
---
#### 옵티마이저 (가장 작은 손실 함수 오차를 만드는 모델 파라미터값을 찾는 전략)

- 확률적 경사하강법

- 모멘텀을 사용한 확률적 경사하강법

- RMSProp (root mean square propagation)

- Adam (adaptive moment estimation)

In [38]:
network.summary()

Model: "sequential_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_7 (Dense)              (None, 16)                176       
_________________________________________________________________
dense_8 (Dense)              (None, 16)                272       
_________________________________________________________________
dense_9 (Dense)              (None, 1)                 17        
Total params: 465
Trainable params: 465
Non-trainable params: 0
_________________________________________________________________


In [39]:
## 함수형 API 사용

x=layers.Input(shape=(10,))
h1=layers.Dense(units=16, activation='relu')(x)
h2=layers.Dense(units=16, activation='relu')(h1)
y=layers.Dense(units=1, activation='sigmoid')(h2)

In [40]:
# 신경망 모델 생성

network=models.Model(x,y)

In [41]:
# 신경망의 모델 설정 완료

network.compile(loss='binary_crossentropy',
                optimizer='rmsprop',
                metrics=['accuracy'])

In [42]:
network.summary()

Model: "functional_3"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_2 (InputLayer)         [(None, 10)]              0         
_________________________________________________________________
dense_10 (Dense)             (None, 16)                176       
_________________________________________________________________
dense_11 (Dense)             (None, 16)                272       
_________________________________________________________________
dense_12 (Dense)             (None, 1)                 17        
Total params: 465
Trainable params: 465
Non-trainable params: 0
_________________________________________________________________


## 이진 분류기 훈련하기

In [44]:
import numpy as np
from keras.datasets import imdb
from keras.preprocessing.text import Tokenizer
from keras import models
from keras import layers

In [45]:
# 랜덤 시드 설정

np.random.seed(0)

In [46]:
# 필요한 특성 개수 지정

number_of_features=1000

In [53]:
# 영화 리뷰 데이터에서 훈련 데이터와 타깃 벡터 로드

(data_train, target_train),(data_test, target_test) = imdb.load_data(num_words=number_of_features)

In [48]:
# 영화 리뷰 데이터를 원핫인코딩된 특성 행렬로 변환

tokenizer=Tokenizer(num_words=number_of_features)
features_train=tokenizer.sequences_to_matrix(data_train, mode='binary')
features_test=tokenizer.sequences_to_matrix(data_test, mode='binary')

In [56]:
# 신경망 모델 생성

network=models.Sequential()

In [57]:
network.add(layers.Dense(units=16, activation='relu', input_shape=(number_of_features,)))
network.add(layers.Dense(units=16, activation='relu'))
network.add(layers.Dense(units=1, activation='sigmoid'))

network.compile(loss='binary_crossentropy',
                optimizer='rmsprop',
                metrics=['accuracy'])

In [58]:
# 신경망 훈련

history=network.fit(features_train, #특성
                    target_train, #타깃벡터
                    epochs=3, #에폭 횟수
                    verbose=1, #에폭 과정 출력
                    batch_size=100, #배치의 샘플 개수
                    validation_data=(features_test, target_test)) #테스트 데이터

Epoch 1/3
Epoch 2/3
Epoch 3/3


In [59]:
# 특성 행렬 크기확인

features_train.shape

(25000, 1000)

In [61]:
# compile  메소드의 metrics 매개변수를 지정하지 않으면 기본적으로 손실값만 계산하여 출력한다.

network.compile(loss='binary_crossentropy',
                optimizer='rmsprop')

history=network.fit(features_train,
                    target_train,
                    epochs=3,
                    verbose=1,
                    batch_size=100,
                    validation_data=(features_test, target_test))

Epoch 1/3
Epoch 2/3
Epoch 3/3


케라스에서 모델의 성능을 평가하는 메소드는 evaluate 이다.

이 메소드도 기본적으로 compile 메소드의 metrics 매개변수에 지정한 성능 지표를 계산하여 출력한다

In [62]:
network.evaluate(features_test, target_test)



0.34783467650413513

## 다중 분류기 훈련하기

In [63]:
import numpy as np
from keras.datasets import reuters
from keras.utils.np_utils import to_categorical
from keras.preprocessing.text import Tokenizer
from keras import layers
from keras import models

In [64]:
# 랜덤 시드 설정

np.random.seed(0)

In [72]:
# 특성 개수 지정

number_of_features=5000

In [73]:
# 특성, 타깃 벡터 로드

data=reuters.load_data(num_words=number_of_features)
(data_train, target_vector_train), (data_test, target_vector_test)=data

In [81]:
# 원핫 인코딩 변환

tokenizer=Tokenizer(num_words=number_of_features)

features_train=tokenizer.sequences_to_matrix(data_train, mode='binary')
features_test=tokenizer.sequences_to_matrix(data_test, mode='binary')

In [80]:
# 타깃 벡터를 원핫인코딩

target_train=to_categorical(target_vector_train)
target_test=to_categorical(target_vector_test)

In [76]:
# 신경망 모델 생성

network=models.Sequential()
network.add(layers.Dense(units=100, activation='relu', input_shape=(number_of_features,)))
network.add(layers.Dense(units=100, activation='relu'))
network.add(layers.Dense(units=46, activation='softmax'))

network.compile(loss='categorical_crossentropy',
                optimizer='rmsprop',
                metrics=['accuracy'])

In [82]:
# 신경망 훈련

history=network.fit(features_train,
                    target_train,
                    epochs=3,
                    verbose=0,
                    batch_size=100,
                    validation_data=(features_test, target_test))

## 회귀 모델 훈련하기

In [83]:
import numpy as np
from keras.preprocessing.text import Tokenizer
from keras import models
from keras import layers
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split
from sklearn import preprocessing

In [84]:
np.random.seed(0)

In [86]:
features, target=make_regression(n_samples=10000,
                                 n_features=3,
                                 n_informative=3,
                                 n_targets=1,
                                 noise=0.0,
                                 random_state=0)

In [87]:
x_train, x_test, y_train, y_test=train_test_split(features, target, test_size=0.33, random_state=0)

In [94]:
# 신경망 모델 생성

network=models.Sequential()

network.add(layers.Dense(units=32, activation='relu', input_shape=(x_train.shape[1],)))
network.add(layers.Dense(units=32, activation='relu'))
network.add(layers.Dense(units=1))

network.compile(loss='mse',
                optimizer='RMSprop',
                metrics=['mse'])

In [95]:
history=network.fit(x_train,
                    y_train,
                    epochs=10,
                    verbose=1,
                    batch_size=100,
                    validation_data=(x_test, y_test))

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
