### 1. 전처리(Preprocessing)

* Tokenizer() 

In [1]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [9]:
tokenizer = Tokenizer()
train_text = "The earth is an awesome place live"

In [10]:
## 단어 집합 생성
tokenizer.fit_on_texts([train_text])

## 정수 인코딩
sub_text = "The earth is an great place live"
sequences = tokenizer.texts_to_sequences([sub_text])[0]
sequences

[1, 2, 3, 4, 6, 7]

In [12]:
## 한국어 
ko_text = "케라스의 모든 기능들을 열거하는 것만으로도 한 권의 책의 분량이므로 여기서 전부 다룰 수는 없습니다. "
tokenizer1 = Tokenizer()
tokenizer1.fit_on_texts([ko_text])
ko_sequences = tokenizer1.texts_to_sequences([ko_text])[0]
ko_sequences

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14]

In [13]:
tokenizer.word_index

{'the': 1, 'earth': 2, 'is': 3, 'an': 4, 'awesome': 5, 'place': 6, 'live': 7}

In [14]:
tokenizer1.word_index

{'케라스의': 1,
 '모든': 2,
 '기능들을': 3,
 '열거하는': 4,
 '것만으로도': 5,
 '한': 6,
 '권의': 7,
 '책의': 8,
 '분량이므로': 9,
 '여기서': 10,
 '전부': 11,
 '다룰': 12,
 '수는': 13,
 '없습니다': 14}

* pad_sequence() : 각 문장의 단어수가 제각각임. 모델의 입력으로 사용하려면 모든 샘플의 길이를 동일하게 맞춰야 함. 이를 자연어 처리에서 패딩(padding) 작업이라고 하는데, 보통 숫자 0을 넣어서 길이가 다른 샘플들의 길이를 맞춤. keras에서는 pad_sequence()를 사용함

In [15]:
pad_sequences([[1, 2, 3], [3, 4, 5, 6], [7, 8]], maxlen=3, padding='pre')

array([[1, 2, 3],
       [4, 5, 6],
       [0, 7, 8]])

* padding ='pre' : 앞에 0을 채우고 'post'의 경우 뒤에 0을 채움

### 2. 워드 임베딩(Word Embedding)

* 텍스트 내의 단어들을 dense vector로 만드는 것을 말함
* 원-핫 벡터에서는 대부분 0의 값을 가지고 단하나의 1의 값으로 표현, 대체로 차원이 큼
* 워드 임베딩의 경우, 상대적으로 저차원이며 모든 원소의 값이 실수임
* 원-핫 벡터가 주로 2000 이상의 차원이 되는 반면, 임베딩 벡터는 주로 256, 512, 1024 등의 차원을 가짐
* 임베딩 벡터는 초기에는 랜덤 값을 가지지만, 인공신경망의 가중치가 학습되는 방법과 같은 방식으로 값이 학습되며 변경됨

---
* Embedding() : 인공신경망에서 embedding layer를 만드는 역할을 함. 정수인코딩이 된 단어들을 입력받아 임베딩 수행
* (number of samples, input_length)인 2D  정수 텐서를 입력받고, 작업이 수행되면 (number of samples, input_length, embedding word dimension) 인 3D 텐서를 리턴함

In [16]:
from tensorflow.keras.layers import Embedding
### 1. 토큰화
tokenized_text = [['Hope', 'to', 'see', 'you', 'soon'], ['Nice', 'to', 'see', 'you', 'again']]

### 2. 정수인코딩
encoded_text = [[0, 1, 2, 3, 4],[5, 1, 2, 3, 6]]

### 3. 정수 인코딩 데이터가 임베딩 층의 입력이 됨
vocab_size = 7
embedding_dim = 2
Embedding(vocab_size, embedding_dim, input_length=5)

<keras.layers.embeddings.Embedding at 0x194dbc93e80>

In [18]:
embed = Embedding(vocab_size, embedding_dim, input_length=5)

In [20]:
embed

<keras.layers.embeddings.Embedding at 0x194db2ed6d0>

* 첫번째 인자 = 단어 코퍼스 크기. 즉 단어 갯수
* 두번째 인자 = 임베딩 벡터의 출력 차원. 임베딩 벡터의 크기
* input_length = 입력 시퀀스의 길이

### 3. 모델링(Modeling)
* Sequential() : 이를 통해 model을 선언하고 add()를 통해 층을 단계적을 추가

* Embedding()을 통해 임베딩 층을 추가하는 예시

* 전결합층(fully-connected layer)을 추가하는 예시

### 4. 컴파일과 training


* optimizer = 훈련 과정을 설정하는 옵티마이저 설정
* loss = 손실함수 설정
* metrics = 훈련을 모니터링하는 지표 선택

문제유형에 따라 손실함수 설정 필요
* 회귀문제 : mean_squared_error  
* 다중 클래스 분류 : categorical_crossentropy  ==> 활성화 함수 : softmax
* 다중 클래스 분류 : sparse_categorical_crossentropy ==> 활성화 함수 : softmax
* 이진 분류 : binary_crossentrophy 활성화 함수 : sigmoid

---

* fit() : 모델 학습 기능. 

* validation_data : 검증데이터 입력
* validation_split = validation_data와 동일하게 검증 데이터를 사용하기 위한 용도로 validation_data 대신 사용할 수 있음. 검증데이터를 저장하는 것이 아니라, 훈련데이터를 일정 비율 분리하여 검증데이터로 사용

* verbose = 학습 중 출력되는 문구 설정
    * 0 : 아무것도 출력하지 않는다
    * -1 : 훈련의 진행도를 보여주는 진행 막대를 보여줌
    * -2 : 미니배치마다 손실정보 출력
    
### 5. 평가(Evaluation)와 예측(Prediction)

### 6. 모델의 저장(Save)과 로드(Load)

* save() : 인공 신경망 모델을 hdf5 파일에 저장

* load_model() : 저장해둔 모델을 불러옴

https://wikidocs.net/32105