### Keras에서 입력 텍스트 처리 함수
- Tokenizer: 입력 텍스트를 숫자로 변환하는 기능을 수행
- tokenizer등을 사용하여 구한 sequences는 숫자 리스트로 구성되어 있음
- 전체 단어 리스트는 word_index 함수로 얻을 수 있음

In [1]:
# Tokenizer 적용 사례
from tensorflow.keras.preprocessing.text import Tokenizer
t = Tokenizer()
fit_text = "The earth is an awesome place live"
t.fit_on_texts([fit_text])

test_text = "The earth is an great place live"
sequences = t.texts_to_sequences([test_text])[0]
print("sequences : ", sequences) # great는 단어 집합에 없으므로 출력되지 않음
print("word_index : ", t.word_index) # 단어 집합(vocabulary) 출력

sequences :  [1, 2, 3, 4, 6, 7]
word_index :  {'the': 1, 'earth': 2, 'is': 3, 'an': 4, 'awesome': 5, 'place': 6, 'live': 7}


### Keras에서의 텍스트 시퀀스 처리
- 신경망 입력 텍스트를 일정한 길이로 만들려면 pad_sequences 함수를 이용
- 이 함수는 sequence의 최대 길이를 지정하여 이보다 긴 텍스트는 앞 또는 뒤를 자르고, 짧은 텍스트는 앞에 0을 채움

In [None]:
# 최대 길이를 100으로 지정하고 초과하면 각 시퀀스의 앞 쪽을 자른다
X_prime = sequence.pad_sequences(X, maxlen = 100, truncating = 'pre')

# 최대 길이를 100으로 지정하고 초과하면 각 시퀀스의 뒷 쪽을 자른다
X_prime = sequence.pad_sequences(X, maxlen = 100, truncating = 'post')

In [2]:
# pad_sequences 적용 사례
from tensorflow.keras.preprocessing.sequence import pad_sequences
pad_sequences([[1, 2, 3], [3, 4, 5, 6], [7, 8]], maxlen = 3, padding = 'pre')


array([[1, 2, 3],
       [4, 5, 6],
       [0, 7, 8]])

### 워드 임베딩
- 입력 텍스트를 밀집 벡터로 표현하는 수단으로 Keras에서는 Embedding 레이어를 제공
- Embedding 층은 정수 인코딩이 된 단어들을 임베딩 벡터로 변환
- Embedding 호출시 단어수와 임베딩 벡터 길이를 입력으로 전달
- Embedding 출력은 (단어 수, 벡터 길이, 입력 시퀀스 길이)의 3D 텐서를 리턴
- Word2Vec과 같은 실제 임베딩 벡터를 사용할 수도 있지만, 여기서는 자체적으로 생성하는 벡터임.

In [3]:
# 워드 임베딩 사례 # 임베딩 코드 가져와야 할 거 같은데 # 오류남.

# 문장 토큰화와 단어 토큰화
text = [['Hope', 'to', 'see', 'you', 'soon'], ['Nice', 'to', 'see', 'you', 'again']]

# 각 단어에 대한 정수 인코딩
text = [[0, 1, 2, 3, 4], [5, 1, 2, 3, 6]]

# 위 데이터가 아래의 임베딩 층의 입력이 된다.
Embedding(7, 2, input_length = 5)

# 7은 단어의 개수. 즉, 단어 집합(vocabulary)의 크기이다.
# 2는 임메딩한 후의 벡터의 크기이다.
# 5는 각 입력 시퀀스의 길이. 즉, input_length이다.
# 각 정수는 아래의 테이블의 인덱스로 사용되며 Embedding()은 각 단어에 대해 임베딩 벡터를 리턴


NameError: name 'Embedding' is not defined

In [None]:
# 스팸 메일 예제
# 로이터 뉴스 예제

In [None]:
# B
# 라이브 베이즈 분류
# 뉴스 그룹 데이터 분류
# 영화 리뷰 분석