# 1. 텍스트 데이터 다루기
> 신경망의 학습을 위해 텍스트를 수치형 텐서로 변환하는 과정(__텍스트 벡터화__)가 필요하다.

### 텍스트 벡터화 방식
* 텍스트를 단어로 나누고 각 단어를 하나의 벡터로 변환
* 텍스트를 문자로 나누고 각 문자를 하나의 벡터로 변환
* 텍스트에서 단어난 문자의 n-그램을 추출, 각 n-그램을 하나의 벡터로 변환한다. n-그램은 연속된 단어 & 문자의 그룹으로 텍스트에서 단어나 문자를 하나씩 이동하면서 추출

> 토큰 : 텍스트를 나누는 단위(단어, 문자)
> 토큰화 : 텍스트를 토큰으로 나누는 작업

## 토큰과 벡터를 연결하는 방법
#### 1. 원-핫 인코딩
> 모든 단어에 정수 인덱스 부여후 정수 인덱스 i를 크기가 어휘 사전의 크기인 이진 벡터로 변환한다.(원소 하나만 1이고 나머지 0)
#### 2. 토큰 임베딩(단어 임베딩)
> 실수형 밀집 벡터로 워-핫 인코딩에 비해 차원이 적다.
    
> 단어 임베딩을 만드는  방법   
   * 관심 대상인 문제와 함께 단어 임베딩 학습. 이런 경우 랜덤한 단어 벡터로 시작해서 신경망의 가중치를 학습하는 것과 같은 방식으로 단어 벡터를 학습.
   * 풀려는 문제가 아닌 다른 머신 러닝 작업에서 미리 계산된 단어 임베딩을 로드. 이를 __사전 훈련된 단어 임베딩__ 이라고한다.
   
> Embedding 층으로 단어 임베딩을 만들때 임베딩 공간에서 비슷한 뜻의 단어는 가까이 다른 뜻의 단어는 먼 곳에 배치한다

In [2]:
# Embedding 층의 객체 생성하기
from keras.layers import Embedding

embedding_layer = Embedding(1000, 64) # Embedding 층은 적어도 2개의 매개변수를 받는다
# 가능한 토큰의 개수(1000으로 단언 인덱스 최대값 + 1와 임베딩차원(64)이다.

In [5]:
from keras.datasets import imdb
from keras import preprocessing

max_features = 10000  # 특성으로 사용할 단어의 수
maxlen = 20  # 사용할 텍스트의 길이

(x_train, y_train), (x_test, y_test) = imdb.load_data(num_words = max_features)  # 정수 리스트로 데이터 로드

x_train = preprocessing.sequence.pad_sequences(x_train, maxlen=maxlen)
x_test = preprocessing.sequence.pad_sequences(x_test, maxlen=maxlen)

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/imdb.npz


  x_train, y_train = np.array(xs[:idx]), np.array(labels[:idx])
  x_test, y_test = np.array(xs[idx:]), np.array(labels[idx:])


In [7]:
# IMDB 데이터에 Embedding 층과 분류기 사용하기
from keras.models import Sequential
from keras.layers import Flatten, Dense, Embedding

model = Sequential()
model.add(Embedding(10000, 8, input_length=maxlen))  
# 나중에 임베딩된 입력을 Flatten 층에서 펼치기 위해 Embedding 층에 input_length를 지정
# Embedding 층의 출력 크기는 (samples, maxlen, 8) 이 된다

model.add(Flatten())

model.add(Dense(1, activation='sigmoid'))
model.compile(optimizer='rmsprop', loss = 'binary_crossentropy', metrics=['acc'])
model.summary()

history = model.fit(x_train, y_train,
                   epochs=10,
                   batch_size=32,
                   validation_split=0.2)

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_2 (Embedding)      (None, 20, 8)             80000     
_________________________________________________________________
flatten (Flatten)            (None, 160)               0         
_________________________________________________________________
dense (Dense)                (None, 1)                 161       
Total params: 80,161
Trainable params: 80,161
Non-trainable params: 0
_________________________________________________________________
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


### 사전 훈련된 단어 임베딩 사용하기
케라스 임베딩 층을 위해 미리 계산된 단어 임베딩 DB의 일부로 __Word2vec, GloVe__ 이다.

### 모든 내용을 적용하기 : 원본 텍스트에서 단어 임베딩까지
> IMDB 데이터셋을 받고 압축 해제후 훈련 데이터 리스트와 리뷰 레이블 리스트를 만듦

In [3]:
import os 

imdb_dir ='./datasets/aclImdb'
train_dir = os.path.join(imdb_dir, 'test')

labels = []
texts = []

for label_type in ['neg', 'pos'] :
    dir_name = os.path.join(train_dir, label_type)
    for fname in os.listdir(dir_name) :
        if fname[-4:] == '.txt' :
            f = open(os.path.join(dir_name, fname), encoding='utf8')
            texts.append(f.read())
            f.close()
            if label_type == 'neg' :
                labels.append(0)
            else :
                labels.append(1)

FileNotFoundError: [WinError 3] 지정된 경로를 찾을 수 없습니다: './datasets/aclImdb\\test\\pos'