In [132]:
from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

In [133]:
text=['A barber is a person.', 
      'a barber is good person.', 
      'a barber is huge person.', 
      'he Knew A Secret!', 
      'The Secret He Kept is huge secret.', 
      'Huge secret.', 
      'His barber kept his word.', 
      'a barber kept his word.', 
      'His barber kept his secret.',
      'But keeping and keeping such a huge secret to himself was driving the barber crazy.', 
      'the barber went up a huge mountain.']

### 정수 인코딩

In [145]:
tokenizer = Tokenizer()
tokenizer.fit_on_texts(sentences)
tokenizer.word_index

{'barber': 1,
 'secret': 2,
 'huge': 3,
 'kept': 4,
 'person': 5,
 'word': 6,
 'keeping': 7,
 'good': 8,
 'knew': 9,
 'driving': 10,
 'crazy': 11,
 'went': 12,
 'mountain': 13}

In [146]:
tokenizer.word_counts

OrderedDict([('barber', 8),
             ('person', 3),
             ('good', 1),
             ('huge', 5),
             ('knew', 1),
             ('secret', 6),
             ('kept', 4),
             ('word', 2),
             ('keeping', 2),
             ('driving', 1),
             ('crazy', 1),
             ('went', 1),
             ('mountain', 1)])

In [147]:
vs = 5 # 가장 빈도수가 높은 5개 단어만 추출
tokenizer = Tokenizer(num_words=vs + 1)
tokenizer.fit_on_texts(sentences)

tokenizer.texts_to_sequences(sentences)

[[1, 5],
 [1, 5],
 [1, 3, 5],
 [2],
 [2, 4, 3, 2],
 [3, 2],
 [1, 4],
 [1, 4],
 [1, 4, 2],
 [3, 2, 1],
 [1, 3]]

### 패딩
* 가변적 길이를 가지는 문장을 같은 길이로 맞추는 방법

In [148]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [149]:
tokenizer = Tokenizer()
tokenizer.fit_on_texts(sentences)

encoded = tokenizer.texts_to_sequences(sentences)

print(pad_sequences(encoded))
print()
print(pad_sequences(encoded, padding="post"))

[[ 0  0  0  0  0  1  5]
 [ 0  0  0  0  1  8  5]
 [ 0  0  0  0  1  3  5]
 [ 0  0  0  0  0  9  2]
 [ 0  0  0  2  4  3  2]
 [ 0  0  0  0  0  3  2]
 [ 0  0  0  0  1  4  6]
 [ 0  0  0  0  1  4  6]
 [ 0  0  0  0  1  4  2]
 [ 7  7  3  2 10  1 11]
 [ 0  0  0  1 12  3 13]]

[[ 1  5  0  0  0  0  0]
 [ 1  8  5  0  0  0  0]
 [ 1  3  5  0  0  0  0]
 [ 9  2  0  0  0  0  0]
 [ 2  4  3  2  0  0  0]
 [ 3  2  0  0  0  0  0]
 [ 1  4  6  0  0  0  0]
 [ 1  4  6  0  0  0  0]
 [ 1  4  2  0  0  0  0]
 [ 7  7  3  2 10  1 11]
 [ 1 12  3 13  0  0  0]]


In [150]:
pad_sequences(encoded, padding='post', maxlen=5, value=0)

array([[ 1,  5,  0,  0,  0],
       [ 1,  8,  5,  0,  0],
       [ 1,  3,  5,  0,  0],
       [ 9,  2,  0,  0,  0],
       [ 2,  4,  3,  2,  0],
       [ 3,  2,  0,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  2,  0,  0],
       [ 3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0]])

### 원핫 인코딩
* 단어 집합(자연어, 처리, 파이썬, ...) -> 정수 인코딩(1, 2, 3, ...) -> 원핫 인코딩(단어 집합의 크기를 벡터의 차원으로 간주)
* 10차원 벡터(단어가 10개, 인덱스: 1~10번까지)에서 해당 단어의 위치에는 1을 주고, 나머지에는 0을 지정하는 형태로 단어를 벡터 형태로 표현
* 자연어: 1, 처리: 2, ... 물: 10
* 자연어: 0000000001
* 처리: 0000000010
* 물: 1000000000

In [151]:
from konlpy.tag import Okt

In [155]:
okt=Okt()
token = okt.morphs("나는 자연어 처리를 배운다") # 영어와 다르게 형태소를 이용하여 토큰화
print(token)

['나', '는', '자연어', '처리', '를', '배운다']


In [156]:
word_to_index = {}

for v in token:
    if v not in word_to_index.keys():
        word_to_index[v] = len(word_to_index)
        
word_to_index

{'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5}

In [173]:
def ohe(word, word_to_index):
    return [int(x) for x in bin(word_to_index[word])[2:].zfill(len(word_to_index))]

ohe("자연어", word_to_index)

[0, 0, 0, 0, 1, 0]

In [174]:
from tensorflow.keras.utils import to_categorical

In [179]:
text = "나랑 코엑스에 브로슈어 가지러 갈래 갈래 갈래 브로슈어 가지러 가자"

tok = Tokenizer()
tok.fit_on_texts([text])

#### 단어집합 생성

In [185]:
tok.index_word 

{1: '갈래', 2: '브로슈어', 3: '가지러', 4: '나랑', 5: '코엑스에', 6: '가자'}

만들어진 단어집합을 이용하여 문장을 정수 인코딩

In [189]:
text2 = "코엑스에 갈래 브로슈어 가지러 함께 가자 어서"

encoded = tok.texts_to_sequences([text2])[0]
encoded

[5, 1, 2, 3, 6]

#### 원핫 인코딩

In [190]:
ohe = to_categorical(encoded)
ohe

array([[0., 0., 0., 0., 0., 1., 0.],
       [0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 1.]], dtype=float32)

#### 원핫 인코딩의 한계
* 단어의 개수가 늘어날 수록, 벡터의 차원이 계속 늘어나기 때문에 저장 효율이 떨어짐.
* 단어의 유사도를 표현할 수 없음.
    * 국어, 영어, 수학, 과학이라는 4개의 단어에 대해서 원핫 인코딩을 하였을 때, 원핫 벡터로는 국어와 영어가 유사하고, 수학과 과학이 유사하다는 것을 표현할 수 없음.
    
* 해결 방안
    * 단어에 의미를 부여하여 벡터화(word2vec, fasttext, lsa, lda)

### 언어 모델
단어의 순서에 확률을 적용한 모델(통계적, 신경망 기법을 활용 e.g. 베이지안, RNN, LSTM, BERT...)
* 번역
    * 나는 밥을 
        * P(먹는다) > P(마신다)
    * 손님 커피가
        * P(나왔습니다) > P(나오셨습니다)
        
* 자동 자막
    * 음성 인식 -> 자막 생성
        * 나는 밥을 먹습니다(60%)
        * 나는 날을 먹습니다(20%)
        * ... 