## 자연어 처리 (Natural Language Processing : NLP)

In [None]:
자연어 처리
- 음성이나 텍스트를 컴퓨터가 인식하고 처리하는 것

컴퓨터를 이용해서 인간의 언어를 이해하는 연구는 딥러닝 이전부터 지속
딥러닝이 등장하면서 자연어 처리 연구 활발
대용량 데이터를 이용해서 자연어 데이터를 지속적으로 입력해
끊임 없이 학습하는 가능해졌기 때문

In [None]:
자연어 처리
- 텍스트 자료는 딥러닝에서 그대로 입력할 수 없음
- 컴퓨터 알고리즘은 수치로 된 데이터만 이해할 뿐 텍스트 자체를 이해할 수 없기 때문
- 텍스트를 정제하는 전처리 과정 필요

In [None]:
텍스트 전처리 작업

토큰화 (Tokenization) : 토큰(token)이라는 단위로 나누는 작업. 단어 토큰화

정제 (Cleaning) : 노이즈 데이터 제거
    
정규화 (Normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 표현의 단어로 만드는 것
    
어간 추출 (Stemming)과 표제어 추출(Lemmatization)
- 하나의 단어로 일반화시켜서 문서 내의 단어 수를 줄이는 작업

불용어 (Stopword) 제거
- 문장에서는 자주 등장하지만 
- 실제 의미 분석을 하는데는 거의 기여하는 바가 없는 단어 제거

정규 표현식 (Regular Expression) : 정규식을 사용해서 특정 규칙이 있는 텍스트 데이터를 빠르게 정제
    
정수 인코딩 (Integer Encoding)
- 각 단어를 고유한 정수에 맵핑 (mapping)
- index 부여

패딩 (Padding)
- 여러 문장의 길이를 임의로 동일하게 맞춰주는 작업
- 하나의 행렬로 보고 한꺼번에 묶어서 처리

원-핫 인코딩 : 문자를 숫자로 변환
- 해당 인덱스에는 1, 그 외는 0으로 채움

In [None]:
텍스트 토큰화
토큰화 (Tokenization) : 토큰(token)이라는 단위로 나누는 작업. 단어 토큰화
- 입력된 텍스트를 잘게 나누는 과정 (단어로 나눔)

토큰 (token)
- 작게 나누어진 하나의 단위
- 단어, 문장, 형태소 등

In [2]:
# 케라스의 text_to_word_sequence() 함수 사용해서
# 텍스트 토큰화

from tensorflow.keras.preprocessing.text import text_to_word_sequence

text = '해보지 않으면 해낼 수 없다'
result = text_to_word_sequence(text)
print(result)

['해보지', '않으면', '해낼', '수', '없다']


In [None]:
단어의 빈도수 확인
- 각 단어가 몇 번이나 중복해서 쓰였는지 확인
- 단어의 빈도수를 알면 
- 텍스트에서 중요한 역할을 하는 단어를 파악할 수 있음

In [8]:
# 케라스의 Tokenizer() 클래스를 사용해서 빈도수 계산
from tensorflow.keras.preprocessing.text import Tokenizer

docs = ['먼저 텍스트의 각 단어를 나누어 토큰화 합니다.',
       '텍스트의 단어로 토큰화 해야 딥러닝에서 인식합니다.',
       '토큰화 한 결과는 딥러닝에서 사용할 수 있습니다.']

token = Tokenizer()      # 토큰화 객체 생성
token.fit_on_texts(docs) # 문장 적용
token.word_counts        # word_counts에 결과 저장
# 각 다언의 빈도수 : [(단어, 빈도수), ....]

OrderedDict([('먼저', 1),
             ('텍스트의', 2),
             ('각', 1),
             ('단어를', 2),
             ('나누어', 1),
             ('토큰화', 3),
             ('합니다', 1),
             ('단어로', 1),
             ('해야', 1),
             ('딥러닝에서', 2),
             ('인식합니다', 1),
             ('한', 1),
             ('결과는', 1),
             ('사용할', 1),
             ('수', 1),
             ('있습니다', 1)])

In [4]:
# 총 문장 수
token.document_count

3

In [5]:
# 몇 개의 문장에 소속되어 있느지 (포함되어 있는지) : 소속된 문장 수
token.word_docs

defaultdict(int,
            {'합니다': 1,
             '텍스트의': 2,
             '단어를': 1,
             '토큰화': 3,
             '먼저': 1,
             '각': 1,
             '나누어': 1,
             '해야': 1,
             '딥러닝에서': 2,
             '인식합니다': 1,
             '단어로': 1,
             '수': 1,
             '한': 1,
             '있습니다': 1,
             '사용할': 1,
             '결과는': 1})

In [9]:
print(token.word_counts) # 빈도수
print()
print(token.word_docs)  # 소속된 문장수

OrderedDict([('먼저', 1), ('텍스트의', 2), ('각', 1), ('단어를', 2), ('나누어', 1), ('토큰화', 3), ('합니다', 1), ('단어로', 1), ('해야', 1), ('딥러닝에서', 2), ('인식합니다', 1), ('한', 1), ('결과는', 1), ('사용할', 1), ('수', 1), ('있습니다', 1)])

defaultdict(<class 'int'>, {'합니다': 1, '텍스트의': 2, '단어를': 1, '토큰화': 3, '먼저': 1, '각': 1, '나누어': 1, '해야': 1, '딥러닝에서': 2, '인식합니다': 1, '단어로': 1, '수': 1, '한': 1, '있습니다': 1, '사용할': 1, '결과는': 1})


### 단어의 원-핫 인코딩

In [None]:
단어의 원-핫 인코딩
- 먼저 벡터 공간을 0으로 채우고
- index에 해당되는 값만 1로 변경

원-핫 인코딩 전에 각 단어에 index 부여 수행

In [10]:
from tensorflow.keras.preprocessing.text import Tokenizer

text = '오랫동안 꿈꾸는 이는 그 꿈을 닮아간다'

token = Tokenizer()
token.fit_on_texts([text])
token.word_index  # 각 단어와 인덱스 확인

{'오랫동안': 1, '꿈꾸는': 2, '이는': 3, '그': 4, '꿈을': 5, '닮아간다': 6}

In [11]:
# 각 단어의 index로만 이루어진 행렬 생성
# texts_to_sequences() 메서드 사용
x = token.texts_to_sequences([text])
x
# index가 1부터

[[1, 2, 3, 4, 5, 6]]

In [12]:
# 원-핫 인코딩 수행
# to_categorical() 함수 사용

from tensorflow.keras.utils import to_categorical

word_size = len(token.word_index) + 1
x = to_categorical(x, num_classes=word_size)
x

array([[[0., 1., 0., 0., 0., 0., 0.],
        [0., 0., 1., 0., 0., 0., 0.],
        [0., 0., 0., 1., 0., 0., 0.],
        [0., 0., 0., 0., 1., 0., 0.],
        [0., 0., 0., 0., 0., 1., 0.],
        [0., 0., 0., 0., 0., 0., 1.]]], dtype=float32)

### 단어 임베딩 (Word Embedding)

In [None]:
언-핫 인코딩의 문제
- 원-핫 인코딩을 그대로 사용하면 벡터 길이가 너무 길어진다는 단점
- 예로 1만개의 단어 토큰으로 이루어진 말뭉치를 다룬다고 할 때
- 원-핫 인코딩을 적용해서 벡터화할 경우
- 단어의 의미는 전혀 고려하지 않고
- 9,999개의 0과 하나의 1로 이루어진 벡터를 1만개 만들어야 함
- 공간적 낭비

말뭉치(Corpus)
- 자연어 연구를 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합

밀집 표현(Dense Representation)
- 사용자가 설정한 값으로 모든 단어의 벡터 표현의 차원을 맞춤
- 이 과정에서 0과 1만 가진 값이 아니라 실수값을 가지게 됨
- 예: 
    강아지 = [0 0 0 1..... 0] # 10,000 차원
    
    밀집 표현으로 변경
    강아지 = [0.2 1.8 1.1....] # 128 차원
    벡터의 차원이 조밀해졌다고 해서 밀집 벡터(dense vector)라고 함
    
단어 임베딩 
- 공간적 낭비를 해결하기 위한 방법으로
- 단어의 의미를 고려하고 밀집 벡터의 형태로 표현
- 의미가 비슷한 단어는 비슷한 방향에 위치
- 단어의 의미를 효과적으로 표현하기 때문에
- 원-핫 인코딩보다 학습 성능을 높일 수 있음
- 주어진 배열을 정해진 길이로 압축

예: 
    단어 happy는 bad 보다 good에 더 가깝고
    cat은 good 보다는 dog에 가깝다는 것을 고려하여
    배열을 새로운 수치로 변경

In [None]:
# 그림

In [None]:
케라스의 Embedding 클래스 사용하여 임베딩 층 구현
Embedding(총 단어수(단어 집합의 크기),
         임베딩 후 출력되는 벡터 크기,
         input_length(각 입력 시퀀스 길이))
Embedding(16, 4, input_length=2)

임베딩 층 구현
model = Sequential()
model.add(Embedding(16, 4, input_length=2))

단어 -> 정수값 변환 -> 임베딩 층 통과 -> 밀집 벡터

임베딩 층
- 입력 정수에 대해 밀집 벡터로 맵핑하고
- 밀집 벡터는 인공 신경망의 학습 과정에서 가중치가 학습되는 것과 같은 방식으로 훈련
- 훈련 과정에서 단어는 모델이 해결하고자 하는 작업에 맞는 값으로 업데이트 됨
- 이 밀집 벡터를 임베딩 벡터라고 함

임베딩 층의 출력 크기
model.add(Embedding(16, 4, input_length=2)) : 3D 실수형 텐서를 반환
    
Flatten 층 추가 : 3D 실수형 텐서를 2D로 변환 
- 다음의 Dense()에서 처리할 수 있는 입력으로 변환
model.add(Flatten())

### 패딩 (padding)

In [None]:
패딩 (padding)
- 문장의 길이를 나타내는 배열의 크기를 동일하게 맞추는 작업
- 길이가 전부 동일한 문서들에 대하여 하나의 행렬로 인식하고
- 한꺼번에 묶어서 처리할 수 있도록 하기 위함
- 각 문장(문서)의 길이가 서로 다른 경우
- 동일한 길이로 맞추고 빈 부분은 0으로 채움

In [14]:
# 패딩 (padding)

from tensorflow.keras.preprocessing.text import Tokenizer

sentenses = ['지금은 딥러닝을 공부하고 있어요', '어렵지 않고 쉬워요', '참 재미있어요']

token = Tokenizer()
token.fit_on_texts(sentenses)
print(token.word_index)

{'지금은': 1, '딥러닝을': 2, '공부하고': 3, '있어요': 4, '어렵지': 5, '않고': 6, '쉬워요': 7, '참': 8, '재미있어요': 9}


In [15]:
# 각 문장에 해당되는 인덱스를 배열로 생성
result = token.texts_to_sequences(sentenses)
result

[[1, 2, 3, 4], [5, 6, 7], [8, 9]]

In [26]:
# 패딩 : 각 배열의 길이를 동일하게 맞춤
# pad_sequences() 함수 사용
# 길이를 지정하지 않으면 제일 긴 배열의 크기에 맞춤

from tensorflow.keras.preprocessing.sequence import pad_sequences

padded = pad_sequences(result)
padded

array([[1, 2, 3, 4],
       [0, 5, 6, 7],
       [0, 0, 8, 9]], dtype=int32)

In [27]:
# 길이를 6으로 지정
padded = pad_sequences(result, 6) # maxlen=6
padded
# 디폴트 :  padding='pre' (앞 부분을 0으로 채움)

array([[0, 0, 1, 2, 3, 4],
       [0, 0, 0, 5, 6, 7],
       [0, 0, 0, 0, 8, 9]], dtype=int32)

In [29]:
# padding='post' (뒷 부분을 0으로 채움)
padded = pad_sequences(result, padding='post', maxlen=6) # maxlen=6
padded

array([[1, 2, 3, 4, 0, 0],
       [5, 6, 7, 0, 0, 0],
       [8, 9, 0, 0, 0, 0]], dtype=int32)

### 자연어 처리 예제

In [None]:
텍스트를 읽고 긍정, 부정 예측하기
- 영화 리뷰를 딥러닝 모델로 학습해서
- 각 리뷰가 긍정적인지 부정적인지 예측

예측 과정
(1) 짧은 리뷰 10개를 불러와서
- 긍적적이면 1, 부정적이면 0 클래스로 지정
(2) 토큰화
(3) 패딩
(4) 임베딩 및 딥러닝 처리

In [31]:
import numpy as np
import tensorflow as tf
from numpy import array
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Flatten, Embedding
from tensorflow.keras.preprocessing.text import text_to_word_sequence

In [41]:
# (1) 짧은 리뷰 10개를 불러와서

docs = ["너무 재밌네요","최고예요","참 잘 만든 영화예요", \
        "추천하고 싶은 영화입니다","한번 더 보고싶네요","글쎄요", \
        "별로예요","생각보다 지루하네요","연기가 어색해요","재미없어요"]

# 긍적적이면 1, 부정적이면 0 클래스로 지정
classes = array([1,1,1,1,1,0,0,0,0,0])

In [42]:
# (2) 토큰화
token = Tokenizer()
token.fit_on_texts(docs)
print(token.word_index)

{'너무': 1, '재밌네요': 2, '최고예요': 3, '참': 4, '잘': 5, '만든': 6, '영화예요': 7, '추천하고': 8, '싶은': 9, '영화입니다': 10, '한번': 11, '더': 12, '보고싶네요': 13, '글쎄요': 14, '별로예요': 15, '생각보다': 16, '지루하네요': 17, '연기가': 18, '어색해요': 19, '재미없어요': 20}


In [43]:
token.word_index

{'너무': 1,
 '재밌네요': 2,
 '최고예요': 3,
 '참': 4,
 '잘': 5,
 '만든': 6,
 '영화예요': 7,
 '추천하고': 8,
 '싶은': 9,
 '영화입니다': 10,
 '한번': 11,
 '더': 12,
 '보고싶네요': 13,
 '글쎄요': 14,
 '별로예요': 15,
 '생각보다': 16,
 '지루하네요': 17,
 '연기가': 18,
 '어색해요': 19,
 '재미없어요': 20}

In [44]:
# 각 문장에 해당되는 인덱스를 배열로 생성
x = token.texts_to_sequences(docs)
print(x)

[[1, 2], [3], [4, 5, 6, 7], [8, 9, 10], [11, 12, 13], [14], [15], [16, 17], [18, 19], [20]]


In [45]:
# (3) 패딩 : 길이를 4로 맞춤
padded_x = pad_sequences(x, 4)
print('패딩 결과 :\n', padded_x)

패딩 결과 :
 [[ 0  0  1  2]
 [ 0  0  0  3]
 [ 4  5  6  7]
 [ 0  8  9 10]
 [ 0 11 12 13]
 [ 0  0  0 14]
 [ 0  0  0 15]
 [ 0  0 16 17]
 [ 0  0 18 19]
 [ 0  0  0 20]]


In [None]:
딥러닝 모델 적용
(1) 모델 설정
(2) 모델 컴파일
(3) 모델 훈련(학습)
(4) 모델 평가

In [46]:
# 임베딩에 입력할 단어 수 지정
# 맨 앞에 0이 나오도록 len() + 1
word_size = len(token.word_index) + 1

In [52]:
# (1) 모델 설정
# Embedding 층 구현
model = Sequential()
model.add(Embedding(word_size, 8, input_length=4)) # 3D 텐석
model.add(Flatten())  # 2D로 변환
model.add(Dense(1, activation='sigmoid'))

# (2) 모델 컴파일
model.compile(optimizer='adam',
             loss='binary_crossentropy',
             metrics=['accuracy'])

# (3) 모델 훈련(학습)
model.fit(padded_x, classes, epochs=20)

# (4) 모델 평가
print('\n Accuracy : %.4f' % (model.evaluate(padded_x, classes)[1]))

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20

 Accuracy : 1.0000


In [59]:
# 전체 과정 하나로 합치기

import numpy as np
import tensorflow as tf
from numpy import array
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Flatten, Embedding
from tensorflow.keras.preprocessing.text import text_to_word_sequence

# (1) 짧은 리뷰 10개를 불러와서

docs = ["너무 재밌네요","최고예요","참 잘 만든 영화예요", \
        "추천하고 싶은 영화입니다","한번 더 보고싶네요","글쎄요", \
        "별로예요","생각보다 지루하네요","연기가 어색해요","재미없어요"]

# 긍적적이면 1, 부정적이면 0 클래스로 지정
classes = array([1,1,1,1,1,0,0,0,0,0])

# (2) 토큰화
token = Tokenizer()
token.fit_on_texts(docs)
print(token.word_index)

# 각 문장에 해당되는 인덱스를 배열로 생성
x = token.texts_to_sequences(docs)
print(x)

padded_x = pad_sequences(x, 4)
print('패딩 결과 :\n', padded_x)

# 임베딩에 입력할 단어 수 지정
# 맨 앞에 0이 나오도록 len() + 1
word_size = len(token.word_index) + 1

# 딥러닝 적용
# (1) 모델 설정
# Embedding 층 구현
model = Sequential()
model.add(Embedding(word_size, 8, input_length=4)) # 3D 텐서 반환
model.add(Flatten())  # 2D로 변환
model.add(Dense(1, activation='sigmoid'))

# (2) 모델 컴파일
model.compile(optimizer='adam',  # rmsprop, adam
             loss='binary_crossentropy',
             metrics=['accuracy'])

# (3) 모델 훈련(학습)
model.fit(padded_x, classes, epochs=20)

# (4) 모델 평가
print('\n Accuracy : %.4f' % (model.evaluate(padded_x, classes)[1]))

{'너무': 1, '재밌네요': 2, '최고예요': 3, '참': 4, '잘': 5, '만든': 6, '영화예요': 7, '추천하고': 8, '싶은': 9, '영화입니다': 10, '한번': 11, '더': 12, '보고싶네요': 13, '글쎄요': 14, '별로예요': 15, '생각보다': 16, '지루하네요': 17, '연기가': 18, '어색해요': 19, '재미없어요': 20}
[[1, 2], [3], [4, 5, 6, 7], [8, 9, 10], [11, 12, 13], [14], [15], [16, 17], [18, 19], [20]]
패딩 결과 :
 [[ 0  0  1  2]
 [ 0  0  0  3]
 [ 4  5  6  7]
 [ 0  8  9 10]
 [ 0 11 12 13]
 [ 0  0  0 14]
 [ 0  0  0 15]
 [ 0  0 16 17]
 [ 0  0 18 19]
 [ 0  0  0 20]]
Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20

 Accuracy : 0.8000
