Natural Language Processing in Tensorflow
---------------------------------------------------------------
1. **Sentiment in text**
1. Word Embeddings
1. Sequence model
1. Sequence models and literature

In [None]:
!pip install tensorflow==2.5.0
!pip install gdown

- 아래 예제에 필요한 tensorflow와 gdown 설치

In [3]:
from tensorflow.keras.preprocessing.text import Tokenizer

sentences = [
    'i love my dog',
    'I, love my cat',
    'You love my dog!'
]

tokenizer = Tokenizer(num_words = 100)
tokenizer.fit_on_texts(sentences)
word_index = tokenizer.word_index
print(word_index)

{'love': 1, 'my': 2, 'i': 3, 'dog': 4, 'cat': 5, 'you': 6}


First Example: **Tokenizer**를 이용한 word-encoding

- sentences: 위 예제에서 사용할 문장 배열
- tokenizer: Tokenizer의 instance, 여기서 num_word는 저장할 token의 개수로 사용해야 할 token이 (num_word = 100)보다 많다면 빈도수를 기준으로 상위 100개의 단어를 인코딩 하겠다는 의미이다. (많은 양의 데이터를 처리하는데 유용함.)
- fit_on_texts(): input의 데이터를 가져와 encoding. 
- word_index: encoding한 data를 Dictionary 형태로 return. 대소문자를 구분하지 않고, 문장부호를 제거함으로써 단어에 대한 의미 보존.

Result: sentence에 있는 단어를 indexing한 결과를 확인가능

In [3]:
import tensorflow as tf
from tensorflow import keras


from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

sentences = [
    'I love my dog',
    'I love my cat',
    'You love my dog!',
    'Do you think my dog is amazing?'
]

tokenizer = Tokenizer(num_words = 100, oov_token="<OOV>")
tokenizer.fit_on_texts(sentences)
word_index = tokenizer.word_index

sequences = tokenizer.texts_to_sequences(sentences)

padded = pad_sequences(sequences, maxlen=5)
print("\nWord Index = " , word_index)
print("\nSequences = " , sequences)
print("\nPadded Sequences:")
print(padded)
print(padded.shape)

# Try with words that the tokenizer wasn't fit to
test_data = [
    'i really love my dog',
    'my dog loves my manatee'
]

test_seq = tokenizer.texts_to_sequences(test_data)
print("\nTest Sequence = ", test_seq)

padded = pad_sequences(test_seq, maxlen=10)
print("\nPadded Test Sequence: ")
print(padded)
print(padded.shape)


Word Index =  {'<OOV>': 1, 'my': 2, 'love': 3, 'dog': 4, 'i': 5, 'you': 6, 'cat': 7, 'do': 8, 'think': 9, 'is': 10, 'amazing': 11}

Sequences =  [[5, 3, 2, 4], [5, 3, 2, 7], [6, 3, 2, 4], [8, 6, 9, 2, 4, 10, 11]]

Padded Sequences:
[[ 0  5  3  2  4]
 [ 0  5  3  2  7]
 [ 0  6  3  2  4]
 [ 9  2  4 10 11]]
(4, 5)

Test Sequence =  [[5, 1, 3, 2, 4], [2, 4, 1, 2, 1]]

Padded Test Sequence: 
[[0 0 0 0 0 5 1 3 2 4]
 [0 0 0 0 0 2 4 1 2 1]]
(2, 10)


Second Example: Text to Sequence & **Padding**

- sentences: 위 예제에서 사용할 문장 배열

- oov_token: 편의상 out of vocab의 약자로 encoding할 data에서 encoding하지 못한 data를 대체한다. 이로써 후에 text_to_sequence 메소드를 호출할 때 encoding하지 못한 데이터를 대신하여 sequence를 만들 수 있도록 도우는 역할을 한다.
    * 실제로 word_index 결과를 보면 OOV가 1번으로 encoding된 결과를 확인할 수 있다.
    * Test Sequence에서 'i really love my dog'를 [5, 1(OOV), 3, 2, 4]로 변환된 모습을 확인가능
    
- sequence: tokenzier의 **texts_to_sequence** 메소드를 이용해 sentence를 token의 list로 return한다. 예컨대, 'I love my dog'과 같은 문장에는 각 단어에 대응하는 token을 이용해서 [5, 3, 2, 4]가 return된다.

- padded: pad_sequence 메소드를 이용하여 sequence data를 max_len에 맞추어 padding
    * ML을 위해 input data의 size를 통일시켜주는 수단
    * 예제 결과에서 max_len인 길이 5에 맞추기 위해서 첫 번째 sentence가 [0 5 3 2 4]로 변환한 모습을 확인 가능
    * max_len이 sentence 길이보다 짧으면 앞에서부터 데이터가 소실됨
        + 예컨대, max_len이 3이면 첫 번째 sentence가 [3 2 4]로 출력됨
    * parameter를 사용해 0이 추가되는 방향과 데이터가 소실되는 방향을 정할 수 있음(default 값은 pre)

In [1]:
!gdown --id 1xRU3xY5-tkiPGvlz5xBJ18_pHWSRzI4v
  
import json

with open("./sarcasm.json", 'r') as f:
    datastore = json.load(f)


sentences = [] 
labels = []
urls = []
for item in datastore:
    sentences.append(item['headline'])
    labels.append(item['is_sarcastic'])
    urls.append(item['article_link'])



from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
tokenizer = Tokenizer(oov_token="<OOV>")
tokenizer.fit_on_texts(sentences)

word_index = tokenizer.word_index
print(len(word_index))
sequences = tokenizer.texts_to_sequences(sentences)
padded = pad_sequences(sequences, padding='post')
print(padded[0])
print(padded.shape)

Downloading...
From: https://drive.google.com/uc?id=1xRU3xY5-tkiPGvlz5xBJ18_pHWSRzI4v
To: C:\Users\sykan\sarcasm.json

  0%|          | 0.00/5.64M [00:00<?, ?B/s]
  9%|9         | 524k/5.64M [00:00<00:01, 3.33MB/s]
 37%|###7      | 2.10M/5.64M [00:00<00:00, 8.83MB/s]
100%|##########| 5.64M/5.64M [00:00<00:00, 8.30MB/s]
100%|##########| 5.64M/5.64M [00:00<00:00, 8.01MB/s]


29657
[  308 15115   679  3337  2298    48   382  2576 15116     6  2577  8434
     0     0     0     0     0     0     0     0     0     0     0     0
     0     0     0     0     0     0     0     0     0     0     0     0
     0     0     0     0]
(26709, 40)


Third Example: **Sarcasm Example**

- 실제 데이터에서 위에서 배운 방법을 적용시키는 것을 보여주는 예제

- sarcasm.json data는 headline, is_sarcastic, article_link의 data를 가진 객체로 이를 각각 sentences, labels, urls에 append 해준다.

- Tokenizer를 이용해 data의 sentences를 indexing하고, padding한다.

- pad_sequences(sequences, padding='post'): padding parameter를 'post'로 설정함으로써 뒤에서부터 0이 추가되도록 padding하겠다는 의미

- print(padded[0]): 첫 번째 sentence의 sequencing 결과를 출력

- padded.shape의 결과인 (26709, 40)은 data에는 26709개의 문장과, 최대 40개의 단어로 이루어진 문장이 있다는 것을 의미함.