<a href="https://colab.research.google.com/github/as9786/NLP/blob/main/WordEmbedding/Tokenizer_FastText_Glove.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Word-based

In [None]:
 from tensorflow.keras.preprocessing.text import Tokenizer

In [None]:
sentences = ['I am sad','나는 오늘 술을 마셔',"I don't have money!"]

In [None]:
tokenizer = Tokenizer(num_words = 100) #num_words : 단어의 개수 제한한

In [None]:
# String data -> list type
tokenizer.fit_on_texts(sentences) 

In [None]:
# 단어와 숫자의 사전
word_index = tokenizer.word_index
word_index

{'i': 1,
 'am': 2,
 'sad': 3,
 '나는': 4,
 '오늘': 5,
 '술을': 6,
 '마셔': 7,
 "don't": 8,
 'have': 9,
 'money': 10}

느낌표는 제거 되었음을 확인.

구두점은 영향 X

In [None]:
sequences = tokenizer.texts_to_sequences(sentences)
sequences

[[1, 2, 3], [4, 5, 6, 7], [1, 8, 9, 10]]

In [None]:
# OOV 
tokenizer = Tokenizer(num_words = 100,oov_token='<OOV>')

In [None]:
# String data -> list type
tokenizer.fit_on_texts(sentences) 

# 단어와 숫자의 사전
word_index = tokenizer.word_index
word_index

{'<OOV>': 1,
 'i': 2,
 'am': 3,
 'sad': 4,
 '나는': 5,
 '오늘': 6,
 '술을': 7,
 '마셔': 8,
 "don't": 9,
 'have': 10,
 'money': 11}

In [None]:
test = ['You look sad']
test_sequence = tokenizer.texts_to_sequences(test)
test_sequence

[[1, 1, 4]]

# BPE

In [None]:
from collections import defaultdict

In [None]:
dic = defaultdict(int)
dic[1]

0

In [None]:
dic

defaultdict(int, {1: 0})

In [None]:
corpus = [
    '박규찬을 대우관별관에서 직접 보지 못한 것을 평생 후회할 것 같다. 보는 내내 감탄을 자아냈고 절대 잊지 못할 여운으로 남을 것이다.',
    '박규찬이 이해되지 않는다 최소 서울대는 가야한다 실력이 정말 끝내준다',
    '박규찬은 말로 표현할 수 없다 완벽한 그를 보는 내내 소름이 돋았다'
]

## 어절 단위 분리 및 어절 내 띄어쓰기 처리

In [None]:
def get_dictionary(corpus):
  dictionary = defaultdict(int)
  for line in corpus:
    tokens = line.split(' ')
    for token in tokens: 
      dictionary[' '.join(list(token)) + " </w>"] += 1
  return dict(dictionary)

In [None]:
dictionary = get_dictionary(corpus)
dictionary

{'박 규 찬 을 </w>': 1,
 '대 우 관 별 관 에 서 </w>': 1,
 '직 접 </w>': 1,
 '보 지 </w>': 1,
 '못 한 </w>': 1,
 '것 을 </w>': 1,
 '평 생 </w>': 1,
 '후 회 할 </w>': 1,
 '것 </w>': 1,
 '같 다 . </w>': 1,
 '보 는 </w>': 2,
 '내 내 </w>': 2,
 '감 탄 을 </w>': 1,
 '자 아 냈 고 </w>': 1,
 '절 대 </w>': 1,
 '잊 지 </w>': 1,
 '못 할 </w>': 1,
 '여 운 으 로 </w>': 1,
 '남 을 </w>': 1,
 '것 이 다 . </w>': 1,
 '박 규 찬 이 </w>': 1,
 '이 해 되 지 </w>': 1,
 '않 는 다 </w>': 1,
 '최 소 </w>': 1,
 '서 울 대 는 </w>': 1,
 '가 야 한 다 </w>': 1,
 '실 력 이 </w>': 1,
 '정 말 </w>': 1,
 '끝 내 준 다 </w>': 1,
 '박 규 찬 은 </w>': 1,
 '말 로 </w>': 1,
 '표 현 할 </w>': 1,
 '수 </w>': 1,
 '없 다 </w>': 1,
 '완 벽 한 </w>': 1,
 '그 를 </w>': 1,
 '소 름 이 </w>': 1,
 '돋 았 다 </w>': 1}

## 가장 많이 등장한 쌍 찾기

In [None]:
def get_pairs(dictionary):

  pairs = defaultdict(int) 
  for word, freq in dictionary.items():
    word_list = word.split()
    for i in range(len(word_list)-1):
      pairs[(word_list[i],word_list[i+1])] += freq
  
  return dict(pairs)

In [None]:
pairs = get_pairs(dictionary)
print(pairs)

{('박', '규'): 3, ('규', '찬'): 3, ('찬', '을'): 1, ('을', '</w>'): 4, ('대', '우'): 1, ('우', '관'): 1, ('관', '별'): 1, ('별', '관'): 1, ('관', '에'): 1, ('에', '서'): 1, ('서', '</w>'): 1, ('직', '접'): 1, ('접', '</w>'): 1, ('보', '지'): 1, ('지', '</w>'): 3, ('못', '한'): 1, ('한', '</w>'): 2, ('것', '을'): 1, ('평', '생'): 1, ('생', '</w>'): 1, ('후', '회'): 1, ('회', '할'): 1, ('할', '</w>'): 3, ('것', '</w>'): 1, ('같', '다'): 1, ('다', '.'): 2, ('.', '</w>'): 2, ('보', '는'): 2, ('는', '</w>'): 3, ('내', '내'): 2, ('내', '</w>'): 2, ('감', '탄'): 1, ('탄', '을'): 1, ('자', '아'): 1, ('아', '냈'): 1, ('냈', '고'): 1, ('고', '</w>'): 1, ('절', '대'): 1, ('대', '</w>'): 1, ('잊', '지'): 1, ('못', '할'): 1, ('여', '운'): 1, ('운', '으'): 1, ('으', '로'): 1, ('로', '</w>'): 2, ('남', '을'): 1, ('것', '이'): 1, ('이', '다'): 1, ('찬', '이'): 1, ('이', '</w>'): 3, ('이', '해'): 1, ('해', '되'): 1, ('되', '지'): 1, ('않', '는'): 1, ('는', '다'): 1, ('다', '</w>'): 5, ('최', '소'): 1, ('소', '</w>'): 1, ('서', '울'): 1, ('울', '대'): 1, ('대', '는'): 1, ('가', '야'): 1, ('야', '한'): 1, ('한

In [None]:
print(max(pairs,key=pairs.get))

('다', '</w>')


## Bi-gram merging

In [None]:
def merge_dictionary(paris, dictionary):
  result = defaultdict(int)
  best_pair = max(pairs,key=pairs.get)
  for word, freq in dictionary.items(): 
    paired = word.replace(' '.join(best_pair), ''.join(best_pair))
    result[paired] = dictionary[word]
  return dict(result)

In [None]:
temp = merge_dictionary(pairs,dictionary)
temp

{'박 규 찬 을 </w>': 1,
 '대 우 관 별 관 에 서 </w>': 1,
 '직 접 </w>': 1,
 '보 지 </w>': 1,
 '못 한 </w>': 1,
 '것 을 </w>': 1,
 '평 생 </w>': 1,
 '후 회 할 </w>': 1,
 '것 </w>': 1,
 '같 다 . </w>': 1,
 '보 는 </w>': 2,
 '내 내 </w>': 2,
 '감 탄 을 </w>': 1,
 '자 아 냈 고 </w>': 1,
 '절 대 </w>': 1,
 '잊 지 </w>': 1,
 '못 할 </w>': 1,
 '여 운 으 로 </w>': 1,
 '남 을 </w>': 1,
 '것 이 다 . </w>': 1,
 '박 규 찬 이 </w>': 1,
 '이 해 되 지 </w>': 1,
 '않 는 다</w>': 1,
 '최 소 </w>': 1,
 '서 울 대 는 </w>': 1,
 '가 야 한 다</w>': 1,
 '실 력 이 </w>': 1,
 '정 말 </w>': 1,
 '끝 내 준 다</w>': 1,
 '박 규 찬 은 </w>': 1,
 '말 로 </w>': 1,
 '표 현 할 </w>': 1,
 '수 </w>': 1,
 '없 다</w>': 1,
 '완 벽 한 </w>': 1,
 '그 를 </w>': 1,
 '소 름 이 </w>': 1,
 '돋 았 다</w>': 1}

## 학습

In [None]:
iter_nums = 20
dictionary = get_dictionary(corpus)
for i in range(iter_nums):
    pairs = get_pairs(dictionary)
    dictionary = merge_dictionary(pairs, dictionary)

In [None]:
dictionary

{'박규찬을</w>': 1,
 '대우관별관 에 서 </w>': 1,
 '직 접 </w>': 1,
 '보 지</w>': 1,
 '못 한</w>': 1,
 '것 을</w>': 1,
 '평 생 </w>': 1,
 '후 회 할</w>': 1,
 '것 </w>': 1,
 '같 다.</w>': 1,
 '보는</w>': 2,
 '내내</w>': 2,
 '감 탄 을</w>': 1,
 '자 아 냈 고 </w>': 1,
 '절 대 </w>': 1,
 '잊 지</w>': 1,
 '못 할</w>': 1,
 '여 운 으 로</w>': 1,
 '남 을</w>': 1,
 '것 이 다.</w>': 1,
 '박규찬 이</w>': 1,
 '이 해 되 지</w>': 1,
 '않 는 다</w>': 1,
 '최 소 </w>': 1,
 '서 울 대 는</w>': 1,
 '가 야 한 다</w>': 1,
 '실 력 이</w>': 1,
 '정 말 </w>': 1,
 '끝 내 준 다</w>': 1,
 '박규찬 은 </w>': 1,
 '말 로</w>': 1,
 '표 현 할</w>': 1,
 '수 </w>': 1,
 '없 다</w>': 1,
 '완 벽 한</w>': 1,
 '그 를 </w>': 1,
 '소 름 이</w>': 1,
 '돋 았 다</w>': 1}

## 최종 단어 사전

In [None]:
def get_vocab(dictionary):
    result = defaultdict(int)
    for word, freq in dictionary.items():
        tokens = word.split()
        for token in tokens:
            result[token] += freq
    return dict(result)

In [None]:
vocab = get_vocab(dictionary)
vocab

{'박규찬을</w>': 1,
 '대우관별관': 1,
 '에': 1,
 '서': 2,
 '</w>': 11,
 '직': 1,
 '접': 1,
 '보': 1,
 '지</w>': 3,
 '못': 2,
 '한</w>': 2,
 '것': 3,
 '을</w>': 3,
 '평': 1,
 '생': 1,
 '후': 1,
 '회': 1,
 '할</w>': 3,
 '같': 1,
 '다.</w>': 2,
 '보는</w>': 2,
 '내내</w>': 2,
 '감': 1,
 '탄': 1,
 '자': 1,
 '아': 1,
 '냈': 1,
 '고': 1,
 '절': 1,
 '대': 2,
 '잊': 1,
 '여': 1,
 '운': 1,
 '으': 1,
 '로</w>': 2,
 '남': 1,
 '이': 2,
 '박규찬': 2,
 '이</w>': 3,
 '해': 1,
 '되': 1,
 '않': 1,
 '는': 1,
 '다</w>': 5,
 '최': 1,
 '소': 2,
 '울': 1,
 '는</w>': 1,
 '가': 1,
 '야': 1,
 '한': 1,
 '실': 1,
 '력': 1,
 '정': 1,
 '말': 2,
 '끝': 1,
 '내': 1,
 '준': 1,
 '은': 1,
 '표': 1,
 '현': 1,
 '수': 1,
 '없': 1,
 '완': 1,
 '벽': 1,
 '그': 1,
 '를': 1,
 '름': 1,
 '돋': 1,
 '았': 1}

# WordPiece

In [None]:
!pip install transformers

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting transformers
  Downloading transformers-4.27.4-py3-none-any.whl (6.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m6.8/6.8 MB[0m [31m54.3 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting huggingface-hub<1.0,>=0.11.0
  Downloading huggingface_hub-0.13.4-py3-none-any.whl (200 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m200.1/200.1 KB[0m [31m29.8 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: huggingface-hub, transformers
Successfully installed huggingface-hub-0.13.4 transformers-4.27.4


In [None]:
from transformers import BertTokenizer

In [None]:
tokenizer = BertTokenizer.from_pretrained('bert-base-cased')

In [None]:
sequence = "A Titan RTX has 24GB of VRAM"

In [None]:
tokenizer.tokenize(sequence)

['A',
 'Titan',
 'R',
 '##T',
 '##X',
 'has',
 '24',
 '##GB',
 'of',
 'V',
 '##RA',
 '##M']

In [None]:
inputs = tokenizer(sequence)
inputs

{'input_ids': [101, 138, 18696, 155, 1942, 3190, 1144, 1572, 13745, 1104, 159, 9664, 2107, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}

In [None]:
encoded = inputs['input_ids']
encoded

[101,
 138,
 18696,
 155,
 1942,
 3190,
 1144,
 1572,
 13745,
 1104,
 159,
 9664,
 2107,
 102]

In [None]:
decoded_sequence = tokenizer.decode(encoded)
decoded_sequence

'[CLS] A Titan RTX has 24GB of VRAM [SEP]'

In [None]:
sequence_a = "HuggingFace is based in NYC"
sequence_b = "Where is HuggingFace based?"

In [None]:
encoded = tokenizer(sequence_a, sequence_b)

In [None]:
encoded

{'input_ids': [101, 20164, 10932, 2271, 7954, 1110, 1359, 1107, 17520, 102, 2777, 1110, 20164, 10932, 2271, 7954, 1359, 136, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}

In [None]:
encoded['token_type_ids']

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1]

In [None]:
sequence_a = "This is a short sequence."
sequence_b = "This is a rather long sequence. It is at least longer than the sequence A."

In [None]:
padded_sequences = tokenizer([sequence_a, sequence_b], padding=True)
padded_sequences

{'input_ids': [[101, 1188, 1110, 170, 1603, 4954, 119, 102, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [101, 1188, 1110, 170, 1897, 1263, 4954, 119, 1135, 1110, 1120, 1655, 2039, 1190, 1103, 4954, 138, 119, 102]], 'token_type_ids': [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]}

In [None]:
padded_sequences["attention_mask"]

[[1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]

# Wordpiece tokenizer training

In [None]:
!pip install tokenizers

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting tokenizers
  Downloading tokenizers-0.13.3-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (7.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.8/7.8 MB[0m [31m46.5 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: tokenizers
Successfully installed tokenizers-0.13.3


In [None]:
from tokenizers import BertWordPieceTokenizer
import urllib.request
import pandas as pd

In [None]:
urllib.request.urlretrieve("https://raw.githubusercontent.com/e9t/nsmc/master/ratings.txt", filename="ratings.txt")

('ratings.txt', <http.client.HTTPMessage at 0x7f95c7d0b6d0>)

In [None]:
naver_df = pd.read_table('ratings.txt')
naver_df = naver_df.dropna(how='any')
with open('naver_review.txt', 'w', encoding='utf8') as f:
    f.write('\n'.join(naver_df['document']))

In [None]:
tokenizer = BertWordPieceTokenizer(lowercase=False, strip_accents=False) #lowercase : 대소문자 구분, strip_accents : 악센트 제거

In [None]:
data_file = 'naver_review.txt'
# 단어 집합의 크기
vocab_size = 30000
# 병합 전 초기 토큰의 허용 개수
limit_alphabet = 6000
# 최소 해당 횟수만큼 등장한 쌍에 대해서만 병합
min_frequency = 5

tokenizer.train(files=data_file,
                vocab_size=vocab_size,
                limit_alphabet=limit_alphabet,
                min_frequency=min_frequency)

In [None]:
# vocab 저장
tokenizer.save_model('./')

['./vocab.txt']

In [None]:
df = pd.read_fwf('vocab.txt', header=None)
df

Unnamed: 0,0
0,[PAD]
1,[UNK]
2,[CLS]
3,[SEP]
4,[MASK]
...,...
29995,말들이
29996,말라는
29997,말밖에는
29998,맘을


# FastText

In [None]:
!pip install konlpy

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m61.9 MB/s[0m eta [36m0:00:00[0m
Collecting JPype1>=0.7.0
  Downloading JPype1-1.4.1-cp39-cp39-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (465 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m465.3/465.3 KB[0m [31m37.8 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.4.1 konlpy-0.6.0


In [None]:
from gensim.models import FastText
import urllib.request
import pandas as pd
from konlpy.tag import Okt
from tqdm import tqdm

In [None]:
urllib.request.urlretrieve("https://raw.githubusercontent.com/e9t/nsmc/master/ratings.txt", filename="ratings.txt")

('ratings.txt', <http.client.HTTPMessage at 0x7f94fb11bdf0>)

In [None]:
naver_df = pd.read_table('ratings.txt')
naver_df.head()

Unnamed: 0,id,document,label
0,8112052,어릴때보고 지금다시봐도 재밌어요ㅋㅋ,1
1,8132799,"디자인을 배우는 학생으로, 외국디자이너와 그들이 일군 전통을 통해 발전해가는 문화산...",1
2,4655635,폴리스스토리 시리즈는 1부터 뉴까지 버릴께 하나도 없음.. 최고.,1
3,9251303,와.. 연기가 진짜 개쩔구나.. 지루할거라고 생각했는데 몰입해서 봤다.. 그래 이런...,1
4,10067386,안개 자욱한 밤하늘에 떠 있는 초승달 같은 영화.,1


In [None]:
naver_df.shape

(200000, 3)

In [None]:
document = naver_df.document.tolist()
document[0]

'어릴때보고 지금다시봐도 재밌어요ㅋㅋ'

In [None]:
okt = Okt()

In [None]:
using_tag = ['Noun','Verb','Adjective']

In [None]:
okt.pos(document[0])

[('어릴', 'Verb'),
 ('때', 'Noun'),
 ('보고', 'Noun'),
 ('지금', 'Noun'),
 ('다시', 'Noun'),
 ('봐도', 'Verb'),
 ('재밌어요', 'Adjective'),
 ('ㅋㅋ', 'KoreanParticle')]

In [None]:
sentence = []
for doc in tqdm(document[:2000]):
  sent = []
  tags = okt.pos(doc)
  for d in tags:
    if d[1] in using_tag:
      sent.append(d[0])
  sentence.append(sent)

100%|██████████| 2000/2000 [00:12<00:00, 156.11it/s]


In [None]:
sentence[0]

['어릴', '때', '보고', '지금', '다시', '봐도', '재밌어요']

In [None]:
model = FastText(sentence,vector_size=64,window=5,min_count=5,sg=1)

In [None]:
model.wv.most_similar('재밌어요')

[('재미있어요', 0.9997705221176147),
 ('재밌습니다', 0.9997278451919556),
 ('우리나라', 0.9997276067733765),
 ('봤어요', 0.9997009038925171),
 ('이야기', 0.9996957182884216),
 ('봤습니다', 0.9996936321258545),
 ('였습니다', 0.9996867775917053),
 ('재밌었어요', 0.9996863007545471),
 ('재밌었다', 0.9996772408485413),
 ('재밌는데', 0.9996734857559204)]

# Glove

In [None]:
import gensim.downloader as api
import gensim
model = api.load("glove-wiki-gigaword-50")
model
model = gensim.models.KeyedVectors.load_word2vec_format('~/gensim-data/glove-wiki-gigaword-50/glove-wiki-gigaword-50.gz')
print(model)

KeyedVectors<vector_size=50, 400000 keys>


In [None]:
model.most_similar("queen")

[('princess', 0.8515166640281677),
 ('lady', 0.805060863494873),
 ('elizabeth', 0.787304162979126),
 ('king', 0.7839043140411377),
 ('prince', 0.7821861505508423),
 ('coronation', 0.769277811050415),
 ('consort', 0.7626097202301025),
 ('royal', 0.7442865371704102),
 ('crown', 0.7382649183273315),
 ('victoria', 0.7285771369934082)]

In [None]:
model.most_similar("AI")

KeyError: ignored