In [None]:
# Colab에 Mecab 설치
!git clone https://github.com/SOMJANG/Mecab-ko-for-Google-Colab.git
%cd Mecab-ko-for-Google-Colab
!bash install_mecab-ko_on_colab190912.sh

In [None]:
# 위의 코드가 작동하지 않을 때 대안 코드 1 실행
!pip install konlpy
!pip install mecab-python
!bash <(curl -s https://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh)

In [None]:
from konlpy.tag import Mecab
mecab = Mecab()
#NameError: name 'Tagger' is not defined 오류 발생 시 런타임을 재실행 해주세요.

In [None]:
# 한글 자모 단위 처리 패키지 설치
!pip install hgtk

Collecting hgtk
  Downloading hgtk-0.2.1-py2.py3-none-any.whl.metadata (5.4 kB)
Downloading hgtk-0.2.1-py2.py3-none-any.whl (12 kB)
Installing collected packages: hgtk
Successfully installed hgtk-0.2.1


In [None]:
# fasttext 설치
!git clone https://github.com/facebookresearch/fastText.git
%cd fastText
!make
!pip install .

In [None]:
#hgtk 설치
!pip install hgtk



## 1. 데이터 로드

In [None]:
import re
import pandas as pd
import urllib.request
from tqdm import tqdm
import hgtk

In [None]:
# 네이버 쇼핑 리뷰
urllib.request.urlretrieve("https://raw.githubusercontent.com/bab2min/corpus/master/sentiment/naver_shopping.txt", filename="ratings_total.txt")

('ratings_total.txt', <http.client.HTTPMessage at 0x789a4ab99850>)

In [None]:
total_data = pd.read_table('ratings_total.txt', names=['ratings', 'reviews'])
print('전체 리뷰 개수 :',len(total_data)) # 전체 리뷰 개수 출력

전체 리뷰 개수 : 200000


In [None]:
total_data.head()

Unnamed: 0,ratings,reviews
0,5,배공빠르고 굿
1,2,택배가 엉망이네용 저희집 밑에층에 말도없이 놔두고가고
2,5,아주좋아요 바지 정말 좋아서2개 더 구매했어요 이가격에 대박입니다. 바느질이 조금 ...
3,2,선물용으로 빨리 받아서 전달했어야 하는 상품이었는데 머그컵만 와서 당황했습니다. 전...
4,5,민트색상 예뻐요. 옆 손잡이는 거는 용도로도 사용되네요 ㅎㅎ


## 2. hgtk 튜토리얼



word embedding이 단어 단위의 임베딩이었다면, character embedding은 문자 단위의 임베딩입니다. 한국어를 character embedding할 수 있는 것이 바로 자음 모음 분리기 hgtk입니다.

 영어는 하나의 알파벳(52자)를 기준으로 character embedding을 하지만, 한국어에서 하나의 음절별로 character embedding을 하면 11172개의 음절이 있기 때문에 계산량이 너무 많습니다. 따라서 그보다 작은 단위인 자음,모음으로 분리하는 것입니다.

 >참고 repo: https://github.com/bluedisk/hangul-toolkit

In [None]:
# 한글인지 체크
print(hgtk.checker.is_hangul('ㄱ'))
print(hgtk.checker.is_hangul('12'))
print(hgtk.checker.is_hangul('a'))

True
False
False


In [None]:
# 음절을 초성, 중성, 종성으로 분해
print(hgtk.letter.decompose('남'))
# 초성, 중성, 종성을 하나의 음절로 결합
print(hgtk.letter.compose('ㄴ', 'ㅏ', 'ㅁ'))

('ㄴ', 'ㅏ', 'ㅁ')
남


In [None]:
# 결합할 수 없는 상황에서는 에러 발생
try:
  hgtk.letter.compose('ㄴ', 'ㅁ', 'ㅁ') # 중성이 없는 경우
except:
  print('에러 발생')

에러 발생


## 3. 데이터 전처리

In [None]:
## 자음 모음 분리

def word_to_jamo(token):
  def to_special_token(jamo): # 경우에 따라 초, 중, 종성이 다 있는 게 아닌 경우도 있다. 이 경우 -를 반환해주는 함수
    if not jamo:
      return '-'
    else:
      return jamo

  decomposed_token = ''
  for char in token:
    try:
      # char(음절)을 초성, 중성, 종성으로 분리
      cho, jung, jong = hgtk.letter.decompose(char)

      # 자모가 빈 문자일 경우 특수문자 -로 대체
      cho = to_special_token(cho)
      jung = to_special_token(jung)
      jong = to_special_token(jong)
      decomposed_token = decomposed_token + cho + jung + jong

    # 만약 char(음절)이 한글이 아닐 경우 자모를 나누지 않고 추가
    except Exception as exception:
      if type(exception).__name__ == 'NotHangulException':
        decomposed_token += char

  # 단어 토큰의 자모 단위 분리 결과를 추가
  return decomposed_token

In [None]:
print(word_to_jamo('남동생'))
print(word_to_jamo('야구')) # 야구의 경우 종성이 없으므로 종성 부분을 -로 반환

ㄴㅏㅁㄷㅗㅇㅅㅐㅇ
ㅇㅑ-ㄱㅜ-


In [None]:
print(mecab.morphs('선물용으로 빨리 받아서 전달했어야 하는 상품이었는데 머그컵만 와서 당황했습니다.')) # 형태소 분해

['선물', '용', '으로', '빨리', '받', '아서', '전달', '했어야', '하', '는', '상품', '이', '었', '는데', '머그', '컵', '만', '와서', '당황', '했', '습니다', '.']


In [None]:
# mecab으로 형태소를 분리해주고 그 형태소마다 각각 자음모음을 분리해주는 함수
def tokenize_by_jamo(s):
    return [word_to_jamo(token) for token in mecab.morphs(s)]

In [None]:
print(tokenize_by_jamo('선물용으로 빨리 받아서 전달했어야 하는 상품이었는데 머그컵만 와서 당황했습니다.'))

['ㅅㅓㄴㅁㅜㄹ', 'ㅇㅛㅇ', 'ㅇㅡ-ㄹㅗ-', 'ㅃㅏㄹㄹㅣ-', 'ㅂㅏㄷ', 'ㅇㅏ-ㅅㅓ-', 'ㅈㅓㄴㄷㅏㄹ', 'ㅎㅐㅆㅇㅓ-ㅇㅑ-', 'ㅎㅏ-', 'ㄴㅡㄴ', 'ㅅㅏㅇㅍㅜㅁ', 'ㅇㅣ-', 'ㅇㅓㅆ', 'ㄴㅡㄴㄷㅔ-', 'ㅁㅓ-ㄱㅡ-', 'ㅋㅓㅂ', 'ㅁㅏㄴ', 'ㅇㅘ-ㅅㅓ-', 'ㄷㅏㅇㅎㅘㅇ', 'ㅎㅐㅆ', 'ㅅㅡㅂㄴㅣ-ㄷㅏ-', '.']


In [None]:
# 리뷰 데이터의 reviews 컬럼만을 가져와서 자모 분리
tokenized_data = []

for sample in tqdm(total_data['reviews'].to_numpy()):
    tokenzied_sample = tokenize_by_jamo(sample) # 자소 단위 토큰화
    tokenized_data.append(tokenzied_sample)

100%|██████████| 200000/200000 [00:59<00:00, 3350.49it/s]


In [None]:
print(len(tokenized_data))
print("전처리 전:", total_data['reviews'][1])
print("전처리 후:", tokenized_data[1])

200000
전처리 전: 택배가 엉망이네용 저희집 밑에층에 말도없이 놔두고가고
전처리 후: ['ㅌㅐㄱㅂㅐ-', 'ㄱㅏ-', 'ㅇㅓㅇㅁㅏㅇ', 'ㅇㅣ-', 'ㄴㅔ-', 'ㅇㅛㅇ', 'ㅈㅓ-ㅎㅢ-', 'ㅈㅣㅂ', 'ㅁㅣㅌ', 'ㅇㅔ-', 'ㅊㅡㅇ', 'ㅇㅔ-', 'ㅁㅏㄹ', 'ㄷㅗ-', 'ㅇㅓㅄㅇㅣ-', 'ㄴㅘ-ㄷㅜ-', 'ㄱㅗ-', 'ㄱㅏ-', 'ㄱㅗ-']


단어를 자모 분리한 것을 역으로 하여 자모 상태를 단어로 다시 결합시키는 함수도 정의해봅시다. 이는 단어의 코사인 유사도를 평가할 때 자모 분리가 된 상태가 아니라 단어 상태로 편리하게 보기 위함입니다.

In [None]:
## 자음 모음 재결합

def jamo_to_word(jamo_sequence):
  tokenized_jamo = []
  index = 0

  # 1. 초기 입력
  # jamo_sequence = 'ㄴㅏㅁㄷㅗㅇㅅㅐㅇ'

  while index < len(jamo_sequence):
    # 문자가 한글(정상적인 자모)이 아닐 경우
    if not hgtk.checker.is_hangul(jamo_sequence[index]):
      tokenized_jamo.append(jamo_sequence[index]) # 해당 문자 리스트에 추가하고 다음 문자 불러옴
      index = index + 1

    # 문자가 정상적인 자모라면 초성, 중성, 종성을 하나의 토큰으로 간주.
    else:
      tokenized_jamo.append(jamo_sequence[index:index + 3])
      index = index + 3 # 해당 음절 리스트에 추가하고 음절 바로 다음 문자 불러옴

  # 2. 자모 단위 토큰화 완료
  # tokenized_jamo : ['ㄴㅏㅁ', 'ㄷㅗㅇ', 'ㅅㅐㅇ']

  word = ''
  try:
    for jamo in tokenized_jamo:

      # 초성, 중성, 종성의 묶음으로 추정되는 경우
      if len(jamo) == 3:
        if jamo[2] == "-":
          # 종성이 존재하지 않는 경우
          # 초성 중성만 결합 후 word에 추가
          word = word + hgtk.letter.compose(jamo[0], jamo[1])
        else:
          # 종성이 존재하는 경우
          # 초성 중성 종성 결합 후 word에 추가
          word = word + hgtk.letter.compose(jamo[0], jamo[1], jamo[2])
      # 한글이 아닌 경우
      # word에 해당 문자 붙임
      else:
        word = word + jamo

  # 복원 중(hgtk.letter.compose) 에러 발생 시 초기 입력 리턴.
  # 복원이 불가능한 경우 예시) 'ㄴ!ㅁㄷㅗㅇㅅㅐㅇ'
  except Exception as exception:
    if type(exception).__name__ == 'NotHangulException':
      return jamo_sequence

  # 3. 단어로 복원 완료
  # word : '남동생'

  return word

## 4. FastText

In [None]:
import fasttext

fasttext를 실행하기에 앞서 훈련 대상인 단어들을 txt 파일로 준비해둬야 합니다. 따라서 `tokenized_data.txt`라는 파일을 쓰기 모드(w)로 생성해주고 앞서 전처리한 `tokenized_data`를 입력해줍니다.

In [None]:
# 새로운 텍스트 파일에 tokenized data 한 줄씩 추가
with open('tokenized_data.txt', 'w') as out:
  for line in tqdm(tokenized_data, unit=' line'):
    out.write(' '.join(line) + '\n')

100%|██████████| 200000/200000 [00:00<00:00, 300361.64 line/s]


아래처럼 `train_unsupeviesd` 함수는 훈련을 시켜주는 함수입니다. 인자로 훈련할 단어가 담긴 txt 파일을 지정하고 model을 `cbow`나 `skipgram` 중에 하나를 고르면 됩니다.

In [None]:
model = fasttext.train_unsupervised('tokenized_data.txt', model='cbow') #모델생성

In [None]:
model.save_model("fasttext.bin") #모델저장

In [None]:
model = fasttext.load_model("fasttext.bin") #모델로드

In [None]:
model[word_to_jamo('남동생')] # 'ㄴㅏㅁㄷㅗㅇㅅㅐㅇ' # 임베딩 완료

array([-0.1783078 ,  0.790016  ,  0.77795655,  0.36818233,  0.46228698,
       -0.3720079 ,  0.27041084, -0.3125775 ,  0.1700772 , -0.12752165,
        0.2005062 ,  0.70349866, -0.32784566,  0.40647647,  0.8274091 ,
       -0.2697191 ,  0.3788647 ,  0.13849564,  0.11105179, -0.17119847,
        0.01293096, -0.7637373 , -0.05854314, -0.48128685, -0.47419748,
       -0.49593917,  0.37822896,  0.4758871 ,  0.73222214,  0.14633812,
       -0.04399045, -1.2377392 ,  0.3140675 ,  0.7687821 ,  0.6565598 ,
       -0.33240208,  0.48727417, -0.5810977 ,  0.11862421,  0.9968714 ,
        0.7153069 ,  0.57084846, -0.43699387,  1.2362758 ,  0.06930456,
       -0.21719797,  0.8579173 ,  0.06309998,  0.04849518, -0.12291124,
       -0.00943801, -0.01136472,  0.755355  , -0.01285179,  0.14335221,
       -0.62276447,  0.10659599,  0.2786796 , -0.09709349,  0.34252763,
       -0.68762666,  0.17060655,  0.5063953 ,  0.1175071 , -0.01823661,
       -0.63972175, -0.45963728,  0.01354522, -0.14149809, -1.03

`get_nearest_neighbors` 함수를 사용하여 '남동생'이라는 단어와 가장 유사도가 높은 단어들(자모 분리된 상태)을 k개만큼 출력해줍니다.

In [None]:
model.get_nearest_neighbors(word_to_jamo('남동생'), k=10) # 0.8852669596672058, 'ㄷㅗㅇㅅㅐㅇ' 출력

[(0.8852669596672058, 'ㄷㅗㅇㅅㅐㅇ'),
 (0.8423430323600769, 'ㄴㅏㅁㅊㅣㄴ'),
 (0.7675397396087646, 'ㅅㅐㅇㅇㅣㄹ'),
 (0.7460188269615173, 'ㅊㅣㄴㄱㅜ-'),
 (0.743413507938385, 'ㄴㅏㅁㅍㅕㄴ'),
 (0.7353487014770508, 'ㅈㅗ-ㅋㅏ-'),
 (0.7348003387451172, 'ㄴㅏㅁㅇㅏ-'),
 (0.7188143730163574, 'ㄴㅏㄴㅅㅐㅇ'),
 (0.7105963826179504, 'ㅈㅜㅇㅎㅏㄱㅅㅐㅇ'),
 (0.6962770819664001, 'ㅎㅏㄱㅅㅐㅇ')]

앞서 만든 `jamo_to_word`로 가독성이 좋게 출력해봅시다.

In [None]:
def transform(word_sequence):
  return [(jamo_to_word(word), similarity) for (similarity, word) in word_sequence]

In [None]:
print(transform(model.get_nearest_neighbors(word_to_jamo('남동생'), k=10))) # good!
print(transform(model.get_nearest_neighbors(word_to_jamo('구매'), k=10))) # good!
print(transform(model.get_nearest_neighbors(word_to_jamo('배달'), k=10))) # 형태가 비슷한 것들이 출력

[('동생', 0.8852669596672058), ('남친', 0.8423430323600769), ('생일', 0.7675397396087646), ('친구', 0.7460188269615173), ('남편', 0.743413507938385), ('조카', 0.7353487014770508), ('남아', 0.7348003387451172), ('난생', 0.7188143730163574), ('중학생', 0.7105963826179504), ('학생', 0.6962770819664001)]
[('구매처', 0.8410975337028503), ('구입', 0.7884979248046875), ('주문', 0.7431554794311523), ('주문건', 0.672484815120697), ('구명조끼', 0.6199132800102234), ('헤매', 0.616483211517334), ('주문서', 0.6153122782707214), ('구매자', 0.5983448028564453), ('구메', 0.5914770364761353), ('재', 0.5779432654380798)]
[('배송지', 0.8157444596290588), ('깨달', 0.7954130172729492), ('매달', 0.7811452746391296), ('메달', 0.7469878196716309), ('택배', 0.7413893342018127), ('백배', 0.7330837845802307), ('운송장', 0.7324768900871277), ('배소', 0.7289184331893921), ('송장', 0.7288572788238525), ('배공', 0.7204813361167908)]


## 5. Word2Vec

이제 word2vec를 사용하여 자모 단위로 분리하는 것이 아닌 단어 단위로 분리하여 임베딩 벡터를 생성해볼 것입니다.

In [None]:
## 전처리 (토큰화-불용어제거-형태소리스트생성)
# 간단하게 불용어 정의
stopwords = ['의','가','이','은','들','는','좀','잘','걍','과','도','를','으로','자','에','와','한','하다']

tokenized_data2 = []
for sentence in tqdm(total_data['reviews'].to_list()):
    tokenized_sentence = mecab.morphs(sentence) # 토큰화
    stopwords_removed_sentence = [word for word in tokenized_sentence if not word in stopwords] # 불용어 제거
    tokenized_data2.append(stopwords_removed_sentence)

100%|██████████| 200000/200000 [00:39<00:00, 5115.84it/s]


In [None]:
print("word2vec용 데이터:", tokenized_data2[0])
print("fasttext용 데이터:", tokenized_data[0])

In [None]:
from gensim.models import Word2Vec

model2 = Word2Vec(sentences = tokenized_data2, vector_size = 1000, window = 5, min_count = 5, workers = 4, sg = 0)
# vector_size : 단어 벡터의 차원 설정
# window : 학습할 주변 단어 범위 (앞뒤로 5개)
# min_count : 등장 빈도가 5보다 낮은 단어는 학습하지 않음
# sg : 0 CBOW 1 Skipgram

In [None]:
# 완성된 임베딩 매트릭스의 크기 확인
# 단어의 총 개수는 15005개이고 벡터 차원은 1000으로 축소되었다.
model2.wv.vectors.shape

(15004, 1000)

## 6. FastText와 Word2Vec 결과 비교

### **Q1) 남동생과 주문 두 단어를 input으로 넣고 결과를 비교한 뒤 해석해보세요**

*(Hint: 유사도, 단어의 의미, 단어의 생김새 등을 고려해 볼 수 있습니다)*

In [None]:
print("FastText 유사도:", transform(model.get_nearest_neighbors(word_to_jamo('남동생'), k=10)))
print("Word2Vec 유사도:", model2.wv.most_similar("남동생"))

FastText 유사도: [('동생', 0.8852669596672058), ('남친', 0.8423430323600769), ('생일', 0.7675397396087646), ('친구', 0.7460188269615173), ('남편', 0.743413507938385), ('조카', 0.7353487014770508), ('남아', 0.7348003387451172), ('난생', 0.7188143730163574), ('중학생', 0.7105963826179504), ('학생', 0.6962770819664001)]
Word2Vec 유사도: [('어머님께', 0.7461442351341248), ('양가', 0.7398806810379028), ('사촌', 0.7316786646842957), ('앞둔', 0.7216850519180298), ('시어머님', 0.7190600633621216), ('놀이터', 0.7094445824623108), ('개업', 0.704193115234375), ('셔셔', 0.7031276226043701), ('쪄요', 0.6976248621940613), ('설날', 0.696521520614624)]


**Your Inference:** : fasttext는 친구/생일/조카 등 의미적으로 비슷한 단어뿐만 아니라 동생/남친/남편 등 형태적으로 비슷한 단어들에 높은 유사도를 부여함. 남친/남편/남동생 등등 남성의 의미를 담은 단어들을 거리적으로 가깝게 위치했을 것. 이에 반해 Word2Vec은 그러한 특성을 잘 잡아내지 못하는 것을 확인할 수 있음.


In [None]:
print("FastText 유사도:", transform(model.get_nearest_neighbors(word_to_jamo('주문'), k=10)))
print("Word2Vec 유사도:", model2.wv.most_similar("주문"))

FastText 유사도: [('주문건', 0.9121477603912354), ('주문서', 0.8553550839424133), ('주문자', 0.7449468374252319), ('구매', 0.7431555390357971), ('주무', 0.7370957136154175), ('주무시', 0.7262292504310608), ('구매처', 0.7238249182701111), ('구입', 0.7236705422401428), ('시킨', 0.6983362436294556), ('시켰었', 0.6900933384895325)]
Word2Vec 유사도: [('구매', 0.827160656452179), ('구입', 0.8208982944488525), ('선택', 0.6476771235466003), ('결제', 0.5644811391830444), ('시켰', 0.5624099969863892), ('장만', 0.5334891676902771), ('신청', 0.5304086208343506), ('그런가보다', 0.5261387825012207), ('교체', 0.5257349610328674), ('시킨', 0.5197986364364624)]


**Your Inference:** fasttext는 주문이라는 단어에 대해서 나올 수 있는 다양한 파생어들을 잘 잡아내고 있음. 반면 word2vec은 주문과 함께 쓰이는 단어들을 위주로 높은 유사도를 보이고 있음.



### **Q2) Fasttext가 Word2Vec보다 항상 성능이 나은지 다양한 input을 넣어서 시도해보세요**

In [None]:
word_1 = '졸리다'
# fasttext는 자모음 단위로 학습하기 때문에 학습 시 없었던 단어(OOV)에도 대응할 수 있음 단어 단위로 학습하는 word2Vec는 학습 시 없었던 단어에 대해 오류 생성
# 졸/리/다 의 조합을 이용하여 벡터를 생성. 다만 새로운 단어가 잘 임베딩이 되었는지에 대해서는 데이터셋의 한계로 인해(추정) 그다지 신뢰성이 있어보이지는 않음.
word_2 = '택배'
# fasttext는 비슷한 단어로 송송 / 송지연 / 송사 등 (배송과) 형태가 비슷하지만 이상한 단어에 대해 높은 유사도를 보이고 있음. 즉 형태적인 분석이 항상 좋은 결과를 보이지는 않음
# *송지연은 배송지연의 일부로 보임*
word_3 = '가방'
# fasttext는 무방 다방 사방 나방...등 의미적으로 어떠한 관계도 없는 단어에 대해 높은 유사도를 보임. 반면 word2vec은 꾸준히 괜찮은 성능을 보이고 있음.

In [None]:
print("FastText 유사도:", transform(model.get_nearest_neighbors(word_to_jamo(word_1), k=10)))
print("Word2Vec 유사도:", model2.wv.most_similar(word_1))

In [None]:
print("FastText 유사도:", transform(model.get_nearest_neighbors(word_to_jamo(word_2), k=10)))
print("Word2Vec 유사도:", model2.wv.most_similar(word_2))

FastText 유사도: [('백배', 0.9067248106002808), ('배송지', 0.8098480105400085), ('배달', 0.7413896918296814), ('송송', 0.7175100445747375), ('운송', 0.7136814594268799), ('운송장', 0.7003076076507568), ('송장', 0.698600172996521), ('송지연', 0.6981036067008972), ('송사', 0.6926111578941345), ('담당자', 0.6875274777412415)]
Word2Vec 유사도: [('배달', 0.6463664174079895), ('문자', 0.6065391302108765), ('배송', 0.584054172039032), ('업체', 0.5785526037216187), ('물건', 0.5688410997390747), ('전화', 0.568403959274292), ('연락', 0.565902590751648), ('판매자', 0.5637108087539673), ('발송', 0.5630566477775574), ('물품', 0.561723530292511)]


In [None]:
print("FastText 유사도:", transform(model.get_nearest_neighbors(word_to_jamo(word_3), k=10)))
print("Word2Vec 유사도:", model2.wv.most_similar(word_3))

FastText 유사도: [('가방끈', 0.8773491978645325), ('다방', 0.7887032628059387), ('가바', 0.7883415222167969), ('무방', 0.7141019701957703), ('사방', 0.7037726640701294), ('나방', 0.6997034549713135), ('옷장', 0.6950241923332214), ('책장', 0.6629279851913452), ('자취방', 0.6625896692276001), ('공부방', 0.6469552516937256)]
Word2Vec 유사도: [('신발', 0.6899797916412354), ('지갑', 0.623313844203949), ('책', 0.5569254159927368), ('귀걸이', 0.5559129118919373), ('물병', 0.5404343008995056), ('주머니', 0.5400270819664001), ('이불', 0.5385650992393494), ('우산', 0.537278950214386), ('양말', 0.5244193077087402), ('모자', 0.519871711730957)]


In [None]:
print("FastText 유사도:", transform(model.get_nearest_neighbors(word_to_jamo(word_4), k=10)))
print("Word2Vec 유사도:", model2.wv.most_similar(word_4))

**Your Inference:**