# Bag of word : 직접 구현

In [10]:
from konlpy.tag import Okt
tokenizer = Okt()  
bow = "최고의 음식점에서 중국 및 한국 그리고 이탈리아의 음식인 짜장면 불고기 파스타 등등을 먹었다"
text1 = "최고의 이탈리안 음식점에서 최고의 파스타를 먹었다"
text2 = "중국 음식점에서 최고의 짜장면을 먹었다"
text3 = "한국 음식점에서 최고의 불고기를 먹었다"
text4 = "최고 최고 중국집"
text5 = "중국 인공지능 언어 최고"       # 노이즈!!! 나는 음식에 대해서만 찾고 있는데~~

In [11]:
#bow = ['한국','중국','이탈리아','짜장면','짬뽕','']

In [12]:
tokens = tokenizer.morphs(bow)
print(tokens)

['최고', '의', '음식점', '에서', '중국', '및', '한국', '그리고', '이탈리아', '의', '음식', '인', '짜장면', '불고기', '파스타', '등등', '을', '먹었다']


In [13]:
# 단어-인덱스 딕셔너리
word_to_index = {}

# 토큰을 인덱스로 변환
for token in tokens:
    if token not in word_to_index.keys():
        word_to_index[token] = len(word_to_index)
        
print(word_to_index)

{'최고': 0, '의': 1, '음식점': 2, '에서': 3, '중국': 4, '및': 5, '한국': 6, '그리고': 7, '이탈리아': 8, '음식': 9, '인': 10, '짜장면': 11, '불고기': 12, '파스타': 13, '등등': 14, '을': 15, '먹었다': 16}


In [7]:
#[0]*len(word_to_index)

In [14]:
# BoW로 변환
def convert_bow(sentence, word_to_index):
    
    # 벡터를 단어의 개수만큼 0으로 초기화
    vector = [0]*(len(word_to_index))

    # 문장을 토큰으로 분리
    tokenizer = Okt()
    tokens = tokenizer.morphs(sentence)
    
    # 단어의 인덱스 위치에 1 설정
    for token in tokens:
        if token in word_to_index.keys():
            vector[word_to_index[token]] += 1
    
    return vector

print(word_to_index)
print(text1, end=': ')
print(convert_bow(text1, word_to_index))
print(text2, end=': ')
print(convert_bow(text2, word_to_index))
print(text3, end=': ')
print(convert_bow(text3, word_to_index))
print(text4, end=': ')
print(convert_bow(text4, word_to_index))
print(text5, end=': ')
print(convert_bow(text5, word_to_index))

{'최고': 0, '의': 1, '음식점': 2, '에서': 3, '중국': 4, '및': 5, '한국': 6, '그리고': 7, '이탈리아': 8, '음식': 9, '인': 10, '짜장면': 11, '불고기': 12, '파스타': 13, '등등': 14, '을': 15, '먹었다': 16}
최고의 이탈리안 음식점에서 최고의 파스타를 먹었다: [2, 2, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1]
중국 음식점에서 최고의 짜장면을 먹었다: [1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1]
한국 음식점에서 최고의 불고기를 먹었다: [1, 1, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1]
최고 최고 중국집: [2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
중국 인공지능 언어 최고: [1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]


# 함수 사용: CountVectorizer

In [15]:
# 토큰을 문자열로 변환
sentence = " ".join(tokens)
sentence

'최고 의 음식점 에서 중국 및 한국 그리고 이탈리아 의 음식 인 짜장면 불고기 파스타 등등 을 먹었다'

In [16]:
# CountVectorizer의 입력에 맞게 배열로 변경
sentences = []
sentences.append(sentence)

print(sentences)

['최고 의 음식점 에서 중국 및 한국 그리고 이탈리아 의 음식 인 짜장면 불고기 파스타 등등 을 먹었다']


In [17]:
from sklearn.feature_extraction.text import CountVectorizer  # Bow 를 만들기 위해서, CouontVectorizer를 쓴다.

# 1글자도 인식이 되도록 토큰 패턴 변경
cv = CountVectorizer(token_pattern = r"(?u)\b\w+\b") # \d 숫자 \w 워드
cv.fit(sentences)

print(cv.vocabulary_) # vocabulary_ : 순서가 바뀌기는 했지만, 토큰이 들어오면 그거를 분리해서 인덱싱을 해준다.

{'최고': 14, '의': 9, '음식점': 8, '에서': 5, '중국': 12, '및': 3, '한국': 16, '그리고': 0, '이탈리아': 10, '음식': 7, '인': 11, '짜장면': 13, '불고기': 4, '파스타': 15, '등등': 1, '을': 6, '먹었다': 2}


In [18]:
# CountVectorizer로 변환
def convert_cv(sentence, cv):
    
    # 문장을 토큰으로 분리
    tokenizer = Okt()
    tokens = tokenizer.morphs(sentence)
    
    # 토큰을 문자열로 변환
    sentence = " ".join(tokens)
    
    # CountVectorizer의 입력에 맞게 배열로 변경
    sentences = []
    sentences.append(sentence)
    
    # 벡터 변환
    vector = cv.transform(sentences).toarray()    
    
    return vector

In [27]:
print(text1)
print(text2)
print(text3)
print(text4)

최고의 이탈리안 음식점에서 최고의 파스타를 먹었다
중국 음식점에서 최고의 짜장면을 먹었다
한국 음식점에서 최고의 불고기를 먹었다
최고 최고 중국집


In [20]:
print(convert_cv(text1, cv)) # Bow에 매칭이 되겠금, array로 나온다.
print(convert_cv(text2, cv))
print(convert_cv(text3, cv))
print(convert_cv(text4, cv))
print(convert_cv(text5, cv))

[[0 0 1 0 0 1 0 0 1 2 0 0 0 0 2 1 0]]
[[0 0 1 0 0 1 1 0 1 1 0 0 1 1 1 0 0]]
[[0 0 1 0 1 1 0 0 1 1 0 0 0 0 1 0 1]]
[[0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0]]
[[0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0]]


# Cos 유사도 직접 계산

In [22]:
# 코사인 시밀리러티를 통해서, 문장간이 얼마나 유사한지 확인할 수 있다.
from numpy import dot
from numpy.linalg import norm
import numpy as np
def cos_sim(A, B):
    return dot(A, B)/(norm(A)*norm(B))

print(cos_sim(convert_cv(text1, cv)[0], convert_cv(text3, cv)[0]))

0.7637626158259734


# Cos 유사도 함수 활용

In [23]:
from sklearn.metrics.pairwise import cosine_similarity
cosine_sim = cosine_similarity(convert_cv(text1, cv), convert_cv(text3, cv))
cosine_sim

array([[0.76376262]])

# [실습] Bow 기반 유사도 분석해보기
(선택)
1) 어제 크롤링한 문서 사용
2) 오늘 실습 text 변환해서 사용

(순서)
 * 단어 꾸러미 만들기
 * indexting 하기
 * BoW기반 카운트 계산하기
 *  Cos유사도로 문장/문서간 유사도 비교해보기
 *  문제점 확인하기