# Going Deeper_03 텍스트의 분포로 벡터화 하기   


Word2Vec의 대중화 이전에, 텍스트의 분포를 활용하여 텍스트를 벡터화하는 아이디어를 들여다보자.   

1. 단어 빈도를 이용한 벡터화   
(1) Bag of Words   
(2) Bag of Words 구현해보기   
(3) DTM과 코사인 유사도   
(4) DTM의 구현과 한계점   
(5) TF-IDF   
(6) TF-IDF 구현하기   
2. LSA와 LDA   
(1) LSA   
(2) LSA 실습   
(3) LDA   
(4) LDA 실습   
3. 텍스트 분포를 이용한 비지도 학습 토크나이저   
(1) 형태소 분석기와 단어 미등록 문제   
(2) soynlp

텍스트를 벡터화하는 방법으로는 **(1) 통계와 머신러닝 활용**, **(2) 인공 신경망을 활용**하는 두가지 방법이 있다.   
이번엔 전자의 방법으로 가보자

## Bag of Words

BoW란, 단어들의 순서는 전혀 고려하지 않고, 단어들의 출현 빈도(frequency)에만 집중하는 텍스트 데이터의 수치화 표현 방법이다. 텍스트를 전부 단어 단위로 토큰화 하고, 단어 사용 횟수를 카운트 한다.

In [5]:
doc1 = 'John likes to watch movies. Mary likes movies too.'
BoW1 = {"John":1, "likes":2, "to":1, "watch":1, "movies":2, "Mary":1, "too":1}

doc2 = 'Mary also likes to watch football games.'
BoW2 = {"Mary":1, "also":1, "likes":1, "to":1, "watch":1, "football":1, "games":1}

# 순서는 다르지만 둘 다 같다
BoW = {"too":1, "Mary":1, "movies":2, "John":1, "watch":1, "likes":2, "to":1}
BoW1 = {"John":1, "likes":2, "to":1, "watch":1, "movies":2, "Mary":1, "too":1}

doc3 = 'John likes to watch movies. Mary likes movies too. Mary also likes to watch football games.'
BoW3 = {"John":1, "likes":3, "to":2, "watch":2, "movies":2, "Mary":2, "too":1, "also":1, "football":1, "games":1}

어순이 달라지더라도 같은 문장으로 취급한다는 한계가 있다

## Keras Tokenizer로 Bag of Words 구현

In [6]:
# Keras Tokenizer로 Bag of Words 구현

from tensorflow.keras.preprocessing.text import Tokenizer

sentence = ["John likes to watch movies. Mary likes movies too! Mary also likes to watch football games."]

tokenizer = Tokenizer()
tokenizer.fit_on_texts(sentence) # 텍스트를 리스트 형태로 단어장 생성 (중복 X)
bow = dict(tokenizer.word_counts) # 각 단어와 각 단어의 빈도를 bow에 저장

print("Bag of Words :", bow) # bow 출력
print('단어장(Vocabulary)의 크기 :', len(tokenizer.word_counts)) # 중복을 제거한 단어들의 개수

Bag of Words : {'john': 1, 'likes': 3, 'to': 2, 'watch': 2, 'movies': 2, 'mary': 2, 'too': 1, 'also': 1, 'football': 1, 'games': 1}
단어장(Vocabulary)의 크기 : 10


## scikit-learn CountVectorizer로 구현

In [2]:
from sklearn.feature_extraction.text import CountVectorizer

sentence = ["John likes to watch movies. Mary likes movies too! Mary also likes to watch football games."]

vector = CountVectorizer()
bow = vector.fit_transform(sentence).toarray()

print('Bag of Words : ', bow) # 코퍼스로부터 각 단어의 빈도수를 기록한다.
print('각 단어의 인덱스 :', vector.vocabulary_) # 각 단어의 인덱스가 어떻게 부여되었는지를 보여준다.
print('단어장(Vocabulary)의 크기 :', len(vector.vocabulary_))

Bag of Words :  [[1 1 1 1 3 2 2 2 1 2]]
각 단어의 인덱스 : {'john': 3, 'likes': 4, 'to': 7, 'watch': 9, 'movies': 6, 'mary': 5, 'too': 8, 'also': 0, 'football': 1, 'games': 2}
단어장(Vocabulary)의 크기 : 10


scikit-learn의 CountVectorizer 빈도수만 나올 뿐이다.   
Keras의 토크나이저를 사용하는 것이 보통이다

# DTM(Document-Term Matrix)

DTM이란, **여러 문서의 Bag of Words를 하나의 행렬로 구현**한 것이다.   
즉, **각 문서에 등장한 단어의 빈도수를 하나의 행렬로 통합**한 것이다.

Doc 1: Intelligent applications creates intelligent business processes   
Doc 2: Bots are intelligent applications   
Doc 3: I do business intelligence   

![DTM](https://user-images.githubusercontent.com/59006548/145340168-a693bdfc-535d-48e6-b95d-97de94f53040.png)   
위 문장들로 만들어진 DTM   
   
row는 문서 벡터(document vector), column은 단어 벡터(word vector)   
문서 수가 많아지면 단어장이 커져서 희소벡터가 되어버린다.

In [8]:
# 코사인 유사도
# 문서1 : I like dog
# 문서2 : I like cat
# 문서3 : I like cat I like cat
# 위 문장의 DTM에서 코사인 유사도 계산
# https://wikidocs.net/24603

import numpy as np
from numpy import dot
from numpy.linalg import norm

doc1 = np.array([0,1,1,1]) # 문서1 벡터
doc2 = np.array([1,0,1,1]) # 문서2 벡터
doc3 = np.array([2,0,2,2]) # 문서3 벡터

def cos_sim(A, B):
    return dot(A, B)/(norm(A)*norm(B))

![코사인유사도](https://wikidocs.net/images/page/24603/%EC%BD%94%EC%82%AC%EC%9D%B8%EC%9C%A0%EC%82%AC%EB%8F%84.PNG)

![코사인 유사도](https://i.imgur.com/C6VnrI4.png)

In [9]:
print(cos_sim(doc1, doc2)) #문서1과 문서2의 코사인 유사도
print(cos_sim(doc1, doc3)) #문서1과 문서3의 코사인 유사도
print(cos_sim(doc2, doc3)) #문서2과 문서3의 코사인 유사도

0.6666666666666667
0.6666666666666667
1.0000000000000002


`문서1`과 `문서2`의 코사인 유사도는 0.67, `문서1`과 `문서3`의 코사인 유사도도 0.67      
`문서2`와 `문서3`의 유사도는 1 (모든 단어의 빈도수가 동일하게 증가했기 때문)    
코사인 유사도는 벡터의 크기가 아니라 벡터의 방향(패턴)에 초첨을 둔다

In [10]:
# CountVectorizer로 DTM을 만들자

from sklearn.feature_extraction.text import CountVectorizer

corpus = [
    'John likes to watch movies',
    'Mary likes movies too',
    'Mary also likes to watch football games',    
]
vector = CountVectorizer()

print(vector.fit_transform(corpus).toarray()) # 코퍼스로부터 각 단어의 빈도수를 기록.
print(vector.vocabulary_) # 각 단어의 인덱스가 어떻게 부여되었는지를 보여준다.

[[0 0 0 1 1 0 1 1 0 1]
 [0 0 0 0 1 1 1 0 1 0]
 [1 1 1 0 1 1 0 1 0 1]]
{'john': 3, 'likes': 4, 'to': 7, 'watch': 9, 'movies': 6, 'mary': 5, 'too': 8, 'also': 0, 'football': 1, 'games': 2}


### DTM의 한계

1. DTM의 문서 수와 단어 수가 늘어날 수록 벡터가 쓸데없이 커진다. (희소벡터, 차원의 저주)
2. 단어의 빈도에만 집중하는 방법이기에 한계가 있다. `the`가 많이 있다고 해서 유사한 문장 X   
- 그렇다면, 중요한 단어와 중요하지 않은 단어에 가중치를 따로 선별하는 방법은?

# TF-IDF

`TF-IDF`(Term Frequency-Inverse Document Frequency)는 모든 문서에서 자주 등장하는 단어는 중요도를 낮게 보고, 특정 문서에서만 자주 등장하는 단어는 중요도를 높게 본다. 마치 불용어를 제외하고 보듯이. -> IDF 항에서 이 역할을 수행   
하지만 이것이 DTM보다 성능이 항상 좋지는 않다.   
DTM을 만든 뒤 TF-IDF 가중치를 DTM에 적용   
사실 DTM 자체가 이미 TF (Term Frequency)   
![TF-IDF](https://img1.daumcdn.net/thumb/R800x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbKcggU%2FbtqCkQ2NEH1%2FAp9xO7HQSDzfKixMyuGNCk%2Fimg.png)   
tf 뒤에 곱해지는 log항이 IDF.   

전체 문서의 수가 5개라고 해봅시다. 그리고 단어 **'like'가 문서2에서 200번**, **문서 3에서 300번** 등장했다고 해봅시다. 다른 문서에서 단어 `'like'`는 등장하지 않았습니다. 이때, **단어 'like'의 IDF**는 몇일까요?
($$tf1=200,tf2=300, N=500, df=200 $$)

$$IDF = log(500/200) = ln(5/2) = 0.91629073187$$   
그러면 여기서 문서2와 문서3의 단어 `'like'`의 TF-IDF의 값은?   
$$문서2 TF-IDF = 200 * ln(5/2) = 183.258146375$$
$$문서3 TF-IDF = 300 * ln(5/2) = 274.887219562$$

위에꺼 계산 이거 맞아??

https://www.bloter.net/newsView/blt201609280001
희소벡터를 해결하기 위해 특이값분해를 통해 축소시킨다. 