# 4. Vector Space Model

-----

## 4.1.1 Vector Space Model

### - 정의

텍스트 문서를 벡터 공간에 나타내는 대수적인 모델로, 문서를 벡터 (Bag of Words)로 만들면 각각의 차원은 개별 단어에 대응 된다. 

예시 1.1. 벡터 공간 모델

<img src= "http://blog.christianperone.com/wp-content/uploads/2013/09/vector_space.png" width = 400>


## 4.1.2 Bag of Words

예시 1.2. 문자 벡터 Bag of Words 

<img src = "https://image.slidesharecdn.com/mrkt451speciallecture1i-140307202701-phpapp01/95/introduction-to-text-mining-8-638.jpg?cb=1394224092" width = "500">

소개 : https://www.slideshare.net/lucypark/nltk-gensim
http://www.sfs.uni-tuebingen.de/~ddekok/ir/lectures/14vcat.pdf

문서 내에 특정 단어가 **없을 경우**, 벡터 내 해당 차원에 할당된 값은 0이다. 

문서 내에 특정 단어가 **있을 경우**, 벡터 내 해당 차원에 할당된 값은 1 이상의 값이다.

만약 문서 내에 특정 단어가 2번 출현했다면 해당 차원의 값은 2이다. 

매트릭스(Matrix) = 벡터가 여러개 합친 형태

이런 BoW가 여러 개 모여서 매트릭스 형태를 가지고 있는 것이 벡터 공간 모델(Vector Space Model)이다. 


## 4.1.3. N-grams 

<br>
Word n-grams are groups of _N_(or fewer) consecutive words that you can extract from a sentence. The same concept may also be applied to characters instead of words 

The term _bag_ here refers to the fact that you are dealing with a _set of tokens_ rather than a list or sequence: the tokens have no specific order. This family of tokenization methods is called _bag-of-words_. 

extracting n-grams is a form of **_feature engineering_**
<br>
<br>
1. Example 2-grams <br>

{"The", "The cat", "cat", "cat sat", "sat",
  "sat on", "on", "on the", "the", "the mat", "mat"}
<br>
<br>
2. Example 3-grams <br>

{"The", "The cat", "cat", "cat sat", "The cat sat",
  "sat", "sat on", "on", "cat sat on", "on the", "the",
  "sat on the", "the mat", "mat", "on the mat"}
<br>
<br>
**notice there are "unordered sets". 

</font>
</div>

----

예시 1.3. 문장 벡터화 

아래 두 문장이 있다.

(1) John likes to play games. Mary likes movies too. 
(2) John also likes to watch football games. 

위 두 문장을 토큰화하여 가방에 담으면 다음과 같이 나온다. [ "John", "likes", "to", "watch", "movies", "Mary", "too", "also", "football", "games" ]

그리고 배열의 순서대로 가방에서 각 토큰이 몇 번 등장하는지 횟수를 세어준다.

(1) [1, 2, 1, 1, 2, 1, 1, 0, 0, 0] <br>
(2) [1, 1, 1, 1, 0, 0, 0, 1, 1, 1] 

(= 각 단어를 숫자로 표현하여 컴퓨터 알고리즘이 이해할 수 있게 변환하는 작업이다)

단어 가방을 n-gram을 적용하여 bigram으로 담으면 이렇게 된다.

[ "John likes", "likes to", "to watch", "watch movies", "Mary likes", "likes movies", "movies too", ]


## 4.1.3. One-hot encoding

문자열을 숫자 벡터로 치환하는 방법 중 하나. 

단어 집합의 크기를 가진 벡터를 만들고, 표현하고 싶은 단어의 인덱스에 1을 부여하고, 그렇지 않은 인덱스에는 0을 부여한다.

문장: "Life is short. Learn Python"

토큰별 생성된 테이블:

| 0      | 1      | 2    | 3    | 4    |
|--------|--------|------|------|------|
| Life | is | short | Learn | Python |

(벡터 표현)

각 '1'의 값은 위치값을 알려줌

```
* Life -> [1, 0, 0, 0, 0] 
* is -> [0, 0, 1, 0, 0]
```

### CountVectorizer 클래스로 BoW 만들기

In [43]:
from sklearn.feature_extraction.text import CountVectorizer
corpus = ['you know I want your love. because I love you.']
vector = CountVectorizer()
print(vector.fit_transform(corpus).toarray()) # 코퍼스로부터 각 단어의 빈도 수를 기록한다.
print(vector.vocabulary_) # 각 단어의 인덱스가 어떻게 부여되었는지를 보여준다

[[1 1 2 1 2 1]]
{'you': 4, 'know': 1, 'want': 3, 'your': 5, 'love': 2, 'because': 0}


예제 문장에서 you와 love는 두 번씩 언급되었으므로 각각 인덱스2와 인덱스4에서 2의 값을 가지며, 그 외의 값에서는 1의 값을 가지는 것을 볼 수 있다.

또한, 알파벳 I는 BoW를 만드는 과정에서 사라졌는데, 이는 CountVectorizer가 기본적으로 길이가 2 이상인 문자에 대해서만 토큰으로 인정하기 때문이다. (영어에서는 길이가 짧은 문자를 제거하는 것 또한 전처리작업으로 고려되기도 한다. [참조](https://wikidocs.net/22650)

여기서 주의할 점은, 토큰화가 단순히 띄어쓰기 기준으로만 되었다는 것. 영어라면 가능할지 몰라도 한국어는 곤란하다. 띄어쓰기가 제대로 지켜지지 않아도 의미 전달에 문제 없는 경우도 많으며 조사가 많이 쓰이기 때문에 제대로 BoW가 만들어지지 않을 수 있다.

예제 1. 

In [44]:
from sklearn.feature_extraction.text import CountVectorizer
corpus = ['문재인 대통령이 11일 미국 워싱턴 백악관에서 도널드 트럼프 대통령과 정상회담을 가졌다.']
vector = CountVectorizer()
print(vector.fit_transform(corpus).toarray()) # 코퍼스로부터 각 단어의 빈도 수를 기록한다.
print(vector.vocabulary_) # 각 단어의 인덱스가 어떻게 부여되었는지를 보여준다

[[1 1 1 1 1 1 1 1 1 1 1]]
{'문재인': 5, '대통령이': 3, '11일': 0, '미국': 6, '워싱턴': 8, '백악관에서': 7, '도널드': 4, '트럼프': 10, '대통령과': 2, '정상회담을': 9, '가졌다': 1}


## 실습 

예제 2. 

아래 문장을 넣어서 BoW를 생성해보세요. 

"자사고 폐지 논란과 갈등이 이어지고 있다. 교육부가 자사고의 전기 선발 폐지와 일반고 중복지원 금지를 담은 초중등교육법 시행령 개정을 추진해 갈등을 빚은데 이어, 자사고 재지정 평가를 둘러싼 극한 대치로 홍역을 치르고 있다. 
이는 자사고와 사전 협의 없이 재지정 기준점을 상향하고, 
교육청이 감사 지적 등을 이유로 감점할 수 있는 점수를 12점으로 대폭 높이는 등 
‘폐지 수순’의 평가를 통보했기 때문이다."

In [2]:
from sklearn.feature_extraction.text import CountVectorizer
corpus = [""""""]
vector = CountVectorizer()
print(vector.fit_transform(corpus).toarray()) # 코퍼스로부터 각 단어의 빈도 수를 기록한다.
print(vector.vocabulary_) # 각 단어의 인덱스가 어떻게 부여되었는지를 보여준다

[[1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 1 1
  2 1 1 1 1 1 1 1 1 2 2 1 1 1]]
{'자사고': 33, '폐지': 46, '논란과': 11, '갈등이': 2, '이어지고': 28, '있다': 32, '교육부가': 6, '자사고의': 35, '전기': 37, '선발': 22, '폐지와': 47, '일반고': 30, '중복지원': 39, '금지를': 9, '담은': 13, '초중등교육법': 41, '시행령': 24, '개정을': 5, '추진해': 42, '갈등을': 1, '빚은데': 19, '이어': 27, '재지정': 36, '평가를': 45, '둘러싼': 16, '극한': 8, '대치로': 14, '홍역을': 49, '치르고': 43, '이는': 26, '자사고와': 34, '사전': 20, '협의': 48, '없이': 25, '기준점을': 10, '상향하고': 21, '교육청이': 7, '감사': 3, '지적': 40, '등을': 17, '이유로': 29, '감점할': 4, '있는': 31, '점수를': 38, '12점으로': 0, '대폭': 15, '높이는': 12, '수순': 23, '통보했기': 44, '때문이다': 18}


### CountVectorizer로 영어 불용어(Stopwords) 제거 

영어의 BoW를 만들기 위해 사용하는 CountVectorizer는 불용어를 지정하면, 불용어는 제외하고 BoW를 만들 수 있도록 불용어 제거 기능을 지원한다. 


In [57]:
#불용어 제거 전
from sklearn.feature_extraction.text import CountVectorizer
corpus = ["""John likes to play games.""",
          """Mary likes movies too.""",
         """John also likes to watch football games."""]

vector = CountVectorizer(stop_words = "english")
print(vector.fit_transform(corpus).toarray()) # 코퍼스로부터 각 단어의 빈도 수를 기록한다.
print(vector.vocabulary_) # 각 단어의 인덱스가 어떻게 부여되었는지를 보여준다

[[0 1 1 1 0 0 1 0]
 [0 0 0 1 1 1 0 0]
 [1 1 1 1 0 0 0 1]]
{'john': 2, 'likes': 3, 'play': 6, 'games': 1, 'mary': 4, 'movies': 5, 'watch': 7, 'football': 0}


## 4.1.3 단어-문헌 행렬 (Term-Document Matrix)

단어 문서 행렬(Term-Document Matrix, TDM)이란 다수의 문서에서 등장하는 각 단어들의 빈도를 행렬로 변환한 것을 뜻한다. 즉, 각 문서에 대한 BoW를 하나의 행렬로 만든 것으로 생각할 수 있으며, BoW 표현 방법 중 하나라고 볼 수 있다. 

https://en.wikipedia.org/wiki/Document-term_matrix

In [58]:
bag_of_words = vector.fit_transform(corpus)

In [59]:
bag_of_words.toarray()

array([[0, 1, 1, 1, 0, 0, 1, 0],
       [0, 0, 0, 1, 1, 1, 0, 0],
       [1, 1, 1, 1, 0, 0, 0, 1]], dtype=int64)

In [60]:
#get feature names
feature_names = vector.get_feature_names()
#view feature names
feature_names

['football', 'games', 'john', 'likes', 'mary', 'movies', 'play', 'watch']

In [61]:
#view as a data frame
#Create data frame
pd.DataFrame(bag_of_words.toarray(), columns=feature_names)

Unnamed: 0,football,games,john,likes,mary,movies,play,watch
0,0,1,1,1,0,0,1,0
1,0,0,0,1,1,1,0,0
2,1,1,1,1,0,0,0,1


In [63]:
#불용어 제거 후 (CountVectorizer 제공)
from sklearn.feature_extraction.text import CountVectorizer
text=["""John likes to play games."""]
vect = CountVectorizer(stop_words="english")
print(vect.fit_transform(text).toarray())
print(vect.vocabulary_)

[[1 1 1 1]]
{'john': 1, 'likes': 2, 'play': 3, 'games': 0}


In [64]:
#직접 불용어 제거 후 
from sklearn.feature_extraction.text import CountVectorizer
text=["""John likes to play games."""]
vect = CountVectorizer(stop_words=["at", "of", "or","with","the", "and","to","on","a","ones","did","do","an"])
print(vect.fit_transform(text).toarray()) 
print(vect.vocabulary_)

[[1 1 1 1]]
{'john': 1, 'likes': 2, 'play': 3, 'games': 0}


In [65]:
from sklearn.feature_extraction.text import CountVectorizer
text=["""John likes to play games."""]
from nltk.corpus import stopwords
sw = stopwords.words("english")
vect = CountVectorizer(stop_words =sw)
print(vect.fit_transform(text).toarray()) 
print(vect.vocabulary_)

[[1 1 1 1]]
{'john': 1, 'likes': 2, 'play': 3, 'games': 0}


In [None]:
#실습
#직접 TDM을 만들어보세요 


In [None]:
#셀을 하나 더 만들고 싶다면 <esc> + <b>를 누르면 됩니다. 

-----

## 4.2.1. Term Weight

### -  단순 빈도 기반 분석의 한계 

- 문헌의 길이
    각각의 문헌의 길이에 차이가 있어서 중요도 값에 bias를 주게 됨.
- 단어의 독립성 가정
    각각의 단어는 독립하다는 가정을 하기 때문에 비슷한 의미를 가진 단어끼리도 독립된 단어로 인식되어 분석의 퀄리티가 낮아짐. 
- 순서 무시
    단어들이 단어와 단어 사이 또는 그 문장에서 가지는 문맥적인 정보가 소실됨. 
- Zipf's Law

<img src = "https://i.ytimg.com/vi/KvOS2MdKFwE/maxresdefault.jpg">
<img src = "https://i1.wp.com/www.watzthis.com/wp-content/uploads/2015/10/zipfgraph.png">


    
**불용어 또는 일반적인 단어가 더 많이 출현하기 때문에 문헌에서 자주 나타나는 단어가 중요한 단어라는 가정에는 문제가 있음.** 
    

### - 단어 가중치 (Term Weights)

- 단어는 하나의 단어, 키워드, 혹은 더 긴 구로 표현 가능함. 
- 단어 카운팅, 즉 일정 단어의 단순 빈도수만으로는 그 단어의 중요도와 그 문헌의 차별성까지 나타내기 어려움 => **단어 가중치 기법**이 필요함. 


## 4.2.2. TF-IDF (Term Frequency x Inverse Document Frequency)

단어 가중치 기법 중 가장 잘 알려지고 많이 쓰이는 기법이며 모든 문서에 나타는 흔한 단어들을 걸러내고 특정 단어가 가지는 **중요도**를 측정함

TF-IDF는 모든 문서에서 자주 등장하는 단어는 중요도가 낮다고 판단하며, 특정 문서에서만 자주 등장하는 단어는 중요도가 높다고 판단한다. TF-IDF값이 낮으면 중요도가 낮은 것이며, TF-IDF 값이 크면 중요도가 큰 것이다. 

즉, 관사(the, a 등)와 같은 불용어는 모든 문서에 자주 등장하기 때문에 TF-IDF값도 다른 단어에 비해 낮다. 

<img src = "http://images.slideplayer.com/16/5094063/slides/slide_2.jpg" width = "400"> 

<img src = "https://i.ytimg.com/vi/zvFGNpbAfEI/hqdefault.jpg" width = "400"> 

<img src = "http://www.bloter.net/wp-content/uploads/2016/09/td-idf-graphic-765x255.png" width = "400">

기타 참고 자료: 
참조 1) https://wikidocs.net/31698
참조 2) http://www.tfidf.com/

<img src = "./tf-idf.png" width = 400>

## - Term Frequency (TF)

- 주어진 문서에 대한 단어 빈도는 단순히 그 문서에서 해당 단어가 나타나는 빈도수

- 문서의 길이가 길면 해당 단어의 실제 중요도와는 상관없이 단어의 빈도수는 증가되는 일이 발생하므로 정규화(normalization)이 필요함. 

- 특정 문헌 dj에서 단어 tj의 중요도 값을 구하려면 문서 dj에 나타나는 단어 ti를 ni,j로 정의하여 분자로, 해당 문서 dj내에 있는 모든 단어의 수를 분모로 둔다. 이럴 때 특정한 문헌 dj에서  i번째 단어의 중요도, 또는 i번째 단어의 (상대적) 빈도를 구할 수 있다.

## -  Inverse Document Frequency (IDF)

- 해당 단어의 일반적인 중요도를 나타낸 값

- 단어 t가 등장하는 문헌들의 수를 분모로한 값에 로그를 취함. 


## 4.3.1. Scikit-learn으로 TF-IDF score계산

### 1) 벡터화

In [115]:
from sklearn.feature_extraction.text import CountVectorizer
import numpy as np
import pandas as pd 

book = [ """Daniel enjoys reading books.""",
          """Yoon likes Harry Potter""",
          """Daniel's favorite character is Harry"""
]

vector = CountVectorizer(stop_words = "english") #stop_words는 리스트로 지정해도 된다

In [116]:
#코퍼스로부터 각 단어의 빈도 수를 기록한다.
book_vector = vector.fit_transform(book).toarray()
print(book_vector) 

[[1 0 1 1 0 0 0 0 1 0]
 [0 0 0 0 0 1 1 1 0 1]
 [0 1 1 0 1 1 0 0 0 0]]


In [117]:
book_vector_vocab = vector.vocabulary_
book_vector_vocab 

{'daniel': 2,
 'enjoys': 3,
 'reading': 8,
 'books': 0,
 'yoon': 9,
 'likes': 6,
 'harry': 5,
 'potter': 7,
 'favorite': 4,
 'character': 1}

### 2) TF-IDF score

In [118]:
#sklearn에서 제공하는 TfidfVectorizer로 벡터화할 수 있다. 
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer()
book_vector = vectorizer.fit_transform(book)
book_vector_names = vectorizer.get_feature_names()
print(book_vector_names)
print(book_vector.shape)

['books', 'character', 'daniel', 'enjoys', 'favorite', 'harry', 'is', 'likes', 'potter', 'reading', 'yoon']
(3, 11)


In [119]:
book_vector.toarray()

array([[0.52863461, 0.        , 0.40204024, 0.52863461, 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.52863461,
        0.        ],
       [0.        , 0.        , 0.        , 0.        , 0.        ,
        0.40204024, 0.        , 0.52863461, 0.52863461, 0.        ,
        0.52863461],
       [0.        , 0.49047908, 0.37302199, 0.        , 0.49047908,
        0.37302199, 0.49047908, 0.        , 0.        , 0.        ,
        0.        ]])

Pandas 데이터프레임으로 표현해보자. 

In [120]:
pd.DataFrame(book_vector.toarray(), columns=feature_names)

Unnamed: 0,books,character,daniel,enjoys,favorite,harry,is,likes,potter,reading,yoon
0,0.528635,0.0,0.40204,0.528635,0.0,0.0,0.0,0.0,0.0,0.528635,0.0
1,0.0,0.0,0.0,0.0,0.0,0.40204,0.0,0.528635,0.528635,0.0,0.528635
2,0.0,0.490479,0.373022,0.0,0.490479,0.373022,0.490479,0.0,0.0,0.0,0.0
