---
---
---
# ***Count based Word Representation***
---
---
---

1. *Expression of various words*
2. *Bag of Words, BoW*
3. *Document-Term Matrix, DTM*
4. *Term Frequency-Inverse Document Frequency, TF-IDF*


---
## ***1. Expression of various words***
---

<br>

> #### Local Representation 
 - 이산 표현(Discrete Representation)
 - 해당 단어 그 자체만 보고, 특정값을 맵핑하여 단어를 표현하는 방법
 - puppy(강아지), cute(귀여운), lovely(사랑스러운)라는 단어가 있을 때 각 단어에 1번, 2번, 3번 등과 같은 숫자를 맵핑(mapping)하여 부여하는 방법

> #### Distributed Representation
 - 연속 표현(Continuous Represnetation)
 - 그 단어를 표현하고자 주변을 참고하여 단어를 표현하는 방법
 - puppy(강아지)라는 단어 근처에는 주로 cute(귀여운), lovely(사랑스러운)이라는 단어가 자주 등장하므로, puppy라는 단어는 cute, lovely한 느낌이다로 단어를 정의
 
<br>
 
##### ***`Categorization of word expressions`*** <br> <br>
![](https://wikidocs.net/images/page/31767/wordrepresentation.PNG)

---
## ***2. Bag of Words, BoW***
---

<br>

#### 1. ***What is Bag of Words?***
- Bag of Words란 단어들의 순서는 전혀 고려하지 않고, 단어들의 출현 빈도(frequency)에만 집중하는 텍스트 데이터의 수치화 표현 방법
1. 우선, 각 단어에 고유한 정수 인덱스를 부여
2. 각 인덱스의 위치에 단어 토큰의 등장 횟수를 기록한 벡터를 만듬

> 주로 어떤 단어가 얼마나 등장했는지를 기준으로 문서가 어떤 성격의 문서인지를 판단하는 작업에 쓰임 <br>
즉, 분류 문제나 여러 문서 간의 유사도를 구하는 문제에 주로 쓰일 수 있음 <br>
가령, '달리기', '체력', '근력'과 같은 단어가 자주 등장하면 해당 문서를 체육 관련 문서로 분류할 수 있을 것이며, <br>
'미분', '방정식', '부등식'과 같은 단어가 자주 등장한다면 수학 관련 문서로 분류할 수 있음

In [9]:
from konlpy.tag import Okt
import re  

def bow(sentence):
    okt=Okt()  

    token=re.sub("(\.)","",sentence)  
#     print('re.sub(\.)', token)
    # 정규 표현식을 통해 온점을 제거하는 정제 작업입니다.  
    token=okt.morphs(token)  
#     print('okt.morphs', token)
    # OKT 형태소 분석기를 통해 토큰화 작업을 수행한 뒤에, token에다가 넣습니다.  

    word2index={}  
    bow=[]  
    for voca in token:  
             if voca not in word2index.keys():  
                 word2index[voca]=len(word2index)  
    # token을 읽으면서, word2index에 없는 (not in) 단어는 새로 추가하고, 이미 있는 단어는 넘깁니다.   
                 bow.insert(len(word2index)-1,1)
    # BoW 전체에 전부 기본값 1을 넣어줍니다. 단어의 개수는 최소 1개 이상이기 때문입니다.  
             else:
                index=word2index.get(voca)
    # 재등장하는 단어의 인덱스를 받아옵니다.
                bow[index]=bow[index]+1
    # 재등장한 단어는 해당하는 인덱스의 위치에 1을 더해줍니다. (단어의 개수를 세는 것입니다.)  
    print(word2index)  
    print(bow)

In [10]:
text = "정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다."
print('***** 문장 1 *****', text)
bow(text)

text = "소비자는 주로 소비하는 상품을 기준으로 물가상승률을 느낀다."
print('***** 문장 2 *****', text)
bow(text)

text = "정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다. 소비자는 주로 소비하는 상품을 기준으로 물가상승률을 느낀다."
print('***** 문장 3 *****', text)
bow(text)

***** 문장 1 ***** 정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다.
{'정부': 0, '가': 1, '발표': 2, '하는': 3, '물가상승률': 4, '과': 5, '소비자': 6, '느끼는': 7, '은': 8, '다르다': 9}
[1, 2, 1, 1, 2, 1, 1, 1, 1, 1]
***** 문장 2 ***** 소비자는 주로 소비하는 상품을 기준으로 물가상승률을 느낀다.
{'소비자': 0, '는': 1, '주로': 2, '소비': 3, '하는': 4, '상품': 5, '을': 6, '기준': 7, '으로': 8, '물가상승률': 9, '느낀다': 10}
[1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1]
***** 문장 3 ***** 정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다. 소비자는 주로 소비하는 상품을 기준으로 물가상승률을 느낀다.
{'정부': 0, '가': 1, '발표': 2, '하는': 3, '물가상승률': 4, '과': 5, '소비자': 6, '느끼는': 7, '은': 8, '다르다': 9, '는': 10, '주로': 11, '소비': 12, '상품': 13, '을': 14, '기준': 15, '으로': 16, '느낀다': 17}
[1, 2, 1, 2, 3, 1, 2, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1]


<br>

#### 2. ***CountVectorizer class***
- 길이가 2이상인 문자에 대해서만 토큰으로 인식
- 띄어쓰기만을 기준으로 단어를 자르는 낮은 수준의 토큰화를 진행
- 한국어에 CountVectorizer를 적용하면, 조사 등의 이유로 제대로 BoW가 만들어지지 않음을 의미

In [11]:
from sklearn.feature_extraction.text import CountVectorizer
corpus = ['you know I want your love. because I love you.'] # I 단어는 토큰에서 제외됨
vector = CountVectorizer()
print(vector.fit_transform(corpus).toarray()) # 코퍼스로부터 각 단어의 빈도 수를 기록한다.
print(vector.vocabulary_) # 각 단어의 인덱스가 어떻게 부여되었는지를 보여준다.

[[1 1 2 1 2 1]]
{'you': 4, 'know': 1, 'want': 3, 'your': 5, 'love': 2, 'because': 0}


<br>

#### 3. ***불용어를 제거한 BoW 만들기***

In [12]:
from sklearn.feature_extraction.text import CountVectorizer

# 불용어 직접 지정
text=["Family is not an important thing. It's everything."]
vect = CountVectorizer(stop_words=["the", "a", "an", "is", "not"])
print(vect.fit_transform(text).toarray()) 
print(vect.vocabulary_)

[[1 1 1 1 1]]
{'family': 1, 'important': 2, 'thing': 4, 'it': 3, 'everything': 0}


In [13]:
# CountVectorizer에서 제공하는 자체 불용어 사용
text=["Family is not an important thing. It's everything."]
vect = CountVectorizer(stop_words="english")
print(vect.fit_transform(text).toarray())
print(vect.vocabulary_)

[[1 1 1]]
{'family': 0, 'important': 1, 'thing': 2}


In [14]:
from nltk.corpus import stopwords

# NLTK에서 지원하는 불용어 사용
text=["Family is not an important thing. It's everything."]
sw = stopwords.words("english")
vect = CountVectorizer(stop_words =sw)
print(vect.fit_transform(text).toarray()) 
print(vect.vocabulary_)

[[1 1 1 1]]
{'family': 1, 'important': 2, 'thing': 3, 'everything': 0}


---
## ***3. Document-Term Matrix, DTM***
---

- 서로 다른 문서들의 BoW들을 결합한 표현 방법

<br>

#### 1. ***DTM의 표기법***
- 다수의 문서에서 등장하는 각 단어들의 빈도를 행렬로 표현한 것
- 각 문서에 대한 BoW를 하나의 행렬로 만든 것
     - 기존 BoW는 한 문서안에 들어있는 단어 기준으로면 문서 행렬이 만들어짐
     - 즉 0값이 존재하지 않음 (희소하지 않다)

> example <br>
문서1 : 먹고 싶은 사과 <br>
문서2 : 먹고 싶은 바나나 <br>
문서3 : 길고 노란 바나나 바나나 <br>
문서4 : 저는 과일이 좋아요



-|	과일이|	길고|	노란|	먹고|	바나나|	사과|	싶은|	저는|	좋아요
---|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:
문서1|	0|	0|	0|	1|	0|	1|	1|	0|	0
문서2|	0|	0|	0|	1|	1|	0|	1|	0|	0
문서3|	0|	1|	1|	0|	2|	0|	0|	0|	0
문서4|	1|	0|	0|	0|	0|	0|	0|	1|	1



<br>

#### 2. ***DTM의 한계***

1. 희소 표현(Sparse representation)
 - 각 문서 벡터의 차원은 원-핫 벡터와 마찬가지로 전체 단어 집합의 크기를 가짐
 - 전체 코퍼스가 방대한 데이터라면 문서 벡터의 차원은 수백만의 차원을 가질 수도 있음
 - 따라서 많은 문서 벡터가 대부분의 값이 0을 가지게됨 (아마 과반수의 퍼센트로)
 
 
2. 단순 빈도수 기반 접근
***그렇기 때문에 불용어 처리를 미리 하는게 아닌가?*** <br>
***전처리를 진행했음에도 완벽하게 제거되지 못한 불용어를 뜻하는걸까?***
 - 영어에 대해서 DTM을 만들었을 때, 불용어인 the는 어떤 문서이든 자주 등장할 수 밖에 없음
 - 유사한 문서인지 비교하고 싶은 문서1, 문서2, 문서3에서 동일하게 the가 빈도수가 높다고 해서 이 문서들이 유사한 문서라고 판단할 순 없음
 

---
## ***4. TF-IDF(Term Frequency-Inverse Document Frequency)***
---

- DTM 내에 있는 각 단어에 대한 중요도를 계산할 수 있는 방법
- 주의할 점은 TF-IDF가 DTM보다 항상 성능이 뛰어난 것은 아님

<br>

#### 1. ***TF-IDF***
 - DTM 내의 각 단어들마다 중요한 정도를 가중치로 주는 방법
 - 주로 문서의 유사도를 구하는 작업, 검색 시스템에서 검색 결과의 중요도를 정하는 작업, 문서 내에서 특정 단어의 중요도를 구하는 작업 등에 쓰임

>절차 및 수식
1. DTM을 만듬
2. TF-IDF 가중치를 부여함



(1) **tf(d,t)** : 특정 문서 d에서의 특정 단어 t의 등장 횟수.

(2) **df(t)** : 특정 단어 t가 등장한 문서의 수.

(3) **idf(d, t)** : df(t)에 반비례하는 수. <br>
 - $idf(d, t) = log(\frac{n}{1 + df(t)}) + 1$
     - 1) Log를 취하는 이유 : 
         - 역수를 취할때 총 문서의 수 n이 커질 수록, IDF의 값은 기하급수적으로 커지게 되므로 log를 취해줌
         - 또한 log를 씌워주지 않으면, 희귀 단어들에 엄청난 가중치가 부여됨
     - 2) 분모에 1을 더하는 이유 :
         - 특정 단어가 전체 문서에서 등장하지 않을 경우에 분모가 0이 되는 상황을 방지
     - 3) 1을 더하는 이유 :
         - 분모와 분자의 수가 같아 log를 취한 idf값이 0이되어 가중치 역할을 수행하지 못할 경우를 방지

<br>


>TF-IDF 값 정의

 - 특정 문서에서 자주 등장하는 단어는 중요도가 높다고 판단 (TF)
 - 모든 문서에서 자주 등장하는 단어는 중요도가 낮다고 판단 (IDF)
 - TF-IDF 값이 낮으면 중요도가 낮은 것이며, TF-IDF 값이 크면 중요도가 큰 것

<br>

#### 2. ***파이썬으로 직접 구현하기***

In [79]:
import pandas as pd # 데이터프레임 사용을 위해
from math import log # IDF 계산을 위해
from IPython.display import display


docs = [
  '먹고 싶은 사과',
  '먹고 싶은 바나나',
  '길고 노란 바나나 바나나',
  '저는 과일이 좋아요'
] 
vocab = list(set(w for doc in docs for w in doc.split()))
vocab.sort()
print('unique한 단어 : ', vocab, '\n')

N = len(docs) # 총 문서의 수

def tf(t, d):
    # '먹고 싶은 사과'.count('사과') = 1
    return d.count(t)

def idf(t):
    df = 0
    for doc in docs:
        # t in doc -> True / False 반환
        # True +1 / False +0
        df += t in doc
    return log(N/(df + 1))

def tfidf(t, d):
    return tf(t,d)* idf(t)


result = []
for i in range(N): # 각 문서에 대해서 아래 명령을 수행
    result.append([])
    d = docs[i]
    for j in range(len(vocab)):
        t = vocab[j]        
        result[-1].append(tf(t, d))

tf_ = pd.DataFrame(result, columns = vocab)
print('*** DTM ***')
display(tf_)


result = []
for j in range(len(vocab)):
    t = vocab[j]
    result.append(idf(t))

idf_ = pd.DataFrame(result, index = vocab, columns = ["IDF"])
print('*** IDF ***')
display(idf_.iloc[:5])


result = []
for i in range(N):
    result.append([])
    d = docs[i]
    for j in range(len(vocab)):
        t = vocab[j]

        result[-1].append(tfidf(t,d))

tfidf_ = pd.DataFrame(result, columns = vocab)
print('*** TF-IDF ***')
display(tfidf_)

unique한 단어 :  ['과일이', '길고', '노란', '먹고', '바나나', '사과', '싶은', '저는', '좋아요'] 

*** DTM ***


Unnamed: 0,과일이,길고,노란,먹고,바나나,사과,싶은,저는,좋아요
0,0,0,0,1,0,1,1,0,0
1,0,0,0,1,1,0,1,0,0
2,0,1,1,0,2,0,0,0,0
3,1,0,0,0,0,0,0,1,1


*** IDF ***


Unnamed: 0,IDF
과일이,0.693147
길고,0.693147
노란,0.693147
먹고,0.287682
바나나,0.287682


*** TF-IDF ***


Unnamed: 0,과일이,길고,노란,먹고,바나나,사과,싶은,저는,좋아요
0,0.0,0.0,0.0,0.287682,0.0,0.693147,0.287682,0.0,0.0
1,0.0,0.0,0.0,0.287682,0.287682,0.0,0.287682,0.0,0.0
2,0.0,0.693147,0.693147,0.0,0.575364,0.0,0.0,0.0,0.0
3,0.693147,0.0,0.0,0.0,0.0,0.0,0.0,0.693147,0.693147


<br>

#### 3. ***사이킷럿 사용하기***

Euclidean Distance (L2 distance) <br>
$d_{L2}(w,v) = \sqrt{\Sigma_{i=1}^d (w_i - v_i)^2}$
 - 기존 TF-IDF식에 L2 정규화라는 방법으로 값을 조정

In [80]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
corpus = [
  '먹고 싶은 사과',
  '먹고 싶은 바나나',
  '길고 노란 바나나 바나나',
  '저는 과일이 좋아요'
] 
vector = CountVectorizer()
print('*** DTM ***')
vector.fit_transform(corpus)
vocab = np.array(sorted(vector.vocabulary_.items(), key=lambda x:x[1]))[:,0]
display(pd.DataFrame(vector.fit_transform(corpus).toarray(), columns=vocab))

from sklearn.feature_extraction.text import TfidfVectorizer

tfidfv = TfidfVectorizer().fit(corpus)
print('*** TF-IDF ***')
display(pd.DataFrame(tfidfv.transform(corpus).toarray(), columns=vocab))
print(tfidfv.vocabulary_) # 각 단어의 인덱스가 어떻게 부여되었는지를 보여준다.

*** DTM ***


Unnamed: 0,과일이,길고,노란,먹고,바나나,사과,싶은,저는,좋아요
0,0,0,0,1,0,1,1,0,0
1,0,0,0,1,1,0,1,0,0
2,0,1,1,0,2,0,0,0,0
3,1,0,0,0,0,0,0,1,1


*** TF-IDF ***


Unnamed: 0,과일이,길고,노란,먹고,바나나,사과,싶은,저는,좋아요
0,0.0,0.0,0.0,0.526405,0.0,0.667679,0.526405,0.0,0.0
1,0.0,0.0,0.0,0.57735,0.57735,0.0,0.57735,0.0,0.0
2,0.0,0.47212,0.47212,0.0,0.74445,0.0,0.0,0.0,0.0
3,0.57735,0.0,0.0,0.0,0.0,0.0,0.0,0.57735,0.57735


{'먹고': 3, '싶은': 6, '사과': 5, '바나나': 4, '길고': 1, '노란': 2, '저는': 7, '과일이': 0, '좋아요': 8}


---
## ***5. Based on Context Window (Co-occurrence)***
---

<br>

#### 1. ***BoCW***