# 카운트 기반의 단어 표현(Count based word Representation
텍스트를 표현하는 방법\
단어의 중요정도, 핵심어 추출, 문서들 간의 유사도 측정으로 활용가능

## 단어의 표현 방법
- **국소 표현(Local Representation = Discrete Representation)**\
해당 단어만 보고 특정 값 매칭 => 단어의 의미, 뉘앙스 표현 x
- **분산 표현(Distributed Representation = Continuous Representation)**\
주변을 참고하여 단어 표현 => 단어의 의미, 뉘앙스 표현 o

![nn](https://wikidocs.net/images/page/31767/wordrepresentation.PNG)

## Bag of Words(BoW)
단어의 등장 순서 고려x\
빈도수 기반

=> 문서에 등장하는 각 단어의 등장 횟수를 구한다\
=> 어떤 성격의 문서인지 판단하는 작업에 쓰임

**BoW 만드는 과정**
- 각 단어에 고유 정수 인덱스 부여 (단어 집합 생성)
- 각 인덱스의 단어의 등장 횟수 기록

In [4]:
from konlpy.tag import Okt
okt = Okt()
doc1 = "정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다."

def build_bag_of_words(document):
    document = document.replace('.', '') # 점 제거
    tokenized_document = okt.morphs(document) # 형태소 분석을 통한 토큰화
    
    word_to_index = {} # 단어집합
    bow = []
    
    for word in tokenized_document:
        if word not in word_to_index.keys(): # 처음 보는 단어일 경우
            word_to_index[word] = len(word_to_index) # 단어: index
            bow.insert(len(word_to_index)-1, 1) # index: 1 (개수)
        else: # 이미 본 단어일 경우
            index = word_to_index.get(word) # 해당 단어 인덱스 구하기
            bow[index] = bow[index]+1 # 해당 인덱스의 개수 +1
    return word_to_index, bow

vocab, bow = build_bag_of_words(doc1)
print('vocabulary: ', vocab)
print('bag of words vector: ', bow)

vocabulary:  {'정부': 0, '가': 1, '발표': 2, '하는': 3, '물가상승률': 4, '과': 5, '소비자': 6, '느끼는': 7, '은': 8, '다르다': 9}
bag of words vector:  [1, 2, 1, 1, 2, 1, 1, 1, 1, 1]


### CountVectorizer 클래스로 BoW 만들기

In [5]:
from sklearn.feature_extraction.text import CountVectorizer

corpus = ['you know I want your love. because I love you.']
vector = CountVectorizer() # 길이 2 이상만 토큰으로 인식(정제)

print('bow: ', vector.fit_transform(corpus).toarray())
print('vocabulary: ', vector.vocabulary_)

bow:  [[1 1 2 1 2 1]]
vocabulary:  {'you': 4, 'know': 1, 'want': 3, 'your': 5, 'love': 2, 'because': 0}


### 불용어 제거한 BoW (with CountVectorizer)
BoW를 만든다는 것은 문서에서 어떤 단어가 중요한지 빈도수를 통해 알아보겠다는 의미\
따라서 불용어를 제거한 뒤에 BoW를 만들면 성능 상승

In [6]:
text = ["Family is not an important thing. It's everything."]

In [8]:
## 사용자 정의 불용어 사용
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import stopwords

vect = CountVectorizer(stop_words=['the', 'a', 'an', 'is', 'not']) # 사용자 정의 불용어 사용
# vect = CountVectorizer(stop_words='english') # 제공 불용어 사용
print('bow: ', vect.fit_transform(text).toarray())
print('vocabulary: ', vect.vocabulary_)

bow:  [[1 1 1 1 1]]
vocabulary:  {'family': 1, 'important': 2, 'thing': 4, 'it': 3, 'everything': 0}


## 문서 단어 행렬(Document-Term Matrix, DTM)
각 문서를 행으로 하여 여러 문서에 대한 BoW를 하나의 행렬로 표현

**한계**
- 대부분의 값이 0인 희소표현 => 불용어 제거, 정규화 를 통해 어느 정도 해결
- 단순 빈도수 접근에 따른 문서 비교 한계(제거 못한 불용어에 따른 문제)

## TF-IDF(Term Frequency-Inverse Document Frequency)
DTM내에 있는 각 단어에 중요도 계산\
=> 기존 DTM보다 더 많은 정보를 고려하여 문서 비교 가능

### tf(d, t): 특정 문서 d에서 특정 단어 t의 등장 횟수
DTM[d][t]의 값에 해당

### df(t): 특정 단어 t가 등장한 문서의 수

### idf(d, t): df(t)에 반비례하는 수

## TF-IDF
tf x idf\
모든 문서에 자주 등장하는 단어는 중요도 낮다고 판단\
특정 문서에서만 자주 등장하는 단어는 중요도 높다고 판단

TF-IDF값이 크면 중요도는 높다!!!!

In [10]:
from sklearn.feature_extraction.text import TfidfVectorizer

corpus = [
    'you know I want your love',
    'I like you',
    'what should I do ',    
]

tfidfv = TfidfVectorizer().fit(corpus)
print(tfidfv.transform(corpus).toarray()) # 행은 문서, 열은 단어
print(tfidfv.vocabulary_)

[[0.         0.46735098 0.         0.46735098 0.         0.46735098
  0.         0.35543247 0.46735098]
 [0.         0.         0.79596054 0.         0.         0.
  0.         0.60534851 0.        ]
 [0.57735027 0.         0.         0.         0.57735027 0.
  0.57735027 0.         0.        ]]
{'you': 7, 'know': 1, 'want': 5, 'your': 8, 'love': 3, 'like': 2, 'what': 6, 'should': 4, 'do': 0}
