# CountVectorizer
문장에서 중요한 단어는 무엇일까 ?  

단어의 빈도수가 높은것이 제일 중요한 단어가 아닐까?

## One - hot - encoding 문제점
1. 차원이 너무 많아진다
2. Sparsity => 하나만 1이고 나머지는 전부 0
3. [man, woman, king, queen] 예제에서 유사관계가 man - king : 0, man - queen : 0 으로 나오는 문제점 발생

## Word representation : Count - based - method

윈도우 크기 (N = 1) 에 따라서 단어를 기준으로 N 만큼 떨어진 단어의 갯수를 샌다.

* I like deep learning
* I like NLP
* I enjoy flying

카운트 | i | like | enjoy | deep | learning | NLP | flying
I  

like  

enjoy  

deep  

learning  

NLP  

flying

In [1]:
from sklearn.feature_extraction.text import CountVectorizer

### 데이터 생성

In [8]:
text_data = ['나는 배가 고프다', '내일 점심 뭐먹지', '내일 공부 해야겠다', '점심 먹고 공부 해야지']

In [9]:
count_vectorizer = CountVectorizer()
count_vectorizer.fit(text_data)

CountVectorizer()

In [10]:
count_vectorizer.vocabulary_

{'나는': 2,
 '배가': 6,
 '고프다': 0,
 '내일': 3,
 '점심': 7,
 '뭐먹지': 5,
 '공부': 1,
 '해야겠다': 8,
 '먹고': 4,
 '해야지': 9}

#### 나온 빈도수 숫자가 배열의 index 번호로 들어간다.
ex) '나는' 배열의 2 index에 들어간다

In [11]:
count_vectorizer.transform([text_data[0]]).toarray()

array([[1, 0, 1, 0, 0, 0, 1, 0, 0, 0]])

## 단어 - 문서행렬 (Term - Document matrix, TDM)
## 문서 - 단어행렬 (Document - Term , DTM)

단어가 행으로 문서 번호가 열로 들어오면 TDM  
-> 형용사 , 부사 등 이 제일 많이 나올수 있다
  
    
  
  
## 해결 방안으로 TF - IDF
W(x,y) = tf(x,y) * log(N / df(x))  
전체 문장에서 동일하게 많이 나오면 줄어들게 된다.

In [12]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [13]:
tfidf_vectorizer = TfidfVectorizer()
text_data = ['나는 배가 고프다', '내일 점심 뭐먹지', '내일 공부 해야겠다', '점심 먹고 공부 해야지']

tfidf_vectorizer.fit(text_data)

TfidfVectorizer()

In [14]:
tfidf_vectorizer.vocabulary_

{'나는': 2,
 '배가': 6,
 '고프다': 0,
 '내일': 3,
 '점심': 7,
 '뭐먹지': 5,
 '공부': 1,
 '해야겠다': 8,
 '먹고': 4,
 '해야지': 9}

In [15]:
tfidf_vectorizer.transform([text_data[0]]).toarray()

array([[0.57735027, 0.        , 0.57735027, 0.        , 0.        ,
        0.        , 0.57735027, 0.        , 0.        , 0.        ]])