## 문장 벡터화

* CountVectorizer
* TfidfVectorizer

### CountVectorizer
데이터의 횟수를 기준으로 특징을 추출하는 기법(일반적으로 텍스트에서 단어를 기준으로 측정)

In [1]:
from sklearn.feature_extraction.text import CountVectorizer

text_data = ['나는 나는 배가 고프다', '내일 점심 뭐먹지', '내일 공부 해야겠다', '점심 먹고 공부 해야지']

In [2]:
count_vectorizer = CountVectorizer()

count_vectorizer.fit(text_data)
print(count_vectorizer.vocabulary_)

{'나는': 2, '배가': 6, '고프다': 0, '내일': 3, '점심': 7, '뭐먹지': 5, '공부': 1, '해야겠다': 8, '먹고': 4, '해야지': 9}


In [4]:
sentence = [text_data[0]] # ['나는 나는 배가 고프다']
print(count_vectorizer.transform(sentence))
print(count_vectorizer.transform(sentence).toarray())

<Compressed Sparse Row sparse matrix of dtype 'int64'
	with 3 stored elements and shape (1, 10)>
  Coords	Values
  (0, 0)	1
  (0, 2)	2
  (0, 6)	1
[[1 0 2 0 0 0 1 0 0 0]]


### TfidfVectorizer
 - TF-IDF라는 특정한 값을 사용해서 텍스트 데이터의 특징 추출
 - TF : 특정 단어가 하나의 데이터 안에서 등장하는 횟수
 - IDF : 'DF(특정 단어가 여러 데이터에 자주 등장하는지 알려주는 지표)'의 I(역수)
 - 해당 데이터에 자주 등장하지만, 전체 데이터에 많이 없는 단어일수록 숫자가 높다.

In [5]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [8]:
tfidf_vectorizer = TfidfVectorizer()

tfidf_vectorizer.fit(text_data)
print(tfidf_vectorizer.vocabulary_)

sentence = [text_data[0]]
print(tfidf_vectorizer.transform(sentence).toarray())

sentence = [text_data[1]]
print(tfidf_vectorizer.transform(sentence).toarray())

sentence = [text_data[2]]
print(tfidf_vectorizer.transform(sentence).toarray())

{'나는': 2, '배가': 6, '고프다': 0, '내일': 3, '점심': 7, '뭐먹지': 5, '공부': 1, '해야겠다': 8, '먹고': 4, '해야지': 9}
[[0.40824829 0.         0.81649658 0.         0.         0.
  0.40824829 0.         0.         0.        ]]
[[0.         0.         0.         0.52640543 0.         0.66767854
  0.         0.52640543 0.         0.        ]]
[[0.         0.52640543 0.         0.52640543 0.         0.
  0.         0.         0.66767854 0.        ]]
