# Sckiti-Learn
### 1. DictVectorizer
- 문서에서 단어의 사용빈도를 나타내는 딕셔너리 정보를 입력 받아 BOW인코딩한 수치 벡터로 변환

In [1]:
from sklearn.feature_extraction import DictVectorizer

Bag_Of_Word = DictVectorizer(sparse=False)
Frequency = [{'바나나/NNP' : 1}, {'먹/VV' : 1, '사과/NNP' : 1}]
output = Bag_Of_Word.fit_transform(Frequency)

print(output)

[[0. 1. 0.]
 [1. 0. 1.]]


### 2. CountVectorizer
- 문서를 토큰 리스트로 변환
- 각 문서에서 토큰의 출현 빈도를 센다.
- 각 문서를 BOW 인코딩 벡터로 변환한다.

In [5]:
from sklearn.feature_extraction.text import CountVectorizer
from PyKomoran import *

komoran = Komoran("EXP")

corpus = ['수박과 사과',
         '먹고 싶은 사과',
         '길고 노란 바나나',
         '노란 바나나']

POS_corpus = list()
# 형태소 분석 후 "NNG", "NNP", "VV"태그인 Token만 구분자(띄어쓰기) 단위로 POS_corpus 리스트에 추가
for sentence in corpus:
    POS_corpus.append(' '.join(komoran.get_morphes_by_tags(sentence, tag_list=["NNG", "NNP", "VV"])))
    
print(POS_corpus)

['수박 사과', '먹 사과', '바나나', '바나나']


In [6]:
vect = CountVectorizer(token_pattern='(?u)\\b\\w+\\b')
vect.fit_transform(POS_corpus)
print(vect.vocabulary_)   # POS의 딕셔너리 정의

{'수박': 3, '사과': 2, '먹': 0, '바나나': 1}


In [17]:
print(vect.transform(POS_corpus).toarray().tolist())  # 해당 딕셔너리 순번에 문서별로 카운팅
print(vect.transform(POS_corpus).toarray())

[[0, 0, 1, 1], [1, 0, 1, 0], [0, 1, 0, 0], [0, 1, 0, 0]]
[[0 0 1 1]
 [1 0 1 0]
 [0 1 0 0]
 [0 1 0 0]]


### 3. TfidVectorizer
- TfidVectorizer는 TF-IDF로 벡터를 만들 때, L2 Norm으로 정규화 한다.
- L2 Norm : ||x||2 : 모든 x를 제곱합하여 루트
- TF-IDF를 계산할 때, idf = log( N+1 / df(t)+1 ) + 1
- 1) N+1 / df(t)+1를 사용하는 이유 : 모든 토큰을 한 번 포함하는 추가 문서가 있는 것처럼 하여 "문서빈도"와 "문서의 수"에 1을 더하여 0으로 나눠주는 경우가 없도록...
- 2) log항에 1을 더하는 이유 : idf값이 0이라면 가중치의 역할을 할 수 없으므로 1을 더해주 최소 1이상의 값을 가지게...

In [13]:
from sklearn.feature_extraction.text import TfidfVectorizer
from PyKomoran import *

komoran = Komoran("EXP")

corpus = ['수박과 사과',
         '먹고 싶은 사과',
         '길고 노란 바나나',
         '노란 바나나']

POS_corpus = list()
# 형태소 분석 후 "NNG", "NNP", "VV"태그인 Token만 구분자(띄어쓰기) 단위로 POS_corpus 리스트에 추가
for sentence in corpus:
    POS_corpus.append(' '.join(komoran.get_morphes_by_tags(sentence, tag_list=["NNG", "NNP", "VV"])))
    
print(POS_corpus)

['수박 사과', '먹 사과', '바나나', '바나나']


In [14]:
tfidfvect = TfidfVectorizer(token_pattern='(?u)\\b\\w+\\b')
tfidfvect.fit_transform(POS_corpus)
print(tfidfvect.vocabulary_)

{'수박': 3, '사과': 2, '먹': 0, '바나나': 1}


In [16]:
print(tfidfvect.transform(POS_corpus).toarray().tolist())
print(tfidfvect.transform(POS_corpus).toarray())

[[0.0, 0.0, 0.6191302964899972, 0.7852882757103967], [0.7852882757103967, 0.0, 0.6191302964899972, 0.0], [0.0, 1.0, 0.0, 0.0], [0.0, 1.0, 0.0, 0.0]]
[[0.         0.         0.6191303  0.78528828]
 [0.78528828 0.         0.6191303  0.        ]
 [0.         1.         0.         0.        ]
 [0.         1.         0.         0.        ]]
