### Count Vectorizer

CountVectorizer는 자연어 처리(NLP)에서 사용되는 기능 추출 기술로, 텍스트 문서를 숫자 특성 벡터로 변환하는 것입니다. 

이는 파이썬의 인기 있는 머신러닝 라이브러리인 scikit-learn에 포함되어 있습니다.

CountVectorizer는 텍스트를 개별 단어나 용어로 토큰화하고, 각 용어의 빈도를 계산함으로써 작동합니다. 

이는 말뭉치(corpus)의 모든 고유한 용어로 어휘를 구성하고, 각 용어에 고유한 인덱스를 할당합니다. 

결과적으로 생성된 특성 벡터는 문서에서 각 용어의 존재 여부를 나타냅니다.

In [4]:
from sklearn.feature_extraction.text import CountVectorizer

In [5]:
vectorizer = CountVectorizer(min_df=1)

In [6]:
content = [
'나는 나로 살기로 했다',
'인간이란 다 슬퍼하는 동안에도',
'나는 즐거워하기로 했다',
'무엇이든지 어떻게든 될 것이라고' 
]

In [7]:
from konlpy.tag import Okt

t = Okt()

In [8]:
content_tokens = [t.morphs(row) for row in content]
content_tokens

[['나', '는', '나로', '살기', '로', '했다'],
 ['인간', '이란', '다', '슬퍼하는', '동안', '에도'],
 ['나', '는', '즐거워하기로', '했다'],
 ['무엇', '이든지', '어떻', '게', '든', '될', '것', '이라고']]

In [9]:
contents_for_vectorize = []

for content in content_tokens:
    sentence = ''
    for word in content:
        sentence = sentence + ' ' + word

    contents_for_vectorize.append(sentence)

contents_for_vectorize


[' 나 는 나로 살기 로 했다',
 ' 인간 이란 다 슬퍼하는 동안 에도',
 ' 나 는 즐거워하기로 했다',
 ' 무엇 이든지 어떻 게 든 될 것 이라고']

In [10]:
X = vectorizer.fit_transform(contents_for_vectorize)

In [11]:
num_samples, num_features = X.shape

num_samples, num_features

(4, 13)

In [12]:
vectorizer.get_feature_names_out()

array(['나로', '동안', '무엇', '살기', '슬퍼하는', '어떻', '에도', '이든지', '이라고', '이란',
       '인간', '즐거워하기로', '했다'], dtype=object)

In [13]:
X.toarray().transpose()

array([[1, 0, 0, 0],
       [0, 1, 0, 0],
       [0, 0, 0, 1],
       [1, 0, 0, 0],
       [0, 1, 0, 0],
       [0, 0, 0, 1],
       [0, 1, 0, 0],
       [0, 0, 0, 1],
       [0, 0, 0, 1],
       [0, 1, 0, 0],
       [0, 1, 0, 0],
       [0, 0, 1, 0],
       [1, 0, 1, 0]], dtype=int64)

In [14]:
new_post = ['나는 즐거워하는 인간이다']
new_post_tokens = [t.morphs(row) for row in new_post]

new_post_for_vectorize = []

for content in new_post_tokens:
    sentence = ''
    for word in content:
        sentence = sentence + ' ' + word

    new_post_for_vectorize.append(sentence)

new_post_for_vectorize    

[' 나 는 즐거워하는 인간 이다']

In [15]:
new_post_vec = vectorizer.transform(new_post_for_vectorize)
new_post_vec.toarray()

array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0]], dtype=int64)

In [16]:
import scipy as sp

def dist_raw(v1, v2):
    delta = v1-v2
    return sp.linalg.norm(delta.toarray())

In [17]:
dist = [dist_raw(each, new_post_vec) for each in X]
dist

[2.0, 2.0, 1.7320508075688772, 2.23606797749979]

In [18]:
print('Bset post is ',dist.index(min(dist)), ', dist = ',min(dist))
print('Test post is ',new_post)
print('Bset dist post is ',content[dist.index(min(dist))])


Bset post is  2 , dist =  1.7320508075688772
Test post is  ['나는 즐거워하는 인간이다']
Bset dist post is  즐거워하는


### TF-IDF vectorize

TF-IDF (Term Frequency-Inverse Document Frequency)는 문서 내에서 단어의 중요성을 평가하는 데 사용되는 통계적인 가중치입니다. 

TF-IDF 벡터화는 문서 집합을 벡터로 변환하는 방법 중 하나입니다. 이 방법은 텍스트 분석과 정보 검색에서 널리 사용됩니다.

TF-IDF 벡터화는 각 문서에서 각 용어의 TF-IDF 값을 계산하여 문서를 표현합니다.

TF(Term Frequency)는 특정 용어의 문서 내 출현 빈도를 나타내며, IDF(Inverse Document Frequency)는 해당 용어의 문서 전체에서의 중요성을 측정합니다.



In [19]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(min_df = 1, decode_error = 'ignore')

In [20]:
X = vectorizer.fit_transform(contents_for_vectorize)

In [21]:
num_samples, num_features = X.shape

num_samples, num_features

(4, 13)

In [22]:
X.toarray().transpose()

array([[0.61761437, 0.        , 0.        , 0.        ],
       [0.        , 0.4472136 , 0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.5       ],
       [0.61761437, 0.        , 0.        , 0.        ],
       [0.        , 0.4472136 , 0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.5       ],
       [0.        , 0.4472136 , 0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.5       ],
       [0.        , 0.        , 0.        , 0.5       ],
       [0.        , 0.4472136 , 0.        , 0.        ],
       [0.        , 0.4472136 , 0.        , 0.        ],
       [0.        , 0.        , 0.78528828, 0.        ],
       [0.48693426, 0.        , 0.6191303 , 0.        ]])

In [23]:
new_post_vec = vectorizer.transform(new_post_for_vectorize)
new_post_vec.toarray()

array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0.]])

In [24]:
def dist_norm(v1, v2):
    v1_norm = v1 / sp.linalg.norm(v1.toarray())
    v2_norm = v2 / sp.linalg.norm(v2.toarray())

    delta = v1_norm-v2_norm
    
    return sp.linalg.norm(delta.toarray())

In [27]:
dist = [dist_norm(each, new_post_vec) for each in X]

print('Bset post is ',dist.index(min(dist)), ', dist = ',min(dist))
print('Test post is ',new_post)
print('Bset dist post is ',content[dist.index(min(dist))])


Bset post is  1 , dist =  1.0514622242382672
Test post is  ['나는 즐거워하는 인간이다']
Bset dist post is  는
