In [8]:
import numpy as np
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer # frequency based DTM(Document term matrix)
from sklearn.feature_extraction.text import TfidfVectorizer # tf-idf based DTM

In [9]:
# 4개의 문서가 존재함
# 각각의 단어를 원소로 가짐
TEXT = ['banana apple apple eggplant', 
        'orange carrot banana eggplant', 
        'apple carrot banana banana', 
        'orange banana grape'
]

# CountVectorizer 이용하기

In [10]:
tf_vectorizer = CountVectorizer() # 객체 만들기
tf_features = tf_vectorizer.fit_transform(TEXT) 

In [11]:
tf_features

<4x6 sparse matrix of type '<class 'numpy.int64'>'
	with 13 stored elements in Compressed Sparse Row format>

In [12]:
# todense를 사용해 array 형태로 변환, document term matrix 구성
features = np.array(tf_features.todense()) 
features
# 문서의 이름과 단어의 정보는 없는 상태
# 행의 수는 문서의 개수(4), corpus에서 사용된 단어의 수는 열(6)
# 각 단어는 abc 순으로 위치함

array([[2, 1, 0, 1, 0, 0],
       [0, 1, 1, 1, 0, 1],
       [1, 2, 1, 0, 0, 0],
       [0, 1, 0, 0, 1, 1]])

In [13]:
# 문서의 개수와 단어의 개수 확인
features.shape

(4, 6)

In [14]:
features

array([[2, 1, 0, 1, 0, 0],
       [0, 1, 1, 1, 0, 1],
       [1, 2, 1, 0, 0, 0],
       [0, 1, 0, 0, 1, 1]])

In [19]:
features[0] # 첫 문서의 vector

array([2, 1, 0, 1, 0, 0])

In [21]:
features[1] # 두번째 문서의 vector

array([0, 1, 1, 1, 0, 1])

#### 벡터간 유사도를 계산하기 위해 유클리디안 거리, 코사인 유사도를 사용할 수 있음 

In [15]:
# 유클리디안 거리 : linalg.norm 을 활용하여 계산
np.linalg.norm(features[1]-features[0])
# 거리가 먼 1,0 문서의 유사도가 상대적으로 낮다

2.449489742783178

In [16]:
np.linalg.norm(features[2]-features[0])

2.0

In [17]:
np.linalg.norm(features[1]-features[2])

2.0

In [18]:
# 코사인 유사도 : 내적 공식을 활용해 코사인 유사도를 구해냄
# dot function 사용
# 내적(dot) / 원점으로부터의 거리(norm)
np.dot(features[0], features[1])/(np.linalg.norm(features[0])*np.linalg.norm(features[1]))

0.4082482904638631

In [19]:
np.dot(features[0], features[2])/(np.linalg.norm(features[0])*np.linalg.norm(features[2]))

0.6666666666666667

In [20]:
# feature의 이름을 구하고 싶을 때 사용하는 function.
feature_names = tf_vectorizer.get_feature_names_out()
feature_names

array(['apple', 'banana', 'carrot', 'eggplant', 'grape', 'orange'],
      dtype=object)

In [29]:
# 문서에 사용된 단어를 포함하여 TF를 시각화하기
import pandas as pd
df = pd.DataFrame(data=features, columns=feature_names)
df

Unnamed: 0,apple,banana,carrot,eggplant,grape,orange
0,2,1,0,1,0,0
1,0,1,1,1,0,1
2,1,2,1,0,0,0
3,0,1,0,0,1,1


# TfidfVectorizer 이용하기

In [30]:
tfidf_vectorizer = TfidfVectorizer()
tfidf_features = tfidf_vectorizer.fit_transform(TEXT)

In [31]:
# 해당 값이 크면 클수록, 해당 문서에서는 많이 사용되고 다른 문서에서는 적게 사용되었음을 나타냄.
tfidf_features = np.array(tfidf_features.todense())
tfidf_features

array([[0.85764287, 0.28383251, 0.        , 0.42882143, 0.        ,
        0.        ],
       [0.        , 0.35696573, 0.53931298, 0.53931298, 0.        ,
        0.53931298],
       [0.51623315, 0.68337886, 0.51623315, 0.        , 0.        ,
        0.        ],
       [0.        , 0.37919167, 0.        , 0.        , 0.72664149,
        0.5728925 ]])

In [32]:
tfidf_features.shape

(4, 6)

In [33]:
tfidf_features[0]

array([0.85764287, 0.28383251, 0.        , 0.42882143, 0.        ,
       0.        ])

In [34]:
# 문서에 사용된 단어를 포함하여 TF-IDF를 시각화하기
import pandas as pd
df = pd.DataFrame(data=tfidf_features, columns=feature_names)
df

Unnamed: 0,apple,banana,carrot,eggplant,grape,orange
0,0.857643,0.283833,0.0,0.428821,0.0,0.0
1,0.0,0.356966,0.539313,0.539313,0.0,0.539313
2,0.516233,0.683379,0.516233,0.0,0.0,0.0
3,0.0,0.379192,0.0,0.0,0.726641,0.572892
