In [1]:
import numpy as np
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer # frequency based DTM
from sklearn.feature_extraction.text import TfidfVectorizer # tf-idf based DTM

In [8]:
import pandas as pd
def display_features(features, feature_names):
    df = pd.DataFrame(data=features, columns=feature_names)
    print (df)

In [12]:
## 각각의 문서를 벡터로 바꿈
def tf_extractor(corpus):
    vectorizer = CountVectorizer(min_df=1, ngram_range=(1,1))
    features = vectorizer.fit_transform(corpus)
    return vectorizer, features

In [None]:
## 각각의 문서를 벡터로 바꿀 때 사용 (tf_extractor와 거의 유사)
def tfidf_extractor(corpus):
    vectorizer = TfidfVectorizer(min_df=1, ngram_range=(1,1))
    features = vectorizer.fit_transform(corpus)
    return vectorizer, features

In [20]:
## toy data
TEXT = ['banana apple apple eggplant', 
        'orange carrot banana eggplant', 
        'apple carrot banana banana', 
        'orange banana grape'
]
## 여기 있는 문서들을 벡터로 바꿔야 한다 (빈도수 정보 or TF 정보의 IDF 정보를 반영한 정보)

In [22]:
tf_vectorizer, tf_features = tf_extractor(TEXT)

# CountVectorizer 이용하기 (단어들의 빈도수 정보)

In [25]:
tf_vectorizer = CountVectorizer(min_df=1, max_df=0.8, ngram_range=(1,1))
# 생성자 function
# min_df: document frequency => 단어가 사용된 문서의 수 (문서들을 벡터로 바꿀 때 어떠한 단어들을 사용할지 결정)
# min_df에서 지정한 숫자에 해당하는만큼 (즉 최소 min_df개의 문서 이상에서 사용된 단어들만 가지고 문서들을 벡터로 바꿈)
# ngrm_range
# ngram은 연속된 n개의 단어: n개의 연속된 단어만 하나의 텀으로 사용해서 각각을 벡터로 바꾸는 것
# ngram_range=(1,2) -> bi-gram(두 개의 연속된  단어를 하나의 텀으로 사용해서 각각을 벡터로 바꿈)
# ngram_range=(1,1)
# ngram_range=(1,2) 로 변경해 보기
tf_features = tf_vectorizer.fit_transform(TEXT)  ## 각각의 문서를, 지정한 단어들을 사용해서 벡터로 만들고, features에 저장
## document term matrix에 저장

In [27]:
print(tf_features)

  (0, 0)	2
  (0, 2)	1
  (1, 2)	1
  (1, 4)	1
  (1, 1)	1
  (2, 0)	1
  (2, 1)	1
  (3, 4)	1
  (3, 3)	1


In [29]:
features = np.array(tf_features.todense())
features

array([[2, 0, 1, 0, 0],
       [0, 1, 1, 0, 1],
       [1, 1, 0, 0, 0],
       [0, 0, 0, 1, 1]], dtype=int64)

In [31]:
features.shape

(4, 5)

In [33]:
features[0]

array([2, 0, 1, 0, 0], dtype=int64)

In [35]:
features[1]  #두번째 행렬에 대한 정보
# 각각의 단어가 해당 문서에서 얼마나 사용되었는지를 나타냄 (0번, 1번, 1번, 0번, 1번)

array([0, 1, 1, 0, 1], dtype=int64)

In [37]:
np.linalg.norm(features[1]-features[0])
# 두번째 문서와 첫번째 문서의 유클리디안 거리

2.449489742783178

In [39]:
np.linalg.norm(features[1]-features[2])

1.7320508075688772

In [41]:
feature_names = tf_vectorizer.get_feature_names_out()
feature_names

array(['apple', 'carrot', 'eggplant', 'grape', 'orange'], dtype=object)

In [43]:
import pandas as pd
df = pd.DataFrame(data=features, columns=feature_names)
print(df)

   apple  carrot  eggplant  grape  orange
0      2       0         1      0       0
1      0       1         1      0       1
2      1       1         0      0       0
3      0       0         0      1       1


# TfidfVectorizer 이용하기

In [46]:
tfidf_vectorizer = TfidfVectorizer(min_df=1, ngram_range=(1,1))
tfidf_features = tfidf_vectorizer.fit_transform(TEXT)

In [48]:
tfidf_features = np.array(tfidf_features.todense())
tfidf_features

array([[0.85764287, 0.28383251, 0.        , 0.42882143, 0.        ,
        0.        ],
       [0.        , 0.35696573, 0.53931298, 0.53931298, 0.        ,
        0.53931298],
       [0.51623315, 0.68337886, 0.51623315, 0.        , 0.        ,
        0.        ],
       [0.        , 0.37919167, 0.        , 0.        , 0.72664149,
        0.5728925 ]])

In [16]:
tfidf_features[0]

array([0.85764287, 0.28383251, 0.        , 0.42882143, 0.        ,
       0.        ])