In [7]:
import numpy as np
import pandas as pd  
from sklearn.feature_extraction.text import CountVectorizer # frequency based DTM (TF)
from sklearn.feature_extraction.text import TfidfVectorizer # tf-idf based DTM (IDF)

In [9]:
TEXT = ['banana apple apple eggplant', 
        'orange carrot banana eggplant', 
        'apple carrot banana banana', 
        'orange banana grape'
]  
## 4개의 문서로 이루어진 텍스트 데이터 
## 각각의 문서가 하나의 문자열 데이터로 저장되어있어야 함

# CountVectorizer 이용하기

In [12]:
tf_vectorizer = CountVectorizer(min_df=1, max_df=0.8, ngram_range=(1,1))
# 생성자 function
# min_df: document frequency => 단어가 사용된 문서의 수 (문서들을 벡터로 바꿀 때 어떠한 단어들을 사용할지 결정)
# min_df에서 지정한 숫자에 해당하는만큼 (즉 문서들 중 최소 min_df개의 이상에서 사용된 단어들만 가지고 문서들을 벡터로 바꿈)
# min_df는 1이상의 자연수 or 0~1 소수만 입력 가능
# min_df의 값으로 3을 입력했다면, 최소 3개의 문서에서만 사용된 단어들을 선택해서 벡터화하겠다는 것
# min_df의 값으로 0.1을 했다면, 전체 문서들 중에서 최소 10% 이상의 문서들에서 사용된 단어들만 사용한다는 뜻

# max_df: 최대 n개의 문서에서 사용된 단어들만 사용 
# max_df도 마찬가지로 1이상의 자연수 or 0~1 소수 입력 가능
# max_df=10 -> 최대 10개의 문서에서만 사용된 단어들을 사용 (너무 많이 사용되는 단어, 예를 들어 불용어를 제거하기 위함)
# max_Df=0.9 -> 최대 90%. 90% 넘는 문서들에서 사용된 단어들은 벡터화하지 않겠다는 것

# ngrm_range (사용하고자 하는 ngram의 범위) -> 보통 unigram만 사용
# ngram은 연속된 n개의 단어: n개의 연속된 단어만 하나의 텀으로 사용해서 각각을 벡터로 바꾸는 것
# ngram_range=(1,2) -> bi-gram(두 개의 연속된  단어를 하나의 텀으로 사용해서 각각을 벡터로 바꿈)
# ngram_range=(1,1) -> 일반적으로 가장 많이 사용
# ngram_range=(1,2)로 변경해 보기 -> unigram, bigram을 둘 다 사용

tf_features = tf_vectorizer.fit_transform(TEXT)  ## 각각의 문서를, 지정한 단어들을 사용해서 벡터로 만들고, features에 저장
## document term matrix에 저장

In [14]:
print(tf_features)    ## Document Term Matrix 
## (문서의 아이디, 단어의 아이디) , 빈도 정보 -> 물론 알파뱃 순서로 정렬했을 때
## dtm이랑 형태가 달라서 보기 어려움 
## 이를 dtm 형태로 만들고 싶으면 밑의 셀을 따라할 것

  (0, 0)	2
  (0, 2)	1
  (1, 2)	1
  (1, 4)	1
  (1, 1)	1
  (2, 0)	1
  (2, 1)	1
  (3, 4)	1
  (3, 3)	1


In [16]:
features = np.array(tf_features.todense())
features

array([[2, 0, 1, 0, 0],
       [0, 1, 1, 0, 1],
       [1, 1, 0, 0, 0],
       [0, 0, 0, 1, 1]], dtype=int64)

In [18]:
features.shape

(4, 5)

In [20]:
features[0]

array([2, 0, 1, 0, 0], dtype=int64)

In [22]:
features[1]

array([0, 1, 1, 0, 1], dtype=int64)

In [24]:
np.linalg.norm(features[1]-features[0])

2.449489742783178

In [26]:
np.linalg.norm(features[1]-features[2])   ## 거리가 짧은 것 

1.7320508075688772

In [28]:
feature_names = tf_vectorizer.get_feature_names_out()
feature_names   ##위에 있는 dtm의 열 순서를 알 수 있음 (각각의 문서를 벡터화할 때 사용된 단어 정보)

array(['apple', 'carrot', 'eggplant', 'grape', 'orange'], dtype=object)

In [30]:
import pandas as pd
df1 = pd.DataFrame(data=features, columns=feature_names)
print(df1)

   apple  carrot  eggplant  grape  orange
0      2       0         1      0       0
1      0       1         1      0       1
2      1       1         0      0       0
3      0       0         0      1       1


# TfidfVectorizer 이용하기

In [50]:
tfidf_vectorizer = TfidfVectorizer(min_df=1, ngram_range=(1,1))
tfidf_features = tfidf_vectorizer.fit_transform(TEXT) ## tfidvectorizer을 이용하여 벡터화

In [52]:
tfidf_features.todense()
## tfidf_feature을 행렬로 보여줌

matrix([[0.85764287, 0.28383251, 0.        , 0.42882143, 0.        ,
         0.        ],
        [0.        , 0.35696573, 0.53931298, 0.53931298, 0.        ,
         0.53931298],
        [0.51623315, 0.68337886, 0.51623315, 0.        , 0.        ,
         0.        ],
        [0.        , 0.37919167, 0.        , 0.        , 0.72664149,
         0.5728925 ]])

In [54]:
tfidf_features = np.array(tfidf_features.todense())
tfidf_features
## tfidf_features.todense()를 어레이로 보여줌

array([[0.85764287, 0.28383251, 0.        , 0.42882143, 0.        ,
        0.        ],
       [0.        , 0.35696573, 0.53931298, 0.53931298, 0.        ,
        0.53931298],
       [0.51623315, 0.68337886, 0.51623315, 0.        , 0.        ,
        0.        ],
       [0.        , 0.37919167, 0.        , 0.        , 0.72664149,
        0.5728925 ]])

In [56]:
tfidf_features[0]

array([0.85764287, 0.28383251, 0.        , 0.42882143, 0.        ,
       0.        ])