<a href="https://colab.research.google.com/github/kleeresearch/TextAnalysis/blob/master/Course/Day3/12_doc_vectorization_example1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import numpy as np
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer # frequency based DTM
from sklearn.feature_extraction.text import TfidfVectorizer # tf-idf based DTM

In [2]:
TEXT = ['banana apple apple eggplant',
        'orange carrot banana eggplant',
        'apple carrot banana banana',
        'orange banana grape'
]

# CountVectorizer 이용하기

* min_df와 max_df는 단어가 사용된 문서의 수를 기준으로 / 문서를 벡터로 표현할 때 / 사용하고자 하는 단어를 선별하는 목적으로 사용

* min_df(minimum document frequency): min_df로 지정된 값보다 더 적은 수의 문서에서 사용된 단어들은 문서를 벡터로 표현할 때 사용되지 않음

* min_df는 0 이상의 정수 / 또는 0과 1 사이의 소수(float)를 값으로 입력 받음. / 0 이상의 정수는 절대적 문서 숫자를 의미하고, / 0과 1 사이의 소수는 비율(ratio)을 의미

* max_df(maximum document frequency): max_df로 지정된 값보다 / 더 많은 문서에서 사용된 단어 벡터 변환에 사용되지 않음.

* n-gram: 연속된 n개의 토큰


In [3]:
tf_vectorizer = CountVectorizer(min_df=1, max_df=0.8, ngram_range=(1,1))
tf_features = tf_vectorizer.fit_transform(TEXT)

In [4]:
print(tf_features)

  (0, 0)	2
  (0, 2)	1
  (1, 2)	1
  (1, 4)	1
  (1, 1)	1
  (2, 0)	1
  (2, 1)	1
  (3, 4)	1
  (3, 3)	1


해석:

- 첫번째 단어가 문서에서 2번 사용되었다.
- 첫번째 문서의 2개 단어 뭉탱이가 1번 사용되었다.


In [5]:
features = np.array(tf_features.todense())
features

array([[2, 0, 1, 0, 0],
       [0, 1, 1, 0, 1],
       [1, 1, 0, 0, 0],
       [0, 0, 0, 1, 1]])

각각의 문서에 대한 벡터가 됨. 칼럼은 단어가 됨. 단어들은 어떠한 순서로 배열이 되나? 각각의 문서를 벡터로 표혀하기 위해서 알파벳 순으로 정렬했을 때 첫번째 단어에 대한 정보가 첫번째 칼럼에 있음. 칼럼의 수는 텍스트 데이터에 존재하는 문서에서 벡터로 표현하는 단어의 수가 5라는 것을 의미한다. 단어의 수가 5이기 때문에 각각의 문서에 나타나는 벡터의 차원의 크기가 5차원이 된다.  

In [6]:
features.shape

(4, 5)

In [7]:
features[0]

array([2, 0, 1, 0, 0])

해석: 첫번째 행은 5차원 공간에 존재하는 방향의 점이다. 벡터들 간의 유사도를 계산할 수 있다. 위치 정보를 기반으로 거리를 계산. 방향 정보를 기반으로 유사도를 계산하기 위해서느 cosign septa 값을 계산한다.

In [8]:
features[1]

array([0, 1, 1, 0, 1])

In [9]:
np.linalg.norm(features[1]-features[0])

2.449489742783178

해석: 첫번째 문서와 두번째 문서 간의 유클리디안 거리를 구했다.

In [10]:
np.linalg.norm(features[1]-features[2])

1.7320508075688772

아래 해석: 단어 정보를 이용해서 유클리디안 거리를 구했다.

In [11]:
feature_names = tf_vectorizer.get_feature_names_out()
feature_names

array(['apple', 'carrot', 'eggplant', 'grape', 'orange'], dtype=object)

해당 정보를 이용해서 dpm?과 동일한 정보가 된다.

In [12]:
import pandas as pd
df = pd.DataFrame(data=features, columns=feature_names)
print(df)

   apple  carrot  eggplant  grape  orange
0      2       0         1      0       0
1      0       1         1      0       1
2      1       1         0      0       0
3      0       0         0      1       1


# TfidfVectorizer 이용하기

ngram_range = (1,2)로 바꾸면 유니그램이 아니라 바이그램까지 이용하겠다는 말.

하나의 벡터의 차원의 크기가 15가 되었다.

유니그램만 사용했을 때는 5차원, 10차원이었는데 벡터의 크기가 커지면 여러 문제가 생긴다.

벡터가 여러 문제를 못 나타낼 수 있다. 어떠한 연산에 더 많은 시간이 걸린다.

바이그램은 텍스트분석에 잘 사용하지 않는다.

바이그램은 get_feature_names라는 펑션을 볼 수 있다.

TF IDF 정보를 이용해서 각각의 문서를 표시하고 싶을 때 사용한다.

In [13]:
tfidf_vectorizer = TfidfVectorizer(min_df=1, ngram_range=(1,1))
tfidf_features = tfidf_vectorizer.fit_transform(TEXT)

In [14]:
tfidf_features = np.array(tfidf_features.todense())
tfidf_features

array([[0.85764287, 0.28383251, 0.        , 0.42882143, 0.        ,
        0.        ],
       [0.        , 0.35696573, 0.53931298, 0.53931298, 0.        ,
        0.53931298],
       [0.51623315, 0.68337886, 0.51623315, 0.        , 0.        ,
        0.        ],
       [0.        , 0.37919167, 0.        , 0.        , 0.72664149,
        0.5728925 ]])

In [15]:
tfidf_features[0]

array([0.85764287, 0.28383251, 0.        , 0.42882143, 0.        ,
       0.        ])