<a href="https://colab.research.google.com/github/Hyorim-Kim/numpi/blob/main/tfc23count.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [7]:
# 단어의 빈도수로 자연어 특징 추출
# CountVectorizer: 문서 집합에서 단어 토큰을 생성하고 각 단어의 수를 세어 BOW 인코딩 벡터를 만든다.
# TfidfVectorizer: CountVectorizer와 비슷하지만 TF-IDF 방식으로 단어의 가중치를 조정한 BOW 인코딩 벡터를 만든다.

from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

# CountVectorizer : 단순한 특징으로 corpus에서 단위별 등장회수를 counting하여 수치벡터(BOW)화 함
# 단위는 임의적, 단어, 글자, 자소, 문서, 문장...
content = ['How to format my hard disk', 'Hard disk format format problems']

count_vec = CountVectorizer(analyzer='word', min_df=1)
print(count_vec)

tran = count_vec.fit_transform(raw_documents=content)
print(tran)
print(count_vec.get_feature_names_out())  # BOW vector
# ['disk' 'format' 'hard' 'how' 'my' 'problems' 'to']
#     0          1          2       3       4           5           6
print(tran.toarray())
print(content)
# Bag of Words(BOW) 장단점
# 장점 : 쉽고 빠른 구축, 문서의 특징을 잘 나타내어 여러 분야에서 활용도가 높음
# 단점 :  문맥 의미 반영 문제, 희소 행렬 문제


CountVectorizer()
  (0, 3)	1
  (0, 6)	1
  (0, 1)	1
  (0, 4)	1
  (0, 2)	1
  (0, 0)	1
  (1, 1)	2
  (1, 2)	1
  (1, 0)	1
  (1, 5)	1
['disk' 'format' 'hard' 'how' 'my' 'problems' 'to']
[[1 1 1 1 1 0 1]
 [1 2 1 0 0 1 0]]
['How to format my hard disk', 'Hard disk format format problems']


In [8]:
# TfidfVectorizer : CountVectorizer의 단점을 해결하기 위한 기법
# 특정 문서 내에서 특정 단어의 빈도인 TF(Term Frequecy) 와, 전체 문서 내에서 특정 단어의 빈도인 DF(Document Frequency)의 역수를 활용하여
# 어떠한 단어가 얼마나 중요한지를 나타낸 통계적 수치!
# 문서에서 자주 나오는 단어에 높은 가중치를 주되, 모든 문서에서 자주 나타나는 단어에 대해서는 패널티를 주는 방식으로 값 부여
tfidf_vec = TfidfVectorizer(analyzer='word', min_df=1)
tran_idf = tfidf_vec.fit_transform(raw_documents=content)
print(tran_idf)
print(tfidf_vec.get_feature_names_out())  # 건수가 아니라 건수에 대한 확률값을 출력
print(tran_idf.toarray())


  (0, 0)	0.3347122780719073
  (0, 2)	0.3347122780719073
  (0, 4)	0.4704264280854632
  (0, 1)	0.3347122780719073
  (0, 6)	0.4704264280854632
  (0, 3)	0.4704264280854632
  (1, 5)	0.4976748316029239
  (1, 0)	0.3540997415957358
  (1, 2)	0.3540997415957358
  (1, 1)	0.7081994831914716
['disk' 'format' 'hard' 'how' 'my' 'problems' 'to']
[[0.33471228 0.33471228 0.33471228 0.47042643 0.47042643 0.
  0.47042643]
 [0.35409974 0.70819948 0.35409974 0.         0.         0.49767483
  0.        ]]
