#### 단어 수치화 BoW 방식
- 문장 리스트에서 단어들을 추출 후 빈도순으로 번호를 부여--> 단어 사전
- 생성된 단어 사전을 기준으로 문장을 수치화 변환

In [1]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

corpus = [
   'This is the first document.',
    'This document is the second document.',
       'And this is the third one.',
     'Is this the first document?'
]

In [6]:
### ==> 카운트기반 단어 벡터화 인스턴스 생성
### ==> 문장에 단어들을 나타난 빈도수에 따라서 정수 인코딩

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
# vectorizer.fit(raw_documents=corpus)
# vectorizer.transform(raw_documents=corpus)

print(f'단어사전 [단어:번호]: {vectorizer.vocabulary_}')
# 알파벳 순서대로 숫자가 매겨진다
# 나열되는 순서는 먼저나오는 글자순

단어사전 [단어:번호]: {'this': 8, 'is': 3, 'the': 6, 'first': 2, 'document': 1, 'second': 5, 'and': 0, 'third': 7, 'one': 4}


In [5]:
### 단어사전에서 단어만 추출
vectorizer.get_feature_names_out()

array(['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third',
       'this'], dtype=object)

In [8]:
### 단어사전 기반으로 문장 ===> 수치화
result = vectorizer.transform(raw_documents=corpus)
print(result, result.toarray(),sep='\n')

  (0, 1)	1
  (0, 2)	1
  (0, 3)	1
  (0, 6)	1
  (0, 8)	1
  (1, 1)	2
  (1, 3)	1
  (1, 5)	1
  (1, 6)	1
  (1, 8)	1
  (2, 0)	1
  (2, 3)	1
  (2, 4)	1
  (2, 6)	1
  (2, 7)	1
  (2, 8)	1
  (3, 1)	1
  (3, 2)	1
  (3, 3)	1
  (3, 6)	1
  (3, 8)	1
[[0 1 1 1 0 0 1 0 1]
 [0 2 0 1 0 1 1 0 1]
 [1 0 0 1 1 0 1 1 1]
 [0 1 1 1 0 0 1 0 1]]


- TF-IDF 방식 수치화

In [11]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [12]:
## TFIDF 인스턴스 생성
vectorizer = TfidfVectorizer()
vectorizer.fit(corpus)

In [13]:
### 단어사전 확인
print(f'[단어사전 단어:인덱스]\n{vectorizer.vocabulary_}')
print(f'[단어사전 단어:IDF]\n{vectorizer.idf_}')

[단어사전 단어:인덱스]
{'this': 8, 'is': 3, 'the': 6, 'first': 2, 'document': 1, 'second': 5, 'and': 0, 'third': 7, 'one': 4}
[단어사전 단어:IDF]
[1.91629073 1.22314355 1.51082562 1.         1.91629073 1.91629073
 1.         1.91629073 1.        ]


In [14]:
vectorizer.transform(corpus).toarray()

array([[0.        , 0.46979139, 0.58028582, 0.38408524, 0.        ,
        0.        , 0.38408524, 0.        , 0.38408524],
       [0.        , 0.6876236 , 0.        , 0.28108867, 0.        ,
        0.53864762, 0.28108867, 0.        , 0.28108867],
       [0.51184851, 0.        , 0.        , 0.26710379, 0.51184851,
        0.        , 0.26710379, 0.51184851, 0.26710379],
       [0.        , 0.46979139, 0.58028582, 0.38408524, 0.        ,
        0.        , 0.38408524, 0.        , 0.38408524]])

In [17]:
### 차피 단어가 늘어나면 줄이 더 늘어남 -> 근본적인 해결책은 되지 않는다

### 벡터유사도(Vector Similarity)

In [21]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

doc_list=['if you take the blue pill, the story ends' ,
 'if you take the red pill, you stay in Wonderland',
 'if you take the red pill, I show you how deep the rabbit hole goes']

tfidf_vect = TfidfVectorizer()

feature_vect = tfidf_vect.fit_transform( doc_list )

In [23]:
## cosine_similarity(X, y) : 코사인 유사도
# - X : 비교기준이되는문서의피처행렬
# - y : 비교하고자하는문서의피처행렬
result = cosine_similarity(feature_vect[0] , feature_vect)
print( result )
# 같은 문장이니까 1나옴

[[1.         0.40207758 0.40425045]]


In [1]:
# jamo 변환함수 설치
# !pip install jamo

Defaulting to user installation because normal site-packages is not writeable
Collecting jamo
  Downloading jamo-0.4.1-py3-none-any.whl.metadata (2.3 kB)
Downloading jamo-0.4.1-py3-none-any.whl (9.5 kB)
Installing collected packages: jamo
Successfully installed jamo-0.4.1
