## 월인

In [192]:
# !pip install -U tensorflow
# !pip install worin
# from worin.tag import Worin

In [27]:
import pandas as pd


text = [
    '남북 고위급회담 대표단 확정..남북 해빙모드 급물살',
    '[남북 고위급 회담]장차관만 6명..판 커지는 올림픽 회담',
    
    '문재인 대통령과 대통령의 영부인 김정숙여사 내외의 동반 1987 관람 후 인터뷰',
    '1987 본 문 대통령.."그런다고 바뀌나? 함께 하면 바뀐다"',
    
    '이명박 전 대통령과 전 대통령의 부인 김윤옥 여사, 그리고 전 대통령의 아들 이시형씨의 동반 검찰출석이 기대됨'
]
 

In [28]:
from konlpy.tag import Okt
tagger = Okt() 


## CountVectorizer
Scikit-learn에서 제공하는 TDM 만드는 모듈인 CountVectorizer를 불러온다.  
CountVectorizer는 토큰이 문서별로 몇 번 등장했는지 행렬로 정리해주는 모듈이다.

CountVectorizer 안에 많은 옵션을 지정해 설정할 수 있다.

max_features=: TDM에 사용할 최대(max) 단어(feature) 수를 지정할 수 있다.  
stop_words=: 영어의 경우 'a', 'the' 와 같은 불필요한 단어를 제거할 수 있다.  
tokenizer=: token(feature)를 만들 때 적용하고 싶은 함수를 지정할 수 있다. 한국어의 경우 형태소 분석 함수를 지정한다.

In [30]:
from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer(tokenizer=tagger.nouns)


### TDM(term-document matrix)
TDM은 cv 뒤에 .fit_transform() 메써드로 만들 수 있다.   
형태소 분석을 같이 하기 때문에 시간이 오래 걸릴 수 있다.   

.fit(): 단어 문서 행렬의 형태를 정하는 메소드로, 각 열에 들어갈 단어를 결정한다. 이 정보는 cv의 내부에 저장된다.  
.transform(): .fit()으로 정한 단어에 데이터를 끼워 맞춘다.  
fit_transform은 fit과 transform 두 개의 메소드를 합친 것이다.  

In [31]:
tdm = cv.fit_transform(text)


In [32]:
cv.get_feature_names()[:10]

['검찰', '고위', '관람', '급', '기대', '김윤옥', '김정숙', '남북', '내외', '단']

In [33]:
tdm

<5x35 sparse matrix of type '<class 'numpy.int64'>'
	with 42 stored elements in Compressed Sparse Row format>

In [34]:
tdm.toarray()

array([[0, 1, 0, 1, 0, 0, 0, 2, 0, 1, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0],
       [0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0,
        1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 2, 0],
       [0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 2, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 1,
        0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 3, 0, 1, 0, 0, 0, 0, 0, 1, 1, 1, 0,
        0, 1, 1, 0, 0, 3, 0, 1, 0, 0, 0, 0, 0]], dtype=int64)

In [35]:
tdm.toarray()

array([[0, 1, 0, 1, 0, 0, 0, 2, 0, 1, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0],
       [0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0,
        1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 2, 0],
       [0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 2, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 1,
        0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 3, 0, 1, 0, 0, 0, 0, 0, 1, 1, 1, 0,
        0, 1, 1, 0, 0, 3, 0, 1, 0, 0, 0, 0, 0]], dtype=int64)

In [36]:
tdm.sum(axis=0)

matrix([[1, 2, 1, 1, 1, 1, 1, 3, 1, 1, 6, 1, 2, 1, 1, 1, 1, 1, 1, 1, 2,
         1, 1, 1, 1, 1, 1, 3, 1, 1, 1, 1, 1, 3, 1]], dtype=int64)

In [37]:
tdm.sum(axis=1)

matrix([[11],
        [ 9],
        [11],
        [ 2],
        [16]], dtype=int64)

In [38]:
word_count  = pd.DataFrame(
    {'단어': cv.get_feature_names(),
     '빈도': tdm.sum(axis=0).flat
    }
)

In [39]:
word_count.sort_values('빈도', ascending=False)

Unnamed: 0,단어,빈도
10,대통령,6
27,전,3
33,회담,3
7,남북,3
12,동반,2
1,고위,2
20,여사,2
22,올림픽,1
23,이명박,1
24,이시형,1


### TF-IDF로 변환
한 번 만든 TDM을 TF-IDF로 변환할 수 있다.

In [42]:
from sklearn.feature_extraction.text import TfidfTransformer
tfidf = TfidfTransformer()
tdm2 = tfidf.fit_transform(tdm)
words = cv.get_feature_names()
for i, n in sorted(zip(tdm[0].indices, tdm[0].data)):
    print(words[i], n)
for i, n in sorted(zip(tdm2[0].indices, tdm2[0].data)):
    print(words[i], n)

고위 1
급 1
남북 2
단 1
대표 1
모드 1
물살 1
해빙 1
확정 1
회담 1
고위 0.24430917615542821
급 0.3028149266649128
남북 0.48861835231085643
단 0.3028149266649128
대표 0.3028149266649128
모드 0.3028149266649128
물살 0.3028149266649128
해빙 0.3028149266649128
확정 0.3028149266649128
회담 0.24430917615542821
