# Scikit-Learn BOW 인코더 

In [4]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pylab import rcParams
import matplotlib.pylab as plt
import matplotlib as mpl
import matplotlib.font_manager as fm
import missingno as msno
font_list = fm.findSystemFonts(fontpaths = None, fontext = 'ttf')
font_list[:]

plt.rc('font', family='AppleGothic') # For Windows
print(plt.rcParams['font.family'])


['AppleGothic']


In [2]:
# TfidVectorizer = 중요도에 따라서 해당 단어를 줄이는 역할
# HashingVectorizer

In [3]:
# CountVectorizer 기능 3가지
1. 문서를 토큰 리스트로 변환
2. 각 문서의 토큰의 출현 빈도를 센다. 
3. 각 문서를 BOW 인코딩 벡터로 변환. 

SyntaxError: invalid syntax (<ipython-input-3-8952fa1c3726>, line 2)

In [None]:
# Vectorize 클래스 사용법

1. 클래스 객체 생성
2. 말뭉치를 넣고 fit method 실행
3. vocabulary_ 속성에 단어장이 자동 생성됨
4. transform 메서드로 다른 문서를 BOW 인코딩
5. BOW 인코딩 결과는 sparse 행렬(0이 많이 들어간 행렬을 만들어 저장공간(메모리)이 부족할때 이를 방지하기 위해 0이 아닌부분에 대해서만 저장함) 로 만들어지므로 toarray 메서드로 spare에서 보통 행렬로 변환 


In [5]:
# 1. 클래스 객체 생성 
from sklearn.feature_extraction.text import CountVectorizer
corpus = [
 'This is the first document.',
 'This is the second document.',
 'This is the third document.',
 'This is the fourth document.',
 'This is the fifth document.',
]

vect = CountVectorizer()   #클래스 객체 생성

In [6]:
# 2. 망뭉치를 넣고 fit method 실행

vect.fit(corpus)


CountVectorizer(analyzer='word', binary=False, decode_error='strict',
                dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
                lowercase=True, max_df=1.0, max_features=None, min_df=1,
                ngram_range=(1, 1), preprocessor=None, stop_words=None,
                strip_accents=None, token_pattern='(?u)\\b\\w\\w+\\b',
                tokenizer=None, vocabulary=None)

In [7]:
# 3. Vocabulary 속성이 자동생성됨
vect.vocabulary_

{'this': 8,
 'is': 4,
 'the': 6,
 'first': 2,
 'document': 0,
 'second': 5,
 'third': 7,
 'fourth': 3,
 'fifth': 1}

In [8]:
# 4. transform 메서드로 각 문서를 BOW 인코딩

vect.transform(['This is not the the second second document.']).toarray()



#하지만 위 방식은 너무 오래걸림으로 사용하지 않고, hash trick 를 사용. 

array([[1, 0, 0, 0, 1, 2, 2, 0, 1]])

In [9]:
vect.transform(corpus).toarray()

array([[1, 0, 1, 0, 1, 0, 1, 0, 1],
       [1, 0, 0, 0, 1, 1, 1, 0, 1],
       [1, 0, 0, 0, 1, 0, 1, 1, 1],
       [1, 0, 0, 1, 1, 0, 1, 0, 1],
       [1, 1, 0, 0, 1, 0, 1, 0, 1]])

In [None]:
# 0. Document = 1
# 1. fifth = 0
# 2. first = 0
# 3. fourth = 0
# 4. is = 1 
# 5. second = 2
# 6. the = 2
# 7. third = 0
# 8. thiis = 1

In [None]:
# Vectorizer 인수
stop_words

max_df

min_df

ngram_range

analyzer

token_pattern 

In [None]:
# N gram
1-gram (monogram) : "I", "am", "a", "boy"
3-gram (trigram) : "I am a", "am a boy"
    
    
vect.CountVectorizer(ngram_range=(1,2)).fit(corpus)
#n-gram을 사용하는데 mono, bi를 써라라는 인수 적용. 

In [None]:
# TF-IDF(Term Frequency - Inverse Document Frequency )
 
# Term Frequency = 단어가 몇번 나왔냐를 BOW 인코딩 벡터에 숫자로 기입했었음. 
# Term Frequency * IDF 를 곱해준다. 
# IDF = 그 단어가 쓰인 문서가 몇개있는지를 확인하는것. 
# 특정 단어가 3개의 문서에서 조회된다면, IDF = 3. 
# IDF 가 높으면, 중요하지 않음. 따라서 count를 작게(inverse)해야한다. 
# 많이 쓰인 단어일 수록 중요하지 않음.  


In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [None]:
tfidv = TfidfVectorizer().fit(corpus)
tfidv.transform(corpus).toarray()

In [None]:
# Hash trick 
# CountVectorizer는 매모리에서 수행. 즉 처리할 문서가 크면 단어장 딕셔너리가 커짐. 이에 속도가 느려짐
# 아래가 vocabulary

vect.vocabulary_

In [None]:
# 따라서 HashingVectorizer를 사용하면 hack function을 사용
- 단어에 대한 인덱스 번호를 수식으로 생성
- 사전 메모리가 없고 및 실행 시간을 줄일수 있다. 
- 단어의 충돌이 있을 수 있다. 

In [None]:
# Gensim 패키지
- topic 모델링
- TF-IDF 인코딩

In [None]:
# Gensim의 BOW 인코딩
# Dictionary 클래스 이용 

In [40]:
# Gensim 실습
# 1. 말뭉치 만들기

corpus = [
    'This is the first document.',
    'This is the second second document.',
    'And the third one.', 
    'Is this the first document?',
    'The last document?',
]

In [41]:
# 2. 토큰 리스트 생성
token_list = [[text for text in doc.split()] for doc in corpus]
token_list

[['This', 'is', 'the', 'first', 'document.'],
 ['This', 'is', 'the', 'second', 'second', 'document.'],
 ['And', 'the', 'third', 'one.'],
 ['Is', 'this', 'the', 'first', 'document?'],
 ['The', 'last', 'document?']]

In [42]:
# 3. Dictionary 객체 생성
from gensim.corpora import Dictionary

dictionary = Dictionary(token_list)  #token_list를 dictionary로 만들기 
dictionary.token2id

{'This': 0,
 'document.': 1,
 'first': 2,
 'is': 3,
 'the': 4,
 'second': 5,
 'And': 6,
 'one.': 7,
 'third': 8,
 'Is': 9,
 'document?': 10,
 'this': 11,
 'The': 12,
 'last': 13}

In [43]:
# 4. BOW 인코딩
term_matrix = [dictionary.doc2bow(token) for token in token_list]
term_matrix #sparse matrix 형식으로 나옴. 

#(0,1) = 0번 재 단어가 1번 쓰였다. 

[[(0, 1), (1, 1), (2, 1), (3, 1), (4, 1)],
 [(0, 1), (1, 1), (3, 1), (4, 1), (5, 2)],
 [(4, 1), (6, 1), (7, 1), (8, 1)],
 [(2, 1), (4, 1), (9, 1), (10, 1), (11, 1)],
 [(10, 1), (12, 1), (13, 1)]]

In [44]:
# 5. TF-IDF 인코딩
from gensim.models import TfidfModel

tfidf = TfidfModel(term_matrix)  # term matrix를 TF-IDF모델에 넣음. 


# 각각의 문서에 대해서 중요도를 상대적으로 측정. 

for doc in tfidf[term_matrix]:
    print("doc:")
    for k, v in doc: 
        print(k, v)


doc:
0 0.49633406058198626
1 0.49633406058198626
2 0.49633406058198626
3 0.49633406058198626
4 0.12087183801361165
doc:
0 0.25482305694621393
1 0.25482305694621393
3 0.25482305694621393
4 0.0620568558708622
5 0.8951785160431313
doc:
4 0.07979258234193365
6 0.5755093812740171
7 0.5755093812740171
8 0.5755093812740171
doc:
2 0.3485847413542797
4 0.08489056411237639
9 0.6122789185961829
10 0.3485847413542797
11 0.6122789185961829
doc:
10 0.37344696513776354
12 0.6559486886294514
13 0.6559486886294514


In [20]:
tfidf

<gensim.models.tfidfmodel.TfidfModel at 0x127b62690>

In [45]:
# Topic Modelling = Gensim 활용. 

# 1. 텍스트 데이터 다운로드 
from sklearn.datasets import fetch_20newsgroups

newsgroups = fetch_20newsgroups(
    categories=["comp.graphics", "rec.sport.baseball", "sci.med"])

In [None]:
newsgroups.data("sci.med

In [48]:
# 2. 명사 추출 
#%%time 

from nltk.tag import pos_tag
from nltk.tokenize import word_tokenize

tagged_list = [pos_tag(word_tokenize(doc)) for doc in newsgroups.data]
nouns_list = [[t[0] for t in doc if t[1].startswith("N")] for doc in tagged_list]
                    

In [56]:
# 3. 표제어 추출 (복수를 단수로 변환)

from nltk.stem import WordNetLemmatizer
lm = WordNetLemmatizer()

nouns_list = [[lm.lemmatize(w, pos="n") for w in doc] for doc in nouns_list]

In [57]:
# 4. 불용어 제거 

import re
token_list = [[text.lower() for text in doc] for doc in nouns_list]
token_list = [[re.sub(r"[^A-Za-z]+", '', word) for word in doc]
             for doc in token_list]

#[^A-Za-z]를 ''바꾼다. 

In [63]:
from nltk.corpus import stopwords

stop_words = stopwords.words('english')
stop_words += ["", "subject", "article", "line", "year", "month", "address", "keyword", "msg"]

token_list = [[word for word in doc if (word not in stop_words) and (2< len(word)< 10)] for doc in token_list]

In [64]:
# 5. topic 모델링

from gensim import corpora

dictionary = corpora.Dictionary(token_list)
doc_term_matrix = [dictionary.doc2bow(tokens) for tokens in token_list]

In [65]:
# LDA model로 하면 topic modelling이 가능해짐. 

from gensim.models.ldamodel import LdaModel
model = LdaModel(corpus=doc_term_matrix, id2word=dictionary, num_topics=3)

In [66]:
model.print_topics()

[(0,
  '0.009*"lines" + 0.005*"time" + 0.005*"team" + 0.004*"point" + 0.004*"game" + 0.003*"system" + 0.003*"research" + 0.003*"center" + 0.003*"player" + 0.003*"image"'),
 (1,
  '0.014*"lines" + 0.006*"time" + 0.006*"image" + 0.005*"problem" + 0.004*"anyone" + 0.004*"people" + 0.004*"file" + 0.004*"food" + 0.003*"thing" + 0.003*"question"'),
 (2,
  '0.012*"lines" + 0.007*"image" + 0.006*"game" + 0.005*"file" + 0.004*"program" + 0.004*"people" + 0.004*"science" + 0.004*"jpeg" + 0.004*"time" + 0.004*"way"')]

In [67]:
# 6. 토픽 시각화 
import pyLDAvis
import pyLDAvis.gensim

pyLDAvis.enable_notebook()
vis = pyLDAvis.gensim.prepare(model, doc_term_matrix, dictionary)
vis