# 2. 텍스트 전처리(Text preprocessing)

In [None]:
import nltk
nltk.download('punkt')
from nltk.tokenize import word_tokenize
print(word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [None]:
from nltk.tokenize import WordPunctTokenizer

print(WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [None]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence

print(text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


In [None]:
import nltk
from nltk.corpus import stopwords
nltk.download('stopwords')

stopwords.words('english')[:20]

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


['i',
 'me',
 'my',
 'myself',
 'we',
 'our',
 'ours',
 'ourselves',
 'you',
 "you're",
 "you've",
 "you'll",
 "you'd",
 'your',
 'yours',
 'yourself',
 'yourselves',
 'he',
 'him',
 'his']

In [None]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

ex = "Facebook has blocked Australian users from sharing or viewing news content on the platform, causing much alarm over public access to key information."
stop_word = set(stopwords.words('english'))

word_token = word_tokenize(ex)

result = list()
for w in word_token:
    if w not in stop_word:
        result.append(w)

print('그냥 토큰화 : ', word_token)
print('토큰화 후 불용어 제거 결과 : ', result)

그냥 토큰화 :  ['Facebook', 'has', 'blocked', 'Australian', 'users', 'from', 'sharing', 'or', 'viewing', 'news', 'content', 'on', 'the', 'platform', ',', 'causing', 'much', 'alarm', 'over', 'public', 'access', 'to', 'key', 'information', '.']
토큰화 후 불용어 제거 결과 :  ['Facebook', 'blocked', 'Australian', 'users', 'sharing', 'viewing', 'news', 'content', 'platform', ',', 'causing', 'much', 'alarm', 'public', 'access', 'key', 'information', '.']


In [None]:
import nltk
nltk.download('wordnet')

from nltk.stem import WordNetLemmatizer
n = WordNetLemmatizer()
words = ['Facebook', 'has', 'blocked', 'Australian', 'users', 'from', 'sharing', 'or', 'viewing', 'news', 'content', 'on', 'the', 'platform', 'causing', 'much', 'alarm', 'over', 'public', 'access', 'to', 'key', 'information']
print([n.lemmatize(w) for w in words])

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.
['Facebook', 'ha', 'blocked', 'Australian', 'user', 'from', 'sharing', 'or', 'viewing', 'news', 'content', 'on', 'the', 'platform', 'causing', 'much', 'alarm', 'over', 'public', 'access', 'to', 'key', 'information']


In [None]:
n.lemmatize('has', 'v')

'have'

In [None]:
from nltk.stem import PorterStemmer

s = PorterStemmer()
text = "Facebook has blocked Australian users from sharing or viewing news content on the platform, causing much alarm over public access to key information."

words = word_tokenize(text)
print('토큰화 결과 : ', words)
print('어간 추출 결과 : ', [s.stem(w) for w in words])

토큰화 결과 :  ['Facebook', 'has', 'blocked', 'Australian', 'users', 'from', 'sharing', 'or', 'viewing', 'news', 'content', 'on', 'the', 'platform', ',', 'causing', 'much', 'alarm', 'over', 'public', 'access', 'to', 'key', 'information', '.']
어간 추출 결과 :  ['facebook', 'ha', 'block', 'australian', 'user', 'from', 'share', 'or', 'view', 'news', 'content', 'on', 'the', 'platform', ',', 'caus', 'much', 'alarm', 'over', 'public', 'access', 'to', 'key', 'inform', '.']


In [None]:
import re

r =re.compile('a.c') # . 자리에 어떠한 문자가 들어오든 찾는다.

In [None]:
print(r.search('asc'))

<re.Match object; span=(0, 3), match='asc'>


In [None]:
r = re.compile('a*c')

In [None]:
r.search('aebsxecc')

<re.Match object; span=(6, 7), match='c'>

In [None]:
r = re.compile('ab{2}c')

In [None]:
r.search('abbc')

<re.Match object; span=(0, 4), match='abbc'>

In [None]:
ex = '정 총리는 이날 정부서울청사에서 주재한 백신·치료제 상황점검회의에서 "최근 고령층에 대한 AZ 백신 접종 유보 결정을 계기로 백신의 안전성을 우려하는 목소리가 있는 걸로 안다"며 이같이 말했다.'
re.split(' ', ex)

['정',
 '총리는',
 '이날',
 '정부서울청사에서',
 '주재한',
 '백신·치료제',
 '상황점검회의에서',
 '"최근',
 '고령층에',
 '대한',
 'AZ',
 '백신',
 '접종',
 '유보',
 '결정을',
 '계기로',
 '백신의',
 '안전성을',
 '우려하는',
 '목소리가',
 '있는',
 '걸로',
 '안다"며',
 '이같이',
 '말했다.']

In [None]:
ex = '''이름 : 김철수
전화번호 : 010 - 1234 - 1234
나이 : 30
성별 : 남'''

re.findall("\d+", ex)

['010', '1234', '1234', '30']

In [None]:
ex = '정 총리는 "50여 개국에서 승인을 받았고 며칠 전엔 세계보건기구(WHO)도 긴급사용승인을 했다"며 "접종이 시작된 국가들에서 심각한 부작용 사례도 보고된 적이 없다"고 강조했다.'

re.sub('WHO', '더블유에이치오', ex)

'정 총리는 "50여 개국에서 승인을 받았고 며칠 전엔 세계보건기구(더블유에이치오)도 긴급사용승인을 했다"며 "접종이 시작된 국가들에서 심각한 부작용 사례도 보고된 적이 없다"고 강조했다.'

In [None]:
from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

text = "A barber is a person. a barber is good person. a barber is huge person. he Knew A Secret! The Secret He Kept is huge secret. Huge secret. His barber kept his word. a barber kept his word. His barber kept his secret. But keeping and keeping such a huge secret to himself was driving the barber crazy. the barber went up a huge mountain."

In [None]:
text = sent_tokenize(text)  # 문장 토큰화 진행

In [None]:
# 문장으로 진행된 작업을 정제하여 단어 토큰화 수행

vocab = {}
sentences = list()
stop_words = set(stopwords.words('english')) # 영어 불용어 기준으로 규정

for i in text:
    sentences = word_tokenize(i)  # 단어 토큰화를 진행
    result = []
    # print(sentences)
    for word in sentences:
        # print(type(word), word)
        word = word.lower()  # 모든 단어를 소문자로 변환
        if word not in stop_words: # 불용어에 포함되지 않는 단어만 선별
            if len(word) > 2:  #길이가 짧은 단어 불포함
                result.append(word)

                if word not in vocab:  # 단어를 vocab 사전에 하나씩 넣는다.
                    vocab[word] = 0   # 이때 동일한 단어가 없으면 0
                vocab[word] += 1      # 이미 해당 단어가 있으면 숫자를 1씩 증가
    sentences.append(result)
print(sentences)



['the', 'barber', 'went', 'up', 'a', 'huge', 'mountain', '.', ['barber', 'went', 'huge', 'mountain']]


In [None]:
print(vocab)

{'barber': 8, 'person': 3, 'good': 1, 'huge': 5, 'knew': 1, 'secret': 6, 'kept': 4, 'word': 2, 'keeping': 2, 'driving': 1, 'crazy': 1, 'went': 1, 'mountain': 1}


In [None]:
vocab_sorted = sorted(vocab.items(), key= lambda x:x[1], reverse=True)
print(vocab_sorted)

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3), ('word', 2), ('keeping', 2), ('good', 1), ('knew', 1), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)]


In [None]:
word_to_index = {}
i = 0
for (word, frequency) in vocab_sorted:
    if frequency > 1:  # 빈도수가 적은 단어는 제외
        i +=1
        word_to_index[word] = i
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7}


In [None]:
vocab_size = 5
words_frequency = [w for w,c in word_to_index.items() if c >= vocab_size + 1] # 인덱스가 5 초과인 단어 제거
for w in words_frequency:
    del word_to_index[w] # 해당 단어에 대한 인덱스 정보를 삭제
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


In [None]:
word_to_index['OOV'] = len(word_to_index)+1
# word_to_index의 제일 마지막 인덱스 번호를 부여한다.

In [None]:
# 이제 word_to_index를 사용하여 sentences의 모든 단어들을 맵핑되는 정수로 인코딩한다.

encoded = []
for s in sentences:
    temp = []
    for w in s :  # 정제 과정에서 삭제된 단어를 만날 경우 에러 발생시 처리를 위히여
        try:        # try~ except 구문을 사용한다.
            temp.append(word_to_index[w])
        except KeyError:
            temp.append(word_to_index['OOV'])
    encoded.append(temp)
print(encoded)

[[6, 6, 6], [6, 6, 6, 6, 6, 6], [6, 6, 6, 6], [6, 6], [6], [6, 6, 6, 6], [6, 6, 6, 6, 6, 6, 6, 6], [6], [1, 6, 3, 6]]


In [None]:
sentences

['the',
 'barber',
 'went',
 'up',
 'a',
 'huge',
 'mountain',
 '.',
 ['barber', 'went', 'huge', 'mountain']]

In [None]:
from tensorflow.keras.preprocessing.text import Tokenizer

In [None]:
sentences=[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]

In [None]:
tokenizer = Tokenizer()
tokenizer.fit_on_texts(sentences)
# # fit_on_texts()안에 코퍼스를 입력으로 하면 빈도수를 기준으로 단어 집합을 생성한다.

print(tokenizer.word_counts)

OrderedDict([('barber', 8), ('person', 3), ('good', 1), ('huge', 5), ('knew', 1), ('secret', 6), ('kept', 4), ('word', 2), ('keeping', 2), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)])


In [None]:
print(tokenizer.texts_to_sequences(sentences))

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


In [None]:
vocab_size = 5 # 단어 빈도수가 상위 5개의 단어만 사용
tokenizer = Tokenizer(num_words= vocab_size+2, oov_token='OOV')
# Tokenizer(num_words=숫자)는 빈도수가 높은 상위 몇 개의 단어만 사용하겠다고 지정
# 빈도수 높은 5개의 단어 + 패딩할때 생기는 인덱스 0 + oov 인덱스까지 계산

tokenizer.fit_on_texts(sentences)

print('단어 OOV 인덱스 : {}'.format(tokenizer.word_index['OOV']))

단어 OOV 인덱스 : 1


In [None]:
print(tokenizer.texts_to_sequences(sentences))

[[2, 6], [2, 1, 6], [2, 4, 6], [1, 3], [3, 5, 4, 3], [4, 3], [2, 5, 1], [2, 5, 1], [2, 5, 3], [1, 1, 4, 3, 1, 2, 1], [2, 1, 4, 1]]


In [None]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

encoded = tokenizer.texts_to_sequences(sentences)
last_value = len(tokenizer.word_index)+1

padded = pad_sequences(encoded, padding='post', maxlen=5, value=last_value)
# maxlen= 으로 데이터의 크기를 조절했다.
# 빈 공간을 지정 값으로 대체하기 위해서 value= 인자를 사용한다.

padded

array([[ 2,  6, 15, 15, 15],
       [ 2,  1,  6, 15, 15],
       [ 2,  4,  6, 15, 15],
       [ 1,  3, 15, 15, 15],
       [ 3,  5,  4,  3, 15],
       [ 4,  3, 15, 15, 15],
       [ 2,  5,  1, 15, 15],
       [ 2,  5,  1, 15, 15],
       [ 2,  5,  3, 15, 15],
       [ 4,  3,  1,  2,  1],
       [ 2,  1,  4,  1, 15]], dtype=int32)

# 4. 카운트 기반의 단어 표현(Count based word Representation)

In [None]:
from konlpy.tag import Okt
import re
okt = Okt()

In [None]:
token = re.sub("\.", "", "정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다.")
# 마침표를 제거한다.
token = okt.morphs(token)
# morphemes(형태소) 분석기를 통해 토큰화한다.

word2index={}  # 단어별 빈도수를 저장하기 위한 dict형태의 그릇을 만들고
bow=[]
for voca in token:
    if voca not in word2index.keys():
        word2index[voca]=len(word2index)
        # token을 읽으면서, word2index에 없는 (not in) 단어는 새로 추가하고, 이미 있는 단어는 넘어간다.
        bow.insert(len(word2index)-1, 1)
# bow리스트는 len(word2index)-1만큼의 개수이고, 각 1씩 배정한다. 최소 한번씩은 단어나 출연하기 때문
    else:
        index = word2index.get(voca) # 이미 word2index에 담긴 단어일 경우 기존 인덱스를 가져워
        bow[index] = bow[index]+1 # 출연 빈도에 +1을 해준다.

print(word2index)
print(bow)

{'정부': 0, '가': 1, '발표': 2, '하는': 3, '물가상승률': 4, '과': 5, '소비자': 6, '느끼는': 7, '은': 8, '다르다': 9}
[1, 2, 1, 1, 2, 1, 1, 1, 1, 1]


In [None]:
len(word2index)

10

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
corpus = ['you know I want your love. because I love you.']
vector = CountVectorizer()
print(vector.fit_transform(corpus).toarray())
print(vector.vocabulary_)

[[1 1 2 1 2 1]]
{'you': 4, 'know': 1, 'want': 3, 'your': 5, 'love': 2, 'because': 0}


In [None]:
import pandas as pd
from math import log

In [None]:
docs = ['먹고 싶은 사과',
  '먹고 싶은 바나나',
  '길고 노란 바나나 바나나',
  '저는 과일이 좋아요' ]

vocab = list(set(w for doc in docs for w in doc.split()))
# 전체 문서에서 각 문장을 doc로 담고, doc(각 문장)를 공백을 기준으로 나누어 w(word)로 반환 vocab에 담는다.
vocab.sort()
vocab

['과일이', '길고', '노란', '먹고', '바나나', '사과', '싶은', '저는', '좋아요']

In [None]:
# TF, IDF, 그리고 TF-IDF 값을 구하는 함수를 구현한다.

N = len(docs) # 총 문서의 수

def tf(t, d):
    return d.count(t)
# 문서 d에서의 특정 단어 t의 등장 횟수

def idf(t):
    df = 0
    for doc in docs:
        df += t in doc  # 특정단어 t가 문장에 있으면 +t등장 횟수
    return log(N/(df+1))  # df(t): 특정 단어 t가 등장한 문서의 수

def tfidf(t, d):
    return tf(t,d)*idf(t)

In [None]:
# TF 구현
result=[]
for i in range(N):
    result.append([])
    d = docs[i]
    for j in range(len(vocab)):
        t = vocab[j]
        result[-1].append(tf(t,d))

tf_ = pd.DataFrame(result, columns=vocab)
tf_

Unnamed: 0,과일이,길고,노란,먹고,바나나,사과,싶은,저는,좋아요
0,0,0,0,1,0,1,1,0,0
1,0,0,0,1,1,0,1,0,0
2,0,1,1,0,2,0,0,0,0
3,1,0,0,0,0,0,0,1,1


In [None]:
# IDF 구하기

result = []
for j in range(len(vocab)):
    t = vocab[j]
    result.append(idf(t))

idf_ = pd.DataFrame(result, index=vocab, columns=['IDF'])
idf_

Unnamed: 0,IDF
과일이,0.693147
길고,0.693147
노란,0.693147
먹고,0.287682
바나나,0.287682
사과,0.693147
싶은,0.287682
저는,0.693147
좋아요,0.693147


In [None]:
# TF-IDF 행렬 출력

result =[]
for i in range(N):
    result.append([])
    d = docs[i]
    for j in range(len(vocab)):
        t = vocab[j]

        result[-1].append(tfidf(t,d))

tfidf_ = pd.DataFrame(result, columns=vocab)
tfidf_

Unnamed: 0,과일이,길고,노란,먹고,바나나,사과,싶은,저는,좋아요
0,0.0,0.0,0.0,0.287682,0.0,0.693147,0.287682,0.0,0.0
1,0.0,0.0,0.0,0.287682,0.287682,0.0,0.287682,0.0,0.0
2,0.0,0.693147,0.693147,0.0,0.575364,0.0,0.0,0.0,0.0
3,0.693147,0.0,0.0,0.0,0.0,0.0,0.0,0.693147,0.693147


In [None]:
from numpy import dot
from numpy.linalg import norm
import numpy as np

def cos_sim(A, B):
    return dot(A, B)/(norm(A)*norm(B))

def cos_similarity(v1, v2):
    dot_product = np.dot(v1, v2) #두 벡터에 내적 한다.
    l2_norm = (np.sqrt(sum(np.square(v1))))*np.sqrt(sum(np.square(v2)))
    similarity = dot_product /l2_norm

    return similarity

# 5. 벡터의 유사도(Vector Similarity)

In [None]:
# 코사인 유사도를 구하기
from numpy import dot
from numpy.linalg import norm
import numpy as np
def cos_sim(A, B):
    return dot(A,B)/(norm(A)*norm(B))


# 혹은 이렇게도 구현할 수 있다.
def cos_similarity(v1, v2):
    dot_product = np.dot(v1, v2)
    l2_norm = (np.sqrt(sum(np.square(v1)))) * np.sqrt(sum(np.square(v2)))
    similarity = dot_product / l2_norm
    # np.square()는 배열 원소의 제곱값 (square value)을 구하는 함수

    return similarity

# 6. 토픽 모델링(Topic Modeling)

### 1) LSA 실습

In [None]:
# 사이킷런 Twenty Newsgroups을 사용한 실습
# 뉴스그룹 데이터는 뉴스 데이터가 아님
# LSA를 사용해서 문서의 수를 원하는 토픽의 수로 압축한 뒤에 각 토픽당 가장 중요한 단어 5개를 출력하는 실습 수행

import pandas as pd
from sklearn.datasets import fetch_20newsgroups

dataset = fetch_20newsgroups(shuffle=True, random_state=1, remove=('headers', 'footers', 'quotes'))
documents = dataset.data
len(documents)  # 훈련용 데이터 11314 출력

11314

In [None]:
documents[1]
# 뉴스그룹 데이터에는 특수문자가 포함된 다수의 영어문장으로 구성되어져 있다.


"\n\n\n\n\n\n\nYeah, do you expect people to read the FAQ, etc. and actually accept hard\natheism?  No, you need a little leap of faith, Jimmy.  Your logic runs out\nof steam!\n\n\n\n\n\n\n\nJim,\n\nSorry I can't pity you, Jim.  And I'm sorry that you have these feelings of\ndenial about the faith you need to get by.  Oh well, just pretend that it will\nall end happily ever after anyway.  Maybe if you start a new newsgroup,\nalt.atheist.hard, you won't be bummin' so much?\n\n\n\n\n\n\nBye-Bye, Big Jim.  Don't forget your Flintstone's Chewables!  :) \n--\nBake Timmons, III"

In [None]:
# target_name에는 본래 이 뉴스그룹 데이터가 어떤 20개의 카테고리를 갖고있었는지가 저장되어져 있다.
print(dataset.target_names)

['alt.atheism', 'comp.graphics', 'comp.os.ms-windows.misc', 'comp.sys.ibm.pc.hardware', 'comp.sys.mac.hardware', 'comp.windows.x', 'misc.forsale', 'rec.autos', 'rec.motorcycles', 'rec.sport.baseball', 'rec.sport.hockey', 'sci.crypt', 'sci.electronics', 'sci.med', 'sci.space', 'soc.religion.christian', 'talk.politics.guns', 'talk.politics.mideast', 'talk.politics.misc', 'talk.religion.misc']


In [None]:
# 텍스트 전처리 수행

news_df = pd.DataFrame({'document':documents})
news_df['clean_doc'] = news_df['document'].str.replace('[^a-zA-Z]',' ')
# 특수 문자를 제거하고 알파벳만 담는다.

news_df['clean_doc'] = news_df['clean_doc'].apply(lambda x: ' '.join([w for w in x.split() if len(w)>3]))
# 길이가 3이하인 단어는 제거

news_df['clean_doc'] = news_df['clean_doc'].apply(lambda x: x.lower())

In [None]:
news_df['clean_doc'][1]

'yeah expect people read actually accept hard atheism need little leap faith jimmy your logic runs steam sorry pity sorry that have these feelings denial about faith need well just pretend that will happily ever after anyway maybe start newsgroup atheist hard bummin much forget your flintstone chewables bake timmons'

In [None]:
# 토큰화 진행 및 불용어 제거
import nltk
nltk.download('stopwords')

from nltk.corpus import stopwords
stop_words = stopwords.words('english') # NLTK로부터 불용어를 받아온다.
tokenized_doc = news_df['clean_doc'].apply(lambda x: x.split()) # 토큰화
tokenized_doc = tokenized_doc.apply(lambda x: [item for item in x if item not in stop_words]) # 불용어 제거

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [None]:
print(tokenized_doc[1])

['yeah', 'expect', 'people', 'read', 'actually', 'accept', 'hard', 'atheism', 'need', 'little', 'leap', 'faith', 'jimmy', 'logic', 'runs', 'steam', 'sorry', 'pity', 'sorry', 'feelings', 'denial', 'faith', 'need', 'well', 'pretend', 'happily', 'ever', 'anyway', 'maybe', 'start', 'newsgroup', 'atheist', 'hard', 'bummin', 'much', 'forget', 'flintstone', 'chewables', 'bake', 'timmons']


In [None]:
# tf-idf 행렬 만들기
# TfidfVectorizer는 토큰화가 되어있지 않은 텍스트 데이터를 입력으로 사용하기 때문에 역 토큰화 작업을 수행한다.

# 토큰화 취소 작업
detokenized_doc = []
for i in range(len(news_df)):
    t = ' '.join(tokenized_doc[i])
    detokenized_doc.append(t)

news_df['clean_doc'] = detokenized_doc

print(news_df['clean_doc'][1])

yeah expect people read actually accept hard atheism need little leap faith jimmy logic runs steam sorry pity sorry feelings denial faith need well pretend happily ever anyway maybe start newsgroup atheist hard bummin much forget flintstone chewables bake timmons


In [None]:
# 상위 1000개의 단어만 TF-IDF 행렬 생성

from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(stop_words='english', max_features=1000, max_df=0.5, smooth_idf=True)
X = vectorizer.fit_transform(news_df['clean_doc'])
X.shape  #(11314, 1000) 출력 확인

(11314, 1000)

In [None]:
# 토픽 모델링 진행
import numpy as np
from sklearn.decomposition import TruncatedSVD

svd_model = TruncatedSVD(n_components=20, algorithm='randomized', n_iter=100, random_state=122)
# 토픽의 숫자 n_components 파라미터로 지정
svd_model.fit(X)
print(len(svd_model.components_)) # 20
# svd_model.componets_는 앞서 배운 LSA에서 V^T에 해당
print(np.shape(svd_model.components_)) #(20, 1000)
# 정확하게 토픽의 수 t × 단어의 수의 크기를 가진다.

20
(20, 1000)


In [None]:
terms = vectorizer.get_feature_names() # 위에서 저장한 1000의 단어 terms에 담는다.

def get_topics(components, feature_names, n=5):
    for idx, topic in enumerate(components):
        print('Topic %d:' % (idx+1), [(feature_names[i], topic[i].round(5)) for i in topic.argsort()[:-n-1:-1]])
        # arg를 정렬해서 역으로 5개를 뽑는다. 즉, [:-6]를 뒤에서부터 세어서 출력한다.
        # 각 20개의 행의 각 1,000개의 열 중 가장 값이 큰 5개의 값을 찾아서 단어로 출력한다.
get_topics(svd_model.components_, terms)

Topic 1: [('like', 0.21386), ('know', 0.20046), ('people', 0.19293), ('think', 0.17805), ('good', 0.15128)]
Topic 2: [('thanks', 0.32888), ('windows', 0.29088), ('card', 0.18069), ('drive', 0.17455), ('mail', 0.15111)]
Topic 3: [('game', 0.37064), ('team', 0.32443), ('year', 0.28154), ('games', 0.2537), ('season', 0.18419)]
Topic 4: [('drive', 0.53324), ('scsi', 0.20165), ('hard', 0.15628), ('disk', 0.15578), ('card', 0.13994)]
Topic 5: [('windows', 0.40399), ('file', 0.25436), ('window', 0.18044), ('files', 0.16078), ('program', 0.13894)]
Topic 6: [('chip', 0.16114), ('government', 0.16009), ('mail', 0.15625), ('space', 0.1507), ('information', 0.13562)]
Topic 7: [('like', 0.67086), ('bike', 0.14236), ('chip', 0.11169), ('know', 0.11139), ('sounds', 0.10371)]
Topic 8: [('card', 0.46633), ('video', 0.22137), ('sale', 0.21266), ('monitor', 0.15463), ('offer', 0.14643)]
Topic 9: [('know', 0.46047), ('card', 0.33605), ('chip', 0.17558), ('government', 0.1522), ('video', 0.14356)]
Topic 10

### 2) LDA 실습하기

In [None]:
# LSA 챕터에서 사용하였던 Twenty Newsgroups 사용
# 전처리 과정을 거친 tokenized_doc을 그대로 사용한다.
tokenized_doc[:5]

0    [well, sure, story, seem, biased, disagree, st...
1    [yeah, expect, people, read, actually, accept,...
2    [although, realize, principle, strongest, poin...
3    [notwithstanding, legitimate, fuss, proposal, ...
4    [well, change, scoring, playoff, pool, unfortu...
Name: clean_doc, dtype: object

In [None]:
# 1) 정수 인코딩과 단어 집합 만들기

from gensim import corpora
dictionary = corpora.Dictionary(tokenized_doc)
corpus = [dictionary.doc2bow(text) for text in tokenized_doc]
# 각 단어를 (word_id, word_frequency)의 형태로 출력
# word_id는 단어가 정수 인코딩된 값이고, word_frequency는 해당 뉴스에서의 해당 단어의 빈도수를 의미
print(corpus[1])

[(52, 1), (55, 1), (56, 1), (57, 1), (58, 1), (59, 1), (60, 1), (61, 1), (62, 1), (63, 1), (64, 1), (65, 1), (66, 2), (67, 1), (68, 1), (69, 1), (70, 1), (71, 2), (72, 1), (73, 1), (74, 1), (75, 1), (76, 1), (77, 1), (78, 2), (79, 1), (80, 1), (81, 1), (82, 1), (83, 1), (84, 1), (85, 2), (86, 1), (87, 1), (88, 1), (89, 1)]


In [None]:
# 정수 인코딩되기 이전의 기존 단어 확인

print(dictionary[66]) # 66으로 인코딩된 단어는 faith 였음
print(len(dictionary)) # 총 학습된 단어의 개수 확인 # 결과 : 64281

faith
64281


In [None]:
# 2) LDA 모델 훈련시키기

import gensim
NUM_TOPICS = 20 # k=20, 토픽 갯수
ldamodel = gensim.models.ldamodel.LdaModel(corpus, num_topics = NUM_TOPICS, id2word=dictionary, passes=15)
# passes는 알고리즘의 동작 횟수

# num_words=4로 총 4개의 단어만 출력
topics = ldamodel.print_topics(num_words=4)
for topic in topics:
    print(topic)

# 출력 결과의 각 단어 앞에 붙은 수치는 단어의 해당 토픽에 대한 기여도를 보여준다.

(0, '0.013*"information" + 0.010*"mail" + 0.009*"available" + 0.008*"data"')
(1, '0.007*"april" + 0.006*"germany" + 0.006*"navy" + 0.005*"david"')
(2, '0.027*"space" + 0.007*"launch" + 0.007*"nasa" + 0.007*"earth"')
(3, '0.010*"nrhj" + 0.006*"wwiz" + 0.006*"bxom" + 0.006*"gizw"')
(4, '0.042*"drive" + 0.026*"scsi" + 0.024*"card" + 0.024*"disk"')
(5, '0.010*"people" + 0.009*"would" + 0.006*"jesus" + 0.006*"think"')
(6, '0.014*"windows" + 0.012*"file" + 0.009*"window" + 0.009*"files"')
(7, '0.017*"would" + 0.011*"people" + 0.007*"time" + 0.006*"even"')
(8, '0.026*"entry" + 0.026*"output" + 0.020*"file" + 0.015*"program"')
(9, '0.009*"said" + 0.008*"people" + 0.008*"know" + 0.007*"like"')
(10, '0.020*"period" + 0.013*"play" + 0.012*"power" + 0.008*"goal"')
(11, '0.011*"health" + 0.009*"medical" + 0.008*"study" + 0.007*"university"')
(12, '0.014*"government" + 0.008*"public" + 0.008*"encryption" + 0.008*"state"')
(13, '0.015*"chip" + 0.008*"chips" + 0.007*"number" + 0.007*"data"')
(14, '0.0

### 3) LDA 시각화 하기

In [None]:
!pip install pyLDAvis



In [None]:
import pyLDAvis.gensim
pyLDAvis.enable_notebook()
vis = pyLDAvis.gensim.prepare(ldamodel, corpus, dictionary)
pyLDAvis.display(vis)

In [None]:
# 4) 문서 별 토픽 분포 보기
# 각 문서의 토픽 분포는 이미 훈련된 LDA 모델인 ldamodel[]에 전체 데이터가 정수 인코딩 된 결과를 넣은 후에 확인이 가능하다.

for i, topic_list in enumerate(ldamodel[corpus]):
    if i == 5:  # 전체 문서에 확인 가능하나, 5개의 문서만 수행하고 중지한다.
        break
    print(i, '번째 문서의 토픽 비율은', topic_list)

    # 출력 결과를 살펴보면, 0번째 문서의 토픽 비율에서 (1, 0.15287682)은 1번 토픽이 15%의 분포도를 가지는 것을 의미

0 번째 문서의 토픽 비율은 [(1, 0.02106845), (4, 0.11156815), (5, 0.47271356), (7, 0.121322095), (14, 0.022925178), (15, 0.15421031), (17, 0.085708365)]
1 번째 문서의 토픽 비율은 [(2, 0.025716398), (4, 0.05553543), (5, 0.37832165), (13, 0.22192067), (18, 0.30021316)]
2 번째 문서의 토픽 비율은 [(7, 0.36074966), (10, 0.016935483), (12, 0.021234037), (17, 0.58817756)]
3 번째 문서의 토픽 비율은 [(4, 0.012050203), (7, 0.44534928), (12, 0.3098471), (17, 0.023012893), (18, 0.19854656)]
4 번째 문서의 토픽 비율은 [(8, 0.045858104), (9, 0.23605196), (14, 0.42962876), (18, 0.25883153)]


In [None]:
def make_topictable_per_doc(ldamodel, corpus):
    topic_table = pd.DataFrame()

    for i, topic_list in enumerate(ldamodel[corpus]):
        doc = topic_list[0] if ldamodel.per_word_topics else topic_list
        doc = sorted(doc, key=lambda x: (x[1]), reverse=True)

        for j, (topic_num, prop_topic) in enumerate(doc):
            if j == 0:
                topic_table = topic_table.append(pd.Series([int(topic_num), round(prop_topic,4),topic_list]), ignore_index=True)
            else:
                break
    return(topic_table)

In [None]:
topictable = make_topictable_per_doc(ldamodel, corpus)
topictable = topictable.reset_index()
topictable.columns = ['문서 번호', '가장 비중이 높은 토픽 번호', '가장 높은 토픽의 비중', '각 토픽의 비중']
topictable[:10]