In [None]:
### Topic Modeling
# 문서 집합의 추상적인 주제를 발견하기 위해 사용하는 통계적 모델 중 하나
# 본문에 숨겨진 의미 구조를 발견하기 위해 사용되는 텍스트 마이닝 기법

# 1) 잠재 의미 분석(Latent Semantic Analisys, LSA)

# BoW에 기반한 DTM이나 TF-IDF는 단어의 빈도수를 이용한 수치화 방법 -> 단어 의미 고려 X 토픽 고려 X
# 잠재 의미 분석(Latent Semantic Analysis, LSA) = (Latent Semaintic Indexing, LSI)
#   : DTM의 잠재된 의미를 이끌어내는 방법
#   : SVD(선형대수학의 특이값 분해, Singular Value Decomposition)의 이해가 선행되어야 할 필요가 있음 

# https://wikidocs.net/24949    => 교재 참고

''' 참고
Bag for Words(BoW) : 문서 내에 등장하는 단어들의 순서를 전혀 고려하지 않고 오직 빈도수(몇 번 등장했는가)에 중점
Document-Term Matrix(DTM) : BoW 기반 표현을 통해 문서의 정보를 벡터, 행렬화
TF-IDF (Term Frequency-Inverse Document Frequency) : 기존의 DTM에서 각 단어의 중요도라는 개념을 가중치로 부여하는 기법
'''

In [18]:
import pandas as pd
import numpy as np
A = np.array([[0,0,0,1,0,1,1,0,0],[0,0,0,1,1,0,1,0,0],[0,1,1,0,2,0,0,0,0],[1,0,0,0,0,0,0,1,1]])
print(A)
print('DTM의 크기(shape) :', np.shape(A))

sample_df = pd.read_excel('data/matrix_sample.xlsx')
sample_df

[[0 0 0 1 0 1 1 0 0]
 [0 0 0 1 1 0 1 0 0]
 [0 1 1 0 2 0 0 0 0]
 [1 0 0 0 0 0 0 1 1]]
DTM의 크기(shape) : (4, 9)


Unnamed: 0,-,과일이,길고,노란,먹고,바나나,사과,싶은,저는,좋아요
0,문서1,0,0,0,1,0,1,1,0,0
1,문서2,0,0,0,1,1,0,1,0,0
2,문서3,0,1,1,0,2,0,0,0,0
3,문서4,1,0,0,0,0,0,0,1,1


In [9]:
### 잠재 의미 분석 - Full SVD 실습

U, s, VT = np.linalg.svd(A, full_matrices = True)   # 행렬 U, 특이값 벡터, 직교행렬을 자동으로 도출해주는 메서드
                                                    # U × S × VT를 하면 기존의 행렬 A가 나와야 함
print('행렬 U :')
print(U.round(2))
print('행렬 U의 크기(shape) :',np.shape(U))

print('특이값 벡터 :')
print(s.round(2))
print('특이값 벡터의 크기(shape) :',np.shape(s))

행렬 U :
[[-0.24  0.75  0.   -0.62]
 [-0.51  0.44 -0.    0.74]
 [-0.83 -0.49 -0.   -0.27]
 [-0.   -0.    1.    0.  ]]
행렬 U의 크기(shape) : (4, 4)
특이값 벡터 :
[2.69 2.05 1.73 0.77]
특이값 벡터의 크기(shape) : (4,)


In [11]:
# 대각 행렬의 크기인 4 x 9의 임의의 행렬 생성
S = np.zeros((4, 9))

# 특이값을 대각행렬에 삽입
S[:len(s), :len(s)] = np.diag(s)    # [:n, :n] => 0,0 1,1 ... 로 대각선으로 기입하기 위한 인덱스 사용

print('대각 행렬 S :')
print(S.round(2))
print('대각 행렬의 크기(shape) :')
print(np.shape(S))

대각 행렬 S :
[[2.69 0.   0.   0.   0.   0.   0.   0.   0.  ]
 [0.   2.05 0.   0.   0.   0.   0.   0.   0.  ]
 [0.   0.   1.73 0.   0.   0.   0.   0.   0.  ]
 [0.   0.   0.   0.77 0.   0.   0.   0.   0.  ]]
대각 행렬의 크기(shape) :
(4, 9)


In [12]:
print('직교행렬 VT :')
print(VT.round(2))
print('직교 행렬 VT의 크기(shape) :')
print(np.shape(VT))

직교행렬 VT :
[[-0.   -0.31 -0.31 -0.28 -0.8  -0.09 -0.28 -0.   -0.  ]
 [ 0.   -0.24 -0.24  0.58 -0.26  0.37  0.58 -0.   -0.  ]
 [ 0.58 -0.    0.    0.   -0.    0.   -0.    0.58  0.58]
 [ 0.   -0.35 -0.35  0.16  0.25 -0.8   0.16 -0.   -0.  ]
 [-0.   -0.78 -0.01 -0.2   0.4   0.4  -0.2   0.    0.  ]
 [-0.29  0.31 -0.78 -0.24  0.23  0.23  0.01  0.14  0.14]
 [-0.29 -0.1   0.26 -0.59 -0.08 -0.08  0.66  0.14  0.14]
 [-0.5  -0.06  0.15  0.24 -0.05 -0.05 -0.19  0.75 -0.25]
 [-0.5  -0.06  0.15  0.24 -0.05 -0.05 -0.19 -0.25  0.75]]
직교 행렬 VT의 크기(shape) :
(9, 9)


In [13]:
### U * S * VT가 기존 행렬 A와 같은지 확인 
# -> Numpy의 allclose()는 두 개의 행렬이 동일하면 True를 반환
# np.dot(a, b) : 행렬 a와 b의 곱 => (4*4)*(4*9) 먼저 곱해준 후 => (9*9)*(9*9)
np.allclose(A, np.dot(np.dot(U, S), VT))

True

In [14]:
# 절단된 SVD(Truncated SVD)

# 특이값 벡터를 대입한 대각행렬의 상위 2개만 보존 (2 * 2)
S = S[:2,:2]

print('대각 행렬 S :')
print(S.round(2))

대각 행렬 S :
[[2.69 0.  ]
 [0.   2.05]]


In [15]:
# 직교행렬 U의 2개 열만 보존 (4 * 2)
U = U[:,:2]
print('직교행렬 U :')
print(U.round(2))

행렬 U :
[[-0.24  0.75]
 [-0.51  0.44]
 [-0.83 -0.49]
 [-0.   -0.  ]]


In [16]:
# 전치행렬 VT의 2개 행만 보존 (2 * 9)
VT = VT[:2,:]
print('직교행렬 VT(V의 전치행렬) :')
print(VT.round(2))

직교행렬 VT :
[[-0.   -0.31 -0.31 -0.28 -0.8  -0.09 -0.28 -0.   -0.  ]
 [ 0.   -0.24 -0.24  0.58 -0.26  0.37  0.58 -0.   -0.  ]]


In [19]:
# 축소된 행렬 U, S, VT에 대해서 다시 U × S × VT연산 = A_prime
A_prime = np.dot(np.dot(U,S), VT)
print(A)    # 기존 행렬 A
print(A_prime.round())

[[0 0 0 1 0 1 1 0 0]
 [0 0 0 1 1 0 1 0 0]
 [0 1 1 0 2 0 0 0 0]
 [1 0 0 0 0 0 0 1 1]]
[[ 0. -0. -0.  1.  0.  1.  1. -0. -0.]
 [ 0.  0.  0.  1.  1.  0.  1.  0.  0.]
 [ 0.  1.  1.  0.  2. -0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.  0.  0.  0.]]


In [22]:
### 잠재 의미 분석(LSA) 실습
# 사이킷런에서 Twenty Newsgroups이라고 불리는 20개의 다른 주제를 가진 뉴스그룹 데이터를 제공
# LSA를 사용해서 문서의 수를 원하는 토픽의 수로 압축한 뒤에 각 토픽당 가장 중요한 단어 5개를 출력하는 토픽 모델링 수행

import pandas as pd
from sklearn.datasets import fetch_20newsgroups
import nltk             # pip install nltk
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import TruncatedSVD

In [23]:
### dataset
dataset = fetch_20newsgroups(shuffle=True, random_state=1, remove=('headers','footers', 'quotes'))
documents = dataset.data
print('샘플의 수 :',len(documents))

샘플의 수 : 11314


In [26]:
print(dataset.target_names) # 데이터그룹 확인

['alt.atheism', 'comp.graphics', 'comp.os.ms-windows.misc', 'comp.sys.ibm.pc.hardware', 'comp.sys.mac.hardware', 'comp.windows.x', 'misc.forsale', 'rec.autos', 'rec.motorcycles', 'rec.sport.baseball', 'rec.sport.hockey', 'sci.crypt', 'sci.electronics', 'sci.med', 'sci.space', 'soc.religion.christian', 'talk.politics.guns', 'talk.politics.mideast', 'talk.politics.misc', 'talk.religion.misc']


In [42]:
### 텍스트 전처리
news_df = pd.DataFrame({'document':documents})

# 특수문자 제거 - 영문자가 아닌 문자 여백처리
news_df['clean_doc'] = news_df['document'].str.replace('[^a-zA-Z]', ' ') 

# 3글자 미만의 단어 제거 - apply() : 행/열/전체 셀에 원하는 연산을 지원
news_df['clean_doc'] = news_df['clean_doc'].apply(lambda x : ' '.join([w for w in x.split() if len(w) > 3 ]))  

# 전체 단어 소문자 변환
news_df['clean_doc'] = news_df['clean_doc'].apply(lambda x : x.lower())
news_df['clean_doc'][0]

  news_df['clean_doc'] = news_df['document'].str.replace('[^a-zA-Z]', ' ')


'well sure about story seem biased what disagree with your statement that media ruin israels reputation that rediculous media most israeli media world having lived europe realize that incidences such described letter have occured media whole seem ignore them subsidizing israels existance europeans least same degree think that might reason they report more clearly atrocities what shame that austria daily reports inhuman acts commited israeli soldiers blessing received from government makes some holocaust guilt away after look jews treating other races when they power unfortunate'

In [45]:
### NLTK를 사용하여 불용어 제거 -> nltk.download('stopwords') 코드로 자료 다운
stop_words = stopwords.words('english')
tokenized_doc = news_df['clean_doc'].apply(lambda x: x.split())     # 전체 데이터프레임을 각 단어 리스트(split() -> 리스트반환)로 하여 tokenized_doc에 저장
tokenized_doc = tokenized_doc.apply(lambda x : [item for item in x if item not in stop_words])  # 각 행의 리스트에 있는 단어 중 불용어 제거

In [None]:
### TF-IDF 행렬 만들기

# 역토큰화 - 정제된 단어들을 문자열로 다시 붙이기
detokenized_doc = []
for i in range(len(tokenized_doc)) :
    t = ' '.join(tokenized_doc[i])
    detokenized_doc.append(t)

news_df['clean_doc'] = detokenized_doc

In [53]:
print(len(news_df['clean_doc']))

11314


In [49]:
#  TfidfVectorizer를 통해 단어 1,000개에 대한 TF-IDF 행렬 만들기
vectorizer = TfidfVectorizer(stop_words='english', max_features=1000, max_df=0.5, smooth_idf=True)
            # max_features : 보존할 (상위)단어 개수 / max_df : df에서 빈도수 체크에 사용할 부분 최대값, smooth_idf : Convert to a matrix of TF-IDF features.

X = vectorizer.fit_transform(news_df['clean_doc'])

### TF-IDF 행렬 크기 확인
print('TF-IDF 행렬 크기 :', X.shape)

TF-IDF 행렬 크기 : (11314, 1000)


In [56]:
# TF-IDF 행렬을 다수의 행렬로 분해 - 절단된 SVD 사용
# 기존 뉴스그룹 데이터가 20개의 카테고리를 갖고있었기 때문에, 20개의 토픽을 가졌다고 가정하고 토픽 모델링을 시도

svd_model = TruncatedSVD(n_components=20, algorithm='randomized', n_iter=100, random_state=122)     
            # 절단된 SVD를 생성하는 메서드 / n_components : 토픽 개수
svd_model.fit(X)
print(len(svd_model.components_))
np.shape(svd_model.components_)     # LSA에서의 VT에 해당
        # (20, 1000) -> (토픽수 t * 단어수)의 행렬이 만들어짐

20


(20, 1000)

In [64]:
svd_model.components_.argsort()

array([[847, 130, 446, ..., 626, 456, 481],
       [626, 894, 441, ..., 115, 973, 890],
       [626, 441, 973, ..., 996, 880, 348],
       ...,
       [748, 827, 996, ..., 322, 677, 897],
       [973, 897, 972, ..., 115, 575, 322],
       [972, 508, 748, ..., 890, 322, 677]], dtype=int64)

In [57]:
terms = vectorizer.get_feature_names() # 단어 집합. 1,000개의 단어가 저장됨.

def get_topics(components, feature_names, n=5): # 각 토픽에 해당하는 단어 1000개 중 상위값 n개를 출력 (값이 오름차순으로 저장되어있음)
    for idx, topic in enumerate(components):
        print("Topic %d:" % (idx+1), [(feature_names[i], topic[i].round(5)) for i in topic.argsort()[:-n - 1:-1]])

get_topics(svd_model.components_,terms)

Topic 1: [('like', 0.21386), ('know', 0.20046), ('people', 0.19293), ('think', 0.17805), ('good', 0.15128)]
Topic 2: [('thanks', 0.32888), ('windows', 0.29088), ('card', 0.18069), ('drive', 0.17455), ('mail', 0.15111)]
Topic 3: [('game', 0.37064), ('team', 0.32443), ('year', 0.28154), ('games', 0.2537), ('season', 0.18419)]
Topic 4: [('drive', 0.53324), ('scsi', 0.20165), ('hard', 0.15628), ('disk', 0.15578), ('card', 0.13994)]
Topic 5: [('windows', 0.40399), ('file', 0.25436), ('window', 0.18044), ('files', 0.16078), ('program', 0.13894)]
Topic 6: [('chip', 0.16114), ('government', 0.16009), ('mail', 0.15625), ('space', 0.1507), ('information', 0.13562)]
Topic 7: [('like', 0.67086), ('bike', 0.14236), ('chip', 0.11169), ('know', 0.11139), ('sounds', 0.10371)]
Topic 8: [('card', 0.46633), ('video', 0.22137), ('sale', 0.21266), ('monitor', 0.15463), ('offer', 0.14643)]
Topic 9: [('know', 0.46047), ('card', 0.33605), ('chip', 0.17558), ('government', 0.1522), ('video', 0.14356)]
Topic 10



##### 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA) : 토픽모델링 대표 알고리즘 

In [None]:
 ### 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA)
 # 문서들은 토픽들의 혼합으로 구성되어져 있으며, 토픽들은 확률 분포에 기반하여 단어들을 생성한다고 가정
 # 데이터가 주어지면, LDA는 문서가 생성되던 과정을 역추적
 
 # LDA는 앞에서 한 빈도수 기반의 표현 방법인 BoW의 행렬 DTM 또는 TF-IDF 행렬을 입력해야 함

In [None]:
# 시험문제~~~~ https://wikidocs.net/40710

In [71]:
# 이전에 데이터 전처리를 수행한 tokenized_doc 활용하기

# dictionary에 각 단어를 (word_id(단어를 정수로 인코딩한 값), word_frequency(해당 뉴스에서의 해당 단어의 빈도수))의 형태로 변환
from gensim import corpora  # pip install gensim
dictionary = corpora.Dictionary(tokenized_doc)
corpus = [dictionary.doc2bow(text) for text in tokenized_doc]

print(corpus[0]) # 첫번째 뉴스의 단어 데이터 출력
print(dictionary[0])  # 정수로 인코딩 된 값이 어떤 단어인지 확인 가능
print(len(dictionary))  # 전체 단어 개수

[(0, 1), (1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1), (7, 1), (8, 1), (9, 1), (10, 1), (11, 1), (12, 1), (13, 1), (14, 1), (15, 1), (16, 1), (17, 1), (18, 1), (19, 1), (20, 1), (21, 2), (22, 2), (23, 1), (24, 1), (25, 1), (26, 1), (27, 1), (28, 1), (29, 4), (30, 1), (31, 1), (32, 1), (33, 1), (34, 1), (35, 1), (36, 1), (37, 1), (38, 1), (39, 1), (40, 1), (41, 1), (42, 2), (43, 1), (44, 1), (45, 1), (46, 1), (47, 1), (48, 1), (49, 1), (50, 1), (51, 1), (52, 1), (53, 1), (54, 1)]
acts
64281


In [None]:
# 기존 뉴스데이터 카테고리가 20개였으므로 토픽의 개수를 20으로 하여 LDA모델을 학습
import gensim
NUM_TOPICS = 20     # k=20 (20개의 토픽)
ldamodel = gensim.models.ldamodel.LdaModel(corpus, num_topics=NUM_TOPICS, id2word=dictionary, passes=15)
topics = ldamodel.print_topics(num_words=4) # 토픽 당 4개 단어 출력
for topic in topics :
    print(topic)

In [None]:
print(ldamodel.print_topics())

In [78]:
### LDA 시각화하기(pyLDAvis)
# pip install pyLDAvis

#### 토픽 별 단어 분포 확인

import pyLDAvis.gensim_models

pyLDAvis.enable_notebook()
vis = pyLDAvis.gensim_models.prepare(ldamodel, corpus, dictionary)
pyLDAvis.display(vis)       

  by='saliency', ascending=False).head(R).drop('saliency', 1)


In [79]:
#### 문서 별 토픽 분포 보기
# 상위 10개의 문서에 대해서만 토픽 분포를 확인
for i, topic_list in enumerate(ldamodel[corpus]):
    if i==10: break
    print(i,'번째 문서의 topic 비율은',topic_list)  # 해당 토픽이 해당 문서에서 차지하는 분포도

0 번째 문서의 topic 비율은 [(2, 0.18993153), (7, 0.37510806), (11, 0.42123586)]
1 번째 문서의 topic 비율은 [(1, 0.027502779), (3, 0.034984324), (11, 0.888853), (17, 0.027591292)]
2 번째 문서의 topic 비율은 [(2, 0.015138431), (3, 0.08067872), (7, 0.27104896), (11, 0.2795692), (16, 0.3227346), (18, 0.019321565)]
3 번째 문서의 topic 비율은 [(1, 0.015306018), (8, 0.28110552), (9, 0.26857078), (11, 0.22392306), (19, 0.19915582)]
4 번째 문서의 topic 비율은 [(3, 0.31551424), (12, 0.37474108), (13, 0.08621721), (16, 0.19388846)]
5 번째 문서의 topic 비율은 [(2, 0.055000808), (11, 0.5773474), (15, 0.13246657), (16, 0.15686518), (18, 0.045678735)]
6 번째 문서의 topic 비율은 [(6, 0.1683578), (9, 0.40058267), (11, 0.2169415), (12, 0.064751714), (13, 0.055926222), (17, 0.020506315), (19, 0.06376051)]
7 번째 문서의 topic 비율은 [(3, 0.09947104), (4, 0.034033794), (7, 0.14366357), (11, 0.49180076), (15, 0.022582231), (16, 0.19676498)]
8 번째 문서의 topic 비율은 [(0, 0.14564267), (11, 0.2477765), (16, 0.2619292), (18, 0.32109708)]
9 번째 문서의 topic 비율은 [(7, 0.045932632), (8, 

In [80]:
def make_topictable_per_doc(ldamodel, corpus):
    topic_table = pd.DataFrame()

    # 몇 번째 문서인지를 의미하는 문서 번호와 해당 문서의 토픽 비중을 한 줄씩 꺼내온다.
    for i, topic_list in enumerate(ldamodel[corpus]):
        doc = topic_list[0] if ldamodel.per_word_topics else topic_list            
        doc = sorted(doc, key=lambda x: (x[1]), reverse=True)
        # 각 문서에 대해서 비중이 높은 토픽순으로 토픽을 정렬한다.
        # EX) 정렬 전 0번 문서 : (2번 토픽, 48.5%), (8번 토픽, 25%), (10번 토픽, 5%), (12번 토픽, 21.5%), 
        # Ex) 정렬 후 0번 문서 : (2번 토픽, 48.5%), (8번 토픽, 25%), (12번 토픽, 21.5%), (10번 토픽, 5%)
        # 48 > 25 > 21 > 5 순으로 정렬이 된 것.

        # 모든 문서에 대해서 각각 아래를 수행
        for j, (topic_num, prop_topic) in enumerate(doc): #  몇 번 토픽인지와 비중을 나눠서 저장한다.
            if j == 0:  # 정렬을 한 상태이므로 가장 앞에 있는 것이 가장 비중이 높은 토픽
                topic_table = topic_table.append(pd.Series([int(topic_num), round(prop_topic,4), topic_list]), ignore_index=True)
                # 가장 비중이 높은 토픽과, 가장 비중이 높은 토픽의 비중과, 전체 토픽의 비중을 저장한다.
            else:
                break
    return(topic_table)

In [81]:
# 각 문서에서 비중이 높은 토픽의 분포도를 데이터프레임으로 보기
topictable = make_topictable_per_doc(ldamodel, corpus)
topictable = topictable.reset_index() # 문서 번호을 의미하는 열(column)로 사용하기 위해서 인덱스 열을 하나 더 만든다.
topictable.columns = ['문서 번호', '가장 비중이 높은 토픽', '가장 높은 토픽의 비중', '각 토픽의 비중']
topictable[:10]

  topic_table = topic_table.append(pd.Series([int(topic_num), round(prop_topic,4), topic_list]), ignore_index=True)
  topic_table = topic_table.append(pd.Series([int(topic_num), round(prop_topic,4), topic_list]), ignore_index=True)


Unnamed: 0,문서 번호,가장 비중이 높은 토픽,가장 높은 토픽의 비중,각 토픽의 비중
0,0,11,0.4212,"[(2, 0.18992935), (7, 0.3750961), (11, 0.42125)]"
1,1,11,0.8406,"[(1, 0.027503809), (9, 0.08319887), (11, 0.840..."
2,2,16,0.3228,"[(2, 0.0151478015), (3, 0.08067947), (7, 0.271..."
3,3,8,0.2811,"[(1, 0.015306017), (8, 0.28110152), (9, 0.2685..."
4,4,12,0.3748,"[(3, 0.31555435), (12, 0.37478828), (13, 0.086..."
5,5,11,0.5772,"[(2, 0.054993484), (11, 0.57715124), (15, 0.13..."
6,6,9,0.4006,"[(6, 0.16835801), (9, 0.4005767), (11, 0.21697..."
7,7,11,0.4918,"[(3, 0.099470414), (4, 0.034033798), (7, 0.143..."
8,8,18,0.3211,"[(0, 0.14559934), (11, 0.24765809), (16, 0.262..."
9,9,9,0.3939,"[(7, 0.045930915), (8, 0.040738855), (9, 0.393..."


In [111]:
import pandas as pd
import urllib.request
import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import LatentDirichletAllocation

### 텍스트 전처리
data = pd.read_csv('data/abcnews-date-text.csv', error_bad_lines=False)

# 텍스트만 따로 저장
text = data[['headline_text']]

# NLTK의 word_tokenize를 통해 단어 토큰화를 수행 - 문자열을 단어 단위로 나눠서 리스트화 - # nltk.download('punkt')
text['headline_text'] = text.apply(lambda row: nltk.word_tokenize(row['headline_text']), axis=1)



  data = pd.read_csv('data/abcnews-date-text.csv', error_bad_lines=False)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  text['headline_text'] = text.apply(lambda row: nltk.word_tokenize(row['headline_text']), axis=1)


In [113]:
# # NLTK가 제공하는 영어 불용어를 통해서 text 데이터로부터 불용어를 제거
# -> nltk.download('stopwords') 코드로 자료 다운

text['headline_text'] = text['headline_text'].apply(lambda x: [word for word in x if word not in (stop_words)])
print(text.head(5))

                                       headline_text
0   [aba, decides, community, broadcasting, licence]
1    [act, fire, witnesses, must, aware, defamation]
2     [g, calls, infrastructure, protection, summit]
3          [air, nz, staff, aust, strike, pay, rise]
4  [air, nz, strike, affect, australian, travellers]


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  text['headline_text'] = text['headline_text'].apply(lambda x: [word for word in x if word not in (stop_words)])


In [114]:
# 표제어 추출 : 3인칭 단수 표현을 1인칭으로 바꾸고, 과거 현재형 동사를 현재형으로 변환
# nltk.download('wordnet') # nltk.download('omw-1.4')
text['headline_text'] = text['headline_text'].apply(lambda x: [WordNetLemmatizer().lemmatize(word, pos='v') for word in x])
print(text.head(5))

                                       headline_text
0       [aba, decide, community, broadcast, licence]
1      [act, fire, witness, must, aware, defamation]
2      [g, call, infrastructure, protection, summit]
3          [air, nz, staff, aust, strike, pay, rise]
4  [air, nz, strike, affect, australian, travellers]


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  text['headline_text'] = text['headline_text'].apply(lambda x: [WordNetLemmatizer().lemmatize(word, pos='v') for word in x])


In [115]:
#  길이가 3이하인 단어에 대해서 제거
tokenized_doc = text['headline_text'].apply(lambda x: [word for word in x if len(word) > 3])
print(tokenized_doc[:5])

0       [decide, community, broadcast, licence]
1      [fire, witness, must, aware, defamation]
2    [call, infrastructure, protection, summit]
3                   [staff, aust, strike, rise]
4      [strike, affect, australian, travellers]
Name: headline_text, dtype: object


In [116]:
# 토큰화가 되어있지 않은 텍스트 데이터를 입력으로 사용

# 역토큰화 (토큰화 작업을 되돌림)
detokenized_doc = []
for i in range(len(text)):
    t = ' '.join(tokenized_doc[i])
    detokenized_doc.append(t)

# 다시 text['headline_text']에 재저장
text['headline_text'] = detokenized_doc
text['headline_text'][:5]

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  text['headline_text'] = detokenized_doc


0       decide community broadcast licence
1       fire witness must aware defamation
2    call infrastructure protection summit
3                   staff aust strike rise
4      strike affect australian travellers
Name: headline_text, dtype: object

In [117]:
# 사이킷런의 TfidfVectorizer를 TF-IDF 행렬을 만들기

# 상위 1,000개의 단어를 보존 
vectorizer = TfidfVectorizer(stop_words='english', max_features= 1000)
X = vectorizer.fit_transform(text['headline_text'])

# TF-IDF 행렬의 크기 확인
print('TF-IDF 행렬의 크기 :',X.shape)

TF-IDF 행렬의 크기 : (1226258, 1000)


In [118]:
# 토픽 모델링

lda_model = LatentDirichletAllocation(n_components=10,learning_method='online',random_state=777,max_iter=1)
lda_top = lda_model.fit_transform(X)
print(lda_model.components_)
print(lda_model.components_.shape) 

[[1.00000865e-01 1.00000439e-01 1.00001997e-01 ... 1.00006873e-01
  1.00003405e-01 1.00005209e-01]
 [1.00001642e-01 1.00000829e-01 6.40533260e+02 ... 1.00009111e-01
  1.00004890e-01 5.79474578e+02]
 [1.00001468e-01 1.00000275e-01 1.00001496e-01 ... 1.00004592e-01
  1.00001786e-01 1.00005396e-01]
 ...
 [1.00002822e-01 1.00000923e-01 1.00001462e-01 ... 1.00009141e-01
  1.00005015e-01 1.00008595e-01]
 [1.00004695e-01 1.00002038e-01 1.00001419e-01 ... 1.00004812e-01
  1.00002548e-01 1.00007925e-01]
 [1.07423402e+02 2.03964360e+02 1.00002187e-01 ... 1.00006822e-01
  1.00003052e-01 1.00006310e-01]]
(10, 1000)


In [119]:
# 단어 집합. 1,000개의 단어가 저장됨.
terms = vectorizer.get_feature_names()

def get_topics(components, feature_names, n=5):
    for idx, topic in enumerate(components):
        print("Topic %d:" % (idx+1), [(feature_names[i], topic[i].round(2)) for i in topic.argsort()[:-n - 1:-1]])

get_topics(lda_model.components_,terms)

Topic 1: [('queensland', 12908.75), ('sydney', 10948.96), ('melbourne', 8900.08), ('change', 7262.83), ('crash', 6153.23)]
Topic 2: [('australia', 19355.9), ('australian', 13286.11), ('leave', 4930.96), ('speak', 4845.83), ('perth', 4709.2)]
Topic 3: [('donald', 9114.15), ('live', 7908.02), ('federal', 4711.88), ('rise', 4630.85), ('victorian', 4567.89)]
Topic 4: [('health', 6349.63), ('tasmania', 6141.91), ('report', 5567.09), ('plan', 4834.44), ('time', 4744.41)]
Topic 5: [('state', 6086.17), ('open', 6074.01), ('coast', 6015.08), ('restrictions', 5961.35), ('woman', 5921.79)]
Topic 6: [('trump', 15903.94), ('police', 13931.38), ('home', 7318.39), ('test', 7241.0), ('market', 6529.05)]
Topic 7: [('government', 9187.9), ('record', 6384.64), ('border', 6378.89), ('help', 5807.23), ('people', 5620.56)]
Topic 8: [('coronavirus', 48038.98), ('covid', 19540.99), ('victoria', 10827.28), ('china', 8358.46), ('death', 7181.89)]
Topic 9: [('case', 10138.89), ('charge', 8386.79), ('court', 8195



In [124]:
### LDA 시각화하기(pyLDAvis)
# pip install pyLDAvis

#### 토픽 별 단어 분포 확인

import pyLDAvis.sklearn

pyLDAvis.enable_notebook()
vis = pyLDAvis.sklearn.prepare(lda_model, X, vectorizer)
pyLDAvis.display(vis)    

  by='saliency', ascending=False).head(R).drop('saliency', 1)
