# Ch06. 토픽 모델링(Topic Modeling)

# v03. 잠재 디리클레 할당(LDA) 실습2

- 사이킷런을 사용하여 LDA를 수행
- 사이킷런을 사용하므로 전반적인 과정은 LSA 챕터와 유사하다.

<br>

## 3.1 실습을 통한 이해

### 3.1.1 뉴스 기사 제목 데이터에 대한 이해

- 약 15년 동안 발행되었던 뉴스 기사 제목을 모아놓은 영어 데이터를 아래 링크에서 다운받을 수 있다.
- [링크](https://www.kaggle.com/therohk/million-headlines)

In [None]:
DATA_DIR = "./"
#DATA_DIR = "../_data/million-headlines/"

In [None]:
import warnings
warnings.filterwarnings('ignore')

In [None]:
import pandas as pd
data = pd.read_csv(DATA_DIR + 'abcnews-date-text.csv',
                   error_bad_lines=False)

In [4]:
print(len(data))

1186018


<br>

- 상위 5개의 샘플 출력

In [5]:
data.head()

Unnamed: 0,publish_date,headline_text
0,20030219,aba decides against community broadcasting lic...
1,20030219,act fire witnesses must be aware of defamation
2,20030219,a g calls for infrastructure protection summit
3,20030219,air nz staff in aust strike for pay rise
4,20030219,air nz strike to affect australian travellers


<br>

- 이 데이터는 두 개의 열을 갖고 있다.
  - `publish_data` : 뉴스가 나온 날짜
  - `headline_text` : 뉴스 기사 제목
- 이 중 `headline_text` 컬럼, 즉 뉴스 기사 제목이므로 이 부분만 별도로 저장한다.

In [6]:
text = data[['headline_text']]
text.head(5)

Unnamed: 0,headline_text
0,aba decides against community broadcasting lic...
1,act fire witnesses must be aware of defamation
2,a g calls for infrastructure protection summit
3,air nz staff in aust strike for pay rise
4,air nz strike to affect australian travellers


<br>

### 3.1.2 텍스트 전처리

- 3 가지 전처리 기법 사용
  - 불용어 제거
  - 표제어 추출
  - 길이가 짧은 단어 제거

<br>

**1) NLTK의 `word_tokenize`를 통해 단어 토큰화 수행**

In [11]:
import nltk
nltk.download("punkt")

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [None]:
import nltk

text['headline_text'] = text.apply(lambda row: nltk.word_tokenize(row['headline_text']), axis=1)

In [13]:
text.head()

Unnamed: 0,headline_text
0,"[aba, decides, against, community, broadcastin..."
1,"[act, fire, witnesses, must, be, aware, of, de..."
2,"[a, g, calls, for, infrastructure, protection,..."
3,"[air, nz, staff, in, aust, strike, for, pay, r..."
4,"[air, nz, strike, to, affect, australian, trav..."


<br>

**2) 불용어 제거**

In [15]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [None]:
from nltk.corpus import stopwords

stop = stopwords.words('english')

text['headline_text'] = text['headline_text'].apply(lambda x: [word for word in x if word not in (stop)])

In [17]:
text.head()

Unnamed: 0,headline_text
0,"[aba, decides, community, broadcasting, licence]"
1,"[act, fire, witnesses, must, aware, defamation]"
2,"[g, calls, infrastructure, protection, summit]"
3,"[air, nz, staff, aust, strike, pay, rise]"
4,"[air, nz, strike, affect, australian, travellers]"


- against, be, of, a, in, to 등의 단어가 제거되었다

<br>

**3) 표제어 추출**

- 표제어 추출로 3인칭 단수 표현을 1인칭으로 바꾸고, 과거 현재형 동사를 현재형으로 바꾼다.

In [19]:
import nltk
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.


True

In [None]:
from nltk.stem import WordNetLemmatizer

text['headline_text'] = text['headline_text'].apply(lambda x: [WordNetLemmatizer().lemmatize(word, pos='v') for word in x])

In [21]:
text.head()

Unnamed: 0,headline_text
0,"[aba, decide, community, broadcast, licence]"
1,"[act, fire, witness, must, aware, defamation]"
2,"[g, call, infrastructure, protection, summit]"
3,"[air, nz, staff, aust, strike, pay, rise]"
4,"[air, nz, strike, affect, australian, travellers]"


<br>

**4) 길이가 3 이하인 단어 제거**

In [None]:
tokenized_doc = text['headline_text'].apply(lambda x: [word for word in x if len(word) > 3])

In [23]:
tokenized_doc[:5]

0       [decide, community, broadcast, licence]
1      [fire, witness, must, aware, defamation]
2    [call, infrastructure, protection, summit]
3                   [staff, aust, strike, rise]
4      [strike, affect, australian, travellers]
Name: headline_text, dtype: object

<br>

### 3.1.3 TF-IDF 행렬 만들기

**1) 역토큰화(Detokenization)**

- `TfidfVectorizer`는 기본적으로 토큰화가 되어 있지 않은 텍스트 데이터를 입력으로 사용한다.
- 이를 사용하기 위해 다시 토큰화 작업을 역으로 취소하는 **역토큰화(Detokenization)**작업을 수행

In [None]:
# 역토큰화
detokenized_doc = []

for i in range(len(text)):
    t = ' '.join(tokenized_doc[i])
    detokenized_doc.append(t)

In [None]:
# 다시 text['headline_text']에 재저장
text['headline_text'] = detokenized_doc

In [26]:
text['headline_text'][:5]

0       decide community broadcast licence
1       fire witness must aware defamation
2    call infrastructure protection summit
3                   staff aust strike rise
4      strike affect australian travellers
Name: headline_text, dtype: object

<br>

**2) TF-IDF 행렬 만들기**

- 사이킷런의 `TfidfVectorizer`를 이용해 TF-IDF 행렬을 만듬
- 텍스트 데이터에 있는 모든 단어를 가지고 행렬을 만들 수도 있지만, 여기서는 간단히 1,000개의 단어로 제한한다.

In [27]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(stop_words='english', max_features=1000) # 상위 1,000개의 단어 보존

X = vectorizer.fit_transform(text['headline_text'])
X.shape

(1186018, 1000)

- 1186018 x 1000 의 크기를 가진 TF-IDF 행렬이 생겼다.

<br>

### 3.1.4 토픽 모델링

- 이 TF-IDF 행렬에 LDA를 수행한다.

In [None]:
from sklearn.decomposition import LatentDirichletAllocation

lda_model = LatentDirichletAllocation(n_components=10,
                                      learning_method='online',
                                      random_state=777,
                                      max_iter=1)

In [None]:
lda_top = lda_model.fit_transform(X)

In [30]:
lda_model.components_.shape

(10, 1000)

In [31]:
lda_model.components_

array([[1.00001251e-01, 1.00000870e-01, 1.00000959e-01, ...,
        1.00003789e-01, 1.00005244e-01, 1.00005701e-01],
       [1.00001186e-01, 1.00000321e-01, 1.00001492e-01, ...,
        1.00008495e-01, 1.00003773e-01, 5.28131364e+02],
       [1.00002566e-01, 1.00000691e-01, 1.00001989e-01, ...,
        1.00004725e-01, 1.00004888e-01, 1.00003502e-01],
       ...,
       [1.00001872e-01, 1.00000609e-01, 1.00004551e-01, ...,
        1.00006062e-01, 1.00004418e-01, 1.00005045e-01],
       [1.39239876e+02, 1.00000829e-01, 1.00002009e-01, ...,
        1.00005526e-01, 1.00004846e-01, 1.00004377e-01],
       [1.00001172e-01, 2.98823905e+02, 1.00002656e-01, ...,
        1.00006216e-01, 1.00003730e-01, 1.00006511e-01]])

In [None]:
terms = vectorizer.get_feature_names()

def get_topics(components, feature_names, n=5):
    for idx, topic in enumerate(components):
        print("Topic %d:" % (idx+1), [(feature_names[i], topic[i].round(2)) for i in topic.argsort()[:-n-1:-1]])

In [33]:
get_topics(lda_model.components_, terms)

Topic 1: [('sydney', 9617.34), ('queensland', 8104.47), ('kill', 7338.07), ('court', 6475.52), ('open', 5572.5)]
Topic 2: [('australia', 15449.55), ('australian', 13312.79), ('government', 7949.7), ('home', 6582.47), ('leave', 4909.81)]
Topic 3: [('donald', 7654.72), ('live', 6199.76), ('south', 5924.7), ('federal', 4876.11), ('help', 4841.53)]
Topic 4: [('melbourne', 7084.73), ('canberra', 6100.01), ('report', 5558.55), ('people', 5271.16), ('time', 4731.3)]
Topic 5: [('police', 13274.17), ('attack', 6849.04), ('speak', 5367.5), ('family', 5250.09), ('warn', 5147.3)]
Topic 6: [('house', 6402.18), ('test', 5756.46), ('tasmania', 5385.18), ('plan', 4782.06), ('talk', 4215.42)]
Topic 7: [('charge', 8704.62), ('murder', 6698.9), ('shoot', 6287.13), ('years', 6079.1), ('north', 5422.0)]
Topic 8: [('trump', 15036.78), ('death', 6809.39), ('change', 6625.03), ('crash', 6418.79), ('year', 6139.47)]
Topic 9: [('election', 8921.67), ('market', 7054.2), ('make', 6682.57), ('adelaide', 6153.72), 