# 토픽 모델링

<br>

## 잠재 의미 분석(Latent Semantic Analysis, LSA)
- LSA는 정확히는 토픽 모델링을 위해 최적화 된 알고리즘은 아니지만, 토픽 모델링이라는 분야에 아이디어를 제공한 알고리즘
- LDA는 LSA의 단점을 개선하여 탄생한 알고리즘으로 토픽 모델링에 보다 적합한 알고리즘
- BoW에 기반한 DTM이나 TF-IDF는 기본적으로 단어의 빈도 수를 이용한 수치화 방법이기 때문에 단어의 의미를 고려하지 못한다는 단점이 존재
  - (이를 토픽 모델링 관점에서는 단어의 토픽을 고려하지 못함)
  
  $\rightarrow$ 이를 위한 대안으로 DTM의 잠재된(Latent) 의미를 이끌어내는 방법으로 잠재 의미 분석(Latent Semantic Analysis, LSA)이라는 방법이 존재





<br>

### 특이값 분해(Singular Value Decomposition, SVD)


- **특이값 분해(Singular Value Decomposition, SVD)는 실수 벡터 공간에 한정하여 내용을 설명함**
- SVD란 A가 m × n 행렬일 때, 다음과 같이 3개의 행렬의 곱으로 분해(decomposition)

$$A=UΣV^\text{T}$$

$$\text{여기서 각 3개의 행렬은 다음과 같은 조건을 만족}$$

$$U: m × m\ \text{직교행렬}\ (AA^\text{T}=U(ΣΣ^\text{T})U^\text{T})$$


$$V: n × n\ \text{직교행렬}\ (A^\text{T}A=V(Σ^\text{T}Σ)V^\text{T})$$

$$Σ: m × n\ \text{직사각 대각행렬}$$

- **직교행렬(orthogonal matrix) : 자신과 자신의 전치 행렬(transposed matrix)의 곱 또는, 이를 반대로 곱한 결과가 단위행렬(identity matrix)이 되는 행렬**
- **대각행렬(diagonal matrix) : 주대각선을 제외한 곳의 원소가 모두 0인 행렬**

- **이때 SVD로 나온 대각 행렬의 대각 원소의 값을 행렬 A의 특이값(singular value)**




<br>

#### 전치 행렬(Transposed Matrix)
- 전치 행렬(transposed matrix)은 원래의 행렬에서 행과 열을 바꾼 행렬
  
    즉, 주대각선을 축으로 반사 대칭을 하여 얻는 행렬
- 기호는 기존 행렬 표현의 우측 위에 $T$를 붙임

$$M =
\left[
    \begin{array}{c}
      1\ 2\\
      3\ 4\\
      5\ 6\\
    \end{array}
  \right]
\ \ \ \
$$

$$
M^\text{T} =
\left[
    \begin{array}{c}
      1\ 3\ 5\\
      2\ 4\ 6\\
    \end{array}
  \right]
\ \ \ \
$$

<br>

#### 단위 행렬(Identity Matrix)
- 단위 행렬(identity matrix)은 주대각선의 원소가 모두 1이며 나머지 원소는 모두 0인 정사각 행렬
- 줄여서 대문자 $I$로 표현

$$I =
\left[
    \begin{array}{c}
      1\ 0\\
      0\ 1\\
    \end{array}
  \right]
\ \ \ \
$$

$$I =
\left[
    \begin{array}{c}
      1\ 0\ 0\\
      0\ 1\ 0\\
      0\ 0\ 1\\
    \end{array}
  \right]
\ \ \ \
$$

<br>

#### 역행렬(Inverse Matrix)
- 만약 행렬 $A$와 어떤 행렬을 곱했을 때, 결과로서 단위 행렬이 나온다면

  이때의 어떤 행렬을 $A$의 역행렬이라고 하며, $A^{-1}$라고 표현
  
$$A\ ×\ A^{-1} = I$$

$$\left[
    \begin{array}{c}
      1\ 2\ 3\\
      4\ 5\ 6\\
      7\ 8\ 9\\
    \end{array}
  \right]
×
\left[
    \begin{array}{c}
      \ \ \ \ \ \ \ \ \\
      \ \ \ \ ?\ \ \ \\
      \ \ \ \ \ \ \ \ \\
    \end{array}
  \right]
=
\left[
    \begin{array}{c}
      1\ 0\ 0\\
      0\ 1\ 0\\
      0\ 0\ 1\\
    \end{array}
  \right]
$$

<br>

#### 직교 행렬(Orthogonal matrix)
- 실수 $n\times n$행렬 $A$에 대해서 $A\times A^T = I$를 만족하면서 $A^T \times A = I$를 만족하는 행렬 $A$를 직교행렬
- 직교행렬은 $A^{-1}=A^T$

<br>

#### 대각 행렬 (Diagonal matrix)
- 대각행렬(diagonal matrix)은 주대각선을 제외한 곳의 원소가 모두 0인 행렬
- 주대각선의 원소가 $a$이고, 만약 대각 행렬 $Σ$가 3 × 3 행렬이라면,


$$Σ=
\left[
    \begin{array}{c}
      a\ \ 0\ \ 0\\
      0\ \ a\ \ 0\\
      0\ \ 0\ \ a\\
    \end{array}
  \right]
$$

- 만약 행의 크기가 열의 크기보다 크다면, $m × n$ 행렬일 때, $m > n$인 경우


$$
Σ=
\left[
    \begin{array}{c}
      a\ \ 0\ \ 0\\
      0\ \ a\ \ 0\\
      0\ \ 0\ \ a\\
      0\ \ 0\ \ 0\\
    \end{array}
  \right]
$$

- 반면 $n > m$인 경우

$$Σ=
\left[
    \begin{array}{c}
      a\ \ 0\ \ 0\ \ 0\\
      0\ \ a\ \ 0\ \ 0\\
      0\ \ 0\ \ a\ \ 0\\
    \end{array}
  \right]
$$

- 대각 행렬 $Σ$의 주대각원소를 행렬 A의 특이값(singular value)라고 하며,
  
  이를 $\sigma_1, \sigma_2, \dots \sigma_r$라고 표현한다고 하였을 때 특이값 $\sigma_1, \sigma_2, \dots, \sigma_r$은 내림차순으로 정렬



- 아래의 그림은 특이값 12.4, 9.5, 1.3이 내림차순으로 정렬되어져 있는 모습


$$Σ=
\left[
    \begin{array}{c}
      12.4\ \ 0\ \ 0\\
      0\ \ 9.5\ \ 0\\
      0\ \ 0\ \ 1.3\\
    \end{array}
  \right]
$$

<br>

### 절단된 SVD(Truncated SVD)
- 위에서 설명한 SVD는 풀 SVD(full SVD)
- 하지만 LSA의 경우 풀 SVD에서 나온 3개의 행렬에서 일부 벡터들을 삭제시킨 절단된 SVD(truncated SVD)를 사용


<img src='https://wikidocs.net/images/page/24949/svd%EC%99%80truncatedsvd.PNG'>

- 절단된 SVD는 대각 행렬 $Σ$의 대각 원소의 값 중에서 상위값 t개만 남김
- **절단된 SVD를 수행하면 값의 손실이 일어나므로 기존의 행렬 A를 복구할 수 없으며 $U$행렬과 $V$행렬의 $t$열까지만 남김**
- **여기서 $t$는 우리가 찾고자하는 토픽의 수를 반영한 하이퍼파라미터값**
- $t$를 크게 잡으면 기존의 행렬 A로부터 다양한 의미를 가져갈 수 있지만, $t$를 작게 잡아야만 노이즈를 제거할 수 있기 때문


- 이렇게 일부 벡터들을 삭제하는 것을 데이터의 차원을 줄이는 것

  - 데이터의 차원을 줄이게되면 당연히 풀 SVD를 하였을 때보다 직관적으로 계산 비용이 낮아지는 효과를 얻을 수 있음

  * 또한 계산 비용이 낮아지는 것 외에도 상대적으로 중요하지 않은 정보를 삭제하는 효과가 존재
  
    영상 처리 분야에서는 노이즈를 제거한다는 의미
    
    자연어 처리 분야에서는 설명력이 낮은 정보를 삭제하고 설명력이 높은 정보를 남긴다는 의미
    
  $\rightarrow$ **즉,기존의 행렬에서는 드러나지 않았던 심층적인 의미를 확인할 수 있음**



<br>

### 잠재 의미 분석(Latent Semantic Analysis, LSA)
- 기존의 DTM이나 DTM에 단어의 중요도에 따른 가중치를 주었던 TF-IDF 행렬은 단어의 의미를 전혀 고려하지 못한다는 단점
- LSA는 기본적으로 DTM이나 TF-IDF 행렬에 절단된 SVD(truncated SVD)를 사용하여 차원을 축소시키고,
  단어들의 잠재적인 의미를 끌어낸다는 아이디어

<br>

<table>
<thead>
<tr>
<th>과일이</th>
<th>길고</th>
<th>노란</th>
<th>먹고</th>
<th>바나나</th>
<th>사과</th>
<th>싶은</th>
<th>저는</th>
<th>좋아요</th>
</tr>
</thead>
<tbody>
<tr>
<td>문서1</td>
<td>0</td>
<td>0</td>
<td>0</td>
<td>1</td>
<td>0</td>
<td>1</td>
<td>1</td>
<td>0</td>
</tr>
<tr>
<td>문서2</td>
<td>0</td>
<td>0</td>
<td>0</td>
<td>1</td>
<td>1</td>
<td>0</td>
<td>1</td>
<td>0</td>
</tr>
<tr>
<td>문서3</td>
<td>0</td>
<td>1</td>
<td>1</td>
<td>0</td>
<td>2</td>
<td>0</td>
<td>0</td>
<td>0</td>
</tr>
<tr>
<td>문서4</td>
<td>1</td>
<td>0</td>
<td>0</td>
<td>0</td>
<td>0</td>
<td>0</td>
<td>0</td>
<td>1</td>
</tr>
</tbody>
</table>

In [1]:
import numpy as np

<br>

#### full SVD

- 위 DTM을 구현


In [2]:
A = np.array([[0,0,0,1,0,1,1,0,0],[0,0,0,1,1,0,1,0,0],[0,1,1,0,2,0,0,0,0],[1,0,0,0,0,0,0,1,1]])
print('DTM의 크기(shape) :', np.shape(A))

DTM의 크기(shape) : (4, 9)


- 4 × 9의 크기를 가지는 DTM이 생성
  
  $\rightarrow$ 풀 SVD(full SVD) 수행
  
  ($Σ$ $→$ `S` / $V$ 전치 행렬 $→$  `VT`)

- $4 × 4$의 크기를 가지는 직교 행렬 `U` 생성


In [3]:
U, s, VT = np.linalg.svd(A, full_matrices = True)
print('행렬 U :')
print(U.round(2))
print('행렬 U의 크기(shape) :',np.shape(U))

행렬 U :
[[-0.24  0.75  0.   -0.62]
 [-0.51  0.44 -0.    0.74]
 [-0.83 -0.49 -0.   -0.27]
 [-0.   -0.    1.    0.  ]]
행렬 U의 크기(shape) : (4, 4)


- 대각 행렬 `S`

In [4]:
print('특이값 벡터 :')
print(s.round(2))
print('특이값 벡터의 크기(shape) :',np.shape(s))

특이값 벡터 :
[2.69 2.05 1.73 0.77]
특이값 벡터의 크기(shape) : (4,)


- `np.linalg.svd()`는 특이값 분해의 결과로 대각 행렬이 아니라 특이값의 리스트를 반환
  
  $\rightarrow$ 앞서 본 수식의 형식으로 보려면 이를 다시 대각 행렬로 전환
  
  $\rightarrow$ 특이값을 s에 저장하고 대각 행렬 크기의 행렬을 생성한 후에 그 행렬에 특이값을 삽입

- $4 × 9$의 크기를 가지는 대각 행렬 `S`
  - 2.69 > 2.05 > 1.73 > 0.77 순으로 값이 내림차순

In [5]:
# 대각 행렬의 크기인 4 x 9의 임의의 행렬 생성
S = np.zeros((4, 9))

# 특이값을 대각행렬에 삽입
S[:4, :4] = np.diag(s)

print('대각 행렬 S :')
print(S.round(2))

print('대각 행렬의 크기(shape) :')
print(np.shape(S))

대각 행렬 S :
[[2.69 0.   0.   0.   0.   0.   0.   0.   0.  ]
 [0.   2.05 0.   0.   0.   0.   0.   0.   0.  ]
 [0.   0.   1.73 0.   0.   0.   0.   0.   0.  ]
 [0.   0.   0.   0.77 0.   0.   0.   0.   0.  ]]
대각 행렬의 크기(shape) :
(4, 9)


- $9 × 9$의 크기를 가지는 직교 행렬 `VT`(V의 전치 행렬)
- **즉, U × S × VT를 하면 기존의 행렬 $A$가 나와야 함**

- 정말로 기존의 행렬 A와 동일한지 확인


In [7]:
print('직교행렬 VT :')
print(VT.round(2))

print('직교 행렬 VT의 크기(shape) :')
print(np.shape(VT))

직교행렬 VT :
[[-0.   -0.31 -0.31 -0.28 -0.8  -0.09 -0.28 -0.   -0.  ]
 [ 0.   -0.24 -0.24  0.58 -0.26  0.37  0.58 -0.   -0.  ]
 [ 0.58 -0.    0.    0.   -0.    0.   -0.    0.58  0.58]
 [ 0.   -0.35 -0.35  0.16  0.25 -0.8   0.16 -0.   -0.  ]
 [-0.   -0.78 -0.01 -0.2   0.4   0.4  -0.2   0.    0.  ]
 [-0.29  0.31 -0.78 -0.24  0.23  0.23  0.01  0.14  0.14]
 [-0.29 -0.1   0.26 -0.59 -0.08 -0.08  0.66  0.14  0.14]
 [-0.5  -0.06  0.15  0.24 -0.05 -0.05 -0.19  0.75 -0.25]
 [-0.5  -0.06  0.15  0.24 -0.05 -0.05 -0.19 -0.25  0.75]]
직교 행렬 VT의 크기(shape) :
(9, 9)


In [8]:
np.allclose(A, np.dot(np.dot(U,S), VT).round(2))

True

#### 절단된 SVD(Truncated SVD)
- $t$를 정하고, 절단된 SVD(Truncated SVD)를 수행

<br>

- 대각 행렬 $S$ 내의 특이값 중에서 상위 2개만 남기고 제거


In [9]:
S = S[:2,:2]

print('대각 행렬 S :')
print(S.round(2))

대각 행렬 S :
[[2.69 0.  ]
 [0.   2.05]]


- 직교 행렬 U에 대해서도 2개의 열만 남기고 제거

In [10]:
U = U[:,:2]
print('행렬 U :')
print(U.round(2))

행렬 U :
[[-0.24  0.75]
 [-0.51  0.44]
 [-0.83 -0.49]
 [-0.   -0.  ]]


- 행렬 $V$의 전치 행렬인 `VT`에 대해서 2개의 행만 남기고 제거
  - V관점에서는 2개의 열만 남기고 제거한 것


In [11]:
VT = VT[:2,:]
print('직교행렬 VT :')
print(VT.round(2))

직교행렬 VT :
[[-0.   -0.31 -0.31 -0.28 -0.8  -0.09 -0.28 -0.   -0.  ]
 [ 0.   -0.24 -0.24  0.58 -0.26  0.37  0.58 -0.   -0.  ]]


<br>

- **축소된 행렬 `U`, `S`, `VT`에 대해서 다시 `U` $×$ `S` $×$ `VT`연산을 하면 기존의 A와는 다른 결과**
  
  **값이 손실되었기 때문에 이 세 개의 행렬로는 이제 기존의 A행렬을 복구할 수 없음**

<br>

- `U` $×$ `S` $×$ `VT`연산을 해서 나오는 값을 기존의 행렬 A와 값을 비교

  - 대체적으로 기존에 0인 값들은 0에 가가운 값이 나오고, 1인 값들은 1에 가까운 값이 나옴
  - 또한 값이 제대로 복구되지 않은 구간도 존재


In [12]:
A_prime = np.dot(np.dot(U,S), VT)
print(A)
print(A_prime.round(2))

[[0 0 0 1 0 1 1 0 0]
 [0 0 0 1 1 0 1 0 0]
 [0 1 1 0 2 0 0 0 0]
 [1 0 0 0 0 0 0 1 1]]
[[ 0.   -0.17 -0.17  1.08  0.12  0.62  1.08 -0.   -0.  ]
 [ 0.    0.2   0.2   0.91  0.86  0.45  0.91  0.    0.  ]
 [ 0.    0.93  0.93  0.03  2.05 -0.17  0.03  0.    0.  ]
 [ 0.    0.    0.    0.    0.    0.    0.    0.    0.  ]]


<br>

- **축소된 $U$는 $4 × 2$의 크기 $→$ $\text{문서의 개수} × \text{토픽의 수}\;t$의 크기**
- **단어의 개수인 9는 유지되지 않는데, 문서의 개수인 4의 크기가 유지되었으니 4개의 문서 각각을 2개의 값으로 표현**
  
  $→$ **$U$의 각 행은 잠재 의미를 표현하기 위한 수치화 된 각각의 문서 벡터**
  
<br>

- **축소된 `VT`는 $2 × 9$의 크기**
  
  $\rightarrow$ **$\text{토픽의 수}\;t × \text{단어의 개수}$의 크기**
  
  - **`VT`의 각 열은 잠재 의미를 표현하기 위해 수치화된 각각의 단어 벡터**

<br>

- **이 문서 벡터들과 단어 벡터들을 통해 다른 문서의 유사도, 다른 단어의 유사도, 단어(쿼리)로부터 문서의 유사도를 구하는 것들이 가능**


<br>

### 뉴스그룹 데이터 토픽 모델링
- LSA가 토픽 모델링에 최적화 된 알고리즘은 아니지만, 토픽 모델링이라는 분야의 시초가 되는 알고리즘
- LSA를 사용해서 문서의 수를 원하는 토픽의 수로 압축한 뒤에 각 토픽당 가장 중요한 단어 5개를 출력하는 실습으로 토픽 모델링을 수행



<br>

#### 데이터 로드
- 뉴스그룹 데이터에는 특수문자가 포함된 다수의 영어문장으로 구성
- `target_name`에는 본래 이 뉴스그룹 데이터가 어떤 20개의 카테고리를 갖고있었는지가 저장


In [13]:
import pandas as pd
from sklearn.datasets import fetch_20newsgroups
import nltk
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import TruncatedSVD

In [14]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [15]:
dataset = fetch_20newsgroups(shuffle=True, random_state=1, remove=('headers', 'footers', 'quotes'))
documents = dataset.data
print('샘플의 수 :',len(documents))

샘플의 수 : 11314


In [16]:
documents[1]

"\n\n\n\n\n\n\nYeah, do you expect people to read the FAQ, etc. and actually accept hard\natheism?  No, you need a little leap of faith, Jimmy.  Your logic runs out\nof steam!\n\n\n\n\n\n\n\nJim,\n\nSorry I can't pity you, Jim.  And I'm sorry that you have these feelings of\ndenial about the faith you need to get by.  Oh well, just pretend that it will\nall end happily ever after anyway.  Maybe if you start a new newsgroup,\nalt.atheist.hard, you won't be bummin' so much?\n\n\n\n\n\n\nBye-Bye, Big Jim.  Don't forget your Flintstone's Chewables!  :) \n--\nBake Timmons, III"

In [17]:
print(dataset.target_names)

['alt.atheism', 'comp.graphics', 'comp.os.ms-windows.misc', 'comp.sys.ibm.pc.hardware', 'comp.sys.mac.hardware', 'comp.windows.x', 'misc.forsale', 'rec.autos', 'rec.motorcycles', 'rec.sport.baseball', 'rec.sport.hockey', 'sci.crypt', 'sci.electronics', 'sci.med', 'sci.space', 'soc.religion.christian', 'talk.politics.guns', 'talk.politics.mideast', 'talk.politics.misc', 'talk.religion.misc']


<br>

#### 데이터 전처리
* 알파벳을 제외한 구두점, 숫자, 특수 문자를 제거
* 짧은 단어는 유용한 정보를 담고있지 않다고 가정하고, 길이가 짧은 단어도 제거
- 모든 알파벳을 소문자로 바꿔서 단어의 개수를 줄이는 작업

In [18]:
news_df = pd.DataFrame({'document':documents})

# 특수 문자 제거
news_df['clean_doc'] = news_df['document'].str.replace("[^a-zA-Z]", " ")

# 길이가 3이하인 단어는 제거 (길이가 짧은 단어 제거)
news_df['clean_doc'] = news_df['clean_doc'].apply(lambda x: ' '.join([w for w in x.split() if len(w)>3]))

# 전체 단어에 대한 소문자 변환
news_df['clean_doc'] = news_df['clean_doc'].apply(lambda x: x.lower())

  news_df['clean_doc'] = news_df['document'].str.replace("[^a-zA-Z]", " ")


In [19]:
news_df['clean_doc'][1]

'yeah expect people read actually accept hard atheism need little leap faith jimmy your logic runs steam sorry pity sorry that have these feelings denial about faith need well just pretend that will happily ever after anyway maybe start newsgroup atheist hard bummin much forget your flintstone chewables bake timmons'

<br>

- 'if'나 'you'와 같은 길이가 3이하인 단어가 제거된 것을 확인
- 데이터에서 불용어를 제거
- 불용어를 제거하기 위해서 토큰화를 우선 수행



In [20]:
stop_words = stopwords.words('english')
tokenized_doc = news_df['clean_doc'].apply(lambda x: x.split())
tokenized_doc = tokenized_doc.apply(lambda x: [item for item in x if item not in stop_words])

In [21]:
print(tokenized_doc[1])

['yeah', 'expect', 'people', 'read', 'actually', 'accept', 'hard', 'atheism', 'need', 'little', 'leap', 'faith', 'jimmy', 'logic', 'runs', 'steam', 'sorry', 'pity', 'sorry', 'feelings', 'denial', 'faith', 'need', 'well', 'pretend', 'happily', 'ever', 'anyway', 'maybe', 'start', 'newsgroup', 'atheist', 'hard', 'bummin', 'much', 'forget', 'flintstone', 'chewables', 'bake', 'timmons']


<br>

#### TF-IDF 행렬 생성
* `TfidfVectorizer`(TF-IDF 실습 참고)는 기본적으로 토큰화가 되어있지 않은 텍스트 데이터를 입력으로 사용
  
  $\rightarrow$ `TfidfVectorizer`를 사용해서 TF-IDF 행렬을 만들기 위해서 다시 토큰화 작업을 역으로 취소하는 작업을 수행 (역토큰화(Detokenization))



In [24]:
detokenized_doc = []

for i in range(len(news_df)):
    t = ' '.join(tokenized_doc[i])
    detokenized_doc.append(t)

news_df['clean_doc'] = detokenized_doc

In [25]:
news_df['clean_doc'][1]

'yeah expect people read actually accept hard atheism need little leap faith jimmy logic runs steam sorry pity sorry feelings denial faith need well pretend happily ever anyway maybe start newsgroup atheist hard bummin much forget flintstone chewables bake timmons'

- `TfidfVectorizer`를 통해 단어 1,000개에 대한 TF-IDF 행렬을 생성
  - 여기서는 1,000개의 단어로 제한

  → $11,314 × 1,000$의 크기를 가진 TF-IDF 행렬이 생성

In [26]:
vectorizer = TfidfVectorizer(stop_words='english', max_features= 1000, # 상위 1,000개의 단어를 보존
max_df = 0.5, smooth_idf=True)

X = vectorizer.fit_transform(news_df['clean_doc'])

print('TF-IDF 행렬의 크기 :',X.shape)

TF-IDF 행렬의 크기 : (11314, 1000)


<br>

#### 토픽 모델링(Topic Modeling)
- TF-IDF 행렬을 다수의 행렬로 분해
- 절단된 SVD를 사용하여 차원을 축소
-  원래 기존 뉴스그룹 데이터가 20개의 카테고리를 갖고있었기 때문에,
  
  20개의 토픽을 가졌다고 가정하고 토픽 모델링을 시도



In [30]:
svd_model = TruncatedSVD(n_components=20, algorithm='randomized', n_iter=100, random_state=122)
svd_model.fit(X)

# LSA에서 VT에 해당
len(svd_model.components_)

20

In [32]:
# 단어 집합. 1,000개의 단어가 저장됨.
terms = vectorizer.get_feature_names_out()

- 각 20개의 행의 각 1,000개의 열 중 가장 값이 큰 5개의 값을 찾아서 단어로 출력

In [34]:
def get_topics(components, feature_names, n=5):
    for idx, topic in enumerate(components):
        print("Topic %d:" % (idx+1), [(feature_names[i], topic[i].round(5)) for i in topic.argsort()[:-n - 1:-1]])

get_topics(svd_model.components_,terms)

Topic 1: [('like', 0.21386), ('know', 0.20046), ('people', 0.19293), ('think', 0.17805), ('good', 0.15128)]
Topic 2: [('thanks', 0.32888), ('windows', 0.29088), ('card', 0.18069), ('drive', 0.17455), ('mail', 0.15111)]
Topic 3: [('game', 0.37064), ('team', 0.32443), ('year', 0.28154), ('games', 0.2537), ('season', 0.18419)]
Topic 4: [('drive', 0.53324), ('scsi', 0.20165), ('hard', 0.15628), ('disk', 0.15578), ('card', 0.13994)]
Topic 5: [('windows', 0.40399), ('file', 0.25436), ('window', 0.18044), ('files', 0.16078), ('program', 0.13894)]
Topic 6: [('chip', 0.16114), ('government', 0.16009), ('mail', 0.15625), ('space', 0.1507), ('information', 0.13562)]
Topic 7: [('like', 0.67086), ('bike', 0.14236), ('chip', 0.11169), ('know', 0.11139), ('sounds', 0.10371)]
Topic 8: [('card', 0.46633), ('video', 0.22137), ('sale', 0.21266), ('monitor', 0.15463), ('offer', 0.14643)]
Topic 9: [('know', 0.46047), ('card', 0.33605), ('chip', 0.17558), ('government', 0.1522), ('video', 0.14356)]
Topic 10

<br>

## 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA)
* **토픽 모델링은 문서의 집합에서 토픽을 찾아내는 프로세스**
  - 검색 엔진, 고객 민원 시스템 등과 같이 문서의 주제를 알아내는 일이 중요한 곳에서 사용
- 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA)은 토픽 모델링의 대표적인 알고리즘

* LDA는 **문서들은 토픽들의 혼합으로 구성되어져 있으며, 토픽들은 확률 분포에 기반하여 단어들을 생성한다고 가정**
  - 데이터가 주어지면, LDA는 문서가 생성되던 과정을 역추적

- [코드 작성 없이 입력한 문서들로부터 DTM을 만들고 LDA를 수행한 결과를 보여주는 웹 사이트](https://lettier.com/projects/lda-topic-modeling/)

<br>

### 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA)
<br>

> 문서1 : 저는 사과랑 바나나를 먹어요
>
> 문서2 : 우리는 귀여운 강아지가 좋아요
>
> 문서3 : 저의 깜찍하고 귀여운 강아지가 바나나를 먹어요

<br>

- **LDA를 수행할 때 문서 집합에서 토픽이 몇 개가 존재할지 가정하는 것은 하이퍼파라미터**
- 토픽의 개수를 의미하는 변수를 $k$ 값을 잘못 선택하면, 원치않는 이상한 결과가 나올 수 있음
- LDA가 위의 세 문서로부터 2개의 토픽을 찾은 결과는 아래와 같음
  - 여기서는 LDA 입력 전에 주어와 불필요한 조사 등을 제거하는 전처리 과정은 거쳤다고 가정
  
    즉, 전처리 과정을 거친 DTM이 LDA의 입력이 되었다고 가정

<br>

- **LDA는 각 문서의 토픽 분포와 각 토픽 내의 단어 분포를 추정**

<br>

**<각 문서의 토픽 분포>**

> 문서1 : 토픽 A 100%
>
>문서2 : 토픽 B 100%
>
>문서3 : 토픽 B 60%, 토픽 A 40%

<br>

**<각 토픽의 단어 분포>**

>토픽A : 사과 20%, 바나나 40%, 먹어요 40%, 귀여운 0%, 강아지 0%, 깜찍하고 0%, 좋아요 0%
>
> 토픽B : 사과 0%, 바나나 0%, 먹어요 0%, 귀여운 33%, 강아지 33%, 깜찍하고 16%, 좋아요 16%



<br>

### LDA의 가정
- **LDA는 문서의 집합으로부터 어떤 토픽이 존재하는지를 알아내기 위한 알고리즘**
- **빈도수 기반의 표현 방법인 BoW의 행렬 DTM 또는 TF-IDF 행렬을 입력으로 함**
  
  $→$ **LDA는 단어의 순서는 신경쓰지 않음**

<br>

- **LDA는 문서들로부터 토픽을 뽑아내기 위해서, 각각의 문서는 다음과 같은 과정을 거쳐서 작성되었다고 가정**

1. 문서에 사용할 단어의 개수 N을 결정

2. 문서에 사용할 토픽의 혼합을 확률 분포에 기반하여 결정

3. 문서에 사용할 각 단어를 (아래와 같이) 결정

  3-1. 토픽 분포에서 토픽 $T$를 확률적으로 선택
  - Ex) 60% 확률로 강아지 토픽을 선택하고, 40% 확률로 과일 토픽을 선택

  3-2. 선택한 토픽 $T$에서 단어의 출현 확률 분포에 기반해 문서에 사용할 단어를 선택

  - Ex) 강아지 토픽을 선택하였다면, 33% 확률로 강아지란 단어를 선택

4. 3.을 반복하면서 문서를 완성



<br>

* **이러한 과정을 통해 문서가 작성되었다는 가정 하에**

  **LDA는 토픽을 뽑아내기 위하여 위 과정을 역으로 추적하는 역공학(reverse engneering)을 수행**


<br>

### LDA의 수행

<br>

#### 1) 사용자는 알고리즘에게 토픽의 개수 $k$를 알려줌
- LDA는 토픽의 개수 k를 입력받으면, k개의 토픽이 M개의 전체 문서에 걸쳐 분포되어 있다고 가정

<br>

#### 2) 모든 단어를 k개 중 하나의 토픽에 할당
- **LDA는 모든 문서의 모든 단어에 대해서 k개 중 하나의 토픽을 랜덤으로 할당**
  $→$ **이 작업이 끝나면 각 문서는 토픽을 가지며, 토픽은 단어 분포를 가지는 상태**
- 랜덤으로 할당하였기 때문에 이 결과는 전부 틀린 상태
  - 만약 한 단어가 한 문서에서 2회 이상 등장하였다면, 각 단어는 서로 다른 토픽에 할당되었을 수도 있음

<br>

#### 3) 이제 모든 문서의 모든 단어에 대해서 아래의 사항을 반복 진행 (iterative)

<br>

#### 3-1) 어떤 문서의 각 단어 $w$는 자신은 잘못된 토픽에 할당되어져 있지만, 다른 단어들은 전부 올바른 토픽에 할당되어져 있는 상태라고 가정
#### $\rightarrow$ 이에 따라 단어 $w$는 아래의 두 가지 기준에 따라서 토픽이 재할당
- $p(topic\;t\;|\;document\;d)$ : 문서 $d$의 단어들 중 토픽 $t$에 해당하는 단어들의 비율
- $p(word\;w\;|\;topic\;t)$ : 각 토픽들 $t$에서 해당 단어 $w$의 분포

#### 이를 반복하면, 모든 할당이 완료된 수렴 상태

<br>

#### 토픽 할당 기준

- doc1의 세번째 단어 apple의 토픽을 결정할 때


<img src='https://wikidocs.net/images/page/30708/lda1.PNG'>

<br>

- 첫번째로 사용하는 기준은 문서 doc1의 단어들이 어떤 토픽에 해당하는지를 확인

$$p(topic\;t\;|\;document\;d)$$

- doc1의 모든 단어들은 토픽 A와 토픽 B에 50 대 50의 비율로 할당되어져 있으므로,
    
  이 기준에 따르면 단어 apple은 토픽 A 또는 토픽 B 둘 중 어디에도 속할 가능성이 존재


<img src='https://wikidocs.net/images/page/30708/lda3.PNG'>

<br>

- 두번째 기준은 단어 apple이 전체 문서에서 어떤 토픽에 할당되어져 있는지를 확인

$$p(word\;w\;|\;topic\;t)$$

- 이 기준에 따르면 단어 apple은 토픽 B에 할당될 가능성이 높음

<img src='https://wikidocs.net/images/page/30708/lda2.PNG'>




<br>

###  잠재 디리클레 할당과 잠재 의미 분석의 차이
- LSA : DTM을 차원 축소 하여 축소 차원에서 근접 단어들을 토픽으로 묶는다.
- LDA : 단어가 특정 토픽에 존재할 확률과 문서에 특정 토픽이 존재할 확률을 결합확률로 추정하여 토픽을 추출한다.

<br>

### LDA 구축 (`gensim`)

<br>

#### 정수 인코딩과 단어 집합 만들기
- 바로 이전 실습인 LSA 실습에서 사용하였던 Twenty Newsgroups이라고 불리는 20개의 다른 주제를 가진 뉴스 데이터를 다시 사용합니다. 전처리 과정은 이전 실습과 중복되므로 생략합니다. 동일한 전처리 과정을 거친 후에 tokenized_doc으로 저장한 상태라고 합시다. 훈련용 뉴스를 5개만 출력해보겠습니다.



In [1]:
import pandas as pd
from sklearn.datasets import fetch_20newsgroups
import nltk
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import TruncatedSVD

In [2]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [3]:
dataset = fetch_20newsgroups(shuffle=True, random_state=1, remove=('headers', 'footers', 'quotes'))
documents = dataset.data
print('샘플의 수 :',len(documents))

샘플의 수 : 11314


In [4]:
news_df = pd.DataFrame({'document':documents})

# 특수 문자 제거
news_df['clean_doc'] = news_df['document'].str.replace("[^a-zA-Z]", " ")

# 길이가 3이하인 단어는 제거 (길이가 짧은 단어 제거)
news_df['clean_doc'] = news_df['clean_doc'].apply(lambda x: ' '.join([w for w in x.split() if len(w)>3]))

# 전체 단어에 대한 소문자 변환
news_df['clean_doc'] = news_df['clean_doc'].apply(lambda x: x.lower())

In [5]:
stop_words = stopwords.words('english')
tokenized_doc = news_df['clean_doc'].apply(lambda x: x.split())
tokenized_doc = tokenized_doc.apply(lambda x: [item for item in x if item not in stop_words])

In [6]:
tokenized_doc[:5]

0    [well, sure, story, seem, biased., disagree, s...
1    [yeah,, expect, people, read, faq,, etc., actu...
2    [although, realize, principle, strongest, poin...
3    [notwithstanding, legitimate, fuss, proposal,,...
4    [well,, change, scoring, playoff, pool., unfor...
Name: clean_doc, dtype: object

<br>

- 각 단어에 정수 인코딩을 하는 동시에, 각 뉴스에서의 단어의 빈도수를 기록
- `word_id`는 단어가 정수 인코딩된 값이고, `word_frequency`는 해당 뉴스에서의 해당 단어의 빈도수를 의미
- `gensim의 corpora.Dictionary()`를 사용




In [7]:
from gensim import corpora

In [8]:
dictionary = corpora.Dictionary(tokenized_doc)
corpus = [dictionary.doc2bow(text) for text in tokenized_doc]

- 출력 결과 중에서 (66, 2)는 정수 인코딩이 66으로 할당된 단어가 두번째 뉴스에서는 두 번 등장하였음을 의미



In [9]:
print(corpus[1])

[(59, 1), (60, 1), (61, 1), (62, 1), (63, 1), (64, 1), (65, 1), (66, 1), (67, 1), (68, 1), (69, 1), (70, 1), (71, 1), (72, 1), (73, 1), (74, 1), (75, 1), (76, 1), (77, 1), (78, 1), (79, 1), (80, 1), (81, 1), (82, 2), (83, 1), (84, 1), (85, 1), (86, 1), (87, 1), (88, 1), (89, 2), (90, 1), (91, 1), (92, 1), (93, 1), (94, 1), (95, 1), (96, 2), (97, 1), (98, 1), (99, 1), (100, 1), (101, 1), (102, 1)]


- 66이라는 값을 가지는 단어가 정수 인코딩이 되기 전에는 어떤 단어였는지 확인


In [10]:
print(dictionary[66])

bye-bye,


- 총 학습된 단어의 개수를 확인

In [11]:
len(dictionary)

181856

<br>

### LDA 모델 훈련
- 토픽의 개수를 20으로 하여 LDA 모델을 학습

In [12]:
import gensim

- 각 단어 앞에 붙은 수치는 단어의 해당 토픽에 대한 기여도
- 또한 맨 앞에 있는 토픽 번호는 0부터 시작하므로,
  
  총 20개의 토픽은 0부터 19까지의 번호가 할당
- `passes`는 알고리즘의 동작 횟수를 의미, 알고리즘이 결정하는 토픽의 값이 적절히 수렴할 수 있도록 충분히 적당한 횟수를 지정
- `num_words=4`로 총 4개의 단어만 출력



In [13]:
NUM_TOPICS = 20 # 20개의 토픽, k=20

ldamodel = gensim.models.ldamodel.LdaModel(corpus, num_topics = NUM_TOPICS, id2word=dictionary, passes=15)
topics = ldamodel.print_topics(num_words=4)

for topic in topics:
    print(topic)

(0, '0.004*"picture" + 0.004*"lebanese" + 0.003*"randy" + 0.003*"atlantic"')
(1, '0.004*"yankees" + 0.003*"0.333" + 0.003*"256k" + 0.002*"patterns"')
(2, '0.005*"dept" + 0.004*"*******" + 0.004*"exhaust" + 0.003*"colour"')
(3, '0.005*"jumper" + 0.004*"offense" + 0.004*"outlets" + 0.004*"master"')
(4, '0.011*"april" + 0.010*"national" + 0.009*"university" + 0.009*"1993"')
(5, '0.016*"drive" + 0.011*"card" + 0.010*"disk" + 0.009*"please"')
(6, '0.018*"team" + 0.015*"game" + 0.011*"games" + 0.010*"hockey"')
(7, '0.008*"55.0" + 0.004*"patients" + 0.003*"games," + 0.003*"medical"')
(8, '0.004*"64-bit" + 0.002*"firearms," + 0.002*"gifs" + 0.002*"risc"')
(9, '0.005*"sparc" + 0.003*"present." + 0.003*"judged" + 0.003*"[kk]"')
(10, '0.009*"----------------------------------------------------------------------------" + 0.008*"banks" + 0.008*"surrender" + 0.007*"gordon"')
(11, '0.011*"armenian" + 0.009*"----------------------------------------------------------------------" + 0.008*"armenians" + 

In [14]:
print(ldamodel.print_topics())

[(0, '0.004*"picture" + 0.004*"lebanese" + 0.003*"randy" + 0.003*"atlantic" + 0.003*"alan" + 0.003*"astros" + 0.002*"seagate" + 0.002*"universe," + 0.002*"forwarded" + 0.002*"relay"'), (1, '0.004*"yankees" + 0.003*"0.333" + 0.003*"256k" + 0.002*"patterns" + 0.002*"rockies" + 0.002*"chipset" + 0.002*"brains" + 0.002*"runs," + 0.002*"royals" + 0.002*"emulation"'), (2, '0.005*"dept" + 0.004*"*******" + 0.004*"exhaust" + 0.003*"colour" + 0.003*"president\'s" + 0.003*"(205)" + 0.002*"island." + 0.002*"angels" + 0.002*"helpful." + 0.002*"suck"'), (3, '0.005*"jumper" + 0.004*"offense" + 0.004*"outlets" + 0.004*"master" + 0.003*"slave" + 0.003*"jumpers" + 0.003*"--------------------------------------------------------------------------------" + 0.002*"emacs" + 0.002*"optical" + 0.002*"ncsa"'), (4, '0.011*"april" + 0.010*"national" + 0.009*"university" + 0.009*"1993" + 0.009*"space" + 0.008*"research" + 0.008*"center" + 0.005*"washington," + 0.004*"conference" + 0.004*"office"'), (5, '0.016*"dr

<br>

### LDA 시각화
- 좌측의 원들은 각각의 20개의 토픽을 의미
- 각 원과의 거리는 각 토픽들이 서로 얼마나 다른지를 의미
  - **만약 두 개의 원이 겹친다면, 이 두 개의 토픽은 유사한 토픽이라는 의미**
  
- LDA 모델의 출력 결과에서는 토픽 번호가 0부터 할당되어 0~19의 숫자가 사용된 것과는 달리,
  
  LDA 시각화에서는 토픽의 번호가 1부터 시작하므로 각 토픽 번호는 이제 +1이 된 값인 1~20까지의 값을 가짐


In [15]:
import pandas as pd

In [None]:
pip install pyLDAvis==3.4.1

In [17]:
import pyLDAvis.gensim_models

In [18]:
pyLDAvis.enable_notebook()
vis = pyLDAvis.gensim_models.prepare(ldamodel, corpus, dictionary)
pyLDAvis.display(vis)

  and should_run_async(code)


<br>

### 문서 별 토픽 분포
- 각 문서의 토픽 분포는 이미 훈련된 LDA 모델인 `ldamodel[]`에 전체 데이터가 정수 인코딩 된 결과를 넣은 후에 확인이 가능
- 상위 5개의 문서에 대해서만 토픽 분포를 확인


<br>

- **(숫자, 확률)은 각각 토픽 번호와 해당 토픽이 해당 문서에서 차지하는 분포도를 의미**
  - 예를 들어 0번째 문서의 토픽 비율에서 (3, 0.23136619)은 3번 토픽이 23%의 분포도를 가지는 것을 의미


In [19]:
for i, topic_list in enumerate(ldamodel[corpus]):
    if i==5:
        break
    print(i,'번째 문서의 topic 비율은',topic_list)

0 번째 문서의 topic 비율은 [(4, 0.014682804), (6, 0.032301113), (11, 0.105785914), (13, 0.834855)]
1 번째 문서의 topic 비율은 [(0, 0.024865936), (12, 0.42573982), (13, 0.30909032), (18, 0.2212128)]
2 번째 문서의 topic 비율은 [(4, 0.034850363), (12, 0.34082675), (13, 0.6098841)]
3 번째 문서의 topic 비율은 [(0, 0.013231206), (10, 0.02941246), (11, 0.15245515), (12, 0.39415705), (13, 0.23816085), (17, 0.1622264)]
4 번째 문서의 topic 비율은 [(5, 0.03805989), (6, 0.22707197), (7, 0.038449086), (12, 0.5447177), (13, 0.1238101)]


  and should_run_async(code)


<br>

### LDA구축 (`sklearn`)

- 약 15년 동안 발행되었던 뉴스 기사 제목을 모아놓은 영어 데이터

In [36]:
import pandas as pd
import urllib.request
import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
nltk.download('stopwords')
nltk.download('punkt')
nltk.download('wordnet')

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import LatentDirichletAllocation

data = pd.read_csv('abcnews-date-text.csv')
print('뉴스 제목 개수 :',len(data))

  and should_run_async(code)
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


뉴스 제목 개수 : 298020


In [37]:
data.head(5)

  and should_run_async(code)


Unnamed: 0,publish_date,headline_text
0,20030219,aba decides against community broadcasting lic...
1,20030219,act fire witnesses must be aware of defamation
2,20030219,a g calls for infrastructure protection summit
3,20030219,air nz staff in aust strike for pay rise
4,20030219,air nz strike to affect australian travellers


<br>

- `publish_data`와 `headline_text`는 각각 뉴스가 나온 날짜와 뉴스 기사 제목을 의미
- `headline_text` 열. 즉, 뉴스 기사 제목 부분만 별도로 저장


In [38]:
text = data[['headline_text']]
text.head(5)

  and should_run_async(code)


Unnamed: 0,headline_text
0,aba decides against community broadcasting lic...
1,act fire witnesses must be aware of defamation
2,a g calls for infrastructure protection summit
3,air nz staff in aust strike for pay rise
4,air nz strike to affect australian travellers


<br>

### 텍스트 전처리
- 단어 토큰화


In [39]:
text['headline_text'] = text.apply(lambda row: nltk.word_tokenize(row['headline_text']), axis=1)

  and should_run_async(code)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  text['headline_text'] = text.apply(lambda row: nltk.word_tokenize(row['headline_text']), axis=1)


In [40]:
print(text.head(5))

                                       headline_text
0  [aba, decides, against, community, broadcastin...
1  [act, fire, witnesses, must, be, aware, of, de...
2  [a, g, calls, for, infrastructure, protection,...
3  [air, nz, staff, in, aust, strike, for, pay, r...
4  [air, nz, strike, to, affect, australian, trav...


  and should_run_async(code)



- 불용어를 제거

In [41]:
stop_words = stopwords.words('english')
text['headline_text'] = text['headline_text'].apply(lambda x: [word for word in x if word not in (stop_words)])

  and should_run_async(code)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  text['headline_text'] = text['headline_text'].apply(lambda x: [word for word in x if word not in (stop_words)])


In [42]:
print(text.head(5))

                                       headline_text
0   [aba, decides, community, broadcasting, licence]
1    [act, fire, witnesses, must, aware, defamation]
2     [g, calls, infrastructure, protection, summit]
3          [air, nz, staff, aust, strike, pay, rise]
4  [air, nz, strike, affect, australian, travellers]


  and should_run_async(code)


-  표제어 추출
  
  $\rightarrow$ 3인칭 단수 표현을 1인칭으로 바꾸고, 과거 현재형 동사를 현재형으로 변경

In [46]:
text['headline_text'] = text['headline_text'].apply(lambda x: [WordNetLemmatizer().lemmatize(word, pos='v') for word in x])
print(text.head(5))

  and should_run_async(code)


                                       headline_text
0       [aba, decide, community, broadcast, licence]
1      [act, fire, witness, must, aware, defamation]
2      [g, call, infrastructure, protection, summit]
3          [air, nz, staff, aust, strike, pay, rise]
4  [air, nz, strike, affect, australian, travellers]


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  text['headline_text'] = text['headline_text'].apply(lambda x: [WordNetLemmatizer().lemmatize(word, pos='v') for word in x])


- 길이가 3이하인 단어에 대해서 제거

In [47]:
tokenized_doc = text['headline_text'].apply(lambda x: [word for word in x if len(word) > 3])
print(tokenized_doc[:5])

  and should_run_async(code)


0       [decide, community, broadcast, licence]
1      [fire, witness, must, aware, defamation]
2    [call, infrastructure, protection, summit]
3                   [staff, aust, strike, rise]
4      [strike, affect, australian, travellers]
Name: headline_text, dtype: object


<br>

### TF-IDF 행렬 생성
- `TfidfVectorizer`는 기본적으로 토큰화가 되어있지 않은 텍스트 데이터를 입력으로 사용
- 이를 사용하기 위해 다시 토큰화 작업을 역으로 취소하는 역토큰화(Detokenization)작업을 수행

In [53]:
# 역토큰화 (토큰화 작업을 되돌림)
detokenized_doc = []
for i in range(len(text)):
    t = ' '.join(tokenized_doc[i])
    detokenized_doc.append(t)

  and should_run_async(code)


In [55]:
# 다시 text['headline_text']에 재저장
text['headline_text'] = detokenized_doc

  and should_run_async(code)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  text['headline_text'] = detokenized_doc


In [56]:
text['headline_text'][:5]

  and should_run_async(code)


0       decide community broadcast licence
1       fire witness must aware defamation
2    call infrastructure protection summit
3                   staff aust strike rise
4      strike affect australian travellers
Name: headline_text, dtype: object

- 1,000개의 단어로 제한하여, 1,082,168 × 1,000의 크기를 가진 가진 TF-IDF 행렬 생성

In [57]:
# 상위 1,000개의 단어를 보존
vectorizer = TfidfVectorizer(stop_words='english', max_features= 1000)
X = vectorizer.fit_transform(text['headline_text'])

# TF-IDF 행렬의 크기 확인
print('TF-IDF 행렬의 크기 :',X.shape)

  and should_run_async(code)


TF-IDF 행렬의 크기 : (298020, 1000)


<br>

### 토픽 모델링

In [58]:
lda_model = LatentDirichletAllocation(n_components=10,learning_method='online',random_state=777,max_iter=1)
lda_top = lda_model.fit_transform(X)

  and should_run_async(code)


In [60]:
print(lda_model.components_)
print(lda_model.components_.shape)

[[1.00005085e-01 1.00005904e-01 1.00004416e-01 ... 1.00007508e-01
  1.00005520e-01 1.00006835e-01]
 [1.00009360e-01 1.00004527e-01 4.42443799e+02 ... 1.00006887e-01
  1.00005776e-01 1.00003780e-01]
 [1.00002955e-01 1.00006037e-01 1.00005983e-01 ... 1.00009566e-01
  1.84530299e+02 1.00012360e-01]
 ...
 [1.95731314e+02 1.00008937e-01 1.00005132e-01 ... 1.00009835e-01
  1.00005229e-01 1.00007328e-01]
 [1.00005671e-01 1.00010948e-01 1.00003951e-01 ... 1.00009161e-01
  1.00003783e-01 1.00014360e-01]
 [1.00007410e-01 4.16949302e+02 1.00006172e-01 ... 1.00006455e-01
  1.00003538e-01 1.00003781e-01]]
(10, 1000)


  and should_run_async(code)


In [62]:
# 단어 집합. 1,000개의 단어가 저장됨.
terms = vectorizer.get_feature_names_out()

  and should_run_async(code)


In [63]:
def get_topics(components, feature_names, n=5):
    for idx, topic in enumerate(components):
        print("Topic %d:" % (idx+1), [(feature_names[i], topic[i].round(2)) for i in topic.argsort()[:-n - 1:-1]])

  and should_run_async(code)


In [64]:
get_topics(lda_model.components_,terms)

Topic 1: [('crash', 2359.71), ('kill', 2236.66), ('push', 1555.44), ('force', 1372.91), ('open', 1368.92)]
Topic 2: [('court', 2096.63), ('face', 2055.94), ('change', 1524.74), ('opposition', 1375.63), ('world', 1171.21)]
Topic 3: [('seek', 1620.07), ('iraq', 1603.66), ('house', 1503.05), ('accuse', 1492.04), ('fear', 1306.39)]
Topic 4: [('water', 3678.68), ('plan', 3617.79), ('continue', 1576.73), ('drug', 1342.8), ('power', 1294.95)]
Topic 5: [('work', 1273.82), ('record', 1190.15), ('investigate', 1152.81), ('search', 1108.57), ('fund', 1071.01)]
Topic 6: [('charge', 2574.78), ('jail', 1774.51), ('death', 1584.31), ('labor', 1492.06), ('home', 1377.62)]
Topic 7: [('closer', 2837.15), ('group', 1642.44), ('rise', 1371.18), ('test', 1325.58), ('blaze', 1128.22)]
Topic 8: [('police', 4982.08), ('govt', 4662.35), ('boost', 1569.09), ('hospital', 1311.25), ('service', 1221.86)]
Topic 9: [('council', 2717.87), ('aust', 1596.12), ('attack', 1547.26), ('lead', 1377.27), ('make', 1359.76)]
T

  and should_run_async(code)
