# Ch06. 토픽 모델링 (Topic Modeling)

# v01. 잠재 의미 분석 (Latent Semantic Analysis, LSA)

**LSA**

- 토픽 모델링을 위해 최적화된 알고리즘은 아니다.
- 그렇지만 토픽 모델링이라는 분야에 아이디어를 제공한 알고리즘이라고 볼 수 있다.
- 그러므로 토픽 모델링 알고리즘인 **LDA**에 앞서 학습한다.

**LDA**

- LDA는 LSA의 단점을 개선하여 탄생한 알고리즘
- 토픽 모델링에 보다 적합한 알고리즘이다.

**DTM과 TF-IDF의 단점**

- BoW에 기반한 DTM이나 TF-IDF는 기본적으로 단어의 빈도 수를 이용한 수치화 방법이기 때문에 **단어의 의미를 고려하지 못한다**는 단점이 있다.  
(이를 토픽 모델링 관점에서는 **단어의 토픽을 고려하지 못한다**고도 한다.)  

**단점 보완 방법**

- DTM의 잠재된(Latent) 의미를 이끌어내는 방법으로 잠재 의미 분석(Latent Semantic Analysis, LSA)이라는 방법이 있다.  
- 잠재 의미 분석(Latent Semantic Indexing, LSI)이라고도 불린다.

**특이값 분해(Singular Value Decomposition, SVD)**

- LSA 방법을 이해하기 위해서는 선형대수학의 **특이값 분해(Singular Value Decomposition, SVD)**를 이해할 필요가 있다.

<br>

## 1.1 특이값 분해 (Singular Value Decomposition, SVD)

- 특이값 분해는 **실수 벡터 공간**에 한정하여 내용을 설명한다.  
  

- SVD란 $A$가 $m \times n$ 행렬일 때, 다음과 같이 3개의 행렬의 곱으로 분해(decomposition)하는 것을 말한다.

$
\qquad
a = U \, \sum V^T
$

- 여기서 각 3개의 행렬은 다음과 같은 조건을 만족한다.
  - $U$
    - $m \times m$ 직교 행렬
    - $A\,A^T = U \, \left( \sum \, \sum^T \right) \, U^T$
  - $V$
    - $n \times n$ 직교 행렬
    - $A^T\,A = V \, \left( \sum^T \, \sum \right) \, V^T$
  - $\sum$
    - $m \times n$ 직사각 대각행렬

**직교행렬(orthogonal matrix)**

- 자신과 자신의 전치 행렬(transposed matrix)의 곱 또는 이를 반대로 곱한 결과가 **단위행렬(identity matrix)**이 되는 행렬

**대각행렬(diagonal matrix)**

- 주대각선을 제외한 곳의 원소가 모두 0인 행렬

**특이값(singular value)**

- 이 때 SVD로 나온 대각 행렬의 대각 원소의 값을 행렬 $A$의 **특이값(singular value)**라고 한다.

<br>

### 1.1.1 전치 행렬 (Transposed Matrix)

- 원래의 행렬에서 행과 열을 바꾼 행렬
- 즉, 주 대각선을 축으로 반사 대칭을 하여 얻는 행렬
- 기호 : 기존 행렬 표현의 우측 위에 $T$를 붙인다. (ex) 기존 행렬 : $M$ $\rightarrow$ 전치 행렬 : $M^T$)

$
\qquad
M = 
\begin{bmatrix}
1 & 2 \\
3 & 4 \\
5 & 6
\end{bmatrix}
\qquad
M^T = 
\begin{bmatrix}
1 & 2 & 3 \\
4 & 5 & 6
\end{bmatrix}
$

<br>

### 1.1.2 단위 행렬 (Identity Matrix)

- 주대각선의 원소가 모두 1이며, 나머지 원소는 모두 0인 정사각 행렬
- 기호 : $I$

$
\qquad
I = 
\begin{bmatrix}
1 & 0 \\
0 & 1
\end{bmatrix}
\qquad
I = 
\begin{bmatrix}
1 & 0 & 0 \\
0 & 1 & 0 \\
0 & 0 & 1
\end{bmatrix}
$

<br>

### 1.1.3 역행렬 (Inverse Matrix)

- 행렬 $A$와 어떤 행렬을 곱했을 때, 결과로서 단위 행렬이 나오면 이 때의 어떤 행렬을 행렬 $A$의 역행렬이라고 한다.
- 기호 : $A^{-1}$

$
\qquad
A \times A^{-1} = I
$

$
\qquad
\begin{bmatrix}
1 & 2 & 3 \\
4 & 5 & 6 \\
7 & 8 & 9 
\end{bmatrix}
\times
\begin{bmatrix}
  &   &   \\
  & ? &   \\
  &   &   
\end{bmatrix}
=
\begin{bmatrix}
1 & 0 & 0 \\
0 & 1 & 0 \\
0 & 0 & 1
\end{bmatrix}
$

<br>

### 1.1.4 직교 행렬 (Orthogonal Matrix)

- 실수 $n \times n$ 행렬 $A$에 대해서 다음 2가지 조건을 동시에 만족하면 행렬 $A$를 직교 행렬이라고 한다.
  - $A \times A^T = I$
  - $A^T \times A = I$
- 역행렬 정의에 따라 직교 행렬은 $A^{-1} = A^T$를 만족한다.

<br>

### 1.1.5 대각 행렬 (Diagonal Matrix)

- 주대각선을 제외한 곳의 원소가 모두 0인 행렬
- 주대각선의 원소를 $a$로 표기

**1) 정사각 대각 행렬**

- 대각 행렬 $\sum$가 $3 \times 3$ 행렬인 경우

$
\qquad
\sum = 
\begin{bmatrix}
a & 0 & 0 \\
0 & a & 0 \\
0 & 0 & a 
\end{bmatrix}
$

**2) 직사각 대각 행렬 ($m > n$)**

- 행의 크기가 열의 크기보다 큰 경우
- 즉, $m \times n$ 행렬일 때, $m > n$인 경우

$
\qquad
\sum = 
\begin{bmatrix}
a & 0 & 0 \\
0 & a & 0 \\
0 & 0 & a \\
0 & 0 & 0 
\end{bmatrix}
$

**3) 직사각 대각 행렬 ($m < n$)**

- 행의 크기가 열의 크기보다 작은 경우
- 즉, $m \times n$ 행렬일 때, $m < n$인 경우

$
\qquad
\sum = 
\begin{bmatrix}
a & 0 & 0 & 0 \\
0 & a & 0 & 0 \\
0 & 0 & a & 0 
\end{bmatrix}
$

**4) SVD를 통해 나온 대각 행렬 $\sum$의 추가적인 성질**

- 대각 행렬 $\sum$의 주대각 원소를 행렬 $A$의 **특이값(singular value)**라고 한다.
- 이 특이값을 $\sigma_1, \sigma_2, \cdots, \sigma_r$라고 표현한다고 했을 때 특이값 $\sigma_1, \sigma_2, \cdots, \sigma_r$은 **내림차순으로 정렬**되어 있다는 특징을 가진다.  
  

- 아래의 그림은 특이값 12.4, 9.5, 1.3이 내림차순으로 정렬되어져 있는 모습니다.

$
\qquad
\sum = 
\begin{bmatrix}
12.4 & 0   & 0 \\
0    & 9.5 & 0 \\
0    & 0   & 1.3 
\end{bmatrix}
$

<br>

## 1.2 절단된 SVD (Truncated SVD)

- 위에서 설명한 SVD를 풀 SVD(full SVD)라고 한다.
- 하지만 LSA의 경우 풀 SVD에서 나온 3개의 행렬에서 일부 벡터들을 삭제시킨 절단된 SVD(truncated SVD)를 사용하게 된다.  
<img src="https://wikidocs.net/images/page/24949/svd%EC%99%80truncatedsvd.PNG" />

<br>

### 1.2.1 $t$의 의미

- 절단된 SVD는 대각 행렬 $\sum$의 대각 원소의 값 중에서 상위값 $t$개만 남게 된다.
- 절단된 SVD를 수행하면 값의 손실이 일어나므로 기존의 행렬 $A$를 복구할 수 없다.
- 또한, $U$행렬과 $V$행렬의 $t$열까지만 남는다.
- 여기서 $t$는 우리가 찾고자 하는 **토픽의 수를 반영한 하이퍼파라미터값**이다.
  - 하이퍼파라미터 : 사용자가 직접 값을 선택하며 성능에 영향을 주는 매개변수
- $t$를 선택하는 것은 쉽지 않은 일이다.
  - $t$를 크게 잡는 경우 : 기존의 행렬 $A$로부터 다양한 의미를 가져갈 수 있다.
  - $t$를 작게 잡는 경우 : 노이즈를 제거할 수 있다.

<br>

### 1.2.2 데이터의 차원 줄이기의 효과

- 이렇게 일부 벡터들을 삭제하는 것을 데이터의 차원을 줄인다고 말하기도 한다.
- 데이터의 차원을 줄이게 되면 당연히 풀 SVD를 했을 때보다 직관적으로 **계산 비용이 낮아지는 효과**를 얻을 수 있다.  
  

- 계산 비용이 낮아지는 것 외에도 **상대적으로 중요하지 않은 정보를 삭제하는 효과**를 갖는다.
  - 영상 처리 분야에서는 노이즈를 제거한다는 의미를 가짐
  - 자연어 처리 분야에서는 설명력이 낮은 정보를 삭제하고 설명력이 높은 정보를 남긴다는 의미를 가짐

<br>

## 1.3 잠재 의미 분석 (Latent Semantic Analysis, LSA)

### 1.3.1 LSA의 아이디어

- 기존의 DTM이나 DTM에 단어의 중요도에 따라 가중치를 주었던 TF-IDF 행렬은 단어의 의미를 전혀 고려하지 못한다는 단점을 갖고 있다.
- LSA는 기본적으로 DTM이나 TF-IDF 행렬에 절단된 SVD(truncated SVD)를 사용하여 차원을 축소시키고, 단어들의 잠재적인 의미를 끌어낸다는 아이디어를 갖고 있다.

<br>

### 1.3.2 DTM 생성

| -     | 과일이 | 길고 | 노란 | 먹고 | 바나나 | 사과 | 싶은 | 저는 | 좋아요 |
| :---- | :----- | :--- | :--- | :--- | :----- | :--- | :--- | :--- | :----- |
| 문서1 | 0      | 0    | 0    | 1    | 0      | 1    | 1    | 0    | 0      |
| 문서2 | 0      | 0    | 0    | 1    | 1      | 0    | 1    | 0    | 0      |
| 문서3 | 0      | 1    | 1    | 0    | 2      | 0    | 0    | 0    | 0      |
| 문서4 | 1      | 0    | 0    | 0    | 0      | 0    | 0    | 1    | 1      |

- 위와 같은 DTM을 실제로 파이썬을 통해서 만들면 다음과 같다.

In [None]:
import warnings
warnings.filterwarnings('ignore')

In [2]:
import numpy as np

A = np.array([[0,0,0,1,0,1,1,0,0],
              [0,0,0,1,1,0,1,0,0],
              [0,1,1,0,2,0,0,0,0],
              [1,0,0,0,0,0,0,1,1]])

np.shape(A)

(4, 9)

- 4 x 9의 크기를 가지는 DTM이 생성됨

<br>

### 1.3.3 풀 SVD(full SVD) 수행

- 여기서는 대각 행렬의 변수명을 $\sum$가 아니라 `S`를 사용한다.
- $V$의 전치 행렬을 `VT`라고 한다.

In [None]:
U, s, VT = np.linalg.svd(A, full_matrices=True)

<br>

**1) 직교 행렬 `U`**

In [4]:
print(U.round(2))

[[-0.24  0.75  0.   -0.62]
 [-0.51  0.44 -0.    0.74]
 [-0.83 -0.49 -0.   -0.27]
 [-0.   -0.    1.    0.  ]]


In [6]:
np.shape(U)

(4, 4)

- 4 x 4의 크기를 가지는 직교 행렬 `U`가 생성됨

<br>

**2) 대각 행렬 `S`**

In [7]:
print(s.round(2))

[2.69 2.05 1.73 0.77]


In [8]:
np.shape(s)

(4,)

- Numpy의 `linalg.svd()`는 특이값 분해의 결과로 대각 행렬이 아니라 특이값의 리스트를 반환한다.
- 그러므로 앞서 본 수식의 형식으로 보려면 이를 다시 대각 행렬로 바꾸어 주어야 한다.

- 우선 특이값을 `s`에 저장하고 대각 행렬 크기의 행렬을 생성한 후에 그 행렬에 특이값을 삽입한다.

In [9]:
S = np.zeros((4, 9)) # 대각 행렬의 크기인 4 x 9의 임의의 행렬 생성
S[:4, :4] = np.diag(s) # 특이값을 대각행렬에 삽입
print(S.round(2))

[[2.69 0.   0.   0.   0.   0.   0.   0.   0.  ]
 [0.   2.05 0.   0.   0.   0.   0.   0.   0.  ]
 [0.   0.   1.73 0.   0.   0.   0.   0.   0.  ]
 [0.   0.   0.   0.77 0.   0.   0.   0.   0.  ]]


In [10]:
np.shape(S)

(4, 9)

- 4 x 9의 크기를 가지는 대각 행렬 `S`가 생성됨
- 2.69 > 2.05 > 1.73 > 0.77 순으로 값이 내림차순을 보이는 것을 확인

<br>

**3) 직교 행렬 `VT`**

In [11]:
print(VT.round(2))

[[-0.   -0.31 -0.31 -0.28 -0.8  -0.09 -0.28 -0.   -0.  ]
 [ 0.   -0.24 -0.24  0.58 -0.26  0.37  0.58 -0.   -0.  ]
 [ 0.58 -0.    0.    0.   -0.    0.   -0.    0.58  0.58]
 [ 0.   -0.35 -0.35  0.16  0.25 -0.8   0.16 -0.   -0.  ]
 [-0.   -0.78 -0.01 -0.2   0.4   0.4  -0.2   0.    0.  ]
 [-0.29  0.31 -0.78 -0.24  0.23  0.23  0.01  0.14  0.14]
 [-0.29 -0.1   0.26 -0.59 -0.08 -0.08  0.66  0.14  0.14]
 [-0.5  -0.06  0.15  0.24 -0.05 -0.05 -0.19  0.75 -0.25]
 [-0.5  -0.06  0.15  0.24 -0.05 -0.05 -0.19 -0.25  0.75]]


In [12]:
np.shape(VT)

(9, 9)

- 9 x 9의 크기를 가지는 직교 행렬 `VT`(`V`의 전치 행렬)가 생성됨

<br>

**4) 수행 결과 확인**

- `U` x `S` x `VT`를 하면 기존의 행렬 $A$가 나와야 한다.
- Numpy의 `allclose()`는 2개의 행렬이 동일하면 `True`를 리턴한다.
- 이를 사용하여 정말로 기존의 행렬 $A$와 동일한 지 확인

In [14]:
np.allclose(A, np.dot(np.dot(U, S), VT).round(2))

True

<br>

### 1.3.4 절단된 SVD(truncated SVD) 수행

- `t=2`로 지정

<br>

**1) 대각 행렬 `S` 절단**

- 대각 행렬 `S` 내의 특이값 중에서 상위 2개만 남기고 제거

In [15]:
S = S[:2, :2]
print(S.round(2))

[[2.69 0.  ]
 [0.   2.05]]


<br>

**2) 직교 행렬 `U` 절단**

- 직교 행렬 `U`에 대해서도 2개의 **열**만 남기고 제거

In [16]:
U = U[:, :2]
print(U.round(2))

[[-0.24  0.75]
 [-0.51  0.44]
 [-0.83 -0.49]
 [-0.   -0.  ]]


<br>

**3) 직교 행렬 `VT` 절단**

- 행렬 $V$의 전치 행렬인 `VT`에 대해서 2개의 **행**만 남기고 제거
- 이는 $V$ 관점에서는 2개의 **열**만 남기고 제거한 것이 된다.

In [17]:
VT = VT[:2, :]
print(VT.round(2))

[[-0.   -0.31 -0.31 -0.28 -0.8  -0.09 -0.28 -0.   -0.  ]
 [ 0.   -0.24 -0.24  0.58 -0.26  0.37  0.58 -0.   -0.  ]]


<br>

**4) 수행 결과 확인**

- 축소된 행렬 `U`, `S`, `VT`에 대해서 다시 U x S x VT 연산을 하면 기존의 $A$와는 다른 결과가 나오게 된다.
- 값이 손실되었기 때문에 이 세 개의 행렬로는 이제 기존의 $A$ 행렬을 복구할 수 없다.  

- U x S x VT 연산을 해서 나오는 값은 `A_prime`이라고 하고 기존의 행렬 `A`와 값을 비교

In [19]:
print(A)

[[0 0 0 1 0 1 1 0 0]
 [0 0 0 1 1 0 1 0 0]
 [0 1 1 0 2 0 0 0 0]
 [1 0 0 0 0 0 0 1 1]]


In [20]:
A_prime = np.dot(np.dot(U, S), VT)
print(A_prime.round(2))

[[ 0.   -0.17 -0.17  1.08  0.12  0.62  1.08 -0.   -0.  ]
 [ 0.    0.2   0.2   0.91  0.86  0.45  0.91  0.    0.  ]
 [ 0.    0.93  0.93  0.03  2.05 -0.17  0.03  0.    0.  ]
 [ 0.    0.    0.    0.    0.    0.    0.    0.    0.  ]]


- 대체적으로 기존에 0인 값들은 0에 가까운 값이 나오고, 1인 값들은 1에 가까운 값이 나온다.
- 또한 값이 제대로 복구되지 않은 구간도 존재한다.

<br>

### 1.3.5 차원이 축소된 행렬들 크기의 의미

- 이렇게 차원이 축소된 U, S, VT의 크기가 어떤 의미를 가지고 있는 지 확인

<br>

**1) 축소된 `U`**

- 축소된 `U`는 4 x 2 크기를 가진다.
- 이는 **문서의 개수 x 토픽의 수 $t$**의 크기이다.
- 단어의 개수인 9는 유지되지 않는데 문서의 개수인 4의 크기가 유지된다  
$\rightarrow$ 4개의 문서 각각을 2개의 값으로 표현하고 있다.
- 즉, `U`의 **각 행**은 **잠재 의미를 표현하기 위한 수치화된 각각의 <font color="red">문서</font>의 벡터**라고 볼 수 있다.

<br>

**2) 축소된 `VT`**

- 축소된 `VT`는 2 x 9의 크기를 가진다.
- 이는 **토픽의 수 $t$ x 단어의 개수**의 크기이다.
- `VT`의 **각 열**은 **잠재 의미를 표현하기 위해 수치화된 각각의 <font color="red">단어</font> 벡터**라고 볼 수 있다.

<br>

### 1.3.6 문서 벡터와 단어 벡터의 활용

- 이 문서 벡터들과 단어 벡터들을 통해 다른 문서의 유사도, 다른 단어의 유사도, 단어(쿼리)로부터 문서의 유사도를 구하는 것이 가능해진다.

<br>

## 1.4 실습을 통한 이해

- 사이킷런에서는 Twenty Newsgroups이라고 불리는 20개의 다른 주제를 가진 뉴스 데이터를 제공한다.
- LSA가 토픽 모델링에 최적화된 알고리즘은 아니지만, 토픽 모델링이라는 분야의 시초가 되는 알고리즘이다.
- 여기서는 LSA를 사용하여 문서의 수를 원하는 토픽의 수로 압축한 뒤에 각 토픽당 가장 중요한 단어 5개를 출력하는 실습으로 토픽 모델링을 수행한다.

<br>

### 1.4.1 뉴스 데이터에 대한 이해

In [21]:
import pandas as pd
from sklearn.datasets import fetch_20newsgroups

dataset = fetch_20newsgroups(shuffle=True,
                             random_state=1,
                             remove=('headers', 'fotters', 'quotes'))

documents = dataset.data
len(documents)

Downloading 20news dataset. This may take a few minutes.
Downloading dataset from https://ndownloader.figshare.com/files/5975967 (14 MB)


11314

- 훈련에 사용할 뉴스는 총 11,314개이다.

- 첫 번째 훈련용 뉴스 출력

In [22]:
documents[1]

'\n\n\n\n\n\n\n\nYeah, do you expect people to read the FAQ, etc. and actually accept hard\natheism?  No, you need a little leap of faith, Jimmy.  Your logic runs out\nof steam!\n\n\n\n\n\n\n\nJim,\n\nSorry I can\'t pity you, Jim.  And I\'m sorry that you have these feelings of\ndenial about the faith you need to get by.  Oh well, just pretend that it will\nall end happily ever after anyway.  Maybe if you start a new newsgroup,\nalt.atheist.hard, you won\'t be bummin\' so much?\n\n\n\n\n\n\nBye-Bye, Big Jim.  Don\'t forget your Flintstone\'s Chewables!  :) \n--\nBake Timmons, III\n\n-- "...there\'s nothing higher, stronger, more wholesome and more useful in life\nthan some good memory..." -- Alyosha in Brothers Karamazov (Dostoevsky)\n'

- 뉴스 데이터에는 특수문자가 포함된 다수의 영어 문장으로 구성되어 있다.
- 이런 형식의 뉴스가 11,314개 존재한다.

- 사이킷런이 제공하는 뉴스 데이터에서 `target_name`에는 본래 이 뉴스 데이터가 어떤 20개의 카테고리를 갖고 있었는 지가 저장되어 있다.

In [23]:
print(dataset.target_names)

['alt.atheism', 'comp.graphics', 'comp.os.ms-windows.misc', 'comp.sys.ibm.pc.hardware', 'comp.sys.mac.hardware', 'comp.windows.x', 'misc.forsale', 'rec.autos', 'rec.motorcycles', 'rec.sport.baseball', 'rec.sport.hockey', 'sci.crypt', 'sci.electronics', 'sci.med', 'sci.space', 'soc.religion.christian', 'talk.politics.guns', 'talk.politics.mideast', 'talk.politics.misc', 'talk.religion.misc']


<br>

### 1.4.2 텍스트 전처리

- 텍스트 데이터에 대해서 가능한한 정제 과정을 거쳐야만 한다.
- 기본적인 아이디어 : 알파벳을 제외한 구두점, 숫자, 특수 문자를 제거하는 것
- 이는 정규 표현식을 통해서 해결할 수 있다.
- 또한 짧은 단어는 유용한 정보를 담고 있지 않다고 가정하고, 길이가 짧은 단어도 제거한다.
- 마지막으로 모든 알파벳을 소문자로 바꿔서 단어의 개수를 줄이는 작업을 한다.

In [37]:
news_df = pd.DataFrame({'document':documents})

news_df.head()

Unnamed: 0,document
0,Well i'm not sure about the story nad it did s...
1,"\n\n\n\n\n\n\n\nYeah, do you expect people to ..."
2,\n Although I realize that principle is not ...
3,\n Notwithstanding all the legitimate fuss ...
4,"Well, I will have to change the scoring on my ..."


In [38]:
news_df['document'][1]

'\n\n\n\n\n\n\n\nYeah, do you expect people to read the FAQ, etc. and actually accept hard\natheism?  No, you need a little leap of faith, Jimmy.  Your logic runs out\nof steam!\n\n\n\n\n\n\n\nJim,\n\nSorry I can\'t pity you, Jim.  And I\'m sorry that you have these feelings of\ndenial about the faith you need to get by.  Oh well, just pretend that it will\nall end happily ever after anyway.  Maybe if you start a new newsgroup,\nalt.atheist.hard, you won\'t be bummin\' so much?\n\n\n\n\n\n\nBye-Bye, Big Jim.  Don\'t forget your Flintstone\'s Chewables!  :) \n--\nBake Timmons, III\n\n-- "...there\'s nothing higher, stronger, more wholesome and more useful in life\nthan some good memory..." -- Alyosha in Brothers Karamazov (Dostoevsky)\n'

In [39]:
# 특수문자 제거
news_df['clean_doc'] = news_df['document'].str.replace("[^a-zA-Z]", " ")

news_df['clean_doc'][1]

'        Yeah  do you expect people to read the FAQ  etc  and actually accept hard atheism   No  you need a little leap of faith  Jimmy   Your logic runs out of steam         Jim   Sorry I can t pity you  Jim   And I m sorry that you have these feelings of denial about the faith you need to get by   Oh well  just pretend that it will all end happily ever after anyway   Maybe if you start a new newsgroup  alt atheist hard  you won t be bummin  so much        Bye Bye  Big Jim   Don t forget your Flintstone s Chewables          Bake Timmons  III         there s nothing higher  stronger  more wholesome and more useful in life than some good memory        Alyosha in Brothers Karamazov  Dostoevsky  '

In [40]:
# 길이가 3이하인 단어 제거 (길이가 짧은 단어 제거)
news_df['clean_doc'] = news_df['clean_doc'].apply(lambda x: ' '.join([w for w in x.split() if len(w)>3]))

news_df['clean_doc'][1]

'Yeah expect people read actually accept hard atheism need little leap faith Jimmy Your logic runs steam Sorry pity sorry that have these feelings denial about faith need well just pretend that will happily ever after anyway Maybe start newsgroup atheist hard bummin much forget your Flintstone Chewables Bake Timmons there nothing higher stronger more wholesome more useful life than some good memory Alyosha Brothers Karamazov Dostoevsky'

In [41]:
# 전체 단어에 대한 소문자 변환
news_df['clean_doc'] = news_df['clean_doc'].apply(lambda x: x.lower())

news_df['clean_doc'][1]

'yeah expect people read actually accept hard atheism need little leap faith jimmy your logic runs steam sorry pity sorry that have these feelings denial about faith need well just pretend that will happily ever after anyway maybe start newsgroup atheist hard bummin much forget your flintstone chewables bake timmons there nothing higher stronger more wholesome more useful life than some good memory alyosha brothers karamazov dostoevsky'

<br>

- 이제 뉴스 데이터에서 불용어를 제거한다.
- 불용어를 제거하기 위해서 토큰화를 우선 수행한다.

In [44]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [45]:
from nltk.corpus import stopwords

stop_words = stopwords.words('english')

# 토큰화
tokenized_doc = news_df['clean_doc'].apply(lambda x: x.split()) 
tokenized_doc

0        [well, sure, about, story, seem, biased, what,...
1        [yeah, expect, people, read, actually, accept,...
2        [although, realize, that, principle, your, str...
3        [notwithstanding, legitimate, fuss, about, thi...
4        [well, will, have, change, scoring, playoff, p...
                               ...                        
11309    [danny, rubenstein, israeli, journalist, will,...
11310    [description, content, just, about, ronroth, p...
11311    [agree, home, runs, clemens, always, memorable...
11312    [used, deskjet, with, orange, micros, grappler...
11313    [argument, with, murphy, scared, hell, when, c...
Name: clean_doc, Length: 11314, dtype: object

In [46]:
# 불용어 제거
tokenized_doc = tokenized_doc.apply(lambda x: [item for item in x if item not in stop_words])
tokenized_doc

0        [well, sure, story, seem, biased, disagree, st...
1        [yeah, expect, people, read, actually, accept,...
2        [although, realize, principle, strongest, poin...
3        [notwithstanding, legitimate, fuss, proposal, ...
4        [well, change, scoring, playoff, pool, unfortu...
                               ...                        
11309    [danny, rubenstein, israeli, journalist, speak...
11310    [description, content, ronroth, posts, date, l...
11311    [agree, home, runs, clemens, always, memorable...
11312    [used, deskjet, orange, micros, grappler, syst...
11313    [argument, murphy, scared, hell, came, last, y...
Name: clean_doc, Length: 11314, dtype: object

- 불용어에 속하는 your, about, just, that, will, after 단어들이 사라졌다.

<br>

### 1.4.3 TF-IDF 행렬 만들기

- 불용어 제거를 위해 토큰화 작업을 수행하였지만, `TfidfVectorizer`는 기본적으로 토큰화가 되어 있지 않은 텍스트 데이터를 입력으로 사용한다.
- 그렇기 때문에 `TfidfVectorizer`를 사용해 TF-IDF 행렬을 만들기 위해서 다시 토큰화 작업을 역으로 취소하는 작업을 수행한다.
- 이를 **역토큰화(Detokenization)**라고 한다.

In [None]:
# 역토큰화
detokneized_doc = []

for i in range(len(news_df)):
    t = ' '.join(tokenized_doc[i])
    detokneized_doc.append(t)

news_df['clean_doc'] = detokneized_doc

In [48]:
news_df['clean_doc'][1]

'yeah expect people read actually accept hard atheism need little leap faith jimmy logic runs steam sorry pity sorry feelings denial faith need well pretend happily ever anyway maybe start newsgroup atheist hard bummin much forget flintstone chewables bake timmons nothing higher stronger wholesome useful life good memory alyosha brothers karamazov dostoevsky'

<br>

- 사이킷런의 `TfidfVectorizer`를 통해 단어 1,000개에 대한 TF-IDF 행렬을 만든다.

In [49]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(stop_words='english',
                             max_features=1000,
                             max_df=0.5,
                             smooth_idf=True)

X = vectorizer.fit_transform(news_df['clean_doc'])
X.shape

(11314, 1000)

<br>

## 1.4.4 토픽 모델링 (Topic Modeling)

- TF-IDF 행렬을 다수의 행렬로 분해
- 여기서는 사이킷런의 절단된 SVD(truncated SVD)를 사용한다.
- 절단된 SVD를 사용하면 차원을 축소할 수 있다.
- 원래 기존 뉴스 데이터가 20개의 뉴스 카테고리를 갖고 있었기 때문에 20개의 토픽을 가졌다고 가정하고 토픽 모델링을 시도한다.
- 토픽의 숫자는 `n_components`의 파라미터로 지정이 가능하다.

In [50]:
from sklearn.decomposition import TruncatedSVD

svd_model = TruncatedSVD(n_components=20,
                         algorithm='randomized',
                         n_iter=100,
                         random_state=122)

svd_model.fit(X)
len(svd_model.components_)

20

- `svd_model.components_` : LSA에서 `VT`에 해당된다.

In [51]:
np.shape(svd_model.components_)

(20, 1000)

- 정확하게 "토픽의 수 t x 단어의 수"의 크기를 가지는 것을 볼 수 있다.

In [None]:
terms = vectorizer.get_feature_names() # 단어 집합. 1,000개의 단어가 저장됨

def get_topics(components, feature_names, n=5):
    for idx, topic in enumerate(components):
        print("Topic %d:" % (idx+1), [(feature_names[i], topic[i].round(5)) for i in topic.argsort()[:-n - 1:-1]])

In [96]:
get_topics(svd_model.components_, terms)

Topic 1: [('like', 0.20505), ('know', 0.18838), ('people', 0.18376), ('think', 0.16767), ('good', 0.14274)]
Topic 2: [('thanks', 0.3379), ('windows', 0.27465), ('mail', 0.17725), ('card', 0.17113), ('drive', 0.15578)]
Topic 3: [('game', 0.38223), ('team', 0.32242), ('year', 0.27387), ('games', 0.24544), ('season', 0.18665)]
Topic 4: [('drive', 0.51326), ('scsi', 0.20344), ('disk', 0.15638), ('hard', 0.15618), ('card', 0.15153)]
Topic 5: [('thanks', 0.37204), ('drive', 0.3638), ('know', 0.25132), ('scsi', 0.13857), ('advance', 0.12312)]
Topic 6: [('windows', 0.34853), ('know', 0.23487), ('like', 0.1898), ('think', 0.17901), ('file', 0.12958)]
Topic 7: [('like', 0.55178), ('bike', 0.1782), ('know', 0.17522), ('chip', 0.11768), ('sounds', 0.079)]
Topic 8: [('know', 0.24374), ('thanks', 0.22401), ('government', 0.21558), ('people', 0.18357), ('israel', 0.12575)]
Topic 9: [('card', 0.51616), ('video', 0.2482), ('monitor', 0.15725), ('sale', 0.15), ('drivers', 0.13072)]
Topic 10: [('like', 0

- 각 20개의 행의 각 1,000개의 열 중 가장 값이 큰 5개의 값을 찾아서 단어로 출력한다.

<br>

## 1.5 LSA의 장단점 (Pros and Cons of LSA)

### 1.5.1 장점

- LSA는 쉽고 빠르게 구현이 가능하다.
- 단어의 잠재적인 의미를 이끌어낼 수 있어 문서의 유사도 계산 등에서 좋은 성능을 보여준다

<br>

### 1.5.2 단점

- SVD의 특성상 이미 계산된 LSA에 새로운 데이터를 추가하여 계산하려고하면 보통 처음부터 다시 계산해야 한다.
- 즉, 새로운 정보에 대해 업데이트가 어렵다.
- 이는 최근 LSA 대신 Word2Vec 등 단어의 의미를 벡터화할 수 있는 또 다른 방법론인 인공 신경망 기반의 방법론이 각광받는 이유이기도 하다.