# LSA (Latent Semantic Analysis(潜在意味解析))

### 自然言語(人語)処理の一種

### メモ<br>
・多量の文章から類似度のあるものを自動的に学習してくれる。<br>
    車と自動車は人には同類語と判別出来るが、情報検索の分野にてそれは困難  <br>
    →車で検索をかけても自動車が抜き出されることはない<br>
    →そこで大量の文章から自動的に単語同士の類似度、単語と文書の類似度を計算してくれるのがLSA!!<br>

・LSAにより次元削減をして、潜在的な意味空間へ変換する

---
・複数の文書データがあったとする。ここで４つの文書データを8種類の単語に分類できたとして
８行４列の行列Xが出来たとする。このXは次で表すことができる。<br>
### X = UDV\^T= <br>
$\begin{bmatrix}
0 & -1 & -1 &-1 \\\ 
0 & -1 & -1 & 0 \\\  
… & …　& … &　… \\\
-1 & 0 & 0 &-1 
\end{bmatrix} $
$\begin{bmatrix}
4 & 0 & 0 & 0  \\\ 
0 & 3 & 0 & 0 \\\  
0 & 0 & 2 & 0 \\\  
0 & 0 & 0 &1 
\end{bmatrix}$
$\begin{bmatrix}
0 & 0 & -1 & -1  \\\ 
-1 & -1 & 0 & 0 \\\  
-1 & 1 & 0 & 0 \\\  
0 & 0 & 1 &1 
\end{bmatrix}$


#### ・U : 単語と要約された特徴量の変換情報を持つ行列
#### ・D : 行列の重要度を持つ行列(行列の重要度が大きい順に並ぶ)
#### ・V : 要約された特徴量と文書の変換情報を持つ行列

---
### 次元削減 

・次にこれを次元削減したい・・・！ 
とすると、例えば2個の特徴量に次元削減したいとするならば \
・・・U : ３、４列目を削除する \
・・・D : ２行２列にする \
・・・V : ３行目以降は全て削除 \

上記の手順を踏まえるとこうなる 

### X = UDV\^T= <br>
$\begin{bmatrix}
0 & -1  \\\ 
0 & -1  \\\  
… & …　 \\\
-1 & 0 
\end{bmatrix} $
$\begin{bmatrix}
4 & 0 \\\ 
0 & 3 
\end{bmatrix}$
$\begin{bmatrix}
0 & 0 & -1 & -1  \\\ 
-1 & -1 & 0 & 0 
\end{bmatrix}$

---

### 解説

・これによりXは次元削減しながらも元の行列Xの近似を取ることができた \
・特にUDは要約された特徴量の中から重要度の高い特徴量を選択できたことになる

・次に要約された特徴量A、Bの潜在的な意味を考えることにする、下記にUDの計算ソースを記載する



In [1]:
#decomposition：分解、Truncated：切り捨てられた
#特異値分解:SVD (singular value decomposition)
from sklearn.decomposition import TruncatedSVD

data = [[1, 0, 0, 0],
[1, 0, 0, 0],
[1, 1, 0, 0],
[0, 1, 0, 0],
[0, 0, 1, 1],
[0, 0, 1, 0],
[0, 0, 1, 1],
[0, 0, 0, 1]]
n_components = 2 # 潜在変数の数
model = TruncatedSVD(n_components=n_components)
model.fit(data)
print(" [UD変換後のデータ] ")
print(model.transform(data)) # 変換したデータ 
print("----------")
print(" [寄与率] ")
print(model.explained_variance_ratio_) # 寄与率 
print("----------")
print(" [累積寄与率] ")
print(sum(model.explained_variance_ratio_)) # 累積寄与率

 [UD変換後のデータ] 
[[ 0.00000000e+00  8.50650808e-01]
 [ 0.00000000e+00  8.50650808e-01]
 [-1.35973996e-15  1.37638192e+00]
 [-1.35973996e-15  5.25731112e-01]
 [ 1.41421356e+00  1.01096131e-15]
 [ 7.07106781e-01  6.06576787e-16]
 [ 1.41421356e+00  1.01096131e-15]
 [ 7.07106781e-01  4.04384525e-16]]
----------
 [寄与率] 
[0.38596491 0.27999429]
----------
 [累積寄与率] 
0.6659592065833306


---
### LSAの注意点
・変換後の行列の解釈が難しい \
・NMF、LDAの方が解釈が容易であることが多い \
・文章の単語が行列の数になるため非常に大きい計算数になりコストが膨大＆計算が多いのでモデルの更新が難しい