## 토픽모델 

### 예제 

In [19]:
library(tidyverse)

In [14]:
documents = rbind(c('손흥민','골'),
                  c('골','확률'),
                  c('확률','데이터과학'))

In [15]:
rownames(documents)<-c('doc1','doc2','doc3')
colnames(documents)<-c('word1','word2')
documents

Unnamed: 0,word1,word2
doc1,손흥민,골
doc2,골,확률
doc3,확률,데이터과학


In [16]:
document_topics=rbind(c(2,1),c(1,2),c(2,1)) ## 내마음대로 초기화 
rownames(document_topics)<-c('doc1','doc2','doc3')
colnames(document_topics)<-c('word1','word2')

In [17]:
document_topics

Unnamed: 0,word1,word2
doc1,2,1
doc2,1,2
doc3,2,1


문서당 토픽비율 
- 문서1:[손흥민,골]=[2,1] 
- 문서2:[골,확률]=[1,2]
- 문서3:[확률,데이터과학]=[2,1]

토픽별로 자주등장하는 단어 
- 토픽1: 골,골,데이터과학 --> 축구?
- 토픽2: 손흥민,확률,확률 --> 통계? 

목표: document_topics의 값을 그럴듯한 값으로 채우고 싶다. 예를들면 아래처럼 

```r
document_topics=rbind(c(1,1),c(1,2),c(2,2))
document_topics=rbind(c(2,2),c(2,1),c(1,1))
```

그러니까 $3\times 2$ 차원의 랜덤변수를 뽑는 문제이다. 

---

문서1: [`손흥민`, 골]

`-` 임의의 초기값을 넣어서 현재상황은 아래와 같다. 

문서당 토픽비율 
- 문서1:[손흥민,골]=[2,1] 
- 문서2:[골,확률]=[1,2]
- 문서3:[확률,데이터과학]=[2,1]

토픽별로 자주등장하는 단어 
- 토픽1: 골,골,데이터과학 --> 축구?
- 토픽2: 손흥민,확률,확률 --> 통계? 

`-` 지금 우리의 관심은 문서1 손흥민 해당하는 토픽으로 `토픽=1`이라 생각하는 것이 그럴듯한지, `토픽=2`라고 생각하는게 그럴듯한지 다시 따져보고 싶다. 

`-` 깁스샘플링: 현재 관심이 있는 문서1의 첫단어 손흥민에 대한 토픽분류를 제외하고 나머지는 모두 올바른 값이라고 가정하자. 

문서당 토픽비율 
- 문서1:[손흥민,골]=[2,1] ==> [?,1] 
- 문서2:[골,확률]=[1,2] ==> [1,2] 
- 문서3:[확률,데이터과학]=[2,1] ==> [2,1] 

토픽별로 자주등장하는 단어 
- 토픽1: 골,골,데이터과학 ==> 골,골,데이터과학
- 토픽2: 손흥민,확률,확률 ==> ?, 확률, 확률 

`-` 손흥민이라는 단어가 뽑힐 경우는 아래의 두 경우중 하나이다. 
- 토픽1에서 뽑혔을 경우
- 토픽2에서 뽑혔을 경우 

`-` 토픽1에서 뽑혔을 경우는 아래와 같이 계산 할 수 있다. 
- (문서1에 토픽1이 포함되어 있는 비율) $\times$ (토픽1에서 손흥민이라는 단어를 뽑을 확률) = 1 $\times$ 0.001
- p(토픽1|문서1) $\times$ p(손흥민|토픽1) = 1 $\times$ 0.001

`-` 토픽2에서 뽑혔을 경우는 아래와 같이 계산 할 수 있다. 
- (문서1에 토픽2가 포함되어 있는 비율) $\times$ (토픽2에서 손흥민이라는 단어를 뽑을 확률) = 0.001 $\times$ 0.001
- p(토픽2|문서1) $\times$ p(손흥민|토픽2) = 0.001 $\times$ 0.001

`-` 손흥민은 토픽1에서 뽑혔다고 보는게 타당함. (왜? 현재단어 손흥민 문서1에 있고, 문서1은 토픽1이 대부분이니까!)

`-` 아래와 같이 업데이트 한다. 

문서당 토픽비율 
- 문서1:[손흥민,골]=[1,1] 
- 문서2:[골,확률]=[1,2]
- 문서3:[확률,데이터과학]=[2,1]

토픽별로 자주등장하는 단어 
- 토픽1: 손흥민,골,골,데이터과학
- 토픽2: 확률,확률 

문서2: [손흥민, `골`]

`-` 업데이트 전 

문서당 토픽비율 
- 문서1:[손흥민,골]=[1,1] ==> [1,?] 
- 문서2:[골,확률]=[1,2] ==> [1,2] 
- 문서3:[확률,데이터과학]=[2,1] ==> [2,1] 

토픽별로 자주등장하는 단어 
- 토픽1: 손흥민,?,골,데이터과학
- 토픽2: 확률,확률 

`-` 샘플링 

- p(토픽1|문서1) $\times$ p(골|토픽1) = 1 $\times$ 1/3  
- p(토픽2|문서1) $\times$ p(골|토픽2) = 0.001 $\times$ 0.001 

결정: 토픽1을 선택 (왜? 현재단어는 문서1에 있는데, 문서1에는 토픽1이 대부분이다, 그리고 현재 단어는 골인데, 골이라는 단어는 토픽1에서 잘나온다.)

`-` 업데이트 후 (그대로 유지) 

문서당 토픽비율 
- 문서1:[손흥민,골]=[1,1]  
- 문서2:[골,확률]=[1,2] 
- 문서3:[확률,데이터과학]=[2,1]

토픽별로 자주등장하는 단어 
- 토픽1: 손흥민,골,골,데이터과학
- 토픽2: 확률,확률 

---

`-` 이런식으로 반복하면 결국 각 단어는 자신의 정체성(토픽1인지 토픽2인지)를 아래와 같은 2가지 기준으로 판단한다. 
- 나(=단어)는 $d$-th document에 속해있다. $\to$ 그런데 이 document의 단어를 쭉 살펴보니 토픽 $k$가 많다. $\to$ 나도 토픽 $k$인가?  
- 나(=단어)와 똑같은 이름을 가진 단어들이 토픽 $k'$에 많다. $\to$ 나도 토픽 $k'$에서 왔을까? 

`-` 재미있는 점은 각 단어의 선택이 다른 단어에도 영향을 준다는 것이다. (다들 나 빼고는 맞다고 가정하고 있으니까 )

---

`-` 구현해보자. 

In [119]:
doclen <- 5 
word<-c('손흥민','골','골','박지성','패스',
        '골','확률','패스','손흥민','골',
        '골','골','확률','패스','골',
        '골','박지성','통계','확률','골',
        '확률','통계','박지성','통계','골',
        '확률','확률','골','통계','AI',
        '확률','확률','통계','통계','AI',
        '확률','빅데이터','데이터과학','빅데이터','AI',
        '확률','데이터과학','AI','데이터과학','데이터과학')
doc<-c(rep(1,doclen),rep(2,doclen),rep(3,doclen),
      rep(4,doclen),rep(5,doclen),rep(6,doclen),
      rep(7,doclen),rep(8,doclen),rep(9,doclen))

topic<-c(2,1,1,2,2,
         1,2,1,2,2,
         1,2,1,2,2,
         1,2,1,2,2,
         1,2,1,2,2,
         1,2,2,2,2,
         1,2,1,1,2,
         1,2,1,1,2,
         2,1,1,2,2)
data<-tibble(word=word,doc=doc,topic=topic)
data

word,doc,topic
<chr>,<dbl>,<dbl>
손흥민,1,2
골,1,1
골,1,1
박지성,1,2
패스,1,2
골,2,1
확률,2,2
패스,2,1
손흥민,2,2
골,2,2


In [120]:
topic_doc<-function(data,k,d,alpha=0.1){ #k: 토픽의 인덱스, d:doc의 인덱스
    count_ = dim(filter(data,doc==d,topic==k))[1] + alpha 
    total_ = dim(filter(data,doc==d))[1] + alpha * K # K는 전체 토픽의 수 
    count_ / total_ 
} 

In [121]:
word_topic<-function(data,w,k,alpha=0.1){ #k: 토픽의 인덱스, w: word의 인덱스 
    word_ = filter(data,doc==d)$word[w]
    count_ = dim(filter(data, topic==k,word==word_))[1] + alpha
    total_ = dim(filter(data, topic==k))[1] + alpha * W  # W=length(unique(data$word))
    count_ / total_ 
}

In [122]:
topicprob<-function(data,d,w){
    rtn<-c()
    for(k in 1:K){
        rtn[k]=topic_doc(data,k,d)* word_topic(data,w,k)
    } 
    rtn/sum(rtn)
}

In [124]:
D<-max(data$doc) # 다큐먼트의 수 
K<-2 # 토픽의수 
W<-length(unique(data$word))
for(t in 1:2){
    for(d in 1:D){
    for(w in 1:doclen){
    i=(d-1)*doclen+w 
    data[i,]$topic<-(topicprob(data[-i,],d,w)[2] > runif(1)) + 1
    }
}
}
data

word,doc,topic
<chr>,<dbl>,<dbl>
손흥민,1,2
골,1,2
골,1,2
박지성,1,2
패스,1,2
골,2,2
확률,2,2
패스,2,2
손흥민,2,2
골,2,2
