# 잠재 디리클레 할당 모델 
알파와 베파는 상수
단어들로부터 확률을 추출 

### LDA의 가정
1. **단어 교환성(exchangeability):** 단어 교환성은 순서를 고려하지 않고, 빈도 수만을 사용한다.  
    이를 기반으로, 단어들의 교환성을 구한다.
    
### LDA할당 절차
1. 토픽 개수를 k개로 설정. D개의 전체 문서에, k개의 토픽이 분포되어 있다고 가정
2. 모든 단어를 k개 토픽 중 하나에 임의 할당  
    그 결과, 각 문서는 토픽을 가지고, 토픽은 단어 분포를 가지게 된다. 
3. 재할당을 반복
    2.에서 임의로 할당하였지만, 올바르게 할당되었다고 가정한다.
    p: 문서 d의 단어들 중 토픽 t에 해당하는 단어들의 비율
    p: 단어 w를 갖고 있는 모든 문서들 중 토픽 t가 할당된 비율
    p: p x p에 따라 토픽할당
    
결국, 문서, 단어, 토픽의 개수는 사용자가 정한다.  
그 이후, 지속적인 재할당 작업을 반복하며, 안정화(**변동이 없을 때까지**)가 되도록 한다. 

### 한계
parameter의 개수 설정값에 따라서 너무 달라진다.  
어느정도의 수준에서 parameter숫자를 정해야하는지에 대해서 의견이 분분하다..   


# 1. 잠재의미분석(LDA)

In [5]:
docs_ls = ['Cute kitty',
           'Eat rice or cake',
           'Kitty and hamster',
           'Eat bread',
           'Rice, bread and cake',
           'Cute hamster eats bread and cake']

In [42]:
# 먼저 소문자로 변환 
lower_word_ls = []

for docs in docs_ls:
    docs = [word.lower() for word in docs.split()]
    lower_word_ls.extend(docs)

# 모든 단어들
lower_word_ls.remove('or')
lower_word_ls.remove('and')
lower_word_ls.remove('and')
lower_word_ls.remove('and')

# 중복이 제거된 Unique한 단어들
unique_word_ls = list(set(lower_word_ls))

In [43]:
print(lower_word_ls)
print(unique_word_ls)

['cute', 'kitty', 'eat', 'rice', 'cake', 'kitty', 'hamster', 'eat', 'bread', 'rice,', 'bread', 'cake', 'cute', 'hamster', 'eats', 'bread', 'cake']
['kitty', 'eat', 'rice', 'cute', 'hamster', 'cake', 'rice,', 'eats', 'bread']


In [51]:
import random
import numpy as np
import pandas as pd

k = 2 # 토픽 개수
num = 0.001 # 임의의 상수

word_count_ls = []
for word in lower_word_ls: 
    rannumber = random.randrange(1,k+1) # 토픽으로 할당 할 것
    word_count_ls.append(rannumber)
    
word_count_ls

[2, 2, 2, 2, 2, 2, 1, 2, 2, 2, 2, 1, 1, 1, 1, 2, 2]

In [52]:
word_array = np.array(lower_word_ls)
type(word_array)

numpy.ndarray

In [53]:
count_array = np.array(word_count_ls)

In [54]:
print(word_array, count_array)

['cute' 'kitty' 'eat' 'rice' 'cake' 'kitty' 'hamster' 'eat' 'bread'
 'rice,' 'bread' 'cake' 'cute' 'hamster' 'eats' 'bread' 'cake'] [2 2 2 2 2 2 1 2 2 2 2 1 1 1 1 2 2]


In [55]:
matrix1 = np.matrix([word_array, count_array])

In [56]:
matrix1

matrix([['cute', 'kitty', 'eat', 'rice', 'cake', 'kitty', 'hamster',
         'eat', 'bread', 'rice,', 'bread', 'cake', 'cute', 'hamster',
         'eats', 'bread', 'cake'],
        ['2', '2', '2', '2', '2', '2', '1', '2', '2', '2', '2', '1', '1',
         '1', '1', '2', '2']], dtype='<U11')

In [57]:
type(matrix1)

numpy.matrix

In [58]:
len(docs_ls)

6

In [59]:
df = pd.DataFrame(matrix1)
df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16
0,cute,kitty,eat,rice,cake,kitty,hamster,eat,bread,"rice,",bread,cake,cute,hamster,eats,bread,cake
1,2,2,2,2,2,2,1,2,2,2,2,1,1,1,1,2,2


In [67]:
doc_ls = ['Cute kitty',
           'Eat rice or cake',
           'Kitty and hamster',
           'Eat bread',
           'Rice, bread and cake',
           'Cute hamster eats bread and cake']

In [68]:
class LDA :
    def __init__(self, doc_ls, topic_num, alpha = 0.1, beta = 0.001):
        self.alpha = alpha
        self.beta = beta
        self.k = topic_num
        
    def RandomlyAssignTopic(self, doc_ls):
        dic = defaultdict(dict)
        t2i = defaultdict(lambda : len(t2i))
        i2t = defaultdict()
        d = 0
        w = 0
        
        wnl = WordNetLemmatizer()
        stopword = stropwords.words('english')
        stopword.append('.')
        
        # 임의의 토픽을 할당
        for token in [word_tokenize(doc) for doc in docs]:
            for token in [wnl.lemmatize(token.lower()) for token in tokens
                         if token not in stopword] :
                i2t[t2i[token]] = token
                dic[(d, t2i[token], w)] = random.randint(0,self,k-1)
                w += 1
            d += 1
            
        print(dic)
        return dic, t2i, i2t
    
    def IterateAssignTopic(self) :
        pass
    
    # 토픽별 주요 키워드 출력
    def TopicModeling(self) :
        pass

In [71]:
LDA.__init__(doc_ls, topic_num=2)
LDA.RandomlyAssignTopic(doc_ls)

NameError: name 'self' is not defined