## LDA(Latent Dirichlet Allocation)
- 주어진 문서에 대하여 각 문서에 어떤 주제들이 존재하는지에 대한 확률모형
- 토픽별 단어의 분포, 문서별 토픽의 분포를 모두 추정
- 특정 토픽에 특정 단어가 나타날 확률을 준다.
- Topic_proportions & assignments 가 핵심 프로세스이다.
- 

In [1]:
from collections import Counter

In [2]:
# document bundles
documents = [["Hadoop", "Big Data", "HBase", "Java", "Spark", "Storm", "Cassandra"],
    ["NoSQL", "MongoDB", "Cassandra", "HBase", "Postgres"],
    ["Python", "scikit-learn", "scipy", "numpy", "statsmodels", "pandas"],
    ["R", "Python", "statistics", "regression", "probability"],
    ["machine learning", "regression", "decision trees", "libsvm"],
    ["Python", "R", "Java", "C++", "Haskell", "programming languages"],
    ["statistics", "probability", "mathematics", "theory"],
    ["machine learning", "scikit-learn", "Mahout", "neural networks"],
    ["neural networks", "deep learning", "Big Data", "artificial intelligence"],
    ["Hadoop", "Java", "MapReduce", "Big Data"],
    ["statistics", "R", "statsmodels"],
    ["C++", "deep learning", "artificial intelligence", "probability"],
    ["pandas", "R", "Python"],
    ["databases", "HBase", "Postgres", "MySQL", "MongoDB"],
    ["libsvm", "regression", "support vector machines"]]

In [3]:
# num of topic
K=4

In [4]:
# 각 토픽이 각 문서에 할당되는 횟수
# 카운터로 구성된 리스트
# 각 카운터는 각 문서를 의미한다.
document_topic_counts = [Counter() for _ in documents] # [Counter() , Counter() ,..]

# 각 단어가 각 토픽에 할당되는 횟수
# 카운터로 구성된 리스트
# 각 카운터는 각 토픽을 의미
topic_word_counts = [Counter() for _ in range(K)] # [Counter() , Counter() ,..]

# 각 토픽에 할당되는 총 단어 수
# 숫자로 구성된 리스트
# 각각의 숫자는 각 토픽을 의미한다.
topic_counts = [0 for _ in range(K)] # [0,0,0,...]

document_lengths = [len(doc) for doc in documents] #[len(doc) , len(doc) , len(doc),...]

distinct_words = set(word for document in documents for word in document) # set(words in document)

V = len(distinct_words) # len(set(words in document))

D = len(documents) # len(documents)

A

In [5]:
def p_topic_given_document(topic,d,alpha=0.1):
    # 문서 d의 모든 단어 가운데 topic에 속하는
    # 단어의 비율(alpha를 더해 스무딩)
    return ((document_topic_counts[d][topic] + alpha)/
           (document_lengths[d] + K*alpha))

B

In [6]:
def p_word_given_topic(word , topic , beta = 0.1):
    # topic 에 속한 단어 가운데 word의 비율
    # beta를 더해 스무딩
    return ((topic_word_counts[topic][word] + beta) /
           (topic_counts[topic] + V * beta))

A * B

In [7]:
def topic_weight(d, word , k):
    # 문서와 문서의 단어가 주어지면
    # k 번째 토픽의 가중치를 반환
    return p_word_given_topic(word,k) * p_topic_given_document(k,d)

In [8]:
import random
def sample_from(weights):
    # i를 weights[i] / sum(weights)
    # 확률로 반환
    total = sum(weights)
    # 0과 total 사이를 균일하게 선택
    rnd = total * random.random()
    # 아래 식을 만족하는 가장 작은 i를 반환
    # weights[0] + ... + weights[i] >= rnd
    for i, w in enumerate(weights):
        rnd -= w
        if rnd <= 0:
            return i

In [9]:
def choose_new_topic(d, word):
    return sample_from([topic_weight(d, word, k) for k in range(K)])

In [10]:
random.seed(0)

# topic 수 지정
K=4

# 각 단어를 임의의 토픽에 랜덤 배정
document_topics = [[random.randrange(K) for word in document]
                    for document in documents]

# 위와 같이 랜덤 초기화한 상태에서 
# AB를 구하는 데 필요한 숫자를 세어봄
for d in range(D):
    for word, topic in zip(documents[d], document_topics[d]):
        document_topic_counts[d][topic] += 1
        topic_word_counts[topic][word] += 1
        topic_counts[topic] += 1
        document_lengths

In [11]:
document_topic_counts

[Counter({0: 1, 2: 2, 3: 4}),
 Counter({1: 2, 2: 2, 3: 1}),
 Counter({0: 2, 1: 2, 2: 2}),
 Counter({0: 2, 2: 2, 3: 1}),
 Counter({1: 1, 2: 1, 3: 2}),
 Counter({0: 3, 2: 1, 3: 2}),
 Counter({0: 1, 1: 1, 2: 1, 3: 1}),
 Counter({0: 1, 1: 2, 2: 1}),
 Counter({0: 1, 1: 2, 3: 1}),
 Counter({0: 2, 2: 1, 3: 1}),
 Counter({0: 1, 2: 2}),
 Counter({1: 1, 2: 2, 3: 1}),
 Counter({0: 1, 2: 1, 3: 1}),
 Counter({1: 4, 2: 1}),
 Counter({0: 1, 2: 1, 3: 1})]

In [12]:
topic_word_counts

[Counter({'Big Data': 1,
          'C++': 1,
          'HBase': 1,
          'Hadoop': 1,
          'Haskell': 1,
          'Java': 1,
          'R': 1,
          'artificial intelligence': 1,
          'libsvm': 1,
          'pandas': 2,
          'regression': 1,
          'scikit-learn': 2,
          'statistics': 1,
          'statsmodels': 1}),
 Counter({'Cassandra': 1,
          'HBase': 1,
          'Mahout': 1,
          'MongoDB': 1,
          'MySQL': 1,
          'Postgres': 1,
          'Python': 1,
          'databases': 1,
          'decision trees': 1,
          'deep learning': 2,
          'neural networks': 2,
          'numpy': 1,
          'theory': 1}),
 Counter({'C++': 1,
          'Cassandra': 1,
          'HBase': 1,
          'Java': 2,
          'MongoDB': 1,
          'Postgres': 1,
          'Python': 2,
          'R': 2,
          'artificial intelligence': 1,
          'machine learning': 1,
          'mathematics': 1,
          'probability': 1,
         

In [13]:
topic_counts

[16, 15, 20, 16]

In [14]:
for iter in range(1000):
    for d in range(D):
        for i, (word, topic) in enumerate(zip(documents[d],document_topics[d])):
            # 깁스 샘플링 수행을 위해
            # 샘플링 대상 word와 topic을 제외하고 세어봄
            document_topic_counts[d][topic] -= 1
            topic_word_counts[topic][word] -= 1
            topic_counts[topic] -= 1
            document_lengths[d] -= 1

            # 깁스 샘플링 대상 word와 topic을 제외한 
            # 말뭉치 모든 word의 topic 정보를 토대로
            # 샘플링 대상 word의 새로운 topic을 선택
            new_topic = choose_new_topic(d, word)
            document_topics[d][i] = new_topic

            # 샘플링 대상 word의 새로운 topic을 반영해 
            # 말뭉치 정보 업데이트
            document_topic_counts[d][new_topic] += 1
            topic_word_counts[new_topic][word] += 1
            topic_counts[new_topic] += 1
            document_lengths[d] += 1

In [15]:
document_topic_counts[0]

Counter({0: 7, 1: 0, 2: 0, 3: 0})

In [16]:
topic_word_counts[0]

Counter({'Big Data': 3,
         'C++': 1,
         'Cassandra': 1,
         'HBase': 1,
         'Hadoop': 2,
         'Haskell': 0,
         'Java': 3,
         'Mahout': 0,
         'MapReduce': 1,
         'MongoDB': 0,
         'MySQL': 0,
         'NoSQL': 0,
         'Postgres': 0,
         'Python': 0,
         'R': 0,
         'Spark': 1,
         'Storm': 1,
         'artificial intelligence': 0,
         'databases': 0,
         'decision trees': 0,
         'deep learning': 1,
         'libsvm': 0,
         'machine learning': 0,
         'mathematics': 0,
         'neural networks': 0,
         'numpy': 0,
         'pandas': 0,
         'probability': 0,
         'programming languages': 1,
         'regression': 0,
         'scikit-learn': 0,
         'scipy': 0,
         'statistics': 0,
         'statsmodels': 0,
         'support vector machines': 0,
         'theory': 0})