In [2]:
from gensim.models import AuthorTopicModel
from gensim.corpora import Dictionary, bleicorpus
from gensim import corpora
from tqdm import tqdm_notebook
from pprint import pprint

# 사용자간의 유사성을 평가하기 위한 measure를 사용하기 위해 불러오기
from gensim.matutils import hellinger # 간단히 말하면 어떤 두 개의 확률 분포의 차이를 보겠다
from gensim import matutils

import pandas as pd
import os

In [3]:
NUM_TOPICS = 4

if not os.path.exists("kakao(ATM)_model"):
    model = AuthorTopicModel(corpus=corpus, num_topics=NUM_TOPICS, id2word=dictionary.id2token, \
                author2doc=author2doc, passes=10)
    model.save('kakao(ATM)_model')
else:
    model = AuthorTopicModel.load("kakao(ATM)_model")

In [11]:
# 토픽별 분포 확인하기
model.show_topic(3, topn=20)

[('근데', 0.020257575241443723),
 ('야', 0.01664985607674788),
 ('진짜', 0.01269582066728958),
 ('나', 0.008903744398160406),
 ('저거', 0.007241612363562459),
 ('존나', 0.005750830621767807),
 ('다', 0.005399047101279087),
 ('너', 0.005270042038151068),
 ('우리', 0.004973752754808062),
 ('저', 0.004406656676373529),
 ('갑자기', 0.004245637255137831),
 ('나는', 0.004160489283577745),
 ('걍', 0.004155221036193371),
 ('개', 0.0038593066438886037),
 ('지금', 0.003840551003999961),
 ('그리고', 0.0032784088656344287),
 ('일단', 0.002718878618554346),
 ('아니', 0.0026420094073711484),
 ('그니까', 0.0024378255446064327),
 ('나도', 0.00241772357759156)]

In [12]:
# 토픽 라벨 지정.
# 0,1,2,3 대신 토픽 라벨로 찍히게끔
topic_labels = ['Topic0', 'Topic1', 'Topic2', 'Topic3']

In [21]:
model.show_topics(model.num_topics)[0]

(0,
 '0.012*"나도" + 0.008*"내가" + 0.008*"나" + 0.007*"엥" + 0.007*"아" + 0.006*"그럼" + 0.005*"그거" + 0.004*"시발" + 0.004*"아니" + 0.004*"동영상"')

In [13]:
# 토픽별로 topN 단어 확인하기.
for topics in model.show_topics(model.num_topics):
    print('Label : ' + topic_labels[topics[0]])
    words = ''
    
    for word, prob in model.show_topic(topics[0], topn=20):
        words += word + ' '
    
    print("Words : ", words)
    print()

Label : Topic0
Words :  나도 내가 나 엥 아 그럼 그거 시발 아니 동영상 더 우리 존나 혹시 오빠가 다시 언니 원래 어제 주희 

Label : Topic1
Words :  지의 쫌 좀 교수님 몰라 아니야 시바 둘다 넌 어때 ㅜㅜ 오오 오키 너가 그건 이 뭐가 네 어디서 하나 

Label : Topic2
Words :  나 아 난 와 오 오늘 그냥 이거 헐 ㅠ 미친 웅 아니 왜 다들 2장 그 너무 슈발 내 

Label : Topic3
Words :  근데 야 진짜 나 저거 존나 다 너 우리 저 갑자기 나는 걍 개 지금 그리고 일단 아니 그니까 나도 



In [17]:
model['영현 '] # 각 토픽에 속할 확률

[(0, 0.49179485338784185),
 (1, 0.09828247518933203),
 (2, 0.12186563293726842),
 (3, 0.28805703848555764)]

In [32]:
# 사용자별로 토픽 분포 확인하기.
def show_authors(name):
    print("User : ", name)
    print("Docs : ", model.author2doc[name]) # name이 속한 것
    print("\nTopic Distribution : ")
    pprint([(topic_labels[topic[0]], topic[1]) for topic in model[name]])
                    # [topic[0]], topic[1] : 숫자, 확률

In [35]:
# 토픽 분포 확인.
show_authors('영현 ')

# 'Topic0', 'Topic1', 'Topic2', 'Topic3'이 좀 더 구체적인 분야면 좋겠지
# ex) 먹는 것, 여행, 취미 등등

User :  영현 
Docs :  [655, 738, 742, 743, 746, 747, 750, 752, 756, 757, 765, 766, 770, 775, 777, 779, 781, 786, 787, 817, 818, 820, 821, 822, 823, 824, 833, 834, 838, 839, 841, 843, 864, 865, 870, 871, 872, 874, 877, 878, 880, 881, 882, 883, 884, 885, 887, 891, 892, 893, 905, 907, 908, 909, 910, 913, 914, 918, 923, 924, 925, 930, 933, 937, 938, 941, 942, 952, 955, 956, 957, 960, 967, 993, 1041, 1045, 1047, 1048, 1052, 1053, 1081, 1082, 1091, 1092, 1103, 1116, 1117, 1129, 1136, 1155, 1164, 1166, 1168, 1169, 1187, 1190, 1191, 1192, 1195, 1196, 1198, 1200, 1203, 1206, 1210, 1215, 1229, 1230, 1232, 1234, 1238, 1243, 1251, 1252, 1255, 1263, 1264, 1270, 1273, 1280, 1298, 1305, 1310, 1311, 1380, 1381, 1385, 1388, 1392, 1399, 1406, 1407, 1408, 1418, 1442, 1463, 1516, 1530, 1532, 1534, 1570, 1573, 1574, 1575, 1603, 1604, 1623, 1625, 1632, 1634, 1638, 1641, 1642, 1644, 1649, 1650, 1653, 1654, 1665, 1666, 1674, 1719, 1721, 1722, 1725, 1730, 1731, 1733, 1736, 1743, 1757, 1781, 1782, 1817, 1818, 186

In [38]:
[model[author] for author in model.id2author.values()]
# 사람 별로 각 토픽 확률이 나와

[[(0, 0.49179485338784185),
  (1, 0.09828247518933203),
  (2, 0.12186563293726842),
  (3, 0.28805703848555764)],
 [(1, 0.02774557884866914),
  (2, 0.048010194116479235),
  (3, 0.9157665808364631)],
 [(0, 0.26231881758994124),
  (1, 0.3846603782545782),
  (2, 0.2236631885846658),
  (3, 0.12935761557081485)],
 [(0, 0.015692210989741485),
  (1, 0.7511251196860741),
  (2, 0.10863546225613838),
  (3, 0.12454720706804606)],
 [(0, 0.02654340209496185),
  (1, 0.6521547893610691),
  (2, 0.2680153917872892),
  (3, 0.05328641675667984)],
 [(0, 0.1375028775851518), (1, 0.6369369214850126), (2, 0.22153821379985578)]]

In [46]:
# Hellinger Distance를 이용하여 비슷한 토픽을 가진 사용자를 추정하는 함수.

# author-topic 분포 만들기
# 두개씩 넣어서 둘 사이의 Hellinger Distance를 보면 돼
author_vecs = [model[author] for author in model.id2author.values()]
 
def similarity(vec1, vec2):
    '''Get similarity between two vectors'''
    dist = hellinger(matutils.sparse2full(vec1, model.num_topics),
                     matutils.sparse2full(vec2, model.num_topics))
    sim = 1.0 / (1.0 + dist) # 유사도
    
    return sim
 
def get_sims(vec):
    '''Get similarity of vector to all authors.'''
    sims = [similarity(vec, vec2) for vec2 in author_vecs]
    return sims
 
def get_table(name, top_n=10, smallest_author=1):
    # top_n : 나와 비슷한 저자 수
    # smallest_author : 어떤 사람이 말한 massage 개수가 너무 적으면 제외
    # 위 둘 파라미터는 현재는 필요x
    '''
    Get table with similarities, author names, and author sizes.
    Return `top_n` authors as a dataframe.
    
    '''
    
    # 유사도 측정하기
    sims = get_sims(model[name])
 
    # 저자별 정보 정렬하기
    table = []
    for elem in enumerate(sims):
        author_name = model.id2author[elem[0]]
        sim = elem[1]
        author_size = len(model.author2doc[author_name])# 저자가 몇 개의 message를 썼는지
        
        table.append((author_name, sim, author_size))
        
    # 사용자 패턴 분석 결과를 Dataframe으로 만들기
    df = pd.DataFrame(table, columns=['Author', 'Score', 'Size'])
    df = df.sort_values('Score', ascending=False)[:top_n]
    
    return df

In [53]:
# 사용자별 대화 패턴 검증
get_table('영현 ')

Unnamed: 0,Author,Score,Size
0,영현,1.0,3372
2,주희,0.770962,3292
5,현영,0.637465,5281
4,지이,0.635859,4225
3,지의,0.633058,5537
1,주현,0.627152,1205
