In [None]:
#!/usr/bin/env python
# coding: utf-8
from __future__ import print_function

__source__ = "topicClassificationLDAv2-visualize.ipynb"
__author__ = "Frank J. Greco"
__copyright__ = "Copyright 2015-2018, Frank J. Greco"
__credits__ = []
__license__ = "Apache"
__version__ = "1.0.1"
__email__ = ""
__status__ = "Development"

#
# Perform LDA topic analysis on set of transcript testfiles
#
# Adapted from script found at
# https://rstudio-pubs-static.s3.amazonaws.com/79360_850b2a69980c4488b1db95987a24867a.html
#

In [None]:
%load_ext autoreload
%autoreload 2
#%reload_ext autoreload
import sys
sys.path.append('/Users/fjgreco/Dev-Atlas')

In [1]:
from nltk.tokenize import RegexpTokenizer
from stop_words import get_stop_words
from nltk.stem.porter import PorterStemmer
from gensim import corpora, models
import gensim
import os
from collections import Counter
import pyLDAvis.gensim as gensimvis
import pyLDAvis

In [5]:
def tokenize_transcripts(transcript_dir):
    
    from preprocess import read_documents

    print (transcript_dir)

    tokenizer = RegexpTokenizer(r'\w+')

    # create English stop words list
    en_stop = get_stop_words('en')

    # eliminate the most frequently used words from the dictionary
    en_stop=[u'okay',u'go',u'like',u'one',u'think',u'right',u'can',u'yeah',u'just']+en_stop
    print (en_stop)

    # create p_stemmer of class PorterStemmer

    p_stemmer = PorterStemmer()

    doc_set, doc_index=read_documents(transcript_dir)

    #doc_set = [line.rstrip('\n') for line in open(testfile)]

    # tokenized documents in loop
    texts = []

    megalist=[]

    # loop through document list
    for i in doc_set:
        # clean and tokenize document string
        raw = i.lower()

        raw2=raw.replace("'", "")

        #print ('\n'+raw2)

        tokens = tokenizer.tokenize(raw2)

        # remove stop words from tokens
        stopped_tokens = [i for i in tokens if not i in en_stop]
        #print (' '.join(stopped_tokens))

        # stem tokens
        stemmed_tokens = [p_stemmer.stem(i) for i in stopped_tokens]
        #print (' '.join(stemmed_tokens))

        # add tokens to list
        texts.append(stemmed_tokens)

        megalist=megalist+stemmed_tokens


    counts = Counter(megalist)
 

    print('len(texts:', len(texts), 'len(megalist)', len(megalist))

    print(counts)

    print (type(counts))
 
    
    for itm in sorted(counts.items(), key=lambda x: -x[-1]):
        print (itm)

    # convert tokenized documents into a id <-> term dictionary
    dictionary = corpora.Dictionary(texts)
    dictionary.filter_extremes(no_below=2, no_above=0.5)  # , keep_n=1

    # convert tokenized documents into a document-term matrix
    corpus = [dictionary.doc2bow(text) for text in texts[1:]]
    
    bow = [dictionary.doc2bow(text) for text in texts[:1]]
    
    return corpus, bow, dictionary

In [9]:
def visualize_lda_model(ldamodel, corpus, dictionary): 
    vis_data = gensimvis.prepare(ldamodel, corpus, dictionary)
    #pyLDAvis.display(vis_data)
    pyLDAvis.show(vis_data)
    

In [2]:
ldamodel=gensim.models.LdaModel.load('ldamodel.mm')

In [6]:
corpus, bow, dictionary= tokenize_transcripts('../CC_TRANSCRIPTS3')

../CC_TRANSCRIPTS3
[u'okay', u'go', u'like', u'one', u'think', u'right', u'can', u'yeah', u'just', u'a', u'about', u'above', u'after', u'again', u'against', u'all', u'am', u'an', u'and', u'any', u'are', u"aren't", u'as', u'at', u'be', u'because', u'been', u'before', u'being', u'below', u'between', u'both', u'but', u'by', u"can't", u'cannot', u'could', u"couldn't", u'did', u"didn't", u'do', u'does', u"doesn't", u'doing', u"don't", u'down', u'during', u'each', u'few', u'for', u'from', u'further', u'had', u"hadn't", u'has', u"hasn't", u'have', u"haven't", u'having', u'he', u"he'd", u"he'll", u"he's", u'her', u'here', u"here's", u'hers', u'herself', u'him', u'himself', u'his', u'how', u"how's", u'i', u"i'd", u"i'll", u"i'm", u"i've", u'if', u'in', u'into', u'is', u"isn't", u'it', u"it's", u'its', u'itself', u"let's", u'me', u'more', u'most', u"mustn't", u'my', u'myself', u'no', u'nor', u'not', u'of', u'off', u'on', u'once', u'only', u'or', u'other', u'ought', u'our', u'ours', u'ourselves',

(u'relat', 58)
(u'easi', 58)
(u'along', 58)
(u'fire', 58)
(u'en', 58)
(u'werent', 58)
(u'0', 58)
(u'comment', 58)
(u'breath', 57)
(u'movi', 57)
(u'ramp', 57)
(u'night', 57)
(u'dig', 57)
(u'mix', 57)
(u'percent', 57)
(u'decim', 56)
(u'ce', 56)
(u'em', 56)
(u'game', 56)
(u'mad', 56)
(u'bunch', 56)
(u'balanc', 56)
(u'smaller', 56)
(u'slave', 56)
(u'fair', 55)
(u'video', 55)
(u'bat', 55)
(u'nuclear', 55)
(u'extra', 55)
(u'benefit', 55)
(u'gram', 55)
(u'common', 55)
(u'text', 55)
(u'attent', 55)
(u'pour', 54)
(u'oxygen', 54)
(u'soil', 54)
(u'scienc', 54)
(u'fli', 54)
(u'children', 54)
(u'protect', 54)
(u'produc', 54)
(u'chemic', 54)
(u'salt', 53)
(u'variabl', 53)
(u'america', 53)
(u'degre', 53)
(u'scale', 53)
(u'theyll', 53)
(u'vapor', 53)
(u'orang', 53)
(u'stuck', 53)
(u'combin', 53)
(u'marbl', 53)
(u'whether', 53)
(u'clay', 52)
(u'solut', 52)
(u'materi', 52)
(u'commun', 52)
(u'safe', 52)
(u'da', 52)
(u'man', 52)
(u'25', 52)
(u'gave', 52)
(u'hole', 51)
(u'concentr', 51)
(u'bond', 51)
(u'wo

(u'accept', 26)
(u'exponenti', 26)
(u'error', 26)
(u'shorter', 26)
(u'sister', 26)
(u'smooth', 26)
(u'slaveri', 26)
(u'cow', 26)
(u'lowest', 26)
(u'economi', 26)
(u'window', 26)
(u'concern', 26)
(u'bucket', 26)
(u'librari', 26)
(u'il', 26)
(u'languag', 26)
(u'mile', 26)
(u'string', 26)
(u'african', 26)
(u'200', 26)
(u'acceler', 26)
(u'mountain', 26)
(u'debat', 26)
(u'tast', 26)
(u'messag', 26)
(u'plug', 26)
(u'colin', 26)
(u'underneath', 26)
(u'christian', 26)
(u'layer', 26)
(u'difficult', 26)
(u'growth', 26)
(u'leap', 26)
(u'restaur', 25)
(u'effici', 25)
(u'door', 25)
(u'religion', 25)
(u'send', 25)
(u'porqu', 25)
(u'wire', 25)
(u'theyd', 25)
(u'steam', 25)
(u'fight', 25)
(u'prove', 25)
(u'beaver', 25)
(u'death', 25)
(u'momentum', 25)
(u'histori', 25)
(u'cell', 25)
(u'win', 25)
(u'powerpoint', 25)
(u'discov', 25)
(u'key', 25)
(u'welcom', 25)
(u'regular', 25)
(u'elli', 25)
(u'igneou', 25)
(u'physic', 25)
(u'chicken', 25)
(u'surreal', 25)
(u'zach', 25)
(u'phone', 25)
(u'onto', 25)
(u'sh

(u'desdemona', 15)
(u'del', 15)
(u'emiss', 15)
(u'thick', 15)
(u'park', 15)
(u'task', 15)
(u'becam', 15)
(u'olymp', 15)
(u'lake', 15)
(u'although', 15)
(u'wise', 15)
(u'pig', 15)
(u'sleep', 15)
(u'ran', 15)
(u'random', 15)
(u'younger', 15)
(u'farmer', 15)
(u'senior', 15)
(u'hungri', 15)
(u'aaron', 15)
(u'bend', 15)
(u'egypt', 15)
(u'chri', 15)
(u'wrist', 15)
(u'trap', 15)
(u'dictionari', 15)
(u'trebuchet', 15)
(u'panchito', 14)
(u'peut', 14)
(u'arrow', 14)
(u'ate', 14)
(u'technic', 14)
(u'cheddar', 14)
(u'joseph', 14)
(u'nager', 14)
(u'angri', 14)
(u'envelop', 14)
(u'reusabl', 14)
(u'bite', 14)
(u'requir', 14)
(u'anti', 14)
(u'al', 14)
(u'tight', 14)
(u'vocabulari', 14)
(u'tail', 14)
(u'pound', 14)
(u'crescendo', 14)
(u'prairi', 14)
(u'jacki', 14)
(u'tambi\xe9n', 14)
(u'spill', 14)
(u'segment', 14)
(u'funnel', 14)
(u'daniel', 14)
(u'standard', 14)
(u'maddi', 14)
(u'kale', 14)
(u'jose', 14)
(u'market', 14)
(u'reduc', 14)
(u'catwalk', 14)
(u'georg', 14)
(u'tobacco', 14)
(u'tend', 14)
(u'

(u'progress', 10)
(u'instanc', 10)
(u'sunburn', 10)
(u'shuttl', 10)
(u'insert', 10)
(u'j', 10)
(u'goin', 10)
(u'persuad', 10)
(u'heatstrok', 10)
(u'flame', 10)
(u'drip', 10)
(u'stephani', 10)
(u'resist', 10)
(u'51', 10)
(u'indirect', 10)
(u'signific', 10)
(u'chapter', 10)
(u'judg', 10)
(u'patrick', 10)
(u'ow', 10)
(u'program', 10)
(u'fan', 10)
(u'cloudi', 10)
(u'pablo', 10)
(u'interact', 10)
(u'poner', 10)
(u'bibl', 10)
(u'wherea', 10)
(u'othello', 10)
(u'fold', 10)
(u'glucos', 10)
(u'molli', 10)
(u'adrian', 10)
(u'dent', 10)
(u'bisect', 10)
(u'erin', 10)
(u'113', 10)
(u'automat', 10)
(u'scientif', 10)
(u'peux', 9)
(u'vari', 9)
(u'kayla', 9)
(u'spent', 9)
(u'sexism', 9)
(u'clicker', 9)
(u'cushion', 9)
(u'parler', 9)
(u'employ', 9)
(u'chacko', 9)
(u'fairli', 9)
(u'fog', 9)
(u'150', 9)
(u'scholarship', 9)
(u'verdad', 9)
(u'stone', 9)
(u'darken', 9)
(u'collid', 9)
(u'prior', 9)
(u'grace', 9)
(u'carlo', 9)
(u'self', 9)
(u'steerag', 9)
(u'pouvez', 9)
(u'histor', 9)
(u'kelli', 9)
(u'bb', 9)


(u'soap', 6)
(u'feather', 6)
(u'vo', 6)
(u'tenor', 6)
(u'web', 6)
(u'magnifi', 6)
(u'passion', 6)
(u'nurseri', 6)
(u'chew', 6)
(u'eyebal', 6)
(u'india', 6)
(u'tipto', 6)
(u'valor', 6)
(u'wastewat', 6)
(u'paralysi', 6)
(u'iron', 6)
(u'pod\xeda', 6)
(u'di', 6)
(u'roberto', 6)
(u'kitchen', 6)
(u'ahora', 6)
(u'toni', 6)
(u'hay', 6)
(u'inhibit', 6)
(u'hypothes', 6)
(u'trainer', 6)
(u'pose', 6)
(u'preciou', 6)
(u'mallet', 6)
(u'kalyani', 6)
(u'luego', 6)
(u'aint', 6)
(u'javier', 6)
(u'invers', 6)
(u'document', 6)
(u'brodi', 6)
(u'sixth', 6)
(u'choo', 6)
(u'messi', 6)
(u'correl', 6)
(u'injuri', 6)
(u'phosphor', 6)
(u'cubism', 6)
(u'stabil', 6)
(u'fulli', 6)
(u'todo', 6)
(u'daisi', 6)
(u'assign', 6)
(u'tighter', 6)
(u'lip', 6)
(u'joul', 6)
(u'walter', 6)
(u'grand', 6)
(u'hallway', 6)
(u'user', 6)
(u'creation', 6)
(u'chocol', 6)
(u'newer', 6)
(u'branch', 6)
(u'dull', 6)
(u'bevel', 6)
(u'gs', 6)
(u'barbara', 6)
(u'claro', 6)
(u'metaphor', 6)
(u'justin', 6)
(u'celsiu', 6)
(u'circular', 6)
(u'cons

(u'pronto', 4)
(u'respira', 4)
(u'genom', 4)
(u'lifestyl', 4)
(u'horribl', 4)
(u'antarctica', 4)
(u'blond', 4)
(u'brooklyn', 4)
(u'gabe', 4)
(u'session', 4)
(u'writer', 4)
(u'sew', 4)
(u'jade', 4)
(u'overboard', 4)
(u'compliment', 4)
(u'erreur', 4)
(u'load', 4)
(u'sammi', 4)
(u'deport', 4)
(u'decor', 4)
(u'seek', 4)
(u'decod', 4)
(u'stung', 4)
(u'devuan', 4)
(u'spine', 4)
(u'pale', 4)
(u'jheylin', 4)
(u'osama', 4)
(u'doubt', 4)
(u'inelast', 4)
(u'unplug', 4)
(u'electromagnet', 4)
(u'rotari', 4)
(u'discrimin', 4)
(u'codi', 4)
(u'broader', 4)
(u'fewer', 4)
(u'twink', 4)
(u'poverti', 4)
(u'greas', 4)
(u'ninth', 4)
(u'yessenia', 4)
(u'damian', 4)
(u'gummi', 4)
(u'terribl', 4)
(u'partnership', 4)
(u'liner', 4)
(u'gisel', 4)
(u'primera', 4)
(u'bree', 4)
(u'redirect', 4)
(u'insight', 4)
(u'pr\xeat', 4)
(u'hippiti', 4)
(u'cs', 4)
(u'bolsita', 4)
(u'flesh', 4)
(u'g\xe2teau', 4)
(u'mhm', 4)
(u'flush', 4)
(u'lune', 4)
(u'bd', 4)
(u'dibujo', 4)
(u'barcelona', 4)
(u'aerospac', 4)
(u'savez', 4)
(u's

(u'carl', 3)
(u'511', 3)
(u'510', 3)
(u'breez', 3)
(u'curli', 3)
(u'pittsburgh', 3)
(u'rescu', 3)
(u'steadi', 3)
(u'kiki', 3)
(u'estar', 3)
(u'rippl', 3)
(u'proven', 3)
(u'thesi', 3)
(u'sophi', 3)
(u'buen', 3)
(u'metric', 3)
(u'treadmil', 3)
(u'theater', 3)
(u'livestock', 3)
(u'noah', 3)
(u'voltair', 3)
(u'\xe9ste', 3)
(u'cotyledon', 3)
(u'hover', 3)
(u'lado', 3)
(u'emerg', 3)
(u'verbal', 3)
(u'rodolfo', 3)
(u'contagi', 3)
(u'chop', 3)
(u'podcast', 3)
(u'poop', 3)
(u'drift', 3)
(u'peak', 3)
(u'griffin', 3)
(u'vers', 3)
(u'segway', 3)
(u'intermedi', 3)
(u'vid\xe9o', 3)
(u'magnitud', 3)
(u'hurri', 3)
(u'inescap', 3)
(u'reservoir', 3)
(u'leticia', 3)
(u'mientra', 3)
(u'1877', 3)
(u'kasey', 3)
(u'tighten', 3)
(u'todd', 3)
(u'remarqu\xe9', 3)
(u'mist', 3)
(u'fingernail', 3)
(u'scheme', 3)
(u'groceri', 3)
(u'2x2x2', 3)
(u'cabello', 3)
(u'aussi', 3)
(u'unintend', 3)
(u'quel', 3)
(u'suspect', 3)
(u'whatsoev', 3)
(u'juega', 3)
(u'dalla', 3)
(u'distinguish', 3)
(u'forgotten', 3)
(u'ahorita', 3)


(u'evolv', 2)
(u'vivian', 2)
(u'meal', 2)
(u'wade', 2)
(u'mindless', 2)
(u'hem', 2)
(u'completa', 2)
(u'mice', 2)
(u'categor', 2)
(u'torso', 2)
(u'pr\xe9senter', 2)
(u'ab', 2)
(u'aj', 2)
(u'ar', 2)
(u'yoga', 2)
(u'collin', 2)
(u'agreeanc', 2)
(u'shaun', 2)
(u'grownup', 2)
(u'mimic', 2)
(u'pas\xf3', 2)
(u'intertwin', 2)
(u'th', 2)
(u'roadway', 2)
(u'199', 2)
(u'hice', 2)
(u'therapeut', 2)
(u'luck', 2)
(u'escuchar', 2)
(u'pythagorean', 2)
(u'kauvar', 2)
(u'852', 2)
(u'teen', 2)
(u'allegra', 2)
(u'autumn', 2)
(u'duwant', 2)
(u'sonido', 2)
(u'circumst', 2)
(u'snotti', 2)
(u'ite', 2)
(u'buscar', 2)
(u'r\xe9pondu', 2)
(u'newscorp', 2)
(u'gettin', 2)
(u'reduct', 2)
(u'massiv', 2)
(u'dissoci', 2)
(u'ariadn', 2)
(u'kippa', 2)
(u'guest', 2)
(u'damont', 2)
(u'illeg', 2)
(u'enslav', 2)
(u'bryce', 2)
(u'pipelin', 2)
(u'artel', 2)
(u'barrel', 2)
(u'ugh', 2)
(u'ashevil', 2)
(u'ojo', 2)
(u'abund', 2)
(u'necesitar', 2)
(u'overwhelm', 2)
(u'potent', 2)
(u'sex', 2)
(u'allegor', 2)
(u'patti', 2)
(u'episod

(u'granola', 2)
(u'pleasant', 2)
(u'perman', 2)
(u'epinephrin', 2)
(u'182', 2)
(u'pari', 2)
(u'exposur', 2)
(u'onset', 2)
(u'kendal', 2)
(u'mose', 2)
(u'ronni', 2)
(u'charm', 2)
(u'ky', 2)
(u'unhappi', 2)
(u'springtim', 2)
(u'luka', 2)
(u'pellet', 2)
(u'sclera', 2)
(u'cole', 2)
(u'expert', 2)
(u'complementari', 2)
(u'elliot', 2)
(u'holocaust', 2)
(u'cluster', 2)
(u'unifi', 2)
(u'vroom', 2)
(u'converg', 2)
(u'unanim', 2)
(u'howl', 2)
(u'singabl', 2)
(u'kineck', 2)
(u'conceiv', 2)
(u'rebound', 2)
(u'bip', 2)
(u'faibl', 2)
(u'bamboo', 2)
(u'corrig\xe9', 2)
(u'sof\xeda', 2)
(u'stationari', 2)
(u'pew', 2)
(u'mathemat', 2)
(u'gr\xe1fico', 2)
(u'reclamarl', 2)
(u'patienc', 2)
(u'constraint', 2)
(u'drama', 2)
(u'viacom', 2)
(u'curt', 2)
(u'continuamo', 2)
(u'papi', 2)
(u'tablespoon', 2)
(u'desert', 2)
(u'2000', 2)
(u'2007', 2)
(u'cynthia', 2)
(u'ellips', 2)
(u'literari', 2)
(u'proctor', 2)
(u'rhyme', 2)
(u'joey', 2)
(u'crow', 2)
(u'delawar', 2)
(u'hacerlo', 2)
(u'ashlyn', 2)
(u'31', 2)
(u'bliz

(u'raja', 1)
(u'veo', 1)
(u'96', 1)
(u'machi', 1)
(u'1700', 1)
(u'judaism', 1)
(u'hittin', 1)
(u'skewer', 1)
(u'sigh', 1)
(u'spacey', 1)
(u'cbc', 1)
(u'sasseoir', 1)
(u'wayward', 1)
(u'cassa', 1)
(u'cephal', 1)
(u'meld', 1)
(u'imitez', 1)
(u'gnaw', 1)
(u'okeydok', 1)
(u'langu', 1)
(u'ourself', 1)
(u'dusti', 1)
(u'jamiel', 1)
(u'br', 1)
(u'lleg\xf3', 1)
(u'lenor', 1)
(u'colema', 1)
(u'scope', 1)
(u'lid\xe9', 1)
(u'ooooooh', 1)
(u'refrain', 1)
(u'enhanc', 1)
(u'appendix', 1)
(u'pshhh', 1)
(u'ladito', 1)
(u'kendrick', 1)
(u'pretens', 1)
(u'trustworthi', 1)
(u'pourrait', 1)
(u'toler', 1)
(u'mildr', 1)
(u'wintel', 1)
(u'laundri', 1)
(u'conscious', 1)
(u'wheelchair', 1)
(u'st', 1)
(u'sh', 1)
(u'sublimin', 1)
(u'regimen', 1)
(u'drunken', 1)
(u'ransfer', 1)
(u'elain', 1)
(u'disconnect', 1)
(u'eygpt', 1)
(u'instantli', 1)
(u'thump', 1)
(u'apron', 1)
(u'quit\xe9', 1)
(u'blackish', 1)
(u'comprend', 1)
(u'exot', 1)
(u'fisherman', 1)
(u'saron', 1)
(u'bouyanc', 1)
(u'seventi', 1)
(u'shaquil', 1)
(u'

(u'\xe9couter', 1)
(u'prison', 1)
(u'sculpt', 1)
(u'hidin', 1)
(u'mcginni', 1)
(u'incorrectli', 1)
(u'fuss', 1)
(u'1977', 1)
(u'stringent', 1)
(u'victim', 1)
(u'thyroid', 1)
(u'exalt', 1)
(u'maya', 1)
(u'intercom', 1)
(u'arac', 1)
(u'crossway', 1)
(u'cape', 1)
(u'ineffici', 1)
(u'latino', 1)
(u'xbox', 1)
(u'flatter', 1)
(u'salir', 1)
(u'preliminari', 1)
(u'jos\xe9', 1)
(u'queda', 1)
(u'phew', 1)
(u'poss', 1)
(u'agarrarlo', 1)
(u'sebastian', 1)
(u'coral', 1)
(u'croak', 1)
(u'strat\xe9gi', 1)
(u'marxist', 1)
(u'afecta', 1)
(u'wah', 1)
(u'wad', 1)
(u'waz', 1)
(u'esposo', 1)
(u'rileen', 1)
(u'absent', 1)
(u'inaccur', 1)
(u'retir', 1)
(u'repartir', 1)
(u'flaw', 1)
(u'prayer', 1)
(u'nullif', 1)
(u'asanti', 1)
(u'irma', 1)
(u'healthiest', 1)
(u'krakauer', 1)
(u'aimai', 1)
(u'obligaran', 1)
(u'supplement', 1)
(u'grape', 1)
(u'relaciona', 1)
(u'terror', 1)
(u'southwest', 1)
(u'charles', 1)
(u'toothpast', 1)
(u'brows', 1)
(u'trifecta', 1)
(u'guh', 1)
(u'gum', 1)
(u'escaramuza', 1)
(u'travesura',

(u'mina', 1)
(u'mint', 1)
(u'crippl', 1)
(u'veraniega', 1)
(u'phonograph', 1)
(u'tya', 1)
(u'64th', 1)
(u'llaman', 1)
(u'lhabitud', 1)
(u'doi', 1)
(u'doc', 1)
(u'alarm', 1)
(u'acial', 1)
(u'cerquita', 1)
(u'wafflehous', 1)
(u'monica', 1)
(u'shhhhh', 1)
(u'stow', 1)
(u'coast', 1)
(u'brazi', 1)
(u'brazo', 1)
(u'swirli', 1)
(u'fluffi', 1)
(u'02', 1)
(u'00', 1)
(u'06', 1)
(u'duff', 1)
(u'04', 1)
(u'sail', 1)
(u'negaron', 1)
(u'upfront', 1)
(u'666667', 1)
(u'weari', 1)
(u'michaella', 1)
(u'uni', 1)
(u'uncertainti', 1)
(u'aller', 1)
(u'liabil', 1)
(u'oooooh', 1)
(u'basin', 1)
(u'ailsa', 1)
(u'169', 1)
(u'efficaci', 1)
(u'sheridan', 1)
(u'affirm', 1)
(u'servir', 1)
(u'bella', 1)
(u'stickier', 1)
(u'overh', 1)
(u'delight', 1)
(u'kim', 1)
(u'kia', 1)
(u'qualif', 1)
(u'smoker', 1)
(u'entera', 1)
(u'800', 1)
(u'just', 1)
(u'charlott', 1)
(u'sledgehamm', 1)
(u'propuls', 1)
(u'jefferson', 1)
(u'dreami', 1)
(u'mileag', 1)
(u'vaniti', 1)
(u'strap', 1)
(u'frase', 1)
(u'nudg', 1)
(u'transvers', 1)
(u's

(u'autism', 1)
(u'rosehip', 1)
(u'48', 1)
(u'encontr\xe9', 1)
(u'encontr\xf3', 1)
(u'out', 1)
(u'thoreau', 1)
(u'seismic', 1)
(u'ning\xfan', 1)
(u'veut', 1)
(u'sleev', 1)
(u'dalen', 1)
(u'tween', 1)
(u'thinnest', 1)
(u'maderi', 1)
(u'travaillai', 1)
(u'decidir', 1)
(u'sonroj\xf3', 1)
(u'sedekia', 1)
(u'beaten', 1)
(u'kuh', 1)
(u'asymmetri', 1)
(u'hoard', 1)
(u'ethanol', 1)
(u'decidi\xf3', 1)
(u'relacionada', 1)
(u'mentor', 1)
(u'scaveng', 1)
(u'portabl', 1)
(u'tremend', 1)
(u'kieran', 1)
(u'hablan', 1)
(u'stray', 1)
(u'veronica', 1)
(u'juliu', 1)
(u'nora', 1)
(u'sticker', 1)
(u'grief', 1)
(u'mg', 1)
(u'mc', 1)
(u'telescop', 1)
(u'machinist', 1)
(u'mx', 1)
(u'r\xe9pond', 1)
(u'nitrou', 1)
(u'gate', 1)
(u'widespread', 1)
(u'pokey', 1)
(u'badli', 1)
(u'copay', 1)
(u'exclud', 1)
(u'exclus', 1)
(u'diera', 1)
(u'composit', 1)
(u'crumbl', 1)
(u'adun', 1)
(u'london', 1)
(u'wilton', 1)
(u'comprehend', 1)
(u'condition', 1)
(u'mistreat', 1)
(u'sakura', 1)
(u'tourist', 1)
(u'pinkish', 1)
(u'corrie

(u'shallow', 1)
(u'f\xe9minin', 1)
(u'clemson', 1)
(u'podrida', 1)
(u'splatter', 1)
(u'smellin', 1)
(u'rout', 1)
(u'ahold', 1)
(u'divers', 1)
(u'shana', 1)
(u'multitud', 1)
(u'noggin', 1)
(u'guinea', 1)
(u'syring', 1)
(u'xavier', 1)
(u'offenc', 1)
(u'inexpens', 1)
(u'ho', 1)
(u'tariq', 1)
(u'dorothi', 1)
(u'dije', 1)
(u'gino', 1)
(u'reign', 1)
(u'kayani', 1)
(u'999', 1)
(u'awww', 1)
(u'qr', 1)
(u'qu', 1)
(u'15th', 1)
(u'naud', 1)
(u'grrrrr', 1)
(u'workbench', 1)
(u'expel', 1)
(u'violet', 1)
(u'entranc', 1)
(u'relgiou', 1)
(u'entic', 1)
(u'joy', 1)
(u'ignesia', 1)
(u'canopi', 1)
(u'april', 1)
(u'articul', 1)
(u'walt', 1)
(u'hindu', 1)
(u'compos', 1)
(u'decend', 1)
(u'treasur', 1)
(u'miremo', 1)
(u'ewan', 1)
(u'corset', 1)
(u'align', 1)
(u'vicki', 1)
(u'cutter', 1)
(u'esencialment', 1)
(u'antibiot', 1)
(u'collag', 1)
(u'firstli', 1)
(u'deion', 1)
(u'obtain', 1)
(u'replenish', 1)
(u'clyde', 1)
(u'nicki', 1)
(u'enact', 1)
(u'lawson', 1)
(u'sindi', 1)
(u'am\xe9ricain', 1)
(u'112', 1)
(u'119

In [7]:
print(len(ldamodel[corpus]))
print(len(ldamodel[bow]))
[i for i in ldamodel[bow]]

242
1


[[(0, 0.024819393), (2, 0.10701441), (4, 0.86718845)]]

In [None]:
#visualize_lda_model(ldamodel, corpus, dictionary)

In [10]:
visualize_lda_model(ldamodel, bow, dictionary)

IndexError: index 2922 is out of bounds for axis 1 with size 2006