In [1]:
import os
import operator
import gensim
import numpy as np
from gensim.models import HdpModel
from gensim.models.wrappers import LdaMallet
from pprint import pprint



In [2]:
import spacy
from spacy.lang.ur import Urdu
parser = Urdu()

def tokenize(text):
    lda_tokens = []
    tokens = parser(text)
    for token in tokens:
        if token.orth_.isspace():
            continue
        elif token.like_url:
            lda_tokens.append('URL')
        elif token.orth_.startswith('@'):
            lda_tokens.append('SCREEN_NAME')
        else:
            lda_tokens.append(token.lower_)
    return lda_tokens

In [3]:
from nltk.corpus import wordnet as wn
def get_lemma(word):
    lemma = wn.morphy(word)
    if lemma is None:
        return word
    else:
        return lemma
    
from nltk.stem.wordnet import WordNetLemmatizer
def get_lemma2(word):
    return WordNetLemmatizer().lemmatize(word)

In [4]:
import nltk
stopwords = set(nltk.corpus.stopwords.words('urdu'))

In [5]:
def prepare_text_for_lda(text):
    tokens = tokenize(text)
    tokens = [token for token in tokens if len(token) > 4]
    tokens = [token for token in tokens if token not in stopwords]
    tokens = [get_lemma(token) for token in tokens]
    return tokens

In [6]:
import random
text_data = []
with open('news.csv', encoding = 'utf-8') as f:
    for line in f:
        tokens = prepare_text_for_lda(line)
        if random.random() > .99:
            print(tokens)
            text_data.append(tokens)

['ابوجا', 'دسمبر', 'نائیجیریا', 'دہشتگردوں', 'کردیا', 'ذرائع', 'ابلاغ', 'مطابق', 'نائیجیریا', 'مشرقی', 'بورنو', 'پسندوں', 'گھروں', 'نتیجہ', 'ہوگئے۔', 'شاہدین', 'مطابق', 'زیادہ', 'دوسری', 'پولیس', 'تصدیق', 'آوروں', 'پولیس', 'اسٹیشن', 'سرکاری', 'عمارت', 'گزشتہ', 'دوران', 'حملوں', 'زیادہ']
['انقرہ', 'نومبر', 'بحیرہ', 'مچھیروں', 'تارکین', 'اتوار', 'ذرائع', 'ابلاغ', 'بتایا', 'تارکین', 'تعداد', 'بحیرہ', 'شمالی', 'سمندری', 'تنزانیہ', 'مچھیروں', 'دیئے۔', 'دوسری', 'کنٹرول', 'جمنازیم', 'پہنچایا']
['نیوجرسی', 'ستمبر', 'ریکارڈ', 'مرتبہ', 'عالمی', 'چیمپئن', 'برازیل', 'ایکوا', 'انٹرنیشنل', 'فرینڈلی', 'دلچسپ', 'مقابلے', 'انٹرنیشنل', 'فرینڈلی', 'میچوں', 'برازیل', 'مسلسل', 'دوسری', 'کامیابی', 'برازیل', 'کولمبیا', 'کھیلے', 'برازیل', 'ایکوا', 'ٹیموں', 'درمیان', 'دلچسپ', 'مقابلہ', 'اعصاب', 'برازیلین', 'برازیل', 'ویلین', 'ایکوا', 'برتری', 'دلائی', 'برقرار', 'دوسرے', 'دونوں', 'ٹیموں', 'درمیان', 'کانٹے', 'مقابلہ', 'ایکوا', 'برتری', 'سرتوڑ', 'کامیاب', 'برازیل', 'برتری', 'بدولت', 'مقابلہ']
['بیروت', '21ستمبر',

In [7]:
from gensim import corpora
dictionary = corpora.Dictionary(text_data)

In [8]:
corpus = [dictionary.doc2bow(text) for text in text_data]

In [9]:
hdpmodel = HdpModel(corpus=corpus, id2word=dictionary)

In [10]:
hdpmodel.show_topics()

[(0,
  '0.030*نتیجہ + 0.028*سرکاری + 0.026*سوارہوکر + 0.023*کامیاب + 0.022*پنڈال + 0.022*پولیس + 0.022*ناکام + 0.020*جمنازیم + 0.019*پوائنٹ + 0.018*اسٹیشن + 0.017*چابکدستی + 0.016*بیروت + 0.016*دلائی + 0.016*عالمی + 0.016*ہوگئے۔ + 0.015*بنانے + 0.015*ابوجا + 0.014*آفتاب + 0.014*اجتماع + 0.013*انٹرنیشنل'),
 (1,
  '0.044*ٹیموں + 0.037*بورنو + 0.031*درمیان + 0.030*برازیلین + 0.028*سرکاری + 0.026*بدولت + 0.025*قریبی + 0.021*سرگرم + 0.020*ہوگئے۔ذرائع + 0.019*اتوار + 0.019*بمبارکوٹارگٹ + 0.019*پولیس + 0.018*انقرہ + 0.017*شمالی + 0.017*ہلاکتوں + 0.016*میچوں + 0.015*اسٹیشن + 0.014*نتیجہ + 0.013*تنزانیہ + 0.013*تعداد'),
 (2,
  '0.031*برازیلین + 0.030*مطابق + 0.028*سمندری + 0.027*لیڈرکاخطاب + 0.026*زیادہ + 0.026*واقعہ + 0.024*چیئرمین + 0.023*ذرائع + 0.022*خودکش + 0.021*ابوجا + 0.021*سرکاری + 0.020*پولیس + 0.020*عمرزئی + 0.019*آیاجس + 0.018*آوروں + 0.018*مقابلے + 0.017*عوامی + 0.017*شیرپاﺅ + 0.016*مچھیروں + 0.016*ابلاغ'),
 (3,
  '0.029*برازیل + 0.028*کولمبیا + 0.027*انٹرنیشنل + 0.024*اثناءحملہ + 

In [11]:
import pyLDAvis.gensim
pyLDAvis.enable_notebook()

In [12]:
pyLDAvis.gensim.prepare(hdpmodel, corpus, dictionary)

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=True'.


  return pd.concat([default_term_info] + list(topic_dfs))


In [15]:
def ret_top_model():
    top_topics = [(0, 0)]
    while top_topics[0][1] < 0.97:
        lm = HdpModel(corpus=corpus, id2word=dictionary)
        coherence_values = {}
        for n, topic in lm.show_topics(num_topics=-1, formatted=False):
            topic = [word for word, _ in topic]
            cm = gensim.models.CoherenceModel(topics=[topic], texts=corpus, dictionary=dictionary, window_size=10)
            coherence_values[n] = cm.get_coherence()
        top_topics = sorted(coherence_values.items(), key=operator.itemgetter(1), reverse=True)
    return lm, top_topics

In [16]:
lm, top_topics = ret_top_model()

  numerator = (co_occur_count / num_docs) + EPSILON
  denominator = (w_prime_count / num_docs) * (w_star_count / num_docs)
  co_doc_prob = co_occur_count / num_docs


In [17]:
pprint([lm.show_topic(topicid) for topicid, c_v in top_topics[:10]])

[[('لیڈرکاخطاب', 0.045683507412551165),
  ('21ستمبر', 0.03687020660827556),
  ('مقابلے', 0.03145608425436561),
  ('زیادہ', 0.027618262822152826),
  ('پولیس', 0.025820756826482022),
  ('مقابلہ', 0.025794532814965083),
  ('دوران', 0.02274179450250478),
  ('گزشتہ', 0.021987403559642824),
  ('حملوں', 0.02173150142270045),
  ('کانٹے', 0.021430689825899858),
  ('ریکارڈ', 0.01860000587132067),
  ('مطابق', 0.018170046032694273),
  ('جنگجو', 0.017711823778599516),
  ('نموادارہوا', 0.01695341986305698),
  ('بناکر', 0.01666367540366874),
  ('خودکش', 0.015915573374705956),
  ('ہوگئے۔ذرائع', 0.01563391833091704),
  ('اثناءحملہ', 0.01562998761937122),
  ('ابلاغ', 0.015129043916457974),
  ('پنڈال', 0.014493220288986535)],
 [('بیروت', 0.03424388646515368),
  ('متعدد', 0.029472334123126876),
  ('لبنان', 0.028340219428730027),
  ('نتیجے', 0.02753709072527901),
  ('مقابلہ', 0.02428785444129723),
  ('تنزانیہ', 0.024242532458643846),
  ('روانہ', 0.02312210967920612),
  ('کردیا۔پولیس', 0.021065194743865572)