# Topic Modeling/Extraction - Telugu ([తెలుగు](https://en.wikipedia.org/wiki/Telugu_language))
### Notebook Author: Nirupam Purushothama

In [19]:
from nltk.corpus import stopwords 
import string
import gensim
from gensim import corpora
from gensim.summarization import summarize
from gensim.summarization import keywords
from gensim.models import CoherenceModel
import pandas as pd
import numpy as np
from pprint import pprint

import warnings
warnings.filterwarnings("ignore")

In [20]:
from tepy import te_stemmer

In [21]:
# Plotting tools
import pyLDAvis
import pyLDAvis.gensim
import matplotlib.pyplot as plt
import seaborn as sns
from nltk import FreqDist

In [22]:
import json
from gensim import models
from nltk import sent_tokenize

In [23]:
def preprocess_simple(sentence):
    return sentence.split()

def preprocess_sentence(sentence):
        return gensim.utils.simple_preprocess(str(sentence), deacc=True)

# This function processes the Cypress docs data by removing newline characters and empty sentences.
def clean(doc):
    # Remove \n and create sentence tokens
    sentence_tokens = sent_tokenize(doc.replace("\n",""))
    # Remove empty sentences
    sentence_tokens = list(filter(lambda x: x != '.', sentence_tokens))
    
    # Cleaned Doc
    s = ""
    
    return s.join(sentence_tokens)

In [85]:
# Define stop words - using nltk
stop_words = stopwords.words('telugu')
stop_words.append("చేత")
stop_words.append("వలన")
stop_words.append("గూర్చి")
stop_words.append("కొరకు")
# stop_words.append("పట్టి")
# stop_words.append("కంటె")
# stop_words.append("లోపల")
stop_words.append("అందు")
stop_words.append("ఓరీ")
stop_words.append("ఓయీ")
stop_words.append("ఓసీ")
stop_words.append("ఈ")
stop_words.append("ఆ")
stop_words.append("నుంచి")
stop_words.append("కూడా")
stop_words.append("మీ")
stop_words.append("నా")
stop_words.append("ఉన్")
stop_words.append("ఒక")
stop_words.append("ఉంది")
stop_words.append("అ")
stop_words.append("కానీ")
stop_words.append("ఇది")
stop_words.append("కోసం")
stop_words.append("త")
stop_words.append("అయితే")
stop_words.append("మ")
stop_words.append("అంటే")
stop_words.append("చాలా")
stop_words.append("ఇలా")
stop_words.append("ఉండే")
stop_words.append("అనే")
stop_words.append("వారి")
stop_words.append("మీరు")
stop_words.append("ఎలా")
stop_words.append("పేరు")
stop_words.append("వీటి")
stop_words.append("ఇప్పు")
stop_words.append("గురించి")
stop_words.append("వర")
stop_words.append("పన్")
stop_words.append("అందు")
stop_words.append("పాటు")
stop_words.append("అన్")
stop_words.append("2")
stop_words.append("ప")
stop_words.append("3")
stop_words.append("4")
stop_words.append("5")
stop_words.append("6")
stop_words.append("7")
stop_words.append("8")
stop_words.append("9")
stop_words.append("10")
stop_words.append("దీ")
stop_words.append('')
stop_words.append('ఓ')
stop_words.append('అని')

In [86]:
# Define functions for stopwords and stemming
# Could have done a pattern match, but felt this might be faster compared to a pattern match. 
# Would consider changing this later. NLTK tokenizer is not working as intended. Hence resorting to this
def clean_word(word):
    word = word.replace("\u200c","")
    word = word.replace(":","")
    word = word.replace(",","")
    word = word.replace(";","")
    word = word.replace("`","")
    word = word.replace("'","")
    word = word.replace(".","")
    word = word.replace("\"","")
    word = word.replace("\\","")
    word = word.replace("\n","")
    word = word.replace("/n","")
    word = word.replace("#","")
    word = word.replace("%","")
    word = word.replace("&","")
    word = word.replace("*","")
    word = word.replace("(","")
    word = word.replace(")","")
    word = word.replace("{","")
    word = word.replace("}","")
    word = word.replace("[","")
    word = word.replace("=","")
    word = word.replace("]","")
    word = word.replace("-","")
    word = word.replace("_","")
    word = word.replace("+","")
    word = word.replace("‘","")
    word = word.replace("?","")
    word = word.replace("!","")
    word = word.replace("~","")
    
    return word

def remove_stopwords(texts):
    #return [[clean_word(word) for word in doc if word not in stop_words] for doc in texts]
    texts_out = []
    for sent in texts:
        texts = []
        for word in sent:
            c_word = clean_word(word)
            
            if(c_word != None and c_word != "" and len(c_word) > 0 and c_word not in stop_words):
                texts.append(c_word)

        texts_out.append(texts)
    
    return texts_out

# Perform stemming using the vibhakti remover
def stemming(texts):
    texts_out = []
    for sent in texts:
        texts = []
        for word in sent:
            c_word = clean_word(te_stemmer(word))
            
            if(c_word != None and c_word != "" and len(c_word) > 0):
                texts.append(c_word)

        texts_out.append(texts)
    
    return texts_out

In [87]:
fp = open("../crawler_scraper/hash2text_1.json")
data1 = json.load(fp)
fp.close()

fp = open("../crawler_scraper/hash2text_2.json")
data2 = json.load(fp)
fp.close()

fp = open("../crawler_scraper/hash2text_3.json")
data3 = json.load(fp)
fp.close()

fp = open("../crawler_scraper/hash2text_4.json")
data4 = json.load(fp)
fp.close()

data = {**data1, **data2, **data3, **data4}

texts = []
for k,v in data.items():
    texts.append(v.split())

In [88]:
#texts = stemming(texts)
texts = remove_stopwords(texts)

In [89]:
all_words = []
[all_words.extend(text) for text in texts]
fdist = FreqDist(all_words)

print("Total unique words in corpus: ", len(fdist))

# Plot the top 50 used words in the corpus
aw_df = pd.DataFrame([(k, v) for k,v in fdist.items()])
aw_df.columns = ['term','frequency']

aw_df.sort_values(by=['frequency'], ascending = False, inplace=True)
aw_df = aw_df.reset_index() 

%matplotlib notebook
word_hist = sns.barplot(x='term', y='frequency', data=aw_df[:50])
for item in word_hist.get_xticklabels():
    item.set_rotation(90)

Total unique words in corpus:  386705


<IPython.core.display.Javascript object>

In [90]:
k = 9727
top_k_words = fdist.most_common(k)
print(top_k_words[:10])
top_k_words[-10:]

[('ఉంటుంది', 12369), ('ఉన్న', 8531), ('రెండు', 7589), ('మా', 7144), ('వల్ల', 7104), ('మన', 6386), ('నేను', 6278), ('అది', 6189), ('కొన్ని', 6114), ('ఉంటాయి', 5616)]


[('ఉష్ణోగ్రతలో', 49),
 ('తీర', 49),
 ('తీసుకుంటున్నాయి', 49),
 ('సెంటీమీటర్ల', 49),
 ('ఆహ్లాదకరంగా', 49),
 ('వేళ్లను', 49),
 ('శత్రు', 49),
 ('అలవోకగా', 49),
 ('స్కూటర్', 49),
 ('వ్యక్తితో', 49)]

In [91]:
# define a function only to keep words in the top k words
top_k_words,_ = zip(*fdist.most_common(k))
top_k_words = set(top_k_words)
def keep_top_k_words(text):
    return [word for word in text if word in top_k_words]


# Process to keep only those words that we wish to consider

texts_2 = []

for text in texts:
    texts_2.append(keep_top_k_words(text))
    

# drop those with less than 40 words in the sentence
texts_3 = []

new2oldindex_map = {}

old_index = 0
new_index = 0

for text in texts_2:
    if(len(text) >= 40):
        new2oldindex_map[new_index] = old_index
        texts_3.append(text)
        new_index += 1
        
    old_index += 1
        
print("Total docs before processing: ", len(texts))
print("Total docs after processing: ", len(texts_3))

Total docs before processing:  18777
Total docs after processing:  12610


In [92]:
# Create Dictionary
id2word = corpora.Dictionary(texts_3)

# Create Corpus
texts = texts_3

# Term Document Frequency
corpus = [id2word.doc2bow(text) for text in texts]

# Get the TF-IDF Conversion - Not using TF-IDF for our model. But if we need to use it then just change 
# corpus to corpus_tfidf and rest of the steps are the same.
# tfidf = models.TfidfModel(corpus)
# corpus_tfidf = tfidf[corpus]

In [93]:
def compute_coherence_values(dictionary, corpus, texts, limit, start=2, step=3):
    """
    Compute c_v coherence for various number of topics

    Parameters:
    ----------
    dictionary : Gensim dictionary
    corpus : Gensim corpus
    texts : List of input texts
    limit : Max num of topics

    Returns:
    -------
    model_list : List of LDA topic models
    coherence_values : Coherence values corresponding to the LDA model with respective number of topics
    """
    coherence_values = []
    model_list = []
    for num_topics in range(start, limit, step):
        
        # Low alpha => documents have only a low number of topics contributing to them
        # Low eta => topics have a low number of words contributing to them
#         model = gensim.models.ldamulticore.LdaMulticore(corpus=corpus,
#                                                    id2word=id2word,
#                                                    num_topics=num_topics,
#                                                    passes=50,
#                                                    #alpha=1e-2,
#                                                    #eta=0.5e-2,
#                                                    alpha="asymmetric",
#                                                    random_state=12)
        
        model = gensim.models.ldamodel.LdaModel(corpus=corpus,
                                                   id2word=id2word,
                                                   num_topics=num_topics,
                                                   passes=50,
                                                   #alpha=1e-2,
                                                   #eta=0.5e-2,
                                                   alpha="auto",
                                                   random_state=12)

        model_list.append(model)
        coherencemodel = CoherenceModel(model=model, texts=texts, dictionary=dictionary, coherence='c_v')
        coherence_values.append(coherencemodel.get_coherence())

    return model_list, coherence_values

In [95]:
%matplotlib notebook

limit=16; start=10; step=5;
model_list, coherence_values = compute_coherence_values(dictionary=id2word, corpus=corpus, texts=texts, 
                                                       start=start, limit=limit, step=step)

x = range(start, limit, step)
plt.plot(x, coherence_values)
plt.xlabel("Num Topics")
plt.ylabel("Coherence score")
plt.legend(("coherence_values"), loc='best')
plt.show()

<IPython.core.display.Javascript object>

In [96]:
# Print the coherence scores
for m, cv in zip(x, coherence_values):
    print("Num Topics =", m, " has Coherence Value of", round(cv, 4))

Num Topics = 10  has Coherence Value of 0.5965
Num Topics = 15  has Coherence Value of 0.6134


In [99]:
# Select the optimal model and check the topics (if required)
optimal_model = model_list[1]
#model_topics = optimal_model.show_topics(formatted=False)
pprint(optimal_model.print_topics())

[(0,
  '0.011*"చేసి" + 0.008*"ఫోన్" + 0.006*"కారు" + 0.006*"చేస్తే" + '
  '0.006*"ద్వారా" + 0.006*"పని" + 0.005*"వివరాలు" + 0.005*"ఉన్న" + '
  '0.005*"మొబైల్" + 0.005*"కొత్త"'),
 (1,
  '0.010*"చేశారు" + 0.009*"మంది" + 0.007*"చెందిన" + 0.005*"ప్రభుత్వం" + '
  '0.005*"ఉన్న" + 0.005*"ఆయన" + 0.005*"చేసిన" + 0.004*"హైదరాబాద్" + '
  '0.004*"ఇక్కడ" + 0.004*"ఏర్పాటు"'),
 (2,
  '0.008*"విద్యార్థులు" + 0.008*"కోర్సు" + 0.008*"అర్హత" + 0.007*"ఉంటుంది" + '
  '0.006*"మంచి" + 0.006*"ప్రతి" + 0.006*"వంటి" + 0.006*"ఎక్కువ" + '
  '0.006*"కోర్సులు" + 0.005*"ఉన్న"'),
 (3,
  '0.020*"నేను" + 0.016*"నాకు" + 0.013*"మా" + 0.012*"ఆమె" + 0.012*"తన" + '
  '0.007*"అది" + 0.007*"నన్ను" + 0.007*"అలా" + 0.006*"ఆయన" + 0.006*"నాన్న"'),
 (4,
  '0.017*"మా" + 0.008*"అలా" + 0.007*"ఉద్యోగం" + 0.006*"అందుకే" + '
  '0.006*"శిక్షణ" + 0.006*"సంస్థ" + 0.006*"మేం" + 0.005*"దాంతో" + '
  '0.005*"వారికి" + 0.005*"సాయం"'),
 (5,
  '0.011*"కాబట్టి" + 0.009*"మన" + 0.009*"ఉంటుంది" + 0.008*"అవసరం" + '
  '0.008*"సమస్య" + 0.007*"మనం" + 0.0

In [100]:
pyLDAvis.enable_notebook()
vis = pyLDAvis.gensim.prepare(optimal_model, corpus, id2word)
vis

In [110]:
# Test the model on a new document. Took this from Sakshi
# https://www.sakshi.com/news/sports/india-play-new-zealand-after-topping-league-stage-1204599
new_sentence = """
ప్రపంచ కప్‌ ఆసాంతం నిరాశజనక ప్రదర్శన కనబర్చిన దక్షిణాఫ్రికా తమ ఆఖరి మ్యాచ్‌లో డిఫెండింగ్‌ చాంపియన్‌ ఆస్ట్రేలియాను ఓడించింది. శనివారం ఇక్కడ జరిగిన ప్రపంచ కప్‌ చివరి లీగ్‌ మ్యాచ్‌లో దక్షిణాఫ్రికా 10 పరుగుల తేడాతో ఆస్ట్రేలియాపై గెలిచింది. ప్రపంచకప్‌ మ్యాచ్‌లో ఆస్ట్రేలియాపై దక్షిణాఫ్రికా గెలవడం 1992 తర్వాత ఇదే తొలిసారి. 326 పరుగుల విజయలక్ష్యంతో బరిలోకి దిగిన ఆస్ట్రేలియా 49.5 ఓవర్లలో 315 పరుగులకు ఆలౌటై  ఓడిపోయింది.

ఓపెనర్‌ డేవిడ్‌ వార్నర్‌ (117 బంతుల్లో 122; 15 ఫోర్లు, 2 సిక్స్‌లు) అద్భుత సెంచరీ చేసినా... అలెక్స్‌ క్యారీ (69 బంతుల్లో 85; 11 ఫోర్లు, సిక్స్‌) మెరిసినా ఫలితం లేకపోయింది. ఫించ్‌ (3), స్మిత్‌ (7), స్టొయినిస్‌ (22), మ్యాక్స్‌వెల్‌ (12) తక్కువ స్కోరుకే వెనుదిరిగారు. దక్షిణాఫ్రికా బౌలర్లలో రబడ (3/56), ప్రిటోరియస్‌ (2/27), ఫెలుక్వాయో (2/22) రాణించారు. 4 వికెట్లకు 119 పరుగులతో కష్టాల్లో పడిన ఆసీస్‌ను వార్నర్‌ ఆదుకున్నాడు. అలెక్స్‌ క్యారీతో కలిసి ఐదో వికెట్‌కు 108 పరుగులు జోడించాడు.

దక్షిణాఫ్రికా శిబిరంలో ఆందోళన పెంచాడు. అయితే 40వ ఓవర్లో ప్రిటోరియస్‌ బౌలింగ్‌లో మోరిస్‌ కళ్లు చెదిరే క్యాచ్‌ పట్టడంతో వార్నర్‌ ఔటయ్యాడు. దాంతో ఆసీస్‌ జట్టు విజయంపై ఆశలు  వదులుకుంది. అంతకుముందు టాస్‌ గెలిచి బ్యాటింగ్‌ ఎంచుకున్న దక్షిణాఫ్రికా నిర్ణీత 50 ఓవర్లలో 6 వికెట్ల నష్టానికి 325 పరుగులు చేసింది. కెప్టెన్‌ డు ప్లెసిస్‌ (94 బంతుల్లో 100; 7 ఫోర్లు, 2 సిక్స్‌లు) చక్కటి సెంచరీ సాధించాడు. డుసెన్‌ (97 బంతుల్లో 95; 4 ఫోర్లు, 4 సిక్స్‌ల) త్రుటిలో సెంచరీ అవకాశం చేజార్చుకున్నాడు.

ఓపెనర్‌ డికాక్‌ (51 బంతుల్లో 52; 7 ఫోర్లు) అర్ధ సెంచరీ చేశాడు. ఆసీస్‌ బౌలర్లలో స్టార్క్‌ (2/59), లయన్‌ (2/53) రెండేసి వికెట్లు తీశారు.  లీగ్‌ దశ మ్యాచ్‌లు ముగిశాక భారత్‌ 15 పాయింట్లతో టాప్‌ ర్యాంక్‌లో నిలువగా... 14 పాయింట్లతో ఆస్ట్రేలియా రెండో స్థానంలో నిలిచింది. 12 పాయింట్లతో ఇంగ్లండ్‌ మూడో స్థానంలో, 11 పాయింట్లతో న్యూజిలాండ్‌ నాలుగో స్థానంలో నిలిచాయి. ఈనెల 9న మాంచెస్టర్‌లో జరిగే తొలి సెమీఫైనల్లో న్యూజిలాండ్‌తో భారత్‌; బర్మింగ్‌హామ్‌లో 11న జరిగే రెండో సెమీఫైనల్లో ఇంగ్లండ్‌తో ఆస్ట్రేలియా తలపడతాయి.
"""

In [122]:
bow = id2word.doc2bow([clean_word(word) for word in new_sentence.split()])
topics = sorted(optimal_model.get_document_topics(bow=bow), key=lambda x: (x[1]), reverse=True)

# Print the top topic and its associated percentage
print("Top topic: ", optimal_model.show_topic(topics[0][0]))
print("Associated %: ", np.round(topics[0][1]*100,2), "%")

Top topic:  [('భారత', 0.010455191), ('క్రికెట్', 0.010114397), ('జరిగిన', 0.008513711), ('పోటీల్లో', 0.008468443), ('తన', 0.008360771), ('అంతర్జాతీయ', 0.007960853), ('ప్రపంచ', 0.0076683215), ('జట్టు', 0.0075330427), ('ప్రపంచకప్లో', 0.006588675), ('సాధన', 0.0064721834)]
Associated %:  81.71 %
