###  Train LDA with variational inference on Urdu Datasets with OCTIS

Welcome! This is a tutorial that allows you to train a topic model LDA using OCTIS



A topic model allows you to discover the latent topics in your documents in a completely unsupervised way.



## Mounting Google Drive
If the dataset is on Google Drive then you have to mount over google drive with collaboratory.

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive



#Installing required dependencies
First we will install all the required extrnal libraries. installing octis library to train LDA model

<b>One thing to remember is that after installing libraries you have to restart the run time again so that other dependencies are not affected by it.</b>

In [None]:
!pip install octis

Collecting octis
  Downloading octis-1.13.1-py2.py3-none-any.whl (130 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m131.0/131.0 kB[0m [31m2.3 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting gensim==4.2.0 (from octis)
  Downloading gensim-4.2.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (24.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m24.0/24.0 MB[0m [31m23.9 MB/s[0m eta [36m0:00:00[0m
Collecting scikit-learn==1.1.0 (from octis)
  Downloading scikit_learn-1.1.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (30.7 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m30.7/30.7 MB[0m [31m20.4 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting scikit-optimize>=0.8.1 (from octis)
  Downloading scikit_optimize-0.9.0-py2.py3-none-any.whl (100 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m100.3/100.3 kB[0m [31m11.5 MB/s[0m eta [36m0:00:00[0m
Collecting numpy==1.23.0 (from oct


# Importing required dependencies
We will import numpy, pandas, octis library. other libraries will be imported in the notebook later.

Pandas will be used to create a Dataframe and handle the csv file. Numpy will be used for the faster computation of arrays to save time. octis library is used to train LDA model and then evaluate result using topic diversity and coherence score with the help of octis library

Let's import what we need.

In [None]:
import pandas as pd
import numpy as np

In [None]:
from octis.models.LDA import LDA
from octis.dataset.dataset import Dataset
from octis.evaluation_metrics.diversity_metrics import TopicDiversity
from octis.evaluation_metrics.coherence_metrics import Coherence

## Dataframe
We need some data to run a topic model. to load custom preprocessed dataset must be following format.
1. corpus file: a .tsv file (tab-separated) that contains up to three columns, i.e. the document, the partitition, and the label associated to the document (optional).
2. vocabulary: a .txt file where each line represents a word of the vocabulary

In [None]:
# Load folder of dataset which contain corpus.tsv file and vocabulary.txt file
dataset = Dataset()
dataset.load_custom_dataset_from_folder('/content/drive/MyDrive/octis_format_UNTM/Classical') #add your repository here

In [None]:
data = dataset.get_corpus()
print(data[0])

['بھارتی', 'کرکٹ', 'آئیکون', 'ویرات', 'کوہلی', 'انکی', 'سپر', 'سٹار', 'اہلیہ', 'انوشکا', 'شرما', 'بیڈ', 'منٹن', 'کھیلتے', 'ویڈیو', 'سوشل', 'میڈیا', 'وائرل', 'ہوگئی۔بھارتی', 'میڈیا', 'مطابق', 'ویرات', 'کوہلی', 'انوشکا', 'شرما', 'پوما', 'پروموشنل', 'ایونٹ', 'پہنچے', 'ساتھ', 'بیڈ', 'منٹن', 'کھیلا۔جس', 'ویڈیو', 'تصاویر', 'سوشل', 'میڈیا', 'وائرل', 'گئی۔', 'ویرات', 'کوہلی', 'انوشکا', 'شرما', 'اکثر', 'فٹنس', 'وابستگی', 'روزمرہ', 'زندگی', 'کھیلوں', 'اہمیت', 'اجاگرکرتے', 'نظر', 'آتے', 'مقبولیت', 'روز', 'دن', 'اضافہ', 'ہے۔']


##Train LDA
Now we're ready to train it. See that the output of a topic model comes as a dictionary composed of 4 elements:


*   *topics*: the list of word topics
*   *topic-word-matrix*: the distribution of the words of the vocabulary for each topic (dimensions: |num topics| x |vocabulary|)
*   *topic-document-matrix*: the distribution of the topics for each document of the training set (dimensions: |num topics| x |training documents|)
*   *test-document-topic-matrix*: the distribution of the topics for each document of the testing set (dimensions: |num topics| x |test documents|)



In [None]:
# Create Model
model = LDA(num_topics=7, iterations=3500, alpha=0.01, eta=0.01, random_state=15)

In [None]:
# Train the model using default partitioning choice
output = model.train_model(dataset)

print(*list(output.keys()), sep="\n") # Print the output identifiers



topic-word-matrix
topics
topic-document-matrix
test-topic-document-matrix


In [None]:
#print topics
for t in output['topics'][:7]:
  print(" ".join(t))

ہے۔ صارفین سال فی روپے ویڈیو میڈیا ساتھ شادی کرونا
پاکستان ہے۔ خان عمران مطابق حکومت ساتھ وزیراعظم ٹی انصاف
کورونا وائرس صحت ہے۔ مریض افراد مریضوں ہیں۔ ہسپتال فیصد
ہے۔ کورونا ویکسین ہزار مطابق وائرس انسداد قطرے ہیں۔ ساتھ
خان عمران ہے۔ فلم میڈیا مطابق ہیں۔ شاہ فیس ساتھ
پنجاب ڈاکٹر ہے۔ ساتھ اینڈ چیمبر ٹی موقع محمد ڈپٹی
پی پاکستان سی ٹی مطابق ہے۔ ڈی ہزار آئی فیصل


# Evaluation
we used three evaluation metrics to compare the reults obtained from Model.

1. The coherence score is used to capture the degree of similarity between the words within each topic, with higher scores indicating more coherent topics
2. Topic diversity measures are used to assess how different and distinct the topics are in a topic model.


**Coherence Score**

In [None]:
# Initialize metric
cs = Coherence(texts=dataset.get_corpus(), topk=10, measure='c_npmi') #use c_v and c_npmi for coherence score

**Diversity Score**

Or we can test if the resulting topics are different from each other. The `InvertedRBO` measure computes the number of unique words.



**Inverted Rank Biased Overlap**

In [None]:
from octis.evaluation_metrics.diversity_metrics import InvertedRBO

In [None]:
# Initialize metric
IRBO = InvertedRBO(topk=10, weight=0.9)

In [None]:
# Retrieve metrics score
IRBO_score = IRBO.score(output)
print("Inverted RBO: "+str(IRBO_score))

Inverted RBO: 0.7967834594880953


# LDA on UDC

In [None]:
# Define dataset
dataset1 = Dataset()
dataset1.load_custom_dataset_from_folder('/content/drive/MyDrive/octis_format_UDC/Classical')

In [None]:
data = dataset1.get_corpus()
print(data[0])

['اسلام', 'آباد', 'ایسوسی', 'ایشن', 'آف', 'چارٹرڈ', 'سرٹیفائیڈاکاؤئنٹنٹس', 'ٹیکس', 'نظام', 'سنجیدگی', 'جانچ', 'پڑتال', 'ضرورت', 'ٹیکس', 'دہندگان', 'عوام', 'ٹیکس', 'حکام', 'اعتماد', 'انتہائی', 'نتیجے', 'ٹیکس', 'چوری', 'باعث', 'قومی', 'خزانہ', 'اربوں', 'روپے', 'نقصان', 'اے', 'سی', 'سی', 'اے', 'جانب', 'جمع', 'کرائی', 'ٹیکس', 'تجاویز', 'ٹیکس', 'شرح', 'یک', 'ہندسی', 'ڈائریکٹ', 'ٹیکسیشن', 'رفتار', 'اضافے', 'نادرا', 'ڈیٹا', 'بیس', 'ودہولڈنگ', 'ٹیکس', 'ڈیٹا', 'استعمال', 'اثاثہ', 'جات', 'تشخیص', 'شامل', 'ہیں۔', 'اے', 'سی', 'سی', 'اے', 'اسٹرکچرل', 'ریفارمز', 'ٹیکس', 'دہندہ', 'تمام', 'ٹیکس', 'امور', 'کیلیے', 'ٹیکس', 'ریٹرن', 'تجویز', 'کیاگیا', 'تجاویز', 'کہاگیا', 'پاکستان', 'ٹیکس', 'ٹو', 'جی', 'ڈی', 'پی', 'شرح', 'خطے', 'کارپوریٹ', 'ٹیکس', 'شرح', 'فیصد', 'بلند', 'سطح', 'ٹیکس', 'حکام', 'ضرورت', 'سیلز', 'ٹیکس', 'خطے', 'انتہائی', 'بلند', 'فیصد', 'ایشیا', 'اوسطاً', 'فیصد', 'قریب', 'سیلز', 'ٹیکس', 'براہ', 'راست', 'ٹیکس', 'متبادل', 'بجائے', 'ٹیکس', 'بیس', 'توسیع', 'کیلیے', 'استعمال', 'چاہیے۔']


**Train Model**

In [None]:
# Create Model
model1 = LDA(num_topics=5, iterations=3500, alpha=0.01, eta=0.01, random_state=15)

In [None]:
# Train the model using default partitioning choice
output1 = model1.train_model(dataset1)

print(*list(output1.keys()), sep="\n") # Print the output identifiers



topic-word-matrix
topics
topic-document-matrix
test-topic-document-matrix


In [None]:
for t in output1['topics'][:5]:
  print(" ".join(t))

ہے۔ ہیں۔ پاکستان ساتھ جانب علی سال کوئی مطابق سی
ہے۔ ہیں۔ کینسر پاکستان ساتھ سال سی مطابق استعمال ٹی
ہے۔ ہیں۔ ساتھ فلم پاکستان خان سال کراچی مطابق کیلیے
ہے۔ ہیں۔ ٹیکس فیصد سال حکومت سی ساتھ مطابق آئی
ہے۔ روپے ہیں۔ پانی پاکستان ساتھ مطابق کیلیے استعمال فی


**Coherence Score**

In [None]:
# Initialize metric
coh = Coherence(texts=dataset1.get_corpus(), topk=10, measure='c_npmi')

**Diversity Score**

In [None]:
from octis.evaluation_metrics.diversity_metrics import InvertedRBO

In [None]:
# Initialize metric
IRBO1 = InvertedRBO(topk=10, weight=0.9)

In [None]:
# Retrieve metrics score
IRBO_score1 = IRBO1.score(output1)
print("Inverted RBO: "+str(IRBO_score1))

Inverted RBO: 0.3608013534557144
