# COVID 19 Analysis
a topic-modeling approch

Kiarash Kiani

kiani@kiarash.info

In [2]:
from gensim.test.utils import common_texts
from gensim.corpora.dictionary import Dictionary
from gensim.models import LdaModel, LdaMulticore
from hazm import word_tokenize, stopwords_list
from nltk.corpus import PlaintextCorpusReader
import pandas as pd
import emoji
from multiprocessing import Pool
import tqdm
import time

# 1. Loading dataset

In [14]:
df = pd.read_csv('data/Labeled-Data-v1.csv')
docs = df['Content'].values

## 1.1 Removing Emojis

In [15]:
def remove_emoji(text):
    return emoji.get_emoji_regexp().sub(u'', text)

docs = [remove_emoji(doc) for doc in docs]

# 2. Tokenizing Documents

In [16]:
tokenized_docs = [word_tokenize(doc) for doc in docs]

# 3. Removing Stop Words

## 3.1 Comparing hazm stopwords with our collection

In [17]:
MY_STOPWORDS = []
HAZM_STOPWORDS = stopwords_list()

with open('data/stopwords.txt', encoding='utf-8') as words_file:
    MY_STOPWORDS = words_file.read().split('\n')

print(f'hazm stopwords: {len(HAZM_STOPWORDS)}, my stopwords: {len(MY_STOPWORDS)}')

hazm stopwords: 389, my stopwords: 1316


In [19]:
cleaned_data = [[word for word in doc if not word in MY_STOPWORDS] for doc in tokenized_docs]

# 4. Create a corpus from a list of texts

In [21]:
common_dictionary = Dictionary(cleaned_data)
common_corpus = [common_dictionary.doc2bow(text) for text in cleaned_data]

# 5. Creating Model

In [22]:
lda = LdaModel(common_corpus, num_topics=20, id2word = common_dictionary, passes = 100, alpha='auto', update_every=5)

# 6. Results

In [24]:
for idx, topic in lda.show_topics(formatted=False, num_words= 10):
        print('Topic: {}, Words: [{}]'.format(idx, ', '.join([w[0] for w in topic])))

Topic: 4, Words: [پرداخت, اپ, کرونا, واتس, عوارض, خودروسازان, شماره, #کرونا, ازادراه, اپلیکیشن]
Topic: 8, Words: [?, کرونا, سوال, ایران, آمریکا, 95062, #کرونا, خانه, px, حروف]
Topic: 1, Words: [?, کرونا, #کرونا, https, ایران, جزء, =, ️, ??, ویروس]
Topic: 6, Words: [کرونا, ایران, سال, بیمه, کار, #کرونا, دانشگاه, بیماری, دنیا, خانگی]
Topic: 5, Words: [کرونا, سال, کشور, #کرونا, بیماری, ?, RT, چین, ملت, مرحوم]
Topic: 15, Words: [?, نفر, کشور, کووید, کرونا, بیماران, ۱۹, فروردین, مبتلا, بیماری]
Topic: 3, Words: [نفر, کرونا, مبتلا, ویروس, تعداد, مبتلایان, استان, بیماری, کشور, ابتلا]
Topic: 16, Words: [کرونا, ایران, سال, کشور, ویروس, دولت, تولید, شیوع, کار, اقتصادی]
Topic: 19, Words: [?, #کرونا, #کروناویروس, ??, کرونا, #ویروس_کرونا, #ایران, https, //t, #تهران]
Topic: 14, Words: [کرونا, استان, ویروس, بیماری, بهداشت, شیوع, بهداشتی, کشور, ستاد, مقابله]


In [28]:
print(len(lda.show_topics(num_words=20)))

10
