# Imports

In [18]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
import re

# Data

In [19]:
df = pd.read_csv('../tweets.csv', header=0)

# Functions

In [20]:
def tf_idf(data, stopwords=None, max_features=1000, ngram=(1, 1), features_only=True):
    tf_Idf = TfidfVectorizer(stop_words=stopwords, max_features=max_features, ngram_range=ngram)
    tf_Idf_fit = tf_Idf.fit_transform(data)
    feature_names = tf_Idf.get_feature_names()
    
    print('Features Count: ', len(feature_names))
        
    if not features_only:
        dense = tf_Idf_fit.todense()
        denselist = dense.tolist()

        tf_idf_table = pd.DataFrame(denselist, columns=feature_names)

        tf_idf_result = pd.DataFrame()
        tf_idf_result[['topic', 'score']] = tf_idf_table.mean().reset_index()
        tf_idf_result = tf_idf_result.sort_values('score', ascending=False).reset_index(drop=True)
        return tf_idf_result
    
    return feature_names
        
numeric = re.compile(r'\w*\d+\w*')
def accepted_word(w):
    return len(w) > 2 and re.search(numeric, w) is None

def get_word_count_diff(a, b):
    len_a = len(" ".join(a).split())
    len_b = len(" ".join(b).split())
    
    print(f'a size is {len_a:,}')
    print(f'b size is {len_b:,}')
    
    result = '<=' if len_a <= len_b else '>='
    print(f'a {result} b by {abs(len_a - len_b):,} words')
    

def print_series(s):
    for x in s:
        print(x)

# Filter Data

In [21]:
data = df.text

In [22]:
data_removed = data.apply(lambda s: " ".join([w for w in s.split() if not accepted_word(w)]))
stopwords = " ".join(data_removed).split()

In [23]:
get_word_count_diff(data, data_removed)

a size is 944,847
b size is 185,412
a >= b by 759,435 words


# Observe Results

In [24]:
a = tf_idf(data, features_only=False, ngram=(2, 3)).topic.loc[:100]

Features Count:  1000


In [25]:
print_series(a)

كورونا لبنان
twitter com
pic twitter com
pic twitter
in lebanon
https twitter
https twitter com
كورونا كورونا_لبنان
كورونا_لبنان كورونا
في لبنان
خليك_بالبيت كورونا_لبنان
فيروس كورونا
كورونا_لبنان خليك_بالبيت
بفيروس كورونا
covid 19
bit ly
لبنان كورونا_لبنان
http bit
http bit ly
لبنان كورونا
من كورونا
كورونا في
in the
of the
وزارة الصحة
medical center
ما في
فيروس_كورونا لبنان
كورونا لبنان_ينتفض
وزير الصحة
https www
medical marijuana
كورونا_لبنان لبنان
خليك_بالبيت كورونا
to the
كورونا pic
كورونا pic twitter
إصابة جديدة
healthcare lebanon
كورونا https
في كورونا
كورونا_لبنان pic
كورونا_لبنان pic twitter
كورونا خليك_بالبيت
lebanon nh
التعبئة العامة
com news
for medical
for the
لبنان_ينتفض كورونا_لبنان
on the
فايروس كورونا
كورونا_الجديد كورونا_لبنان
جديدة بفيروس
جديدة بفيروس كورونا
كورونا_لبنان covid_19
وباء كورونا
كورونا_لبنان لبنان_ينتفض
lebanon pa
lebanon http
of medical
dlvr it
http dlvr
http dlvr it
covid_19 كورونا_لبنان
كورونا_لبنان كورونا_الجديد
كورونا في لبنان
ما حدا
في زمن
حالة كورون

In [26]:
b = tf_idf(data, stopwords=stopwords, features_only=False, ngram=(2, 3)).topic.loc[:100]

Features Count:  1000


In [27]:
print_series(b)

كورونا لبنان
twitter com
pic twitter
pic twitter com
https twitter com
https twitter
كورونا كورونا_لبنان
فيروس كورونا
كورونا_لبنان كورونا
خليك_بالبيت كورونا_لبنان
كورونا_لبنان خليك_بالبيت
بفيروس كورونا
bit ly
لبنان كورونا_لبنان
http bit
http bit ly
لبنان كورونا
lebanon http
فيروس_كورونا لبنان
medical center
وزارة الصحة
https www
كورونا لبنان_ينتفض
وزير الصحة
healthcare lebanon
medical marijuana
خليك_بالبيت كورونا
كورونا_لبنان لبنان
كورونا pic
كورونا pic twitter
for the
lebanon medical
كورونا https
إصابة جديدة
http dlvr
التعبئة العامة
for medical
فايروس كورونا
لبنان_ينتفض كورونا_لبنان
كورونا_لبنان pic twitter
كورونا_لبنان pic
كورونا خليك_بالبيت
وباء كورونا
كورونا_الجديد كورونا_لبنان
كورونا_لبنان covid_19
كورونا_لبنان لبنان_ينتفض
the medical
جديدة بفيروس
com news
جديدة بفيروس كورونا
syrian refugees
covid_19 كورونا_لبنان
corona virus
حالة كورونا
with the
الشعب اللبناني
covidー19 كورونا_لبنان
http fb
lebanon and
كورونا_لبنان كورونا_الجديد
and the
the world
medical supplies
بسبب كورونا
leban