# Imports

In [22]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
import re

# Data

In [39]:
df = pd.read_csv('all.csv', header=0)

# Functions

In [89]:
def tf_idf(data, stopwords=None, start=0, end=3000, ngram=(1, 1), features_only=True):
    tf_Idf = TfidfVectorizer(stop_words=stopwords, ngram_range=ngram)
    tf_Idf_fit = tf_Idf.fit_transform(data.loc[start:end])
    feature_names = tf_Idf.get_feature_names()
    
    print('Features Count: ', len(feature_names))
        
    if not features_only:
        dense = tf_Idf_fit.todense()
        denselist = dense.tolist()

        tf_idf_table = pd.DataFrame(denselist, columns=feature_names)

        tf_idf_result = pd.DataFrame()
        tf_idf_result[['topic', 'score']] = tf_idf_table.mean().reset_index()
        tf_idf_result = tf_idf_result.sort_values('score', ascending=False).reset_index(drop=True)
        return tf_idf_result
    
    return feature_names
        
numeric = re.compile(r'\w*\d+\w*')
def accepted_word(w):
    return len(w) > 2 and re.search(numeric, w) is None

def get_word_count_diff(a, b):
    len_a = len(" ".join(a).split())
    len_b = len(" ".join(b).split())
    
    print(f'a size is {len_a:,}')
    print(f'b size is {len_b:,}')
    
    result = '<=' if len_a <= len_b else '>='
    print(f'a {result} b by {abs(len_a - len_b):,} words')
    

def print_series(s):
    for x in s:
        print(x)

# Filter Data

In [64]:
data = df.text

In [72]:
data_removed = data.apply(lambda s: " ".join([w for w in s.split() if not accepted_word(w)]))
stopwords = " ".join(data_removed).split()

In [67]:
get_word_count_diff(data, data_removed)

a size is 1,083,676
b size is 214,561
a >= b by 869,115 words


# Observe Results

In [98]:
a = tf_idf(data, features_only=False, ngram=(3, 3)).topic.loc[:100]

Features Count:  53690


In [99]:
print_series(a)

جديدة بفيروس كورونا
فيروس_كورونا في لبنان
في لبنان ليرتفع
لبنان ليرتفع عدد
عدد هذه الإصابات
هذه الإصابات إلى
ليرتفع عدد هذه
جديدة فيروس_كورونا في
إصابة جديدة بفيروس
إصابات جديدة فيروس_كورونا
تسجيل إصابات جديدة
كورونا في لبنان
إصابة جديدة فيروس_كورونا
وزارة_الصحة تسجيل إصابات
اصابة جديدة بفيروس
lebanondebate com news
بفيروس كورونا في
في زمن كورونا
كورونا رفعت العدد
بفيروس كورونا رفعت
https instagram com
twitter sharing thewall
بين الوافدين ليرتفع
leb2day in playstore
for leb2day in
search for leb2day
الوافدين ليرتفع اجمالي
ليرتفع اجمالي الإصابات
بفيروس كورونا لبنان
لا داعي للهلع
كورونا لبنان الجرس
http lebanondebate com
إصابات جديدة بفيروس
كورونا فيروس_كورونا لبنان
خليك_بالبيت كورونا لبنان
in playstore كورونا
كورونا_فايروس مدينة_صور جنوب_لبنان
كورونا كورونا_فايروس مدينة_صور
كورونا لبنان خليك_بالبيت
التقرير اليومي لفيروس
كوفيد 19 التاريخ
اليومي لفيروس كورونا
2020 حركة_أمل كورونا_لبنان
كورونا_لبنان خليك_بالبيت وطنك_بيتك
خليك_بالبيت وطنك_بيتك كورونا
لفيروس كورونا كوفيد
كورونا كوفيد 19
حركة

In [100]:
b = tf_idf(data, stopwords=stopwords, features_only=False, ngram=(3, 3)).topic.loc[:100]

Features Count:  45271


In [101]:
print_series(b)

لبنان ليرتفع عدد
هذه الإصابات إلى
عدد هذه الإصابات
ليرتفع عدد هذه
جديدة بفيروس كورونا
جديدة فيروس_كورونا لبنان
فيروس_كورونا لبنان ليرتفع
تسجيل إصابة جديدة
الإصابات إلى كورونا
تسجيل إصابات جديدة
وزارة_الصحة تسجيل إصابة
وزارة_الصحة تسجيل إصابات
إصابة جديدة بفيروس
إصابة جديدة فيروس_كورونا
إصابات جديدة فيروس_كورونا
إلى كورونا خليك_بالبيت
اصابة جديدة بفيروس
بفيروس كورونا لبنان
lebanondebate com news
كورونا رفعت العدد
بفيروس كورونا رفعت
بفيروس كورونا بين
كورونا بين المقيمين
بين الوافدين ليرتفع
بين المقيمين بين
المقيمين بين الوافدين
الوافدين ليرتفع اجمالي
https instagram com
for leb2day playstore
search for leb2day
ليرتفع اجمالي الإصابات
إلى كورونا covidー19
رفعت العدد كورونا
twitter sharing thewall
إصابات جديدة بفيروس
العدد كورونا لبنان
كورونا لبنان الجرس
http lebanondebate com
leb2day playstore كورونا
كورونا فيروس_كورونا لبنان
خليك_بالبيت كورونا لبنان
كورونا_لبنان خليك_بالبيت وطنك_بيتك
خليك_بالبيت وطنك_بيتك كورونا
اليومي لفيروس كورونا
لفيروس كورونا كوفيد
كورونا كوفيد التاريخ
التقرير اليومي ل