In [86]:
import pandas as pd
import re
from IPython.display import display, HTML

In [87]:
pd.set_option('display.max_colwidth', -1)

## Columns names
estab_name = "Establishment Name"
cleaned_synon = "Cleansing Synonyms"

In [88]:
def read_file(exten, file = None, column = None):
    df = None
    if exten == 'csv':
        df = pd.read_csv('data/' + file, encoding = 'utf-8')
    elif exten == 'excel':
        df = pd.read_excel('data/' + file, column, encoding = 'utf-8')
    return df

### DQ Reading and summary

In [89]:
data = read_file("excel", "34K_Cleansing_source.xlsx", "data")

In [90]:
data.describe(include="all")

Unnamed: 0,Establishment Name,English Synonyms,Arabic Synonyms,Cleansing Synonyms
count,34407,1180,1191,0.0
unique,33338,279,359,
top,العربية للطيران,There is no Synonym available,There is no Synonym available,
freq,2,902,831,
mean,,,,
std,,,,
min,,,,
25%,,,,
50%,,,,
75%,,,,


## Cleansing

In [100]:
## Keep the original data
data_clean = data.copy()

### Remove English words

In [101]:
data_clean[estab_name] = data_clean[estab_name].str.replace("[a-zA-Z]+", '', regex=True)
data.describe(include="all")

Unnamed: 0,Establishment Name,English Synonyms,Arabic Synonyms,Cleansing Synonyms
count,34407,1180,1191,0.0
unique,33338,279,359,
top,العربية للطيران,There is no Synonym available,There is no Synonym available,
freq,2,902,831,
mean,,,,
std,,,,
min,,,,
25%,,,,
50%,,,,
75%,,,,


### Remove special chars

In [102]:
data_clean[cleaned_synon] = data_clean[estab_name].str.replace("[^\u0621-\u06FF]+", ' ', regex=True)
data_clean[cleaned_synon] = data_clean[cleaned_synon].apply(lambda x: x.strip() if len(x.strip()) > 1 else x)

data_clean.describe()

Unnamed: 0,Establishment Name,English Synonyms,Arabic Synonyms,Cleansing Synonyms
count,34407.0,1180,1191,34407.0
unique,33104.0,279,359,31769.0
top,,There is no Synonym available,There is no Synonym available,
freq,70.0,902,831,364.0


In [103]:
display(data_clean[:10])

Unnamed: 0,Establishment Name,English Synonyms,Arabic Synonyms,Cleansing Synonyms
0,كنتاكي,KFC,كي اف سي,كنتاكي
1,بيتزا هت,There is no Synonym available,There is no Synonym available,بيتزا هت
2,شركة الامارات للوجبات السريعة (ذ.م.م) - ماكدونالدز,MAC,ماك,شركة الامارات للوجبات السريعة ذ م م ماكدونالدز
3,هارديز,There is no Synonym available,There is no Synonym available,هارديز
4,برجر كينج - تكساس تشيكن - فرع فيرست فود سيرفيسيز (ذ.م.م),There is no Synonym available,There is no Synonym available,برجر كينج تكساس تشيكن فرع فيرست فود سيرفيسيز ذ م م
5,مطعم الفروج الطازج,Al Farooj Fresh Chicken Restaurant,مطعم الفروج الطازج,مطعم الفروج الطازج
6,مطعم الخروف الذهبي,There is no Synonym available,There is no Synonym available,مطعم الخروف الذهبي
7,مصرف ابوظبي الاسلامي - مركز الاتصال - البدالة,ADIB Call Center,اديب بنك,مصرف ابوظبي الاسلامي مركز الاتصال البدالة
8,وزارة الداخلية,There is no Synonym available,الداخلية,وزارة الداخلية
9,مطعم بحر الامارات,There is no Synonym available,There is no Synonym available,مطعم بحر الامارات


### Remove abbreviations

In [104]:
data_clean[cleaned_synon] = data_clean[cleaned_synon].apply(lambda x: re.sub("\s+ذ م م(\s+|$)", ' ', x))
data_clean[cleaned_synon] = data_clean[cleaned_synon].apply(lambda x: re.sub("\s+ذ م(\s+|$)", ' ', x))
data_clean[cleaned_synon] = data_clean[cleaned_synon].apply(lambda x: re.sub("\s+(فرع).*$", ' ', x))
data_clean[cleaned_synon] = data_clean[cleaned_synon].apply(lambda x: re.sub("\s+(الفرع).*$", ' ', x))
data_clean[cleaned_synon] = data_clean[cleaned_synon].apply(lambda x: re.sub("\s+(مركز الاتصال).*$", ' ', x))

data_clean.describe()

Unnamed: 0,Establishment Name,English Synonyms,Arabic Synonyms,Cleansing Synonyms
count,34407.0,1180,1191,34407.0
unique,33104.0,279,359,31508.0
top,,There is no Synonym available,There is no Synonym available,
freq,70.0,902,831,364.0


In [105]:
display(data_clean[300:310])

Unnamed: 0,Establishment Name,English Synonyms,Arabic Synonyms,Cleansing Synonyms
300,مطعم دانة,There is no Synonym available,There is no Synonym available,مطعم دانة
301,مطعم ومشاوي الصياد البحري الماهر - فرع بين الجسرين,There is no Synonym available,There is no Synonym available,مطعم ومشاوي الصياد البحري الماهر
302,مطعم كوخ الدجاج المقام,Chicken Hut Cafeteria Al Maqam,كافتيريا كوخ الدجاج المقام,مطعم كوخ الدجاج المقام
303,مطعم عبد الجبار,There is no Synonym available,There is no Synonym available,مطعم عبد الجبار
304,مطعم لوبستر لشوي الاسماك - بني ياس,There is no Synonym available,There is no Synonym available,مطعم لوبستر لشوي الاسماك بني ياس
305,مكتبة ليوا,liwa Stationary,قرطاسية ليوا,مكتبة ليوا
306,مطعم ليالي الشام,There is no Synonym available,There is no Synonym available,مطعم ليالي الشام
307,مؤسسة الاخلاص لخدمات التنظيف,There is no Synonym available,There is no Synonym available,مؤسسة الاخلاص لخدمات التنظيف
308,مطعم دبس ورمان - الشهامة الجديدة,There is no Synonym available,There is no Synonym available,مطعم دبس ورمان الشهامة الجديدة
309,نادى الصحي بودى اند سول,Body And Soul Gym,بودي اند سول للياقة البدنية,نادى الصحي بودى اند سول


### Remove duplicates

In [106]:
data_clean.drop_duplicates(subset = {estab_name, cleaned_synon}, inplace = True)
data_clean.describe(include="all")

Unnamed: 0,Establishment Name,English Synonyms,Arabic Synonyms,Cleansing Synonyms
count,33104,1180,1191,33104.0
unique,33104,279,359,31508.0
top,مدرسة الملا لتعليم قيادة السيارات,There is no Synonym available,There is no Synonym available,
freq,1,902,831,126.0


In [107]:
display(data_clean[:50])

Unnamed: 0,Establishment Name,English Synonyms,Arabic Synonyms,Cleansing Synonyms
0,كنتاكي,KFC,كي اف سي,كنتاكي
1,بيتزا هت,There is no Synonym available,There is no Synonym available,بيتزا هت
2,شركة الامارات للوجبات السريعة (ذ.م.م) - ماكدونالدز,MAC,ماك,شركة الامارات للوجبات السريعة ماكدونالدز
3,هارديز,There is no Synonym available,There is no Synonym available,هارديز
4,برجر كينج - تكساس تشيكن - فرع فيرست فود سيرفيسيز (ذ.م.م),There is no Synonym available,There is no Synonym available,برجر كينج تكساس تشيكن
5,مطعم الفروج الطازج,Al Farooj Fresh Chicken Restaurant,مطعم الفروج الطازج,مطعم الفروج الطازج
6,مطعم الخروف الذهبي,There is no Synonym available,There is no Synonym available,مطعم الخروف الذهبي
7,مصرف ابوظبي الاسلامي - مركز الاتصال - البدالة,ADIB Call Center,اديب بنك,مصرف ابوظبي الاسلامي
8,وزارة الداخلية,There is no Synonym available,الداخلية,وزارة الداخلية
9,مطعم بحر الامارات,There is no Synonym available,There is no Synonym available,مطعم بحر الامارات


## Testing