In [1]:
import pandas as pd
import numpy as np
import json
import re
from typing import List

In [2]:
with open('data.jsonl', 'r', encoding='utf-8') as file:
    data = (json.loads(line[:-1]) for line in file.readlines())

In [3]:
pd.set_option('display.max_columns', 100)

In [4]:
df = pd.json_normalize(data)

In [5]:
df.replace(np.nan, '', inplace=True)

In [6]:
cols_to_drop = ['comments',
               'comments_count',
               'contact.fa fa-envelope.details',
               'contact.fa fa-envelope.link',
               'contact.icon_globe-2.details',
               'contact.icon_globe-2.details',
               'contact.null.details',
               'contact.null.link',
               'contact.icon_pin_alt.link',
               ]

In [7]:
df.drop(columns=cols_to_drop,inplace=True)

In [8]:
mapper = {
    'contact.icon_pin_alt.details': 'address',
    'contact.icon_phone.details': 'phone',
    'social_media.fa-brands fa-whatsapp': 'whatsapp',
    'contact.email': 'email',
    'social_media.fa-brands fa-facebook-f': 'facebook',
    'contact.icon_globe-2.link': 'website',
    'social_media.fa-brands fa-instagram': 'instagram',
    'social_media.fa-brands fa-linkedin-in': 'linkedin',
    'social_media.fa-brands fa-twitter': 'twitter',
}

In [9]:
df.rename(mapper, axis='columns', inplace=True)

In [10]:
df['cat'] = df['categories'].str.split(", ").str[0]

In [11]:
df.rename(axis='columns',
          inplace=True,
          mapper= {
             'categories': 'tags',
             'cat': 'category'
          })

In [12]:
cols = [
    "name",
    "category",
    "tags",
    "description",
    "working_week_times",
    "google_map_link",
    "address",
    "phone",
    "email",
    "website",
    "whatsapp",
    "facebook",
    "instagram",
    "twitter",
    "linkedin",
    "link",
]

In [13]:
df = df[cols]

In [14]:
df['whatsapp_no'] = df['whatsapp'].astype(str).str.extract(r'\+?(\d+)')

In [15]:
print(df.shape)
df.head()

(9737, 17)


Unnamed: 0,name,category,tags,description,working_week_times,google_map_link,address,phone,email,website,whatsapp,facebook,instagram,twitter,linkedin,link,whatsapp_no
0,أنفال ترك للتجارة الدولية - EnfalTurk Internat...,شركات تجارية,"شركات تجارية, خدمات عامة",وصف\nشركة أنفال ترك تساعدك في استيراد الرخام ...,,https://www.google.com/maps/dir/?api=1&destina...,"Şahintepe mah.,\nBaşakşehir, İstanbul",05399406756,info@enfalturkgroup.com,https://enfalturkgroup.com,https://wa.me/+905399406756,,,,,https://www.rakwa.com/item/anfal-trk-lltjar-al...,905399406756.0
1,مفروشات ألاطلي,أثاث وديكورات,أثاث وديكورات,وصف\nمفروشات ألاطلي\nلأحدث موديلات المفروشات و...,,https://www.google.com/maps/dir/?api=1&destina...,"İnecik, مفروشات ألاطلي، Melikgazi/Kayseri, Tür...",+905513985040,,https://furniture-store-14711.business.site/?u...,https://wa.me/+905513985040,,,,,https://www.rakwa.com/item/mfroshat-alatly,905513985040.0
2,مجوهرات طيبة قيصري,ذهب ومجوهرات,ذهب ومجوهرات,وصف\nمجوهرات طيبة \nأجمل\nوأرقى التفصيلات والق...,الإثنين: 09:00-19:00\nالثلاثاء: 09:00-19:00\nا...,https://www.google.com/maps/dir/?api=1&destina...,"Sanayi, 38010 Kocasinan/Kayseri, Türkiye,\nKoc...",+90 531 331 01 87,kamal.rbcs@gmail.com,,,https://www.facebook.com/kayseriteba/,,,,https://www.rakwa.com/item/mjohrat-tyb-kysry,
3,JABER | جابر,استيراد وتصدير,"استيراد وتصدير, شركات تجارية, أدوات صحية",وصف\nشركة جابر التجارية المحدودة هي شركة تجاري...,الإثنين: 00:00-24:00\nالثلاثاء: 00:00-24:00\nا...,https://www.google.com/maps/dir/?api=1&destina...,"Şeker, Türkiye İş Bankası Yeni Sanayi Sitesi/K...",+905360220091,bilal@jaber.biz,http://www.jaber.biz/,,https://www.facebook.com/jabertrade/,,,,https://www.rakwa.com/item/jaber-jabr,
4,صالون انتي الاجمل,صالونات التجميل,صالونات التجميل,وصف\nصالون انتي الاجمل من عنا\nوبس انتي الاجمل...,,https://www.google.com/maps/dir/?api=1&destina...,"Hoca Ahmet Yesevi, Kayseri Havalimanı (ASR), M...",+953 7 7464861,,,,https://www.facebook.com/profile.php?id=100063...,,,,https://www.rakwa.com/item/salon-anty-alajml,


In [16]:
df = df.sort_values(['category'])

In [17]:
df.to_excel('data.xlsx')