In [128]:
import os
import pandas as pd
from bs4 import BeautifulSoup

The code defines a function called `extract_data_from_html` that takes a file path as input. This function reads an HTML file, uses BeautifulSoup for parsing, and extracts car-related data.

It involves initializing a dictionary (car_data) to store data and a list `attributes_list` to track attributes. The function looks for a table with the class `driving-table` to extract car details like name, model, and price.

It also identifies tables with the class `list_ads` to extract attribute-value pairs and updates the car_data dictionary.

Finally, the function returns the populated car_data dictionary with the `extracted information`.

In [129]:
def extract_data_from_html(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        content = file.read()

    soup = BeautifulSoup(content, 'html.parser')

    car_data = {}

    attributes_list = []

    driving_table = soup.find('table', class_='driving-table')
    if driving_table:
        car_data['الأسم'] = driving_table.find('h3').text.strip()
        car_data['الموديل'] = driving_table.find('h5').text.strip().split()[-1]
        car_data['السعر'] = float(driving_table.find('h5', class_='post-price').text.split()[0])

    list_ads_tables = soup.find_all('table', class_='list_ads')

    for list_ads_table in list_ads_tables:
        for row in list_ads_table.find_all('tr'):
            td_elements = row.find_all('td')

            if len(td_elements) >= 2:
                attribute_td = td_elements[0]
                value_td = td_elements[1]

                attribute = attribute_td.text.strip()
                value = value_td.text.strip()

                attributes_list.append(attribute)

                car_data[attribute] = value 
                
    return car_data

Initialize an empty list to store data dictionaries

Read all fiels contains (`.txt`) extension

Call `extract_data_from_html` function, and send all data in `directory_path`

In [132]:
# Specify the directory path
directory_path = './data'

all_car_data = []

# Iterate through each file in the directory
for filename in os.listdir(directory_path):
    if filename.endswith('.txt'):
        file_path = os.path.join(directory_path, filename)
        car_data = extract_data_from_html(file_path)
        all_car_data.append(car_data)

Store all data as DataFrame using `Pandas library` and display sample of it.

In [133]:
# Create a DataFrame from the list of dictionaries
df = pd.DataFrame(all_car_data)

# Save the DataFrame to a CSV file
df.to_csv('car_data.csv', index=False)

# Display the DataFrame
df

Unnamed: 0,الأسم,الموديل,السعر,لون السيارة,نوع الوقود,أصل السيارة,رخصة السيارة,نوع الجير,الزجاج,قوة الماتور,عداد السيارة,عدد الركاب,وسيلة الدفع,معروضة,أصحاب سابقون,إضافات,طرف ثالث,التكميلي (جسم المركبة),المجموع
0,كيا اوبتيما,2014.0,100000.0,أبيض عاجي,بنزين,خصوصي,فلسطينية,اوتوماتيك,الكتروني,2000.0,75000,4+1,نقدا فقط,للبيع فقط,يد اولى,مُكيّف\nإغلاق مركزي\nجهاز إنذار\nمسجل CD\nفتحة...,1340.0,1751.0,3090.0
1,,,,,,,,,,,,,,,,,,,
2,,,,,,,,,,,,,,,,,,,
3,كيا سورينتو,2007.0,60000.0,سكني,ديزل,خصوصي,فلسطينية,نصف اوتوماتيك,الكتروني,2500.0,130000,7+1,إمكانية التقسيط,للبيع أو التبديل,2,مُكيّف\nإغلاق مركزي\nجهاز إنذار\nمسجل CD\nفتحة...,1690.0,1050.0,2740.0
4,هونداي افانتي,2006.0,43500.0,سكني,بنزين,خصوصي,فلسطينية,اوتوماتيك,الكتروني,1600.0,,,نقدا فقط,للبيع فقط,,مُكيّف\nإغلاق مركزي\nجهاز إنذار\nمسجل CD\nجنطا...,1340.0,1000.0,2340.0
5,,,,,,,,,,,,,,,,,,,
6,فيات 127,1982.0,5500.0,بيج,بنزين,خصوصي,فلسطينية,عادي,يدوي,906.0,شغال,4+1,إمكانية التقسيط,للبيع فقط,00,مُكيّف\nمسجل CD,467.0,500.0,967.0
7,بيجو 208,2014.0,54000.0,فضي,بنزين,خصوصي,فلسطينية,اوتوماتيك,الكتروني,1200.0,38000,4+1,نقدا فقط,للبيع فقط,,مُكيّف\nإغلاق مركزي\nجهاز إنذار\nجنطات مغنيسيو...,1035.0,1000.0,2035.0
8,بي ام دبليو x3,2015.0,205000.0,أسود,ديزل,خصوصي,فلسطينية,اوتوماتيك,الكتروني,2000.0,,5+1,نقدا فقط,للبيع فقط,0,مُكيّف\nإغلاق مركزي\nجهاز إنذار\nمسجل CD\nفتحة...,1340.0,3588.0,4928.0
9,اوبل كورسا,2015.0,65000.0,بترولي,بنزين,خصوصي,فلسطينية,عادي,الكتروني,1400.0,١٢٣٤٥٦,٤+١,إمكانية التقسيط,للبيع فقط,يد اولى,مُكيّف\nإغلاق مركزي\nجهاز إنذار\nمسجل CD\nجنطا...,1035.0,1138.0,2173.0
