In [1]:
# !pip install beautifulsoup4


In [3]:
import pandas as pd
from bs4 import BeautifulSoup
import os
import csv


In [3]:
def extract_car_data(html_content):
    soup = BeautifulSoup(html_content, 'html.parser')
    
    car_name_elem = soup.find('h3')
    car_year_elem = soup.find('h5')
    car_price_elem = soup.find(class_='post-price')
    
    if not all([car_name_elem, car_year_elem, car_price_elem]):
        return None
    
    car_name = car_name_elem.text.strip()
    car_year = car_year_elem.text.strip().split()[-1]
    car_price = car_price_elem.text.strip().split()[0]

    car_data_table = soup.find_all('table', class_='list_ads')[0]
    if not car_data_table:
        return None
    
    car_info = {}
    for row in car_data_table.find_all('tr', class_='list-row'):
        columns = row.find_all('td')
        if len(columns) == 2:
            key_elem = columns[0]
            value_elem = columns[1]
            if key_elem and value_elem:
                key = key_elem.text.strip()
                value = value_elem.text.strip()
                car_info[key] = value
    
    car_color = car_info.get('لون السيارة', '')
    car_fuel = car_info.get('نوع الوقود', '')
    car_origin = car_info.get('أصل السيارة', '')
    car_license = car_info.get('رخصة السيارة', '')
    car_gear = car_info.get('نوع الجير', '')
    car_glass = car_info.get('الزجاج', '')
    car_motor_power = car_info.get('قوة الماتور', '')
    car_speedometer = car_info.get('عداد السيارة', '')
    car_number_of_passengers = car_info.get('عدد الركاب', '')
    car_driver_system_type= car_info.get('الدفع', '')
    car_payment_method = car_info.get('وسيلة الدفع', '')
    car_previous_owners = car_info.get('أصحاب سابقون', '')
    car_additions_list = car_info.get('إضافات', '')
    car_sunroof = 1 if 'فتحة سقف' in car_additions_list else None
    car_magnesium_rims = 1 if 'جنطات مغنيسيوم' in car_additions_list else None


    return {
        'car_name': car_name,
        'car_year': car_year,
        'car_price': car_price,
        'car_color': car_color,
        'car_fuel': car_fuel,
        'car_origin': car_origin,
        'car_license': car_license,
        'car_gear': car_gear,
        'car_glass': car_glass,
        'car_motor_power': car_motor_power,
        'car_speedometer': car_speedometer,
        'car_number_of_passengers': car_number_of_passengers,
        "car_driver_system_type": car_driver_system_type,
        'car_payment_method': car_payment_method,
        'car_previous_owners': car_previous_owners,
        'car_sunroof': car_sunroof,
        'car_magnesium_rims': car_magnesium_rims,
    }

folder_path = './data'
output_directory = '../csv'  
output_csv = os.path.join(output_directory, 'data_extraction.csv')


with open(output_csv, 'w', newline='', encoding='utf-8') as csvfile:
    fieldnames = [
        'car_name', 'car_year', 'car_price', 'car_color', 'car_fuel', 'car_origin',
        'car_license', 'car_gear', 'car_glass', 'car_motor_power', 'car_speedometer',
        'car_number_of_passengers','car_driver_system_type', 'car_payment_method', 'car_previous_owners',
        'car_sunroof','car_magnesium_rims'
    ]
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
    writer.writeheader()

    for filename in os.listdir(folder_path):
        if filename.endswith('.txt'):
            with open(os.path.join(folder_path, filename), 'r', encoding='utf-8') as file:
                html_content = file.read()
                car_data = extract_car_data(html_content)
                if car_data:
                    writer.writerow(car_data)

print("CSV file generated successfully.")


CSV file generated successfully.


In [4]:

data = pd.read_csv('../csv/data_extraction.csv')
data

Unnamed: 0,car_name,car_year,car_price,car_color,car_fuel,car_origin,car_license,car_gear,car_glass,car_motor_power,car_speedometer,car_number_of_passengers,car_driver_system_type,car_payment_method,car_previous_owners,car_sunroof,car_magnesium_rims
0,كيا اوبتيما,2014,100000,أبيض عاجي,بنزين,خصوصي,فلسطينية,اوتوماتيك,الكتروني,2000,75000,4+1,,نقدا فقط,يد اولى,1.0,1.0
1,كيا سورينتو,2007,60000,سكني,ديزل,خصوصي,فلسطينية,نصف اوتوماتيك,الكتروني,2500,130000,7+1,,إمكانية التقسيط,2,1.0,1.0
2,هونداي افانتي,2006,43500,سكني,بنزين,خصوصي,فلسطينية,اوتوماتيك,الكتروني,1600,,,,نقدا فقط,,,1.0
3,فيات 127,1982,5500,بيج,بنزين,خصوصي,فلسطينية,عادي,يدوي,906,شغال,4+1,,إمكانية التقسيط,00,,
4,بيجو 208,2014,54000,فضي,بنزين,خصوصي,فلسطينية,اوتوماتيك,الكتروني,1200,38000,4+1,,نقدا فقط,,,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6859,كيا مورننغ,2015,45000,فيراني,كهرباء,خصوصي,فلسطينية,اوتوماتيك,الكتروني,1000,130000,4+1,,إمكانية التقسيط,2,,1.0
6860,فورد ترانزيت,2002,48000,أبيض,ديزل,عمومي,فلسطينية,عادي,الكتروني,2400,00000,7+1,دفع خلفي,نقدا فقط,5,,
6861,بيجو بارتنر,2018,87000,فضي,ديزل,خصوصي,فلسطينية,عادي,الكتروني,1600,50000,4+1,دفع أمامي,نقدا فقط,يد صفر,,
6862,كيا سورينتو,2017,126000,بترولي,ديزل,خصوصي,فلسطينية,اوتوماتيك,الكتروني,2200,100,6+1,,نقدا فقط,ثانيه,1.0,1.0
