In [1]:
from bs4 import BeautifulSoup
import pandas as pd
import numpy as np
import os
import re

data_folder = './data/data'

extracted_data = []

for filename in os.listdir(data_folder):
    file_path = os.path.join(data_folder, filename)

    with open(file_path, 'r', encoding='utf-8') as file:
        html_content = file.read()

    soup = BeautifulSoup(html_content, 'html.parser')

    model_element = soup.find('td', {'width': '65%'})
    car = model_element.find('h3').text.strip() if model_element and model_element.find('h3') else np.nan
    year_text = model_element.find('h5').text.strip() if model_element and model_element.find('h5') else ''
    year = re.search(r'\d+', year_text).group() if year_text else np.nan
    post_price_element = soup.find('h5', {'class': 'post-price'})
    price = post_price_element.text.split()[0] if post_price_element else np.nan
    color = soup.find('td', {'width': '40%'}, string='لون السيارة')
    fuel_type = soup.find('td', {'width': '40%'}, string='نوع الوقود')
    origin = soup.find('td', {'width': '40%'}, string='أصل السيارة')
    car_license = soup.find('td', {'width': '40%'}, string='رخصة السيارة')
    gear = soup.find('td', {'width': '40%'}, string='نوع الجير')
    glass = soup.find('td', {'width': '40%'}, string='الزجاج')
    engine_power = soup.find('td', {'width': '40%'}, string='قوة الماتور')
    meter = soup.find('td', {'width': '40%'}, string='عداد السيارة')
    passengers = soup.find('td', {'width': '40%'}, string='عدد الركاب')
    payment_method = soup.find('td', {'width': '40%'}, string='وسيلة الدفع')
    for_sale = soup.find('td', {'width': '40%'}, string='معروضة')
    previous_owners = soup.find('td', {'width': '40%'}, string='أصحاب سابقون')

    table_data = {}
    for row in soup.find_all('tr', class_='list-row'):
        columns = row.find_all('td')
        if len(columns) >= 2:
            attribute = columns[0].get_text(strip=True)
            value = columns[1].get_text(strip=True)
            table_data[attribute] = value

    additions_row = soup.find('ul')
    if additions_row:
        additions = ','.join(['مسجل' if li.get_text(strip=True) == 'مسجل CD' else li.get_text(strip=True) for li in additions_row.find_all('li')])
        table_data['إضافات'] = additions

    extracted_data.append({
        'Car': car,
        'Year': year,
        'Price': price,
        'Color': table_data.get('لون السيارة'),
        'Fuel': table_data.get('نوع الوقود'),
        'Origin': table_data.get('أصل السيارة'),
        'License': table_data.get('رخصة السيارة'),
        'Gear': table_data.get('نوع الجير'),
        'Glass': table_data.get('الزجاج'),
        'Power': table_data.get('قوة الماتور'),
        'Meter': table_data.get('عداد السيارة'),
        'Passengers': table_data.get('عدد الركاب'),
        'Payment': table_data.get('وسيلة الدفع'),
        'Sale': table_data.get('معروضة'),
        'Previous_owners': table_data.get('أصحاب سابقون'),
        'Additions': table_data.get('إضافات'),
    })

df = pd.DataFrame(extracted_data)


In [None]:
df.to_csv('./data/CSV/rawData.csv', index=False)