In [2]:
from bs4 import BeautifulSoup
import requests
import time
import datetime
import pandas as pd
import smtplib
import csv
import os
import re
from IPython.display import display
from datetime import datetime,timedelta

In [10]:
def process_url_request(website_url):
    """
    This function processes the provided URL, gets its data using the requests module,
    and constructs soup data using BeautifulSoup for scraping.
    """
    response = requests.get(website_url)
    if response.status_code == 200:
        soup = BeautifulSoup(response.text, 'html.parser')
        return soup
    return None


In [9]:
def convert_to_datetime(date_string):
    date_format = "%d/%m/%Y"
    return datetime.strptime(date_string, date_format)


In [11]:
def last_day_of_month(year, month):
    if month == 12:  
        next_month = datetime(year + 1, 1, 1)
    else:
        next_month = datetime(year, month + 1, 1)
    return next_month - timedelta(days=1)

In [13]:
# פונקציה לחישוב הימים שנותרו לחידוש הטסט
def days_until_end_of_month(test_date_str):
    if pd.isna(test_date_str) or not isinstance(test_date_str, str):
        return None
    
    month, year = map(int, test_date_str.split('/'))
    last_day = last_day_of_month(year, month)
    today = datetime.today()
    return (last_day-today).days

In [16]:
def get_table_data(table):
    data = {}
    for row in table.find_all('tr'):
        cols = row.find_all('td')
        if len(cols) == 2:
            key = cols[0].text.strip()
            value = cols[1].text.strip()
            data[key] = value
    return data


In [27]:
def parse_ad_data(ad):
    title = ad.find('h2', class_='card-title').get_text().split()
    url = f"https://www.ad.co.il{ad.find('a')['href']}"
    ad_soup = process_url_request(url)
    
    if not ad_soup:
        return None
    
    ad_body = ad_soup.find('div', class_="col-xxl-4 col-lg-4 col-md-5")
    price = ad_body.find_all('h2', class_='card-title')[1].text.strip() if len(ad_body.find_all('h2', class_='card-title')) > 1 else 'N/A'
    
    data = {
        'Manufactor': title[0],
        'Model': title[1],
        'Price': price
    }
    
    table = ad_body.find('table', class_='table table-sm mb-4')
    if table:
        data.update(get_table_data(table))
    
    ad_left = ad_soup.find('div', class_="col-xxl-8 col-lg-8 col-md-7")
    if ad_left:
        data['Num_of_pictures'] = len(ad_left.find_all('div', class_="justify-content-center px-1"))
        dates = ad_left.find_all('div', class_='px-3')
        data.update({
            'Create_date': dates[0].text.split()[2] if dates else 'N/A',
            'Last_bump_date': len(dates) > 1 and dates[1].text.split()[3] or 'N/A',
            'Description': ad_left.find('p', class_='text-word-break').text.strip() if ad_left.find('p', class_='text-word-break') else 'N/A'
        })
    
    return data


In [28]:
base_url = 'https://www.ad.co.il/car?sp261=13899&pageindex='
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}

all_ads_data = []
page = 1
while True:
    soup = process_url_request(base_url + str(page))
    if not soup:
        break

    cars = soup.find('div', class_='cards-wrap s m l')
    carAd = cars.find_all('div', class_='card-body p-md-3') if cars else []

    if not carAd:
        break

    for ad in carAd:
        ad_data = parse_ad_data(ad)
        
        if ad_data:
            all_ads_data.append(ad_data)

    page += 1

# יצירת DataFrame 
df = pd.DataFrame(all_ads_data)
column_mapping_english = {
    'שנה': 'Year',
    'יד': 'Hand',
    'ת. הילוכים': 'Gear',
    'נפח': 'Engine_capacity',
    'סוג מנוע': 'Engine_type',
    'בעלות קודמת': 'Prev_ownership',
    'בעלות נוכחית': 'Curr_ownership',
    'אזור': 'Area',
    'עיר': 'City',
    'Price': 'Price',
    'Num_of_pictures': 'Pic_num',
    'Create_date': 'Cre_date',
    'Last_bump_date': 'Repub_date',
    'Description': 'Description',
    'צבע': 'Color',
    'ק"מ': 'Km',
    'טסט עד': 'Test'
}

df.rename(columns=column_mapping_english, inplace=True)
df['Test'] = df['Test'].apply(days_until_end_of_month)

new_order =['Manufactor', 'Year','Model', 'Hand', 'Gear', 'Engine_capacity', 'Engine_type', 'Prev_ownership', 'Curr_ownership', 'Area', 'City', 'Price', 'Pic_num', 'Cre_date', 'Repub_date', 'Description', 'Color', 'Km', 'Test']
df = df[new_order]
# הצגת הנתונים
display(df)

Unnamed: 0,Manufactor,Year,Model,Hand,Gear,Engine_capacity,Engine_type,Prev_ownership,Curr_ownership,Area,City,Price,Pic_num,Cre_date,Repub_date,Description,Color,Km,Test
0,סיטרואן,2023,C5,1,אוטומטית,1600,בנזין,פרטית,פרטית,פתח תקוה והסביבה,פתח תקווה,"165,000 ₪",8,19/05/2024,21/05/2024,סיטרואן סי5 איירקרוס שנת 2023 עם 8600 ק״מ. הדג...,כחול כהה מטאלי,8600,295.0
1,סיטרואן,2019,DS3,1,אוטומטית,1200,היבריד,פרטית,פרטית,מושבים בשרון,שפיים,"95,000 ₪",4,12/05/2024,12/05/2024,רכב שמור מאוד,סגול,70000,
2,סיטרואן,2022,DS3,1,אוטומטית,1100,חשמלי,אחר,פרטית,גדרה יבנה והסביבה,גדרה,"139,000 ₪",5,12/05/2024,12/05/2024,רכב חשמלי 330 קמ. שמור. שימש כרכב משני. נהיגה ...,לבן מטאלי,27400,
3,סיטרואן,2012,C4,3,אוטומטית,1600,בנזין,פרטית,פרטית,ראש העין והסביבה,ראש העין,"3,500 ₪",4,09/04/2024,28/04/2024,רכב מושלם לחלקים רכב שלם יפה במצב נסיעה בצבע ש...,שמפניה,160000,
4,סיטרואן,2017,C4,2,אוטומטית,1600,בנזין,פרטית,פרטית,באר שבע והסביבה,באר שבע,"45,000 ₪",4,04/10/2023,25/04/2024,סיטרואן C4 פיקאסו 2017\nאוטומט-בנזין-5 דלתות-7...,סגול,180000,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
85,סיטרואן,2019,C4,2,אוטומטית,1199,בנזין,,,נס ציונה - רחובות,רחובות,"88,000 ₪",0,22/05/2022,22/05/2022,כמו חדש מוחלף בגלל קשיי נגישות לאדם מבוגר\r\nמ...,,32000,
86,סיטרואן,2018,C3,1,אוטומטית,1200,בנזין,,,"ראשל""צ והסביבה",ראשון לציון,"55,900 ₪",0,29/04/2022,29/04/2022,לבוא לקחת. דו צבעי- כסוף עם גג אדום. התחייבות ...,,104300,
87,סיטרואן,2018,C3,1,אוטומטית,1200,בנזין,,,חיפה וחוף הכרמל,חיפה,"61,000 ₪",0,28/04/2022,28/04/2022,,,41000,
88,סיטרואן,2018,C1,1,רובוטית,800,בנזין,פרטית,פרטית,,דבוריה,"41,000 ₪",0,12/01/2022,12/01/2022,תוספות\r\n\t\t\t\tהכל תוספות,לבן,52800,


In [20]:
print(df.dtypes)

Manufactor          object
Year                object
Model               object
Hand                object
Gear                object
Engine_capacity     object
Engine_type         object
Prev_ownership      object
Curr_ownership      object
Area                object
City                object
Price               object
Pic_num              int64
Cre_date            object
Repub_date          object
Description         object
Color               object
Km                  object
Test               float64
dtype: object


In [21]:
df['Manufactor'] = df['Manufactor'].astype(str)
df['Year'] = pd.to_numeric(df['Year'], errors='coerce').astype('Int64')
df['Model'] = df['Model'].astype(str)
df['Hand'] = pd.to_numeric(df['Hand'], errors='coerce').astype('Int64')
df['Gear'] = pd.Categorical(df['Gear'])
df['Engine_capacity'] = pd.to_numeric(df['Engine_capacity'].str.replace(',', ''), errors='coerce').astype('Int64')
df['Engine_type'] = pd.Categorical(df['Engine_type'])
df['Prev_ownership'] = pd.Categorical(df['Prev_ownership'])
df['Curr_ownership'] = pd.Categorical(df['Curr_ownership'])
df['Area'] = df['Area'].astype(str, errors='ignore')
df['City'] = df['City'].astype(str)
df['Price'] = pd.to_numeric(df['Price'].str.replace('[₪,]', '', regex=True), errors='coerce').astype(float)
df['Pic_num'] = df['Pic_num'].astype(int)
df['Cre_date'] = df['Cre_date'].apply(convert_to_datetime)
df['Repub_date'] = df['Repub_date'].apply(convert_to_datetime)
df['Description'] = df['Description'].astype(str)
df['Color'] = df['Color'].astype(str)
df['Km'] = pd.to_numeric(df['Km'].str.replace(',', ''), errors='coerce').astype('Int64')
df['Test'] = pd.to_numeric(df['Test'], errors='coerce').astype('Int64')

print(df.dtypes)

Manufactor                 object
Year                        Int64
Model                      object
Hand                        Int64
Gear                     category
Engine_capacity             Int64
Engine_type              category
Prev_ownership           category
Curr_ownership           category
Area                       object
City                       object
Price                     float64
Pic_num                     int32
Cre_date           datetime64[ns]
Repub_date         datetime64[ns]
Description                object
Color                      object
Km                          Int64
Test                        Int64
dtype: object


In [22]:
display(df)

Unnamed: 0,Manufactor,Year,Model,Hand,Gear,Engine_capacity,Engine_type,Prev_ownership,Curr_ownership,Area,City,Price,Pic_num,Cre_date,Repub_date,Description,Color,Km,Test
0,סיטרואן,2023,C5,1,אוטומטית,1600,בנזין,פרטית,פרטית,פתח תקוה והסביבה,פתח תקווה,165000.0,8,2024-05-19,2024-05-21,סיטרואן סי5 איירקרוס שנת 2023 עם 8600 ק״מ. הדג...,כחול כהה מטאלי,8600,295
1,סיטרואן,2019,DS3,1,אוטומטית,1200,היבריד,פרטית,פרטית,מושבים בשרון,שפיים,95000.0,4,2024-05-12,2024-05-12,רכב שמור מאוד,סגול,70000,
2,סיטרואן,2022,DS3,1,אוטומטית,1100,חשמלי,אחר,פרטית,גדרה יבנה והסביבה,גדרה,139000.0,5,2024-05-12,2024-05-12,רכב חשמלי 330 קמ. שמור. שימש כרכב משני. נהיגה ...,לבן מטאלי,27400,
3,סיטרואן,2012,C4,3,אוטומטית,1600,בנזין,פרטית,פרטית,ראש העין והסביבה,ראש העין,3500.0,4,2024-04-09,2024-04-28,רכב מושלם לחלקים רכב שלם יפה במצב נסיעה בצבע ש...,שמפניה,160000,
4,סיטרואן,2017,C4,2,אוטומטית,1600,בנזין,פרטית,פרטית,באר שבע והסביבה,באר שבע,45000.0,4,2023-10-04,2024-04-25,סיטרואן C4 פיקאסו 2017\nאוטומט-בנזין-5 דלתות-7...,סגול,180000,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
85,סיטרואן,2019,C4,2,אוטומטית,1199,בנזין,,,נס ציונה - רחובות,רחובות,88000.0,0,2022-05-22,2022-05-22,כמו חדש מוחלף בגלל קשיי נגישות לאדם מבוגר\r\nמ...,,32000,
86,סיטרואן,2018,C3,1,אוטומטית,1200,בנזין,,,"ראשל""צ והסביבה",ראשון לציון,55900.0,0,2022-04-29,2022-04-29,לבוא לקחת. דו צבעי- כסוף עם גג אדום. התחייבות ...,,104300,
87,סיטרואן,2018,C3,1,אוטומטית,1200,בנזין,,,חיפה וחוף הכרמל,חיפה,61000.0,0,2022-04-28,2022-04-28,,,41000,
88,סיטרואן,2018,C1,1,רובוטית,800,בנזין,פרטית,פרטית,,דבוריה,41000.0,0,2022-01-12,2022-01-12,תוספות\r\n\t\t\t\tהכל תוספות,לבן,52800,


In [24]:
folder_path = r"C:\Users\Rotem\Desktop\חומרי לימוד תואר תעשייה וניהול\שנה ג\סמסטר ב\כרייה וניתוח נתונים מתקדם פייתון\project"
csv_path = os.path.join(folder_path, "ad_data.csv")
df.to_csv(csv_path, index=False, encoding='utf-8-sig')

In [34]:
import urllib.request

url = 'https://data.gov.il/api/3/action/datastore_search?resource_id=5e87a7a1-2f6f-41c1-8aec-7216d52a6cf6&limit=5&q=title:jones'
fileobj = urllib.request.urlopen(url)
print(fileobj.read().decode('utf-8'))


{"help": "https://data.gov.il/api/3/action/help_show?name=datastore_search", "success": true, "result": {"include_total": true, "limit": 5, "q": "title:jones", "records_format": "objects", "resource_id": "5e87a7a1-2f6f-41c1-8aec-7216d52a6cf6", "total_estimation_threshold": null, "records": [], "fields": [{"id": "_id", "type": "int"}, {"id": "sug_degem", "type": "text"}, {"id": "tozeret_cd", "type": "numeric"}, {"id": "tozeret_nm", "type": "text"}, {"id": "tozeret_eretz_nm", "type": "text"}, {"id": "tozar", "type": "text"}, {"id": "degem_cd", "type": "numeric"}, {"id": "degem_nm", "type": "text"}, {"id": "shnat_yitzur", "type": "numeric"}, {"id": "mispar_rechavim_pailim", "type": "numeric"}, {"id": "mispar_rechavim_le_pailim", "type": "numeric"}, {"id": "kinuy_mishari", "type": "text"}, {"id": "rank", "type": "float"}], "_links": {"start": "/api/3/action/datastore_search?resource_id=5e87a7a1-2f6f-41c1-8aec-7216d52a6cf6&limit=5&q=title%3Ajones", "next": "/api/3/action/datastore_search?re

In [36]:
import urllib.request
import json

url = 'https://data.gov.il/api/3/action/datastore_search?resource_id=5e87a7a1-2f6f-41c1-8aec-7216d52a6cf6&limit=10000'
response = urllib.request.urlopen(url)
data = json.loads(response.read())

records = data['result']['records']


In [37]:
from collections import defaultdict

car_count = defaultdict(int)

for record in records:
    key = (record['tozeret_cd'], record['degem_nm'], record['shnat_yitzur'])
    car_count[key] += 1


In [39]:
for record in records:
    key = (record['tozeret_cd'], record['degem_nm'], record['shnat_yitzur'])
    record['supply_index'] = car_count[key]

# Print a few examples to see the result
for record in records[:20]:
    print(record)


{'_id': 1, 'sug_degem': 'P', 'tozeret_cd': 798, 'tozeret_nm': 'פיאט פולין', 'tozeret_eretz_nm': 'פולין', 'tozar': 'פיאט', 'degem_cd': 121, 'degem_nm': '169AXBII', 'shnat_yitzur': 2006, 'mispar_rechavim_pailim': 23, 'mispar_rechavim_le_pailim': 152, 'kinuy_mishari': 'PANDA', 'supply_index': 1}
{'_id': 2, 'sug_degem': 'P', 'tozeret_cd': 778, 'tozeret_nm': 'סיאט ספרד', 'tozeret_eretz_nm': 'ספרד', 'tozar': 'סיאט', 'degem_cd': 26, 'degem_nm': '6J52E4', 'shnat_yitzur': 2012, 'mispar_rechavim_pailim': 2133, 'mispar_rechavim_le_pailim': 713, 'kinuy_mishari': 'IBIZA', 'supply_index': 1}
{'_id': 3, 'sug_degem': 'P', 'tozeret_cd': 588, 'tozeret_nm': 'מזדה יפן', 'tozeret_eretz_nm': 'יפן', 'tozar': 'מזדה', 'degem_cd': 621, 'degem_nm': 'BLA2F', 'shnat_yitzur': 2011, 'mispar_rechavim_pailim': 674, 'mispar_rechavim_le_pailim': 163, 'kinuy_mishari': 'MAZDA 3', 'supply_index': 1}
{'_id': 4, 'sug_degem': 'P', 'tozeret_cd': 798, 'tozeret_nm': 'פיאט פולין', 'tozeret_eretz_nm': 'פולין', 'tozar': 'פיאט', 'de

In [48]:
import urllib.request
import json
from collections import defaultdict

# שלב 1: משיכת הנתונים מה-API
url = 'https://data.gov.il/api/3/action/datastore_search?resource_id=5e87a7a1-2f6f-41c1-8aec-7216d52a6cf6 '
response = urllib.request.urlopen(url)
data = json.loads(response.read())

records = data['result']['records']

# שלב 2: קיבוץ הנתונים לפי תוצר, דגם ושנתון
car_count = defaultdict(int)
for record in records:
    key = (record.get('tozar'), record.get('degem_nm'), record.get('shnat_yitzur'))
    car_count[key] += 1

# בדיקה ראשונית של הקיבוץ
print("Sample of grouped data:")
sample_keys = list(car_count.keys())[:-1]
for key in sample_keys:
    print(f"{key}: {car_count[key]}")

# שלב 3: חיפוש כל הרכבים של סיטרואן
citroen_records = [record for record in records if record.get('tozar') == 'סיטרואן']

# בדיקה ראשונית של הסינון
print(f"Number of Citroen records: {len(citroen_records)}")
print("First 5 Citroen records:")
for record in citroen_records[:-1]:
    print(record)

# שלב 4: הוספת מדד ההיצע לרכבים של סיטרואן
for record in citroen_records:
    key = (record.get('tozar'), record.get('degem_nm'), record.get('shnat_yitzur'))
    record['supply_index'] = car_count[key]

# שלב 5: הצגת התוצאות
print("First 20 Citroen records with supply index:")
for record in citroen_records[:-1]:  # הדפסת 20 רשומות ראשונות לדוגמה
    print(record)


Sample of grouped data:
(798, '169AXBII', 2006): 1
(778, '6J52E4', 2012): 2
(588, 'BLA2F', 2011): 1
(798, '169AXBII', 2009): 1
(588, 'GH12F', 2009): 2
(1327, '3E7F', 2021): 18
(683, 'EZC21S', 2009): 1
(724, '1J20D3', 2002): 3
(312, 'BE18', 2008): 3
(156, 'G95GD', 2011): 1
(885, 'JC5248', 2009): 1
(683, 'FHY51S', 2005): 1
(413, 'ZVW30L-AHXEBW', 2010): 1
(961, '1ZH69', 2009): 7
(776, 'PT2', 2009): 1
(590, 'V78W', 2003): 6
(413, 'NSP120L-CHXGKW', 2012): 3
(588, 'GJ623', 2016): 3
(588, 'PREMACY_CP19P', 2001): 1
(885, 'TB2812', 2000): 1
(885, 'DN412B', 2014): 5
(839, 'ZZE121L-DEPDKW', 2007): 2
(194, '639.815', 2006): 3
(771, 'LZLF06', 2015): 4
(624, 'PATROL SE A TEST61', 2002): 1
(751, 'VM58L', 2008): 4
(588, 'BK12Z', 2007): 4
(961, 'P85SC', 2012): 3
(388, 'RS65', 2010): 1
(830, 'ML320', 1998): 1
(731, 'KOMBI TRANSIT 300S', 2002): 1
(751, 'JM6EE', 2014): 2
(481, 'H-1 WWH7H', 2001): 5
(940, 'B57BB5 CLIO RT3', 1997): 1
(675, 'RZG00', 2020): 2
(588, 'BLB2F', 2013): 1
(676, 'NH33MD', 2017): 2
(