### imports

In [28]:
import requests
from bs4 import BeautifulSoup
import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt
import re
from datetime import datetime
import urllib

In [30]:
df = pd.read_csv('C:/Users/LENOVO/Downloads/dataset.csv')

### בדיקת סוג הנתונים בכל עמודה

In [116]:
print(df.dtypes)

manufactor          object
Year                 int64
model               object
Hand                 int64
Gear                object
capacity_Engine     object
Engine_type         object
Prev_ownership      object
Curr_ownership      object
Area                object
City                object
Price              float64
Pic_num            float64
Cre_date            object
Repub_date          object
Description         object
Color               object
Km                  object
Test                object
Supply_score       float64
dtype: object


### פונקציה לספירת ערכים חסרים בכל עמודה

In [34]:
def count_missing_values(df):

    return df.isnull().sum()

In [38]:
missing_values = count_missing_values(df)
missing_values

manufactor            0
Year                  0
model                 0
Hand                  0
Gear                  1
capacity_Engine      26
Engine_type           5
Prev_ownership      729
Curr_ownership      728
Area                149
City                  0
Price                 0
Pic_num              24
Cre_date              0
Repub_date            0
Description           0
Color               770
Km                   89
Test               1368
Supply_score       1061
dtype: int64

#### בדיקה האם כל הערכים בעמודה הם מאותו סוג (type)

In [55]:
def col_is_str(list, data):

    for col in list:
        all_strings = data[col].apply(lambda x: isinstance(x, str)).all()
        if all_strings:
            print(f"{col}: כל הערכים הם מסוג סטרינג")
        else:
            print(f"{col}: לא כל הערכים הם מסוג סטרינג")


def col_is_int(list, data):

    for col in list:
        all_strings = data[col].apply(lambda x: isinstance(x, int)).all()
        if all_strings:
            print(f"{col}: כל הערכים הם מסוג אינטגר")
        else:
            print(f"{col}: לא כל הערכים הם מסוג אינטגר")

### מעבר על העמודות כדי להבין אילו דברים צריך לתקן ולשפר

#### עמודת יצרן

In [62]:
df['manufactor'].unique()

array(['יונדאי', 'ניסאן', 'סוזוקי', 'טויוטה', 'קיה', 'אאודי', 'סובארו',
       'מיצובישי', 'מרצדס', 'ב.מ.וו', 'אופל', 'הונדה', 'פולקסווגן',
       'שברולט', 'מאזדה', 'וולוו', 'סקודה', 'פורד', 'Lexsus', 'קרייזלר',
       'סיטרואן', "פיג'ו", 'רנו', 'לקסוס', 'דייהטסו', 'מיני',
       'אלפא רומיאו'], dtype=object)

#### אנו רואים שקיימים שני יצרינים שהם בעצם אותו הדבר.
#### מדובר ביצרן לקסוס

In [65]:
df['manufactor'] = df['manufactor'].replace('Lexsus', 'לקסוס')


#### עמודת שנה

In [48]:
df['Year'].unique()

array([2015, 2018, 2010, 2016, 2012, 2009, 2003, 2017, 2013, 2008, 2014,
       2007, 2011, 2020, 2023, 1988, 2021, 2019, 1990, 2004, 1999, 2005,
       2022, 2006, 2002, 1983, 1998, 2000, 1995], dtype=int64)

#### עמודת model

In [68]:
df['model'].unique()

array(['i35', 'ניסאן מיקרה', 'סוזוקי סוויפט', 'אוריס', 'פיקנטו',
       'אאודי A1', 'אימפרזה', 'ASX', '220', '525', 'מוקה', 'פורטה', ' Q3',
       'סיוויק סדאן', 'סוזוקי SX4 קרוסאובר', 'קורולה', 'גולף', 'פאסאט',
       'ספארק', 'מאזדה 3', 'ניסאן נוט', 'סול', 'V40 CC', 'לנסר ספורטבק',
       'i10', 'אאודי A3', ' A1', 'סקודה פאביה\r\n (2012)', 'אוקטביה',
       'CIVIC', 'איוניק', 'סונטה', 'i30', 'C-HR', 'מאליבו', 'ריו',
       'פוקוס', 'סקודה אוקטביה (2014)', 'X1', 'אוואו', 'סיוויק',
       'סקודה ראפיד (2015)', ' E-Class', ' S7', 'אפלנדר', 'SVX',
       'סוזוקי איגניס', 'ספייס סטאר', 'לקסוס IS300h', "גראנד, וויאג'ר",
       'C4', '2008', 'סטוניק', 'פולו', 'S60', 'אאודי RS5', "ג'אז הייבריד",
       'סוזוקי SX4', 'ג`טה', ' A4', 'אס-מקס', 'נירו', 'אינסייט',
       'רנו קליאו', '3', 'אאודי All Road', 'פאסאט CC', ' S-Class',
       'CADDY COMBI', 'אסטרה', 'XV', 'סיוויק סדאן החדשה', 'אאודי A5',
       '316', 'C3', 'סדרה 5', 'אקורד', 'i25', 'C1', 'יאריס',
       'לקסוס IS250', 'V40', 'סדרה 1',

#### ראינו שיש שורות שבהם סוג המודל כלל גם את סוג היצרן וגם את השנה של הרכב ולכן בנינו פונקציה שתסדר את העמודה

In [71]:
def clean_model_name(manufactor, model_name):
    # הסרת שנה בסוגריים
    model_name = re.sub(r'\(\d{4}\)', '', model_name)
    # הסרת שם היצרן אם מופיע בשם הדגם
    model_name = re.sub(manufactor, '', model_name, flags=re.IGNORECASE)
    # הסרת רווחים מיותרים מהתחלה וסוף המחרוזת
    model_name = model_name.strip()
    return model_name

In [73]:
# ניקוי שמות המודלים
df['model'] = df.apply(lambda row: clean_model_name(row['manufactor'], row['model']), axis=1)

# הצגת שמות המודלים הנקיים והייחודיים
unique_models_clean = np.unique(df['model'].values)
print(unique_models_clean)

['106' '108' '120i' '159' '2' '200' '2008' '208' '220' '25' '3' '300C'
 '301' '307CC' '308' '316' '318' '320' '325' '5' '5008' '508' '523' '525'
 '530' '6' 'A1' 'A3' 'A4' 'A5' 'A6' 'ACCORD' 'ASX' 'AX' 'All Road' 'B3'
 'B4' 'C-CLASS קופה' 'C-Class' 'C-Class Taxi' 'C-Class קופה' 'C-HR' 'C1'
 'C3' 'C30' 'C4' 'C5' 'CADDY COMBI' 'CIVIC' 'CLK' 'CT200H' 'CX' 'DS3'
 'E- CLASS' 'E-Class' 'E-Class קופה / קבריולט' 'FR-V' 'GS300' 'GT3000'
 'I-MIEV' 'INSIGHT' 'IS250' 'IS300H' 'IS300h' 'JAZZ' 'M1' 'ONE' 'Q3' 'R8'
 'RC' 'RCZ' 'RS5' 'S-Class' 'S3' 'S5' 'S60' 'S7' 'S80' 'SLK' 'SVX' 'SX4'
 'SX4 קרוסאובר' 'V- CLASS' 'V40' 'V40 CC' 'X1' 'XCEED' 'XV' 'i10' 'i20'
 'i25' 'i30' 'i30CW' 'i35' 'i40' 'one' 'אאוטבק' 'אאוטלנדר' 'אדם' 'אודסיי'
 'אוואו' 'אוונסיס' 'אונסיס' 'אוקטביה' 'אוקטביה RS' 'אוקטביה ספייס'
 'אוקטביה קומבי' 'אוריס' 'אורלנדו' "אטראז'" 'איגניס' 'איוניק' 'אימפלה'
 'אימפרזה' 'אינסיגניה' 'אינסייט' 'אלטו' 'אלמרה' 'אלנטרה' 'אלתימה' 'אס-מקס'
 'אסטרה' 'אפלנדר' 'אקווינוקס' 'אקורד' 'אקליפס' 'בלנו' "ג'אז"
 "

#### לאחר מכן ראינו שישנם כפילויות של שמות דגמים בנאגלית ובעברית וטיפלנו בהם ידנית

In [80]:
df['model'] = df['model'].replace('CIVIC', 'סיוויק')
df['model'] = df['model'].replace('ACCORD', 'אקורד')
df['model'] = df['model'].replace("ג`טה", "ג'טה")
df['model'] = df['model'].replace("ג'אז", "ג`אז")
df['model'] = df['model'].replace('מיטו / MITO','מיטו')
df['model'] = df['model'].replace("ג'וק JUKE","ג'וק")

unique_models_clean = np.unique(df['model'].values)
print(unique_models_clean)

['106' '108' '120i' '159' '2' '200' '2008' '208' '220' '25' '3' '300C'
 '301' '307CC' '308' '316' '318' '320' '325' '5' '5008' '508' '523' '525'
 '530' '6' 'A1' 'A3' 'A4' 'A5' 'A6' 'ASX' 'AX' 'All Road' 'B3' 'B4'
 'C-CLASS קופה' 'C-Class' 'C-Class Taxi' 'C-Class קופה' 'C-HR' 'C1' 'C3'
 'C30' 'C4' 'C5' 'CADDY COMBI' 'CLK' 'CT200H' 'CX' 'DS3' 'E- CLASS'
 'E-Class' 'E-Class קופה / קבריולט' 'FR-V' 'GS300' 'GT3000' 'I-MIEV'
 'INSIGHT' 'IS250' 'IS300H' 'IS300h' 'JAZZ' 'M1' 'ONE' 'Q3' 'R8' 'RC'
 'RCZ' 'RS5' 'S-Class' 'S3' 'S5' 'S60' 'S7' 'S80' 'SLK' 'SVX' 'SX4'
 'SX4 קרוסאובר' 'V- CLASS' 'V40' 'V40 CC' 'X1' 'XCEED' 'XV' 'i10' 'i20'
 'i25' 'i30' 'i30CW' 'i35' 'i40' 'one' 'אאוטבק' 'אאוטלנדר' 'אדם' 'אודסיי'
 'אוואו' 'אוונסיס' 'אונסיס' 'אוקטביה' 'אוקטביה RS' 'אוקטביה ספייס'
 'אוקטביה קומבי' 'אוריס' 'אורלנדו' "אטראז'" 'איגניס' 'איוניק' 'אימפלה'
 'אימפרזה' 'אינסיגניה' 'אינסייט' 'אלטו' 'אלמרה' 'אלנטרה' 'אלתימה' 'אס-מקס'
 'אסטרה' 'אפלנדר' 'אקווינוקס' 'אקורד' 'אקליפס' 'בלנו' "ג'אז הייבריד"
 "ג'ולייטה"

### עמודות נפח מנוע, סוג מנוע, גיר

#### ראינו שקיימים ערכים חסרים בעמודות אלו ורצינו למלא אותם באמצעות מציאת רכבים זהים בדאטה והשלמה של נתוני הרכבים על פי הרכבים הזהים

In [96]:
print(df['Gear'].unique())
print(df['Engine_type'].unique())
print(df['capacity_Engine'].unique())

['אוטומטית' 'טיפטרוניק' 'ידנית' 'רובוטית' 'אוטומט' 'לא מוגדר']
['בנזין' 'דיזל' 'גז' 'היברידי' 'היבריד' 'טורבו דיזל' nan 'חשמלי']
['1600' '1200' '1450' '1248' '1400' '2400' '2000' '2200' '2500' '1500'
 '1800' '1595' '1,400' '1100' '1000' '4200' '1250' '1,197' '1197' '1,500'
 '1396' '1,200' '1998' '2,400' '2800' '6500' '3600' '1199' '4500' '1300'
 '1,399' '1,100' '1568' '3000' '998' '1968' '1586' '1,800' '1290' '5500'
 '80' '1994' '2,000' '12,000' '1598' '2143' '1364' '900' '1240' '1,395'
 '1590' '1798' '1490' '1242' '1997' '1498' '3500' '1461' '1999' nan '1591'
 '6,600' '3200' '1,470' '988' '1,364' '4000' '1,600' '1374' '1470' '1497'
 '1318' '1495' '1187' '800' '1329' '1395' '999' '1376' '1198' '1339'
 '3471' '1399' '2700' '1193' '3300' '2900' '90' '125' '1,398' '1280'
 '1,390' '3800' '15000' '1459' '1368' '3,600' '13' '1,300' '1799' '1984'
 '14000' '1390' '1496' '1900' '1,796' '110' '2100' '105' '132' '1350'
 '3990' '3510' '2998' '1468' '2,600' '1298' '1284' '2359' '150' '1580']


In [121]:
df['Gear'] = df['Gear'].replace('לא מוגדר', np.nan)
df['Gear'] = df['Gear'].replace('אוטומט', 'אוטומטית')
df['Engine_type'] = df['Engine_type'].replace('היבריד', 'היברידי')

### טיפול בטעויות הקלדה של capacity_Engine

In [105]:
capacity_Engine_to_find = ['90', '105', '150', '110', '13', '80', 90, 105, 150, 110, 13, 80]
filtered_rows = df[df['capacity_Engine'].isin(capacity_Engine_to_find)]
filtered_rows

Unnamed: 0,manufactor,Year,model,Hand,Gear,capacity_Engine,Engine_type,Prev_ownership,Curr_ownership,Area,City,Price,Pic_num,Cre_date,Repub_date,Description,Color,Km,Test,Supply_score
151,מיצובישי,2014,אטראז',4,אוטומטית,80,בנזין,,,"ראשל""צ והסביבה",ראשון לציון,26000.0,0.0,29/10/2022,29/10/2022,['רכב שמור מטופל בזמן ניראה כמו חדש מפתח חכם ג...,,,,
388,מיצובישי,2015,אטראז',2,אוטומטית,80,בנזין,,,יישובי השומרון,עץ אפרים,26000.0,1.0,27/10/2022,27/10/2022,['רכב במצב מעולה טסט לשנה.יד 1 ליסינג יד 2 פרט...,,,,
729,רנו,2012,פלואנס חשמלי,2,אוטומטית,90,חשמלי,,,בית שמש והסביבה,בית שמש,27000.0,0.0,20/09/2022,20/09/2022,"['רכב חשמלי 100%\r\nשקט אמין נוסע 80 ק"" ללא דל...",,42300.0,,
773,מיצובישי,2019,אטראז',1,אוטומטית,80,בנזין,,,אילת והערבה,אילת,60000.0,1.0,23/10/2022,23/10/2022,['הרחב במצב טוב ללא תעונות במצב טוב שמור לחלוט...,,115000.0,,3.0
872,קיה,2013,פיקנטו,3,אוטומטית,13,בנזין,,,חיפה וחוף הכרמל,נשר,36000.0,1.0,30/09/2022,30/09/2022,['שמור ונקי גמישה לרציניים בלבד טסט עד פבואר &...,,122100.0,,11.0
1059,סקודה,2019,פאביה,1,אוטומטית,110,בנזין,,,חיפה וחוף הכרמל,חיפה,80000.0,1.0,44857,44857,"['רכב יד ראשונה נרכש מהחברה, במצב שמור מאוד כמ...",,36000.0,,
1105,מאזדה,2009,3,3,אוטומטית,105,בנזין,,,פתח תקוה והסביבה,פתח תקווה,25000.0,0.0,12/08/2022,12/08/2022,['מאזדה 3 \r יד 03 \r 220000 קילומטר \r מודל 2...,,220000.0,,
1456,סקודה,2016,אוקטביה,1,אוטומטית,150,בנזין,,,עמק יזרעאל,עפולה,70000.0,1.0,04/06/2022,04/06/2022,['יד ראשונה מסוכנות מורשה. הרכב נקי בלי תאונות...,,140000.0,,


### נרצה להפוך אותם ל-nan כדי שנוכל להפעיל עליהם את הפונקציה למילוי ערכים 

In [128]:
df['capacity_Engine'] = df['capacity_Engine'].replace(capacity_Engine_to_find, np.nan)

missing_values = count_missing_values(df)
missing_values

manufactor            0
Year                  0
model                 0
Hand                  0
Gear                  1
capacity_Engine      15
Engine_type           2
Prev_ownership      729
Curr_ownership      728
Area                149
City                  0
Price                 0
Pic_num              24
Cre_date              0
Repub_date            0
Description           0
Color               770
Km                   89
Test               1368
Supply_score       1061
dtype: int64

### פונקציה לטיפול בערכים חסרים של העמודות נפח מנוע, גיר, סוג מנוע

In [131]:
def fill_missing_values(row, reference_data, columns_to_fill, reference_columns):
    
    for col in columns_to_fill:
        if pd.isnull(row[col]):
            # מציאת ערך לא חסר מרכבים דומים
            similar_rows = reference_data[
                (reference_data[reference_columns[0]] == row[reference_columns[0]]) &
                (reference_data[reference_columns[1]] == row[reference_columns[1]])
            ]
            if not similar_rows.empty:
                non_na_values = similar_rows[col].dropna()
                if not non_na_values.empty:
                    row[col] = non_na_values.mode().values[0]
    return row

In [133]:
# עמודות למילוי
columns_to_fill = ['Gear', 'Engine_type', 'capacity_Engine']
# עמודות התייחסות לרכבים דומים
reference_columns = ['manufactor', 'model']

# מילוי הערכים החסרים בעמודות Gear, Engine_type, Engine_capacity
df = df.apply(lambda row: fill_missing_values(row, df, columns_to_fill, reference_columns), axis=1)

In [135]:
missing_values = count_missing_values(df)
missing_values

manufactor            0
Year                  0
model                 0
Hand                  0
Gear                  0
capacity_Engine      10
Engine_type           2
Prev_ownership      729
Curr_ownership      728
Area                149
City                  0
Price                 0
Pic_num              24
Cre_date              0
Repub_date            0
Description           0
Color               770
Km                   89
Test               1368
Supply_score       1061
dtype: int64

### משימה- לטפל ידנית בעמודת נפח מנוע

### טיפול ידני בערכים חסרים של עמודת סוג מנוע

In [139]:
df[df['Engine_type'].isna()]

Unnamed: 0,manufactor,Year,model,Hand,Gear,capacity_Engine,Engine_type,Prev_ownership,Curr_ownership,Area,City,Price,Pic_num,Cre_date,Repub_date,Description,Color,Km,Test,Supply_score
281,רנו,2014,מגאן אסטייט / גראנד טור,2,אוטומטית,1500,,,,רעננה - כפר סבא,רעננה,33000.0,1.0,22/09/2022,22/09/2022,['רכב במצב מעולה. מטופל בחברה. עשה טיימינג. חס...,,180000.0,,
1251,רנו,2014,25,2,אוטומטית,1461,,,,תל אביב,תל אביב יפו,28000.0,0.0,07/01/2022,07/01/2022,[nan],,,,


### מכיוון שיש לנו רק שני שורות ביצענו מחקר באינטרנט וגילנו מה הטייפ מנוע שלהם

In [None]:
df['Engine_type'] = df['Engine_type'].replace(np.nan, 'דיזל')

manufactor            0
Year                  0
model                 0
Hand                  0
Gear                  0
capacity_Engine      10
Engine_type           0
Prev_ownership      729
Curr_ownership      728
Area                149
City                  0
Price                 0
Pic_num              24
Cre_date              0
Repub_date            0
Description           0
Color               770
Km                   89
Test               1368
Supply_score       1061
dtype: int64