---
# Overview

In [28]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os
import sys
import re 

In [29]:
# Get the current working directory of the notebook
current_dir = os.getcwd()
# Assuming the notebook is in 'notebooks/' and project root is one level up
project_root = os.path.dirname(current_dir)
# Add the project root to the Python path
if project_root not in sys.path:
    sys.path.append(project_root)

# Import functions from your utils module
from utils.preprocess import load_and_concat_raw_data, preprocess_dataframe

In [30]:
# --- START: Modified data_raw_path setup ---
# Define the path to your raw data relative to the project root
# This ensures it always points to 'car-price-predictor/data/raw/'
data_raw_folder_path = os.path.join(project_root, 'data', 'raw')
# --- END: Modified data_raw_path setup ---

In [31]:
# Load raw data
# Pass the correctly constructed path to the function
raw_df = load_and_concat_raw_data(data_raw_path=data_raw_folder_path)

if raw_df.empty:
    print("Raw DataFrame is empty. Cannot proceed with preprocessing.")
else:
    print(f"Shape before preprocessing: {raw_df.shape}")
    print(f"Null values in raw_df:\n{raw_df.isnull().sum()}")

    # Preprocess and save the data
    # No need to pass output_cleaned_dir here as it's handled internally in preprocess_dataframe relative to its own location
    df = preprocess_dataframe(raw_df.copy()) 

    print(f"Final DataFrame shape after preprocessing: {df.shape}")
    print("\n--- Final Info After Preprocessing ---")
    df.info()
    print("\n--- Final Missing Values After Preprocessing ---")
    print(df.isnull().sum())

Shape before preprocessing: (1330, 15)
Null values in raw_df:
full_title        0
brand             0
model             0
year              0
trim_version      0
price             0
location          1
mileage           0
fuel_type         0
gearbox           0
body_condition    0
body_color        0
interior_color    0
ad_url            0
scrape_date       0
dtype: int64
Shape before preprocessing: (1330, 15)
Shape after deduplication: (1166, 15)
Shape after price cleaning: (890, 15)
Shape after mileage cleaning: (885, 15)
Shape after year/car_age cleaning: (709, 16)

Cleaned data saved to: c:\Users\fatii\OneDrive\Desktop\car-price-predictor\data/cleaned/bama_cleaned_data_20250709_220308.csv
Final DataFrame shape after preprocessing: (709, 15)

--- Final Info After Preprocessing ---
<class 'pandas.core.frame.DataFrame'>
Index: 709 entries, 1258 to 1262
Data columns (total 15 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   brand 

---
# **Overview of the Dataset**

In [32]:
df.shape

(709, 15)

In [33]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 709 entries, 1258 to 1262
Data columns (total 15 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   brand           709 non-null    object 
 1   model           709 non-null    object 
 2   year            709 non-null    int64  
 3   trim_version    709 non-null    object 
 4   price           709 non-null    float64
 5   location        709 non-null    object 
 6   mileage         709 non-null    int64  
 7   fuel_type       709 non-null    object 
 8   gearbox         709 non-null    object 
 9   body_condition  709 non-null    object 
 10  body_color      709 non-null    object 
 11  interior_color  709 non-null    object 
 12  ad_url          709 non-null    object 
 13  scrape_date     709 non-null    object 
 14  car_age         709 non-null    int64  
dtypes: float64(1), int64(3), object(11)
memory usage: 88.6+ KB


In [34]:
df.isnull().sum()

brand             0
model             0
year              0
trim_version      0
price             0
location          0
mileage           0
fuel_type         0
gearbox           0
body_condition    0
body_color        0
interior_color    0
ad_url            0
scrape_date       0
car_age           0
dtype: int64

In [35]:
df.head()

Unnamed: 0,brand,model,year,trim_version,price,location,mileage,fuel_type,gearbox,body_condition,body_color,interior_color,ad_url,scrape_date,car_age
1258,دنا,پلاس EF7,1402,اتوماتیکتوربوساده,1050000000.0,تهران/سازمانبرنامه,13000,بنزینی,اتوماتیک,بدون رنگ,مشکی,داخل مشکی,https://bama.ir/car/detail-iofdlmqs-dena-plus-...,2025-07-09 16:38:23.575421,2
1256,پژو,2008,1398,اتوماتیک,2280000000.0,تهران/یوسف‌آباد,16000,بنزینی,اتوماتیک,بدون رنگ,سفید,داخل مشکی,https://bama.ir/car/detail-0iknbils-peugeot-20...,2025-07-09 16:38:18.957451,6
1253,پژو,206,1395,تیپ2,470000000.0,رشت/توشیبا,219000,بنزینی,دنده ای,بدون رنگ,سفید,داخل مشکی,https://bama.ir/car/detail-xolky4mp-peugeot-20...,2025-07-09 16:38:12.630144,9
1250,مکث,موتور، کلوت,1402,اتوماتیکتیپ2,1010000000.0,تهران/سهروردی,200,بنزینی,اتوماتیک,یک لکه رنگ,مشکی,داخل مشکی,https://bama.ir/car/detail-uxhbo69z-maxmotor-k...,2025-07-09 16:38:06.472255,2
1247,پژو,206,1385,تیپ3,265000000.0,تهران/پاسداران,264000,بنزینی,دنده ای,دور رنگ,خاکستری,داخل مشکی,https://bama.ir/car/detail-dhrjngce-peugeot-20...,2025-07-09 16:38:01.045577,19


In [36]:
df.tail()

Unnamed: 0,brand,model,year,trim_version,price,location,mileage,fuel_type,gearbox,body_condition,body_color,interior_color,ad_url,scrape_date,car_age
1277,پژو,207,1404,پانوراما دنده ای,530000000.0,تهران/صادقیه,0,بنزینی,دنده ای,بدون رنگ,سفید,داخل مشکی,https://bama.ir/car/detail-uipqpula-peugeot-20...,2025-06-08 18:26:40.378456,0
1272,پژو,207,1390,اتوماتیکTU5,535000000.0,بوشهر,320000,بنزینی,اتوماتیک,دو لکه رنگ,سفید,داخل مشکی,https://bama.ir/car/detail-m5jclusu-peugeot-20...,2025-06-08 18:26:30.414523,14
1268,پژو,207,1399,اتوماتیکTU5,800000000.0,تهران/تهرانپارسشرقی,30000,بنزینی,اتوماتیک,بدون رنگ,سفید,داخل نوک مدادی,https://bama.ir/car/detail-y2fpairz-peugeot-20...,2025-06-08 18:26:22.401885,5
1267,پژو,206,1401,تیپ2,620000000.0,اصفهان/آینهخانه,16000,بنزینی,دنده ای,بدون رنگ,سفید,داخل مشکی,https://bama.ir/car/detail-itgfr1yh-peugeot-20...,2025-06-08 18:26:20.206141,3
1262,پژو,207,1402,TU3,695000000.0,تهران/علی‌آباد,19800,بنزینی,دنده ای,بدون رنگ,سفید,داخل مشکی,https://bama.ir/car/detail-5sqwre6r-peugeot-20...,2025-06-08 18:26:08.207662,2


In [37]:
df["mileage"].value_counts()

mileage
0         475
400000      5
16000       5
47000       5
40000       4
         ... 
128000      1
288000      1
260000      1
127000      1
19800       1
Name: count, Length: 157, dtype: int64

In [38]:
categorical_columns = df.select_dtypes(include='object').columns

for col in categorical_columns:
    print(f"--- {col} ---")
    print(df[col].value_counts(), "\n")

--- brand ---
brand
پژو        117
کی         116
فونیکس      96
ام          43
جک          41
فیدلیتی     22
کوییک       22
دنا         22
هایما       21
تارا        16
شاهین       15
پراید       15
اکستریم     12
سمند        12
لوکانو      12
پیش         12
لاماری      11
ساینا        9
چری          9
بی           8
دیگنیتی      8
تیبا         7
رنو          7
اطلس         6
ریسپکت       5
کیا          4
زامیاد       4
رانا         4
برلیانس      4
مزدا         4
فردا         3
پیکان        2
سهند         2
لیفان        2
فوتون        2
نیسان        2
سانگ         2
کاپرا        2
مکث          1
هیوندای      1
بسترن        1
ری           1
اینرودز      1
حواله        1
پاژن         1
دانگ         1
Name: count, dtype: int64 

--- model ---
model
207              55
206              30
ام سی، X5        28
ام سی، J7        26
ام سی، T9        26
                 ..
اتوماتیک پلاس     1
GL دنده ای        1
H230              1
H330              1
فنگ، H30 کراس     1
Name: count, Length: 1

In [39]:
# Summary of numerical columns
df.describe()

Unnamed: 0,year,price,mileage,car_age
count,709.0,709.0,709.0,709.0
mean,1401.464034,1267396000.0,41248.71,2.535966
std,4.802649,844572500.0,138733.8,4.802649
min,1378.0,31000000.0,0.0,0.0
25%,1402.0,600000000.0,0.0,0.0
50%,1404.0,1029000000.0,0.0,0.0
75%,1404.0,1840000000.0,24000.0,2.0
max,1404.0,4950000000.0,3000000.0,26.0


In [40]:
# --- تنظیمات نمایش پانداست ---
# این خط باعث میشه پانداست تمام ردیف‌ها رو هنگام نمایش value_counts نشون بده
pd.set_option('display.max_rows', None) 
# این خط باعث میشه پانداست ستون‌ها رو هم کامل نشون بده (اگه نیاز باشه)
pd.set_option('display.max_columns', None) 
# این خط باعث میشه عرض نمایش ستون‌ها هم زیاد باشه (اگه مقادیر طولانی باشن)
pd.set_option('display.width', 1000) 

In [41]:
# --- چاپ کامل مقادیر یونیک برای ستون‌های دسته‌بندی ---

print("\n--- Unique values for 'brand' ---")
print(df['brand'].value_counts())

print("\n--- Unique values for 'model' ---")
print(df['model'].value_counts())

print("\n--- Unique values for 'trim_version' ---")
print(df['trim_version'].value_counts())

print("\n--- Unique values for 'location' ---")
print(df['location'].value_counts())

print("\n--- Unique values for 'fuel_type' ---")
print(df['fuel_type'].value_counts())

print("\n--- Unique values for 'gearbox' ---")
print(df['gearbox'].value_counts())

print("\n--- Unique values for 'body_condition' ---")
print(df['body_condition'].value_counts())

print("\n--- Unique values for 'body_color' ---")
print(df['body_color'].value_counts())

print("\n--- Unique values for 'interior_color' ---")
print(df['interior_color'].value_counts())



--- Unique values for 'brand' ---
brand
پژو        117
کی         116
فونیکس      96
ام          43
جک          41
فیدلیتی     22
کوییک       22
دنا         22
هایما       21
تارا        16
شاهین       15
پراید       15
اکستریم     12
سمند        12
لوکانو      12
پیش         12
لاماری      11
ساینا        9
چری          9
بی           8
دیگنیتی      8
تیبا         7
رنو          7
اطلس         6
ریسپکت       5
کیا          4
زامیاد       4
رانا         4
برلیانس      4
مزدا         4
فردا         3
پیکان        2
سهند         2
لیفان        2
فوتون        2
نیسان        2
سانگ         2
کاپرا        2
مکث          1
هیوندای      1
بسترن        1
ری           1
اینرودز      1
حواله        1
پاژن         1
دانگ         1
Name: count, dtype: int64

--- Unique values for 'model' ---
model
207                            55
206                            30
ام سی، X5                      28
ام سی، J7                      26
ام سی، T9                      26
پرایم                          2

In [None]:
# --- بازگرداندن تنظیمات پانداست به حالت پیش فرض (اختیاری) ---
# این کار خوبه که بعد از دیدن خروجی‌های کامل، تنظیمات رو به حالت اولیه برگردونید
# pd.reset_option('display.max_rows')
# pd.reset_option('display.max_columns')
# pd.reset_option('display.width')