In [756]:
import pandas as pd
import numpy as np

import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

from sklearn.preprocessing import StandardScaler, MinMaxScaler, LabelEncoder

# Load dataset 

In [757]:
df = pd.read_csv("used_cars.csv")
df.head()

Unnamed: 0,name,year,selling_price,km_driven,fuel,seller_type,transmission,owner,mileage,engine,max_power,torque,seats
0,Maruti Swift Dzire VDI,2014,450000,145500,Diesel,Individual,Manual,First Owner,23.4 kmpl,1248 CC,74 bhp,190Nm@ 2000rpm,5.0
1,Skoda Rapid 1.5 TDI Ambition,2014,370000,120000,Diesel,Individual,Manual,Second Owner,21.14 kmpl,1498 CC,103.52 bhp,250Nm@ 1500-2500rpm,5.0
2,Honda City 2017-2020 EXi,2006,158000,140000,Petrol,Individual,Manual,Third Owner,17.7 kmpl,1497 CC,78 bhp,"12.7@ 2,700(kgm@ rpm)",5.0
3,Hyundai i20 Sportz Diesel,2010,225000,127000,Diesel,Individual,Manual,First Owner,23.0 kmpl,1396 CC,90 bhp,22.4 kgm at 1750-2750rpm,5.0
4,Maruti Swift VXI BSIII,2007,130000,120000,Petrol,Individual,Manual,First Owner,16.1 kmpl,1298 CC,88.2 bhp,"11.5@ 4,500(kgm@ rpm)",5.0


# Dataset Exploration

In [758]:
# بررسی ویژگی ها , نوع داده های ویژگی و داده های گمشده
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8128 entries, 0 to 8127
Data columns (total 13 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   name           8128 non-null   object 
 1   year           8128 non-null   int64  
 2   selling_price  8128 non-null   int64  
 3   km_driven      8128 non-null   int64  
 4   fuel           8128 non-null   object 
 5   seller_type    8128 non-null   object 
 6   transmission   8128 non-null   object 
 7   owner          8128 non-null   object 
 8   mileage        7907 non-null   object 
 9   engine         7907 non-null   object 
 10  max_power      7913 non-null   object 
 11  torque         7906 non-null   object 
 12  seats          7907 non-null   float64
dtypes: float64(1), int64(3), object(9)
memory usage: 825.6+ KB


In [759]:
df.dtypes

name              object
year               int64
selling_price      int64
km_driven          int64
fuel              object
seller_type       object
transmission      object
owner             object
mileage           object
engine            object
max_power         object
torque            object
seats            float64
dtype: object

**بر اساس اطاعات بالا دیتاست ما دارای داده های زیر است :**
- `int` datatype: سه ویژگی
- `float` datatype: یک ویژگی
- `object` datatype: نه ویژگی

In [760]:
# بررسی داده های گمشده و NaN
df.isnull().sum()

name               0
year               0
selling_price      0
km_driven          0
fuel               0
seller_type        0
transmission       0
owner              0
mileage          221
engine           221
max_power        215
torque           222
seats            221
dtype: int64

`mileage`, `engine`, `max_power`, `torque`, `seats` دارای داده های گم شده می باشند

In [761]:
df.shape

(8128, 13)

**این دیتاست دارای 13 ویژگی و 8128 نقطه داده ایی می باشد**

In [762]:
# بررسی داده های تکراری
df.duplicated().sum()

1202

In [763]:
# فیلتر کردن داده های تکراری برای بررسی بیشتر
df[(df.duplicated())]

Unnamed: 0,name,year,selling_price,km_driven,fuel,seller_type,transmission,owner,mileage,engine,max_power,torque,seats
291,Hyundai Grand i10 Sportz,2017,450000,35000,Petrol,Individual,Manual,First Owner,18.9 kmpl,1197 CC,82 bhp,114Nm@ 4000rpm,5.0
296,Maruti Swift VXI,2012,330000,50000,Petrol,Individual,Manual,Second Owner,18.6 kmpl,1197 CC,85.8 bhp,114Nm@ 4000rpm,5.0
370,Jaguar XE 2016-2019 2.0L Diesel Prestige,2017,2625000,9000,Diesel,Dealer,Automatic,First Owner,13.6 kmpl,1999 CC,177 bhp,430Nm@ 1750-2500rpm,5.0
371,Lexus ES 300h,2019,5150000,20000,Petrol,Dealer,Automatic,First Owner,22.37 kmpl,2487 CC,214.56 bhp,202Nm@ 3600-5200rpm,5.0
372,Jaguar XF 2.0 Diesel Portfolio,2017,3200000,45000,Diesel,Dealer,Automatic,First Owner,19.33 kmpl,1999 CC,177 bhp,430Nm@ 1750-2500rpm,5.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
7987,Renault Captur 1.5 Diesel RXT,2018,1265000,12000,Diesel,Individual,Manual,First Owner,20.37 kmpl,1461 CC,108.45 bhp,240Nm@ 1750rpm,5.0
7988,Maruti Ciaz Alpha Diesel,2019,1025000,32000,Diesel,Individual,Manual,First Owner,28.09 kmpl,1248 CC,88.50 bhp,200Nm@ 1750rpm,5.0
8117,Maruti Swift Dzire VDI,2015,625000,50000,Diesel,Individual,Manual,First Owner,26.59 kmpl,1248 CC,74 bhp,190Nm@ 2000rpm,5.0
8126,Tata Indigo CR4,2013,290000,25000,Diesel,Individual,Manual,First Owner,23.57 kmpl,1396 CC,70 bhp,140Nm@ 1800-3000rpm,5.0


**بر اساس دیتافریم بالا به نظر میاد که داده های تکراری در این دیتاست وجود ندارد , از آنجایی که این دیتاست در خصوص فروش خودرو های کار کرده می باشد , داده های تکراری فقط اطلاعات مشابه به دیگدیگر می باشند**

## بررسی مقادیر ویژگی های دسته ایی

In [764]:
for col in df.select_dtypes('object'):
    print(f"{col} Value Counts: ")
    print(df[col].value_counts())
    print("--------------------------------------------------")

name Value Counts: 
name
Maruti Swift Dzire VDI                             129
Maruti Alto 800 LXI                                 82
Maruti Alto LXi                                     71
BMW X4 M Sport X xDrive20d                          62
Maruti Swift VDI                                    61
                                                  ... 
Skoda Fabia 1.4 TDI Ambiente                         1
Mahindra Scorpio VLX 2WD AT BSIII                    1
Renault KWID Climber 1.0 AMT                         1
Mahindra XUV300 W8 Option Dual Tone Diesel BSIV      1
Toyota Innova 2.5 GX (Diesel) 8 Seater BS IV         1
Name: count, Length: 2058, dtype: int64
--------------------------------------------------
fuel Value Counts: 
fuel
Diesel    4402
Petrol    3631
CNG         57
LPG         38
Name: count, dtype: int64
--------------------------------------------------
seller_type Value Counts: 
seller_type
Individual          6766
Dealer              1126
Trustmark Dealer     236
Nam

In [781]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
year,6875.0,2014.325964,3.607216,1994.0,2012.0,2015.0,2017.0,2020.0
selling_price,6875.0,665186.941236,813672.15475,29999.0,290000.0,480000.0,700000.0,10000000.0
km_driven,6875.0,66159.417309,55413.805829,1000.0,32000.0,60000.0,90000.0,2360457.0
owner,6875.0,4.592,0.681285,1.0,4.0,5.0,5.0,5.0
mileage_kmpl,6875.0,19.711151,3.923608,0.0,17.0,19.7,22.54,42.0
max_power_BHP,6875.0,91.731205,36.199306,34.2,68.05,82.4,100.6,400.0
seats,6875.0,5.394327,0.926918,2.0,5.0,5.0,5.0,14.0
torque_rpm,6875.0,3074.456145,920.918069,500.0,2250.0,3000.0,4000.0,5300.0
fuel_Diesel,6875.0,0.539345,0.498486,0.0,0.0,1.0,1.0,1.0
fuel_Petrol,6875.0,0.460655,0.498486,0.0,0.0,0.0,1.0,1.0


# Data Cleaning

**در این دیتاست دارای 95 داده از خودرو هایی هستیم که دارای نوع سوخت LPG و CNG هستن**  
**از انجایی که تعداد داده های این نوع خودرو ها زیاد نمی باشد , خودرو هایی که دارای این نوع سوخت هستنند را حذف می کنیم**

In [765]:
df = df[(df['fuel'] != 'CNG') & (df['fuel'] != 'LPG')]
df.reset_index(drop=True, inplace=True)

### `mileage`

**این ستون حاوی میزان سوخت خودرو برای یک لیتر در هر کیلومتر است که در این قسمت قصد دارم این ستون رو به داده های عددی تبدیل کنم**

In [766]:
# حذف kmpl از این ستون
df['mileage'] = df['mileage'].str.replace('kmpl', ' ')
# تبدیل نوع داده ها به float
df['mileage'] = df['mileage'].astype(float)

# تغییر نام ستون به نام مشخص تر نسبت به داده های این ویژگی
df.rename(columns={'mileage' : 'mileage_kmpl'}, inplace=True)
df.head()

Unnamed: 0,name,year,selling_price,km_driven,fuel,seller_type,transmission,owner,mileage_kmpl,engine,max_power,torque,seats
0,Maruti Swift Dzire VDI,2014,450000,145500,Diesel,Individual,Manual,First Owner,23.4,1248 CC,74 bhp,190Nm@ 2000rpm,5.0
1,Skoda Rapid 1.5 TDI Ambition,2014,370000,120000,Diesel,Individual,Manual,Second Owner,21.14,1498 CC,103.52 bhp,250Nm@ 1500-2500rpm,5.0
2,Honda City 2017-2020 EXi,2006,158000,140000,Petrol,Individual,Manual,Third Owner,17.7,1497 CC,78 bhp,"12.7@ 2,700(kgm@ rpm)",5.0
3,Hyundai i20 Sportz Diesel,2010,225000,127000,Diesel,Individual,Manual,First Owner,23.0,1396 CC,90 bhp,22.4 kgm at 1750-2750rpm,5.0
4,Maruti Swift VXI BSIII,2007,130000,120000,Petrol,Individual,Manual,First Owner,16.1,1298 CC,88.2 bhp,"11.5@ 4,500(kgm@ rpm)",5.0


### `engine`
**این ویژگی هم می بایست دارای نوع داده ایی عددی باشد , بنمابراین می بایست "cc" را از این ویژگی حذف کنیم**

In [767]:
# حذف cc و تغییر داده ها با int
df['engine'] = df['engine'].str.replace('CC', '')
df['engine'] = df['engine'].astype(int, errors='ignore')

# تغییر نام ستون 
df.rename(columns={'engine': 'engine_CC'}, inplace=True)

In [768]:
df.head()

Unnamed: 0,name,year,selling_price,km_driven,fuel,seller_type,transmission,owner,mileage_kmpl,engine_CC,max_power,torque,seats
0,Maruti Swift Dzire VDI,2014,450000,145500,Diesel,Individual,Manual,First Owner,23.4,1248,74 bhp,190Nm@ 2000rpm,5.0
1,Skoda Rapid 1.5 TDI Ambition,2014,370000,120000,Diesel,Individual,Manual,Second Owner,21.14,1498,103.52 bhp,250Nm@ 1500-2500rpm,5.0
2,Honda City 2017-2020 EXi,2006,158000,140000,Petrol,Individual,Manual,Third Owner,17.7,1497,78 bhp,"12.7@ 2,700(kgm@ rpm)",5.0
3,Hyundai i20 Sportz Diesel,2010,225000,127000,Diesel,Individual,Manual,First Owner,23.0,1396,90 bhp,22.4 kgm at 1750-2750rpm,5.0
4,Maruti Swift VXI BSIII,2007,130000,120000,Petrol,Individual,Manual,First Owner,16.1,1298,88.2 bhp,"11.5@ 4,500(kgm@ rpm)",5.0


### `max_power`
**برای این ویژگی هم قصد داریم آن را به ویژگی عددی تبدیل کنیم**

In [769]:
# حذف cc و تغییر داده ها با int
df['max_power'] = df['max_power'].str.replace('bhp', '')
df['max_power'] = df['max_power'].astype(float, errors='ignore')

# تغییر نام ستون 
df.rename(columns={'max_power': 'max_power_BHP'}, inplace=True)

### `torque`
**این ستون هم به داده های عددی تبدیل می کنیم**

In [770]:
# # در این قسمت مقادیر گشتاور که بر اساس نانو متر هستن رو استخراج می کنیم و در یک ویژگی جدید ذخیر می کنیم.
# # سپس آن را به نوع داده ایی float تبدیل می کنم
df['torque_Nm'] = df['torque'].str.extract(r'(\d+)Nm')

# استخراج ویژگی rpm 
# این ویژگی مقدار دور در دقیقه برای موتور را نشان می دهد
df['torque_rpm'] = df['torque'].str.extract(r"(\d+)rpm")

In [771]:
# تغییر نوع داده ستون های زیر به نوع داده ایی عددی
df['torque_rpm']  = df['torque_rpm'].astype(float, errors='ignore')

In [772]:
df['torque_Nm'] = df['torque_Nm'].astype(int, errors='ignore')

In [773]:
# نمایش نتیجه
df.head()

Unnamed: 0,name,year,selling_price,km_driven,fuel,seller_type,transmission,owner,mileage_kmpl,engine_CC,max_power_BHP,torque,seats,torque_Nm,torque_rpm
0,Maruti Swift Dzire VDI,2014,450000,145500,Diesel,Individual,Manual,First Owner,23.4,1248,74.0,190Nm@ 2000rpm,5.0,190.0,2000.0
1,Skoda Rapid 1.5 TDI Ambition,2014,370000,120000,Diesel,Individual,Manual,Second Owner,21.14,1498,103.52,250Nm@ 1500-2500rpm,5.0,250.0,2500.0
2,Honda City 2017-2020 EXi,2006,158000,140000,Petrol,Individual,Manual,Third Owner,17.7,1497,78.0,"12.7@ 2,700(kgm@ rpm)",5.0,,
3,Hyundai i20 Sportz Diesel,2010,225000,127000,Diesel,Individual,Manual,First Owner,23.0,1396,90.0,22.4 kgm at 1750-2750rpm,5.0,,2750.0
4,Maruti Swift VXI BSIII,2007,130000,120000,Petrol,Individual,Manual,First Owner,16.1,1298,88.2,"11.5@ 4,500(kgm@ rpm)",5.0,,


### `seat` 
**نوع داده ایی این ویژگی رو به int تغییر می دهیم**

In [774]:
df['seats'] = df['seats'].astype('int', errors='ignore')

**همچنین میتونیم مقادیر گم شده در این دیتافریم رو به دلیل انکه زیاد نیستن میتوانیم حذف کنیم**

In [775]:
df.dropna(inplace=True)

## Data Encoding 
**تبدیل مقادیر دسته ایی به عددی و کدگذاری آنها**
در این قسمت ویژگی های زیر رو به صورت one-hot کد گذاری می کنیم
- `fuel`, `seller_type`, `transmission`

In [776]:
df = pd.get_dummies(df, columns=['fuel', 'seller_type', 'transmission'], dtype='int')
df.head()

Unnamed: 0,name,year,selling_price,km_driven,owner,mileage_kmpl,engine_CC,max_power_BHP,torque,seats,torque_Nm,torque_rpm,fuel_Diesel,fuel_Petrol,seller_type_Dealer,seller_type_Individual,seller_type_Trustmark Dealer,transmission_Automatic,transmission_Manual
0,Maruti Swift Dzire VDI,2014,450000,145500,First Owner,23.4,1248,74.0,190Nm@ 2000rpm,5.0,190,2000.0,1,0,0,1,0,0,1
1,Skoda Rapid 1.5 TDI Ambition,2014,370000,120000,Second Owner,21.14,1498,103.52,250Nm@ 1500-2500rpm,5.0,250,2500.0,1,0,0,1,0,0,1
6,Maruti 800 DX BSII,2001,45000,5000,Second Owner,16.1,796,37.0,59Nm@ 2500rpm,4.0,59,2500.0,0,1,0,1,0,0,1
7,Toyota Etios VXD,2011,350000,90000,First Owner,23.59,1364,67.1,170Nm@ 1800-2400rpm,5.0,170,2400.0,1,0,0,1,0,0,1
8,Ford Figo Diesel Celebration Edition,2013,200000,169000,First Owner,20.0,1399,68.1,160Nm@ 2000rpm,5.0,160,2000.0,1,0,0,1,0,0,1


In [779]:
df['owner'] = df['owner'].map({
    'First Owner' : 5,
    'Second Owner': 4,
    'Third Owner' : 3,
    'Fourth & Above Owner': 2,
    'Test Drive Car': 1
})

# Data Visiualization & Analysis

In [782]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6875 entries, 0 to 8032
Data columns (total 19 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   name                          6875 non-null   object 
 1   year                          6875 non-null   int64  
 2   selling_price                 6875 non-null   int64  
 3   km_driven                     6875 non-null   int64  
 4   owner                         6875 non-null   int64  
 5   mileage_kmpl                  6875 non-null   float64
 6   engine_CC                     6875 non-null   object 
 7   max_power_BHP                 6875 non-null   float64
 8   torque                        6875 non-null   object 
 9   seats                         6875 non-null   float64
 10  torque_Nm                     6875 non-null   object 
 11  torque_rpm                    6875 non-null   float64
 12  fuel_Diesel                   6875 non-null   int32  
 13  fuel_Pet

In [812]:
# TODO:
# 1) coutplot before cleaning 
# 2) distributions
# 3) reg plot 
# 4) outlier and noise
# 5) Scaling
# 6) Modeling
# 7) Other necessary plots