# Pre-processing data and create model for Peugeot Pars

## Importing packages

In [1]:
import os
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

## Reading dataset

In [2]:
ppars = pd.read_csv(f"{'/'.join(os.getcwd().split('/')[:-2])}/datasets/ppars.csv")

In [3]:
ppars

Unnamed: 0,0,1,2,3,4,5,6
0,پژو،,1401,XU7P-پارس,کارکرد صفر,دنده ای,سفید,472000000
1,پژو،,1401,LX-پارس,کارکرد صفر,دنده ای,سفید,562000000
2,پژو،,1399,دوگانه سوز-پارس,"42,000 کیلومتر",دنده ای,سفید,488000000
3,پژو،,1399,XU7-پارس,"48,000 کیلومتر",دنده ای,خاکستری,430000000
4,پژو،,1401,XU7-پارس,"30,000 کیلومتر",دنده ای,سفید,451000000
...,...,...,...,...,...,...,...
200,پژو،,1398,LX-پارس,"76,000 کیلومتر",دنده ای,سفید,456000000
201,پژو،,1400,LX-پارس,"10,000 کیلومتر",دنده ای,نوک مدادی,515000000
202,پژو،,1399,XU7-پارس,"59,000 کیلومتر",دنده ای,سفید,396000000
203,پژو،,1401,LX-پارس,کارکرد صفر,دنده ای,سفید,525000000


## Change columns name

In [4]:
def edit_cols_name(df):
    df.rename(columns={'0': 'نام خودرو'}, inplace=True)
    df.rename(columns={'1': 'سال تولید'}, inplace=True)
    df.rename(columns={'2': 'مدل'}, inplace=True)
    df.rename(columns={'3': 'کارکرد'}, inplace=True)
    df.rename(columns={'4': 'گیربکس'}, inplace=True)
    df.rename(columns={'5': 'رنگ'}, inplace=True)
    df.rename(columns={'6': 'قیمت'}, inplace=True)
    
edit_cols_name(ppars)

## Convert km to standard mode

In [5]:
def fix_km(df):
    for index in range(len(df['کارکرد'])):
        if df['کارکرد'][index].strip() == 'کارکرد صفر':
            df['کارکرد'][index] = 0
        elif 'کیلومتر' in df['کارکرد'][index]:
            df['کارکرد'][index] = int(df['کارکرد'][index].split()[0].replace(',', ''))
                   
fix_km(ppars)

## Convert price to standard mode

In [6]:
for i in range(len(ppars)):
    ppars['قیمت'][i] = ppars['قیمت'][i].replace(',', '')
    ppars['قیمت'][i] = int(ppars['قیمت'][i])

## Check different car models and organize them

In [7]:
ppars['مدل'].value_counts()

LX-پارس            79
XU7-پارس           51
XU7P-پارس          46
دوگانه سوز-پارس     9
ELX-XU7P-پارس       9
اتوماتیک-پارس       6
ELX-TU5-پارس        3
ELX-XUM-پارس        2
Name: مدل, dtype: int64

In [8]:
for i in range(len(ppars)):
    ppars['نام خودرو'][i] = 'پارس'
    ppars['مدل'][i] = ppars['مدل'][i].split('-')[0]
    
ppars.drop(ppars[ppars['مدل'] == 'دوگانه سوز'].index, axis=0, inplace=True)
ppars.drop(ppars[ppars['مدل'] == 'اتوماتیک'].index, axis=0, inplace=True)

In [9]:
ppars['مدل'].value_counts()

LX      79
XU7     51
XU7P    46
ELX     14
Name: مدل, dtype: int64

## Delete the especially missing value

In [10]:
ppars.drop(ppars[ppars['کارکرد'] == 'کارکرده'].index, axis=0, inplace=True)

## Check different car colors and organize them

In [11]:
ppars['رنگ'].value_counts()

سفید         153
خاکستری       19
مشکی           9
نوک مدادی      4
دلفینی         2
آبی            1
نقره ای        1
قهوه ای        1
Name: رنگ, dtype: int64

In [12]:
ppars.drop(ppars[ppars['رنگ'] == 'مشکی'].index, axis=0, inplace=True)
ppars.drop(ppars[ppars['رنگ'] == 'آبی'].index, axis=0, inplace=True)
ppars.drop(ppars[ppars['رنگ'] == 'نوک مدادی'].index, axis=0, inplace=True)
ppars.drop(ppars[ppars['رنگ'] == 'نقره ای'].index, axis=0, inplace=True)
ppars.drop(ppars[ppars['رنگ'] == 'قهوه ای'].index, axis=0, inplace=True)
ppars.drop(ppars[ppars['رنگ'] == 'دلفینی'].index, axis=0, inplace=True)

In [13]:
ppars['رنگ'].value_counts()

سفید       153
خاکستری     19
Name: رنگ, dtype: int64

## Remove extra fields

In [14]:
ppars.drop(['نام خودرو'], axis=1, inplace=True)

In [15]:
ppars

Unnamed: 0,سال تولید,مدل,کارکرد,گیربکس,رنگ,قیمت
0,1401,XU7P,0,دنده ای,سفید,472000000
1,1401,LX,0,دنده ای,سفید,562000000
3,1399,XU7,48000,دنده ای,خاکستری,430000000
4,1401,XU7,30000,دنده ای,سفید,451000000
5,1401,XU7P,0,دنده ای,سفید,485000000
...,...,...,...,...,...,...
199,1401,XU7P,2000,دنده ای,سفید,430000000
200,1398,LX,76000,دنده ای,سفید,456000000
202,1399,XU7,59000,دنده ای,سفید,396000000
203,1401,LX,0,دنده ای,سفید,525000000


## One-hot fields

In [16]:
def make_one_hot(data, field):
    temp = pd.get_dummies(data[field], prefix=field)
    data.drop(field, axis=1, inplace=True)
    return pd.concat([data, temp], axis=1)

In [17]:
ppars = make_one_hot(ppars, 'مدل')
ppars = make_one_hot(ppars, 'گیربکس')
ppars = make_one_hot(ppars, 'رنگ')

In [18]:
ppars

Unnamed: 0,سال تولید,کارکرد,قیمت,مدل_ELX,مدل_LX,مدل_XU7,مدل_XU7P,گیربکس_دنده ای,رنگ_خاکستری,رنگ_سفید
0,1401,0,472000000,0,0,0,1,1,0,1
1,1401,0,562000000,0,1,0,0,1,0,1
3,1399,48000,430000000,0,0,1,0,1,1,0
4,1401,30000,451000000,0,0,1,0,1,0,1
5,1401,0,485000000,0,0,0,1,1,0,1
...,...,...,...,...,...,...,...,...,...,...
199,1401,2000,430000000,0,0,0,1,1,0,1
200,1398,76000,456000000,0,1,0,0,1,0,1
202,1399,59000,396000000,0,0,1,0,1,0,1
203,1401,0,525000000,0,1,0,0,1,0,1


## Remove the label

In [19]:
labels = ppars['قیمت']
ppars.drop(['قیمت'], axis=1, inplace=True)

## Separating data into train and test sections

In [20]:
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(ppars, labels, test_size=0.1, shuffle=True)

## Model making

In [21]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error

ppars_model = LinearRegression()
ppars_model.fit(x_train, y_train)
prediction = ppars_model.predict(x_test)

error = int(mean_absolute_error(y_test, prediction))
print(f'{error:,} MT')

10,439,080 MT


## Save the model

In [22]:
import pickle
pickle.dump(ppars_model, open('ppars_model.sav', 'wb'))