# Pre-processing data and create model for Pride

## Importing packages

In [1]:
import os
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

## Reading dataset

In [2]:
pride = pd.read_csv(f"{'/'.join(os.getcwd().split('/')[:-2])}/datasets/pride.csv")

In [3]:
pride

Unnamed: 0,0,1,2,3,4,5,6
0,پراید،,1390,SL-131,"150,000 کیلومتر",دنده ای,خاکستری,168000000
1,پراید،,1397,SE-131,"41,000 کیلومتر",دنده ای,سفید,240000000
2,پراید،,1399,SE-131,"26,000 کیلومتر",دنده ای,سفید,275000000
3,پراید،,1395,SE-111,"133,000 کیلومتر",دنده ای,سفید,220000000
4,پراید،,1399,SE-131,"55,000 کیلومتر",دنده ای,سفید,256000000
...,...,...,...,...,...,...,...
320,پراید،,1399,SE-151,"14,000 کیلومتر",دنده ای,سفید,229000000
321,پراید،,1399,SE-131,135 کیلومتر,دنده ای,سفید,278000000
322,پراید،,1396,SE-111,"62,000 کیلومتر",دنده ای,سفید,235000000
323,پراید،,1388,دنده ای-صندوق,"48,000 کیلومتر",دنده ای,مشکی,185000000


## Change columns name

In [4]:
def edit_cols_name(df):
    df.rename(columns={'0': 'نام خودرو'}, inplace=True)
    df.rename(columns={'1': 'سال تولید'}, inplace=True)
    df.rename(columns={'2': 'مدل'}, inplace=True)
    df.rename(columns={'3': 'کارکرد'}, inplace=True)
    df.rename(columns={'4': 'گیربکس'}, inplace=True)
    df.rename(columns={'5': 'رنگ'}, inplace=True)
    df.rename(columns={'6': 'قیمت'}, inplace=True)
    
edit_cols_name(pride)

## Convert km to standard mode

In [5]:
def fix_km(df):
    for index in range(len(df['کارکرد'])):
        if df['کارکرد'][index].strip() == 'کارکرد صفر':
            df['کارکرد'][index] = 0
        elif 'کیلومتر' in df['کارکرد'][index]:
            df['کارکرد'][index] = int(df['کارکرد'][index].split()[0].replace(',', ''))
                   
fix_km(pride)

## Convert price to standard mode

In [6]:
for i in range(len(pride)):
    pride['قیمت'][i] = pride['قیمت'][i].replace(',', '')
    pride['قیمت'][i] = int(pride['قیمت'][i])

## Check different car models and organize them

In [7]:
pride['مدل'].value_counts()

SE-131           164
SE-151            68
SE-111            46
دنده ای-صندوق     22
SE-132             5
SL-131             4
ساده-141           4
SX-131             2
EX-111             2
EX-131             2
ساده-132           1
SX-132             1
پلاس-151           1
SX-111             1
TL-131             1
SL-151             1
Name: مدل, dtype: int64

In [8]:
for i in range(len(pride)):
    if pride['مدل'][i] == 'دنده ای-صندوق':
        pride['مدل'][i] = 'صندوق دار'
        
pride.drop(pride[pride['مدل'] == 'SE-132'].index, axis=0, inplace=True)
pride.drop(pride[pride['مدل'] == 'ساده-141'].index, axis=0, inplace=True)
pride.drop(pride[pride['مدل'] == 'SL-131'].index, axis=0, inplace=True)
pride.drop(pride[pride['مدل'] == 'EX-131'].index, axis=0, inplace=True)
pride.drop(pride[pride['مدل'] == 'EX-111'].index, axis=0, inplace=True)
pride.drop(pride[pride['مدل'] == 'SX-131'].index, axis=0, inplace=True)
pride.drop(pride[pride['مدل'] == 'SL-151'].index, axis=0, inplace=True)
pride.drop(pride[pride['مدل'] == 'SX-132'].index, axis=0, inplace=True)
pride.drop(pride[pride['مدل'] == 'ساده-132'].index, axis=0, inplace=True)
pride.drop(pride[pride['مدل'] == 'پلاس-151'].index, axis=0, inplace=True)
pride.drop(pride[pride['مدل'] == 'SX-111'].index, axis=0, inplace=True)
pride.drop(pride[pride['مدل'] == 'TL-131'].index, axis=0, inplace=True)

In [9]:
pride['مدل'].value_counts()

SE-131       164
SE-151        68
SE-111        46
صندوق دار     22
Name: مدل, dtype: int64

## Delete the especially missing value

In [10]:
pride.drop(pride[pride['کارکرد'] == 'کارکرده'].index, axis=0, inplace=True)

## Check different car colors and organize them

In [11]:
pride['رنگ'].value_counts()

سفید         255
نوک مدادی     13
نقره ای        6
مشکی           6
آبی            4
خاکستری        3
زیتونی         2
سرمه ای        1
قرمز           1
ذغالی          1
زرشکی          1
نقرآبی         1
دلفینی         1
بژ             1
طوسی           1
نامشخص         1
Name: رنگ, dtype: int64

In [12]:
pride.drop(pride[pride['رنگ'] == 'نامشخص'].index, axis=0, inplace=True)
pride.drop(pride[pride['رنگ'] == 'بژ'].index, axis=0, inplace=True)
pride.drop(pride[pride['رنگ'] == 'دلفینی'].index, axis=0, inplace=True)
pride.drop(pride[pride['رنگ'] == 'سرمه ای'].index, axis=0, inplace=True)
pride.drop(pride[pride['رنگ'] == 'مشکی'].index, axis=0, inplace=True)
pride.drop(pride[pride['رنگ'] == 'نقره ای'].index, axis=0, inplace=True)
pride.drop(pride[pride['رنگ'] == 'زرشکی'].index, axis=0, inplace=True)
pride.drop(pride[pride['رنگ'] == 'نقرآبی'].index, axis=0, inplace=True)
pride.drop(pride[pride['رنگ'] == 'ذغالی'].index, axis=0, inplace=True)
pride.drop(pride[pride['رنگ'] == 'زیتونی'].index, axis=0, inplace=True)
pride.drop(pride[pride['رنگ'] == 'خاکستری'].index, axis=0, inplace=True)
pride.drop(pride[pride['رنگ'] == 'آبی'].index, axis=0, inplace=True)
pride.drop(pride[pride['رنگ'] == 'قرمز'].index, axis=0, inplace=True)
pride.drop(pride[pride['رنگ'] == 'طوسی'].index, axis=0, inplace=True)

In [13]:
pride['رنگ'].value_counts()

سفید         255
نوک مدادی     13
Name: رنگ, dtype: int64

## Remove extra fields

In [14]:
pride.drop(['نام خودرو'], axis=1, inplace=True)

In [15]:
pride

Unnamed: 0,سال تولید,مدل,کارکرد,گیربکس,رنگ,قیمت
1,1397,SE-131,41000,دنده ای,سفید,240000000
2,1399,SE-131,26000,دنده ای,سفید,275000000
3,1395,SE-111,133000,دنده ای,سفید,220000000
4,1399,SE-131,55000,دنده ای,سفید,256000000
5,1396,SE-111,20000,دنده ای,سفید,245000000
...,...,...,...,...,...,...
319,1396,SE-131,63000,دنده ای,سفید,215000000
320,1399,SE-151,14000,دنده ای,سفید,229000000
321,1399,SE-131,135,دنده ای,سفید,278000000
322,1396,SE-111,62000,دنده ای,سفید,235000000


## One-hot fields

In [16]:
def make_one_hot(data, field):
    temp = pd.get_dummies(data[field], prefix=field)
    data.drop(field, axis=1, inplace=True)
    return pd.concat([data, temp], axis=1)

In [17]:
pride = make_one_hot(pride, 'مدل')
pride = make_one_hot(pride, 'گیربکس')
pride = make_one_hot(pride, 'رنگ')

In [18]:
pride

Unnamed: 0,سال تولید,کارکرد,قیمت,مدل_SE-111,مدل_SE-131,مدل_SE-151,مدل_صندوق دار,گیربکس_دنده ای,رنگ_سفید,رنگ_نوک مدادی
1,1397,41000,240000000,0,1,0,0,1,1,0
2,1399,26000,275000000,0,1,0,0,1,1,0
3,1395,133000,220000000,1,0,0,0,1,1,0
4,1399,55000,256000000,0,1,0,0,1,1,0
5,1396,20000,245000000,1,0,0,0,1,1,0
...,...,...,...,...,...,...,...,...,...,...
319,1396,63000,215000000,0,1,0,0,1,1,0
320,1399,14000,229000000,0,0,1,0,1,1,0
321,1399,135,278000000,0,1,0,0,1,1,0
322,1396,62000,235000000,1,0,0,0,1,1,0


## Remove the label

In [19]:
labels = pride['قیمت']
pride.drop(['قیمت'], axis=1, inplace=True)

## Separating data into train and test sections

In [20]:
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(pride, labels, test_size=0.1, shuffle=True)

## Model making

In [21]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error

pride_model = LinearRegression()
pride_model.fit(x_train, y_train)
prediction = pride_model.predict(x_test)

error = int(mean_absolute_error(y_test, prediction))
print(f'{error:,} MT')

6,886,776 MT


## Save the model

In [22]:
import pickle
pickle.dump(pride_model, open('pride_model.sav', 'wb'))