# Pre-processing data and create model for Samand

## Importing packages

In [1]:
import os
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

## Reading dataset

In [2]:
samand = pd.read_csv(f"{'/'.join(os.getcwd().split('/')[:-2])}/datasets/samand.csv")

In [3]:
samand

Unnamed: 0,0,1,2,3,4,5,6
0,سمند،,1393,ELX-سورن,"110,000 کیلومتر",دنده ای,مشکی,290000000
1,سمند،,1398,XU7-LX,"34,000 کیلومتر",دنده ای,سفید,395000000
2,سمند،,1398,XU7-LX,"60,000 کیلومتر",دنده ای,سفید,360000000
3,سمند،,1400,XU7-LX,"3,900 کیلومتر",دنده ای,سفید,425000000
4,سمند،,1395,XU7-LX,"207,000 کیلومتر",دنده ای,سفید,305000000
...,...,...,...,...,...,...,...
183,سمند،,1398,XU7-LX,"8,000 کیلومتر",دنده ای,سفید,372500000
184,سمند،,1399,EF7-LX,"1,900 کیلومتر",دنده ای,خاکستری,435000000
185,سمند،,1400,پلاس بنزینی-سورن,"40,700 کیلومتر",دنده ای,مشکی,455000000
186,سمند،,1396,EF7-LX,"58,000 کیلومتر",دنده ای,مشکی,350000000


## Change columns name

In [4]:
def edit_cols_name(df):
    df.rename(columns={'0': 'نام خودرو'}, inplace=True)
    df.rename(columns={'1': 'سال تولید'}, inplace=True)
    df.rename(columns={'2': 'مدل'}, inplace=True)
    df.rename(columns={'3': 'کارکرد'}, inplace=True)
    df.rename(columns={'4': 'گیربکس'}, inplace=True)
    df.rename(columns={'5': 'رنگ'}, inplace=True)
    df.rename(columns={'6': 'قیمت'}, inplace=True)
    
edit_cols_name(samand)

## Convert km to standard mode

In [5]:
def fix_km(df):
    for index in range(len(df['کارکرد'])):
        if df['کارکرد'][index].strip() == 'کارکرد صفر':
            df['کارکرد'][index] = 0
        elif 'کیلومتر' in df['کارکرد'][index]:
            df['کارکرد'][index] = int(df['کارکرد'][index].split()[0].replace(',', ''))
                   
fix_km(samand)

## Convert price to standard mode

In [6]:
for i in range(len(samand)):
    samand['قیمت'][i] = samand['قیمت'][i].replace(',', '')
    samand['قیمت'][i] = int(samand['قیمت'][i])

## Check different car models and organize them

In [7]:
samand['مدل'].value_counts()

XU7-LX               89
EF7-LX               45
EF7 دوگانه سوز-LX    28
پلاس بنزینی-سورن     16
ELX-سورن              8
دنده ای-X7            1
ساده-سورن             1
Name: مدل, dtype: int64

In [8]:
for i in range(len(samand)):
    if samand['مدل'][i] == 'EF7 دوگانه سوز-LX':
        samand['مدل'][i] = 'EF7-LX 2fuel'

samand.drop(samand[samand['مدل'] == 'پلاس بنزینی-سورن'].index, axis=0, inplace=True)
samand.drop(samand[samand['مدل'] == 'ELX-سورن'].index, axis=0, inplace=True)
samand.drop(samand[samand['مدل'] == 'ساده-سورن'].index, axis=0, inplace=True)
samand.drop(samand[samand['مدل'] == 'دنده ای-X7'].index, axis=0, inplace=True)

In [9]:
samand['مدل'].value_counts()

XU7-LX          89
EF7-LX          45
EF7-LX 2fuel    28
Name: مدل, dtype: int64

## Delete the especially missing value

In [10]:
samand.drop(samand[samand['کارکرد'] == 'کارکرده'].index, axis=0, inplace=True)

## Check different car colors and organize them

In [11]:
samand['رنگ'].value_counts()

سفید         119
خاکستری       20
مشکی          10
سرمه ای        4
آبی            3
نوک مدادی      2
نقره ای        2
سفید صدفی      1
زرد            1
Name: رنگ, dtype: int64

In [12]:
samand.drop(samand[samand['رنگ'] == 'سرمه ای'].index, axis=0, inplace=True)
samand.drop(samand[samand['رنگ'] == 'آبی'].index, axis=0, inplace=True)
samand.drop(samand[samand['رنگ'] == 'نقره ای'].index, axis=0, inplace=True)
samand.drop(samand[samand['رنگ'] == 'نوک مدادی'].index, axis=0, inplace=True)
samand.drop(samand[samand['رنگ'] == 'زرد'].index, axis=0, inplace=True)
samand.drop(samand[samand['رنگ'] == 'سفید صدفی'].index, axis=0, inplace=True)

In [13]:
samand['رنگ'].value_counts()

سفید       119
خاکستری     20
مشکی        10
Name: رنگ, dtype: int64

## Remove extra fields

In [14]:
samand.drop(['نام خودرو'], axis=1, inplace=True)

In [15]:
samand

Unnamed: 0,سال تولید,مدل,کارکرد,گیربکس,رنگ,قیمت
1,1398,XU7-LX,34000,دنده ای,سفید,395000000
2,1398,XU7-LX,60000,دنده ای,سفید,360000000
3,1400,XU7-LX,3900,دنده ای,سفید,425000000
4,1395,XU7-LX,207000,دنده ای,سفید,305000000
5,1400,EF7-LX,16500,دنده ای,سفید,440000000
...,...,...,...,...,...,...
182,1396,EF7-LX,94000,دنده ای,خاکستری,328000000
183,1398,XU7-LX,8000,دنده ای,سفید,372500000
184,1399,EF7-LX,1900,دنده ای,خاکستری,435000000
186,1396,EF7-LX,58000,دنده ای,مشکی,350000000


## One-hot fields

In [16]:
def make_one_hot(data, field):
    temp = pd.get_dummies(data[field], prefix=field)
    data.drop(field, axis=1, inplace=True)
    return pd.concat([data, temp], axis=1)

In [17]:
samand = make_one_hot(samand, 'مدل')
samand = make_one_hot(samand, 'گیربکس')
samand = make_one_hot(samand, 'رنگ')

In [18]:
samand

Unnamed: 0,سال تولید,کارکرد,قیمت,مدل_EF7-LX,مدل_EF7-LX 2fuel,مدل_XU7-LX,گیربکس_دنده ای,رنگ_خاکستری,رنگ_سفید,رنگ_مشکی
1,1398,34000,395000000,0,0,1,1,0,1,0
2,1398,60000,360000000,0,0,1,1,0,1,0
3,1400,3900,425000000,0,0,1,1,0,1,0
4,1395,207000,305000000,0,0,1,1,0,1,0
5,1400,16500,440000000,1,0,0,1,0,1,0
...,...,...,...,...,...,...,...,...,...,...
182,1396,94000,328000000,1,0,0,1,1,0,0
183,1398,8000,372500000,0,0,1,1,0,1,0
184,1399,1900,435000000,1,0,0,1,1,0,0
186,1396,58000,350000000,1,0,0,1,0,0,1


## Remove the label

In [19]:
labels = samand['قیمت']
samand.drop(['قیمت'], axis=1, inplace=True)

## Separating data into train and test sections

In [20]:
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(samand, labels, test_size=0.1, shuffle=True)

## Model making

In [21]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error

samand_model = LinearRegression()
samand_model.fit(x_train, y_train)
prediction = samand_model.predict(x_test)

error = int(mean_absolute_error(y_test, prediction))
print(f'{error:,} MT')

10,564,308 MT


## Save the model

In [22]:
import pickle
pickle.dump(samand_model, open('samand_model.sav', 'wb'))