# Pre-processing data and create model for Quick

## Importing packages

In [1]:
import os
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

## Reading dataset

In [2]:
quick = pd.read_csv(f"{'/'.join(os.getcwd().split('/')[:-2])}/datasets/quick.csv")

In [3]:
quick

Unnamed: 0,0,1,2,3,4,5,6
0,کوییک،,1401,دنده ای-دنده,"6,000 کیلومتر",دنده ای,سفید,320000000
1,کوییک،,1400,دنده ای-دنده,"66,000 کیلومتر",دنده ای,سفید,295000000
2,کوییک،,1401,دنده ای-دنده,"15,500 کیلومتر",دنده ای,سفید,316000000
3,کوییک،,1400,دنده ای-دنده,کارکرد صفر,دنده ای,سفید,303000000
4,کوییک،,1401,اتوماتیک-اتوماتیک,کارکرد صفر,اتوماتیک,سفید,425000000
...,...,...,...,...,...,...,...
189,کوییک،,1401,دنده ای-دنده,کارکرد صفر,دنده ای,سفید,300000000
190,کوییک،,1401,دنده ای-دنده,کارکرد صفر,دنده ای,سفید,300000000
191,کوییک،,1401,دنده ای-دنده,کارکرد صفر,دنده ای,سفید,315000000
192,کوییک،,1401,دنده ای-دنده,کارکرد صفر,دنده ای,سفید,310000000


## Change columns name

In [4]:
def edit_cols_name(df):
    df.rename(columns={'0': 'نام خودرو'}, inplace=True)
    df.rename(columns={'1': 'سال تولید'}, inplace=True)
    df.rename(columns={'2': 'مدل'}, inplace=True)
    df.rename(columns={'3': 'کارکرد'}, inplace=True)
    df.rename(columns={'4': 'گیربکس'}, inplace=True)
    df.rename(columns={'5': 'رنگ'}, inplace=True)
    df.rename(columns={'6': 'قیمت'}, inplace=True)
    
edit_cols_name(quick)

## Convert km to standard mode

In [5]:
def fix_km(df):
    for index in range(len(df['کارکرد'])):
        if df['کارکرد'][index].strip() == 'کارکرد صفر':
            df['کارکرد'][index] = 0
        elif 'کیلومتر' in df['کارکرد'][index]:
            df['کارکرد'][index] = int(df['کارکرد'][index].split()[0].replace(',', ''))
                   
fix_km(quick)

## Convert price to standard mode

In [6]:
for i in range(len(quick)):
    quick['قیمت'][i] = quick['قیمت'][i].replace(',', '')
    quick['قیمت'][i] = int(quick['قیمت'][i])

## Check different car models and organize them

In [7]:
quick['مدل'].value_counts()

دنده ای-دنده         161
اتوماتیک-اتوماتیک     27
اتوماتیک-R             6
Name: مدل, dtype: int64

In [8]:
for i in range(len(quick)):
    if quick['مدل'][i] == 'دنده ای-دنده' or quick['مدل'][i] == 'اتوماتیک-اتوماتیک':
        quick['مدل'][i] = 'معمولی'
        
quick.drop(quick[quick['مدل'] == 'اتوماتیک-R'].index, axis=0, inplace=True)

In [9]:
quick['مدل'].value_counts()

معمولی    188
Name: مدل, dtype: int64

## Delete the especially missing value

In [10]:
quick.drop(quick[quick['کارکرد'] == 'کارکرده'].index, axis=0, inplace=True)

## Check different car colors and organize them

In [11]:
quick['رنگ'].value_counts()

سفید       151
مشکی        23
نقره ای      6
کرم          3
قرمز         1
خاکستری      1
اطلسی        1
نامشخص       1
بژ           1
Name: رنگ, dtype: int64

In [12]:
quick.drop(quick[quick['رنگ'] == 'نقره ای'].index, axis=0, inplace=True)
quick.drop(quick[quick['رنگ'] == 'کرم'].index, axis=0, inplace=True)
quick.drop(quick[quick['رنگ'] == 'اطلسی'].index, axis=0, inplace=True)
quick.drop(quick[quick['رنگ'] == 'قرمز'].index, axis=0, inplace=True)
quick.drop(quick[quick['رنگ'] == 'نامشخص'].index, axis=0, inplace=True)
quick.drop(quick[quick['رنگ'] == 'بژ'].index, axis=0, inplace=True)
quick.drop(quick[quick['رنگ'] == 'خاکستری'].index, axis=0, inplace=True)

In [13]:
quick['رنگ'].value_counts()

سفید    151
مشکی     23
Name: رنگ, dtype: int64

## Remove extra fields

In [14]:
quick.drop(['نام خودرو'], axis=1, inplace=True)

In [15]:
quick

Unnamed: 0,سال تولید,مدل,کارکرد,گیربکس,رنگ,قیمت
0,1401,معمولی,6000,دنده ای,سفید,320000000
1,1400,معمولی,66000,دنده ای,سفید,295000000
2,1401,معمولی,15500,دنده ای,سفید,316000000
3,1400,معمولی,0,دنده ای,سفید,303000000
4,1401,معمولی,0,اتوماتیک,سفید,425000000
...,...,...,...,...,...,...
188,1400,معمولی,28000,دنده ای,سفید,279000000
189,1401,معمولی,0,دنده ای,سفید,300000000
190,1401,معمولی,0,دنده ای,سفید,300000000
191,1401,معمولی,0,دنده ای,سفید,315000000


## One-hot fields

In [16]:
def make_one_hot(data, field):
    temp = pd.get_dummies(data[field], prefix=field)
    data.drop(field, axis=1, inplace=True)
    return pd.concat([data, temp], axis=1)

In [17]:
quick = make_one_hot(quick, 'مدل')
quick = make_one_hot(quick, 'گیربکس')
quick = make_one_hot(quick, 'رنگ')

In [18]:
quick

Unnamed: 0,سال تولید,کارکرد,قیمت,مدل_معمولی,گیربکس_اتوماتیک,گیربکس_دنده ای,رنگ_سفید,رنگ_مشکی
0,1401,6000,320000000,1,0,1,1,0
1,1400,66000,295000000,1,0,1,1,0
2,1401,15500,316000000,1,0,1,1,0
3,1400,0,303000000,1,0,1,1,0
4,1401,0,425000000,1,1,0,1,0
...,...,...,...,...,...,...,...,...
188,1400,28000,279000000,1,0,1,1,0
189,1401,0,300000000,1,0,1,1,0
190,1401,0,300000000,1,0,1,1,0
191,1401,0,315000000,1,0,1,1,0


## Remove the label

In [19]:
labels = quick['قیمت']
quick.drop(['قیمت'], axis=1, inplace=True)

## Separating data into train and test sections

In [20]:
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(quick, labels, test_size=0.1, shuffle=True)

## Model making

In [21]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error

quick_model = LinearRegression()
quick_model.fit(x_train, y_train)
prediction = quick_model.predict(x_test)

error = int(mean_absolute_error(y_test, prediction))
print(f'{error:,} MT')

6,766,337 MT


## Save the model

In [22]:
import pickle
pickle.dump(quick_model, open('quick_model.sav', 'wb'))