# Pre-processing data and create model for Tondar90

## Importing packages

In [1]:
import os
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

## Reading dataset

In [2]:
tondar = pd.read_csv(f"{'/'.join(os.getcwd().split('/')[:-2])}/datasets/tondar90.csv")

In [3]:
tondar

Unnamed: 0,0,1,2,3,4,5,6
0,رنو،,1396,اتوماتیک-تندر,"145,000 کیلومتر",اتوماتیک,سفید,600000000
1,رنو،,1396,E2-تندر,"77,000 کیلومتر",دنده ای,سفید,530000000
2,رنو،,1396,E2-تندر,"240,000 کیلومتر",دنده ای,مشکی,440000000
3,رنو،,1395,اتوماتیک-تندر,"102,000 کیلومتر",اتوماتیک,سفید,570000000
4,رنو،,1396,پلاس اتوماتیک-تندر,"80,800 کیلومتر",اتوماتیک,سفید,737000000
...,...,...,...,...,...,...,...
135,رنو،,1396,E2-تندر,"84,000 کیلومتر",دنده ای,مشکی,480000000
136,رنو،,1397,E2-تندر,"47,000 کیلومتر",دنده ای,سفید,610000000
137,رنو،,1396,E2-تندر,"160,000 کیلومتر",دنده ای,سفید,430000000
138,رنو،,1394,E2-تندر,"200,000 کیلومتر",دنده ای,نقره ای,430000000


## Change columns name

In [4]:
def edit_cols_name(df):
    df.rename(columns={'0': 'نام خودرو'}, inplace=True)
    df.rename(columns={'1': 'سال تولید'}, inplace=True)
    df.rename(columns={'2': 'مدل'}, inplace=True)
    df.rename(columns={'3': 'کارکرد'}, inplace=True)
    df.rename(columns={'4': 'گیربکس'}, inplace=True)
    df.rename(columns={'5': 'رنگ'}, inplace=True)
    df.rename(columns={'6': 'قیمت'}, inplace=True)
    
edit_cols_name(tondar)

## Convert km to standard mode

In [5]:
def fix_km(df):
    for index in range(len(df['کارکرد'])):
        if df['کارکرد'][index].strip() == 'کارکرد صفر':
            df['کارکرد'][index] = 0
        elif 'کیلومتر' in df['کارکرد'][index]:
            df['کارکرد'][index] = int(df['کارکرد'][index].split()[0].replace(',', ''))
                   
fix_km(tondar)

## Convert price to standard mode

In [6]:
for i in range(len(tondar)):
    tondar['قیمت'][i] = tondar['قیمت'][i].replace(',', '')
    tondar['قیمت'][i] = int(tondar['قیمت'][i])

## Check different car models and organize them

In [7]:
tondar['مدل'].value_counts()

E2-تندر               80
اتوماتیک-تندر         32
پلاس اتوماتیک-تندر    16
E1-تندر                5
پلاس دنده ای-تندر      5
E0-تندر                2
Name: مدل, dtype: int64

In [8]:
for i in range(len(tondar)):
    if tondar['مدل'][i] == 'E2-تندر':
        tondar['مدل'][i] = 'E2'
    elif tondar['مدل'][i] == 'اتوماتیک-تندر':
        tondar['مدل'][i] = 'معمولی'
    elif tondar['مدل'][i] == 'پلاس اتوماتیک-تندر' or tondar['مدل'][i] == 'پلاس دنده ای-تندر':
        tondar['مدل'][i] = 'پلاس'

tondar.drop(tondar[tondar['مدل'] == 'E1-تندر'].index, axis=0, inplace=True)
tondar.drop(tondar[tondar['مدل'] == 'E0-تندر'].index, axis=0, inplace=True)

In [9]:
tondar['مدل'].value_counts()

E2        80
معمولی    32
پلاس      21
Name: مدل, dtype: int64

## Delete the especially missing value

In [10]:
tondar.drop(tondar[tondar['کارکرد'] == 'کارکرده'].index, axis=0, inplace=True)

## Check different car colors and organize them

In [11]:
tondar['رنگ'].value_counts()

سفید         101
مشکی          18
نقره ای        6
خاکستری        4
نوک مدادی      2
قرمز           1
سفید صدفی      1
Name: رنگ, dtype: int64

In [12]:
tondar.drop(tondar[tondar['رنگ'] == 'نقره ای'].index, axis=0, inplace=True)
tondar.drop(tondar[tondar['رنگ'] == 'خاکستری'].index, axis=0, inplace=True)
tondar.drop(tondar[tondar['رنگ'] == 'نوک مدادی'].index, axis=0, inplace=True)
tondar.drop(tondar[tondar['رنگ'] == 'سفید صدفی'].index, axis=0, inplace=True)
tondar.drop(tondar[tondar['رنگ'] == 'قرمز'].index, axis=0, inplace=True)

In [13]:
tondar['رنگ'].value_counts()

سفید    101
مشکی     18
Name: رنگ, dtype: int64

## Remove extra fields

In [14]:
tondar.drop(['نام خودرو'], axis=1, inplace=True)

In [15]:
tondar

Unnamed: 0,سال تولید,مدل,کارکرد,گیربکس,رنگ,قیمت
0,1396,معمولی,145000,اتوماتیک,سفید,600000000
1,1396,E2,77000,دنده ای,سفید,530000000
2,1396,E2,240000,دنده ای,مشکی,440000000
3,1395,معمولی,102000,اتوماتیک,سفید,570000000
4,1396,پلاس,80800,اتوماتیک,سفید,737000000
...,...,...,...,...,...,...
134,1396,E2,130000,دنده ای,سفید,485000000
135,1396,E2,84000,دنده ای,مشکی,480000000
136,1397,E2,47000,دنده ای,سفید,610000000
137,1396,E2,160000,دنده ای,سفید,430000000


## One-hot fields

In [16]:
def make_one_hot(data, field):
    temp = pd.get_dummies(data[field], prefix=field)
    data.drop(field, axis=1, inplace=True)
    return pd.concat([data, temp], axis=1)

In [17]:
tondar = make_one_hot(tondar, 'مدل')
tondar = make_one_hot(tondar, 'گیربکس')
tondar = make_one_hot(tondar, 'رنگ')

In [18]:
tondar

Unnamed: 0,سال تولید,کارکرد,قیمت,مدل_E2,مدل_معمولی,مدل_پلاس,گیربکس_اتوماتیک,گیربکس_دنده ای,رنگ_سفید,رنگ_مشکی
0,1396,145000,600000000,0,1,0,1,0,1,0
1,1396,77000,530000000,1,0,0,0,1,1,0
2,1396,240000,440000000,1,0,0,0,1,0,1
3,1395,102000,570000000,0,1,0,1,0,1,0
4,1396,80800,737000000,0,0,1,1,0,1,0
...,...,...,...,...,...,...,...,...,...,...
134,1396,130000,485000000,1,0,0,0,1,1,0
135,1396,84000,480000000,1,0,0,0,1,0,1
136,1397,47000,610000000,1,0,0,0,1,1,0
137,1396,160000,430000000,1,0,0,0,1,1,0


## Remove the label

In [19]:
labels = tondar['قیمت']
tondar.drop(['قیمت'], axis=1, inplace=True)

## Separating data into train and test sections

In [20]:
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(tondar, labels, test_size=0.1, shuffle=True)

## Model making

In [21]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error

tondar_model = LinearRegression()
tondar_model.fit(x_train, y_train)
prediction = tondar_model.predict(x_test)

error = int(mean_absolute_error(y_test, prediction))
print(f'{error:,} MT')

13,551,772 MT


## Save the model

In [22]:
import pickle
pickle.dump(tondar_model, open('tondar90_model.sav', 'wb'))