# Pre-processing data and create model for Tiba

## Importing packages

In [1]:
import os
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

## Reading dataset

In [2]:
tiba = pd.read_csv(f"{'/'.join(os.getcwd().split('/')[:-2])}/datasets/tiba.csv")

In [3]:
tiba

Unnamed: 0,0,1,2,3,4,5,6
0,تیبا،,1399,SX بنزینی-صندوق,"29,000 کیلومتر",دنده ای,سفید,288000000
1,تیبا،,1401,SX بنزینی-صندوق,"20,500 کیلومتر",دنده ای,سفید,290000000
2,تیبا،,1400,SX بنزینی-صندوق,"1,300 کیلومتر",دنده ای,سفید,300000000
3,تیبا،,1400,EX-هاچ,"15,000 کیلومتر",دنده ای,سفید,305000000
4,تیبا،,1393,SX بنزینی-صندوق,"105,000 کیلومتر",دنده ای,سفید,232000000
...,...,...,...,...,...,...,...
162,تیبا،,1399,SX بنزینی-صندوق,"7,000 کیلومتر",دنده ای,سفید,290000000
163,تیبا،,1401,EX-هاچ,"21,000 کیلومتر",دنده ای,سفید,292000000
164,تیبا،,1395,SX بنزینی-صندوق,"160,000 کیلومتر",دنده ای,سفید,220000000
165,تیبا،,1395,SX دوگانه سوز-صندوق,"128,000 کیلومتر",دنده ای,سفید,239000000


## Change columns name

In [4]:
def edit_cols_name(df):
    df.rename(columns={'0': 'نام خودرو'}, inplace=True)
    df.rename(columns={'1': 'سال تولید'}, inplace=True)
    df.rename(columns={'2': 'مدل'}, inplace=True)
    df.rename(columns={'3': 'کارکرد'}, inplace=True)
    df.rename(columns={'4': 'گیربکس'}, inplace=True)
    df.rename(columns={'5': 'رنگ'}, inplace=True)
    df.rename(columns={'6': 'قیمت'}, inplace=True)
    
edit_cols_name(tiba)

## Convert km to standard mode

In [5]:
def fix_km(df):
    for index in range(len(df['کارکرد'])):
        if df['کارکرد'][index].strip() == 'کارکرد صفر':
            df['کارکرد'][index] = 0
        elif 'کیلومتر' in df['کارکرد'][index]:
            df['کارکرد'][index] = int(df['کارکرد'][index].split()[0].replace(',', ''))
                   
fix_km(tiba)

## Convert price to standard mode

In [6]:
for i in range(len(tiba)):
    tiba['قیمت'][i] = tiba['قیمت'][i].replace(',', '')
    tiba['قیمت'][i] = int(tiba['قیمت'][i])

## Check different car models and organize them

In [7]:
tiba['مدل'].value_counts()

EX-هاچ                 92
SX بنزینی-صندوق        70
SX دوگانه سوز-صندوق     2
EX-صندوق                2
SX-هاچ                  1
Name: مدل, dtype: int64

In [8]:
for i in range(len(tiba)):
        if tiba['مدل'][i] == 'EX-هاچ' or tiba['مدل'][i] == 'EX-صندوق':
            tiba['مدل'][i] = 'EX sandoq'
        if tiba['مدل'][i] == 'SX بنزینی-صندوق' or tiba['مدل'][i] == 'SX-هاچ':
            tiba['مدل'][i] = 'SX sandoq'
            
tiba.drop(tiba[tiba['مدل'] == 'SX دوگانه سوز-صندوق'].index, axis=0, inplace=True)

In [9]:
tiba['مدل'].value_counts()

EX sandoq    94
SX sandoq    71
Name: مدل, dtype: int64

## Delete the especially missing value

In [10]:
tiba.drop(tiba[tiba['کارکرد'] == 'کارکرده'].index, axis=0, inplace=True)

## Check different car colors and organize them

In [11]:
tiba['رنگ'].value_counts()

سفید         144
نوک مدادی      7
نقره ای        3
مشکی           2
خاکستری        2
آلبالویی       2
قهوه ای        2
تیتانیوم       1
سفید صدفی      1
Name: رنگ, dtype: int64

In [12]:
tiba.drop(tiba[tiba['رنگ'] == 'نوک مدادی'].index, axis=0, inplace=True)
tiba.drop(tiba[tiba['رنگ'] == 'نقره ای'].index, axis=0, inplace=True)
tiba.drop(tiba[tiba['رنگ'] == 'قهوه ای'].index, axis=0, inplace=True)
tiba.drop(tiba[tiba['رنگ'] == 'آلبالویی'].index, axis=0, inplace=True)
tiba.drop(tiba[tiba['رنگ'] == 'مشکی'].index, axis=0, inplace=True)
tiba.drop(tiba[tiba['رنگ'] == 'خاکستری'].index, axis=0, inplace=True)
tiba.drop(tiba[tiba['رنگ'] == 'سفید صدفی'].index, axis=0, inplace=True)
tiba.drop(tiba[tiba['رنگ'] == 'تیتانیوم'].index, axis=0, inplace=True)

In [13]:
tiba['رنگ'].value_counts()

سفید    144
Name: رنگ, dtype: int64

## Remove extra fields

In [14]:
tiba.drop(['نام خودرو'], axis=1, inplace=True)

In [15]:
tiba

Unnamed: 0,سال تولید,مدل,کارکرد,گیربکس,رنگ,قیمت
0,1399,SX sandoq,29000,دنده ای,سفید,288000000
1,1401,SX sandoq,20500,دنده ای,سفید,290000000
2,1400,SX sandoq,1300,دنده ای,سفید,300000000
3,1400,EX sandoq,15000,دنده ای,سفید,305000000
4,1393,SX sandoq,105000,دنده ای,سفید,232000000
...,...,...,...,...,...,...
159,1401,EX sandoq,11000,دنده ای,سفید,289000000
160,1400,EX sandoq,6000,دنده ای,سفید,280000000
162,1399,SX sandoq,7000,دنده ای,سفید,290000000
163,1401,EX sandoq,21000,دنده ای,سفید,292000000


## One-hot fields

In [16]:
def make_one_hot(data, field):
    temp = pd.get_dummies(data[field], prefix=field)
    data.drop(field, axis=1, inplace=True)
    return pd.concat([data, temp], axis=1)

In [17]:
tiba = make_one_hot(tiba, 'مدل')
tiba = make_one_hot(tiba, 'گیربکس')
tiba = make_one_hot(tiba, 'رنگ')

In [18]:
tiba

Unnamed: 0,سال تولید,کارکرد,قیمت,مدل_EX sandoq,مدل_SX sandoq,گیربکس_دنده ای,رنگ_سفید
0,1399,29000,288000000,0,1,1,1
1,1401,20500,290000000,0,1,1,1
2,1400,1300,300000000,0,1,1,1
3,1400,15000,305000000,1,0,1,1
4,1393,105000,232000000,0,1,1,1
...,...,...,...,...,...,...,...
159,1401,11000,289000000,1,0,1,1
160,1400,6000,280000000,1,0,1,1
162,1399,7000,290000000,0,1,1,1
163,1401,21000,292000000,1,0,1,1


## Remove the label

In [19]:
labels = tiba['قیمت']
tiba.drop(['قیمت'], axis=1, inplace=True)

## Separating data into train and test sections

In [20]:
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(tiba, labels, test_size=0.1, shuffle=True)

## Model making

In [21]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error

tiba_model = LinearRegression()
tiba_model.fit(x_train, y_train)
prediction = tiba_model.predict(x_test)

error = int(mean_absolute_error(y_test, prediction))
print(f'{error:,} MT')

5,685,327 MT


## Save the model

In [22]:
import pickle
pickle.dump(tiba_model, open('tiba_model.sav', 'wb'))