# Pre-processing data and create model for Dena

## Importing packages

In [1]:
import os
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

## Reading dataset

In [2]:
dena = pd.read_csv(f"{'/'.join(os.getcwd().split('/')[:-2])}/datasets/dena.csv")

In [3]:
dena

Unnamed: 0,0,1,2,3,4,5,6
0,دنا،,1401,دنده ای ساده-پلاس,کارکرد صفر,دنده ای,مشکی,622000000
1,دنا،,1401,دنده ای ساده-پلاس,کارکرد صفر,دنده ای,سفید,635000000
2,دنا،,1394,دنده ای-معمولی,"94,500 کیلومتر",دنده ای,خاکستری,450000000
3,دنا،,1395,دنده ای-معمولی,"180,000 کیلومتر",دنده ای,نوک مدادی,450000000
4,دنا،,1401,دنده ای ساده-پلاس,کارکرد صفر,دنده ای,سفید,620000000
...,...,...,...,...,...,...,...
200,دنا،,1401,اتوماتیک توربو-پلاس,کارکرد صفر,اتوماتیک,مشکی,785000000
201,دنا،,1401,اتوماتیک توربو-پلاس,کارکرد صفر,اتوماتیک,مشکی,800000000
202,دنا،,1401,اتوماتیک توربو-پلاس,کارکرد صفر,اتوماتیک,مشکی,760000000
203,دنا،,1400,دنده ای ساده-پلاس,"13,800 کیلومتر",دنده ای,خاکستری,620000000


## Change columns name

In [4]:
def edit_cols_name(df):
    df.rename(columns={'0': 'نام خودرو'}, inplace=True)
    df.rename(columns={'1': 'سال تولید'}, inplace=True)
    df.rename(columns={'2': 'مدل'}, inplace=True)
    df.rename(columns={'3': 'کارکرد'}, inplace=True)
    df.rename(columns={'4': 'گیربکس'}, inplace=True)
    df.rename(columns={'5': 'رنگ'}, inplace=True)
    df.rename(columns={'6': 'قیمت'}, inplace=True)
    
edit_cols_name(dena)

## Convert km to standard mode

In [5]:
def fix_km(df):
    for index in range(len(df['کارکرد'])):
        if df['کارکرد'][index].strip() == 'کارکرد صفر':
            df['کارکرد'][index] = 0
        elif 'کیلومتر' in df['کارکرد'][index]:
            df['کارکرد'][index] = int(df['کارکرد'][index].split()[0].replace(',', ''))
                   
fix_km(dena)

## Convert price to standard mode

In [6]:
for i in range(len(dena)):
    dena['قیمت'][i] = dena['قیمت'][i].replace(',', '')
    dena['قیمت'][i] = int(dena['قیمت'][i])

## Check different car models and organize them

In [7]:
dena['مدل'].value_counts()

اتوماتیک توربو-پلاس    84
دنده ای ساده-پلاس      73
دنده ای-معمولی         32
6 دنده توربو-پلاس       9
5 دنده توربو-پلاس       7
Name: مدل, dtype: int64

In [8]:
for i in range(len(dena)):
    if 'پلاس' in dena['مدل'][i] and 'توربو' in dena['مدل'][i]:
        dena['مدل'][i] = 'توربو پلاس'
    elif 'پلاس' in dena['مدل'][i]:
        dena['مدل'][i] = 'پلاس'
    elif 'معمولی' in dena['مدل'][i]:
        dena['مدل'][i] = 'معمولی'

In [9]:
dena['مدل'].value_counts()

توربو پلاس    100
پلاس           73
معمولی         32
Name: مدل, dtype: int64

## Delete the especially missing value

In [10]:
dena.drop(dena[dena['کارکرد'] == 'کارکرده'].index, axis=0, inplace=True)

## Check different car colors and organize them

In [11]:
dena['رنگ'].value_counts()

سفید         111
مشکی          60
خاکستری       22
نوک مدادی      5
نقره ای        4
سرمه ای        1
Name: رنگ, dtype: int64

In [12]:
dena.drop(dena[dena['رنگ'] == 'آبی'].index, axis=0, inplace=True)
dena.drop(dena[dena['رنگ'] == 'نوک مدادی'].index, axis=0, inplace=True)
dena.drop(dena[dena['رنگ'] == 'نقره ای'].index, axis=0, inplace=True)
dena.drop(dena[dena['رنگ'] == 'سرمه ای'].index, axis=0, inplace=True)

In [13]:
dena['رنگ'].value_counts()

سفید       111
مشکی        60
خاکستری     22
Name: رنگ, dtype: int64

## Remove extra fields

In [14]:
dena.drop(['نام خودرو'], axis=1, inplace=True)

In [15]:
dena

Unnamed: 0,سال تولید,مدل,کارکرد,گیربکس,رنگ,قیمت
0,1401,پلاس,0,دنده ای,مشکی,622000000
1,1401,پلاس,0,دنده ای,سفید,635000000
2,1394,معمولی,94500,دنده ای,خاکستری,450000000
4,1401,پلاس,0,دنده ای,سفید,620000000
6,1401,توربو پلاس,0,اتوماتیک,سفید,775000000
...,...,...,...,...,...,...
200,1401,توربو پلاس,0,اتوماتیک,مشکی,785000000
201,1401,توربو پلاس,0,اتوماتیک,مشکی,800000000
202,1401,توربو پلاس,0,اتوماتیک,مشکی,760000000
203,1400,پلاس,13800,دنده ای,خاکستری,620000000


## One-hot fields

In [16]:
def make_one_hot(data, field):
    temp = pd.get_dummies(data[field], prefix=field)
    data.drop(field, axis=1, inplace=True)
    return pd.concat([data, temp], axis=1)

In [17]:
dena = make_one_hot(dena, 'مدل')
dena = make_one_hot(dena, 'گیربکس')
dena = make_one_hot(dena, 'رنگ')

In [18]:
dena

Unnamed: 0,سال تولید,کارکرد,قیمت,مدل_توربو پلاس,مدل_معمولی,مدل_پلاس,گیربکس_اتوماتیک,گیربکس_دنده ای,رنگ_خاکستری,رنگ_سفید,رنگ_مشکی
0,1401,0,622000000,0,0,1,0,1,0,0,1
1,1401,0,635000000,0,0,1,0,1,0,1,0
2,1394,94500,450000000,0,1,0,0,1,1,0,0
4,1401,0,620000000,0,0,1,0,1,0,1,0
6,1401,0,775000000,1,0,0,1,0,0,1,0
...,...,...,...,...,...,...,...,...,...,...,...
200,1401,0,785000000,1,0,0,1,0,0,0,1
201,1401,0,800000000,1,0,0,1,0,0,0,1
202,1401,0,760000000,1,0,0,1,0,0,0,1
203,1400,13800,620000000,0,0,1,0,1,1,0,0


## Remove the label

In [19]:
labels = dena['قیمت']
dena.drop(['قیمت'], axis=1, inplace=True)

## Separating data into train and test sections

In [20]:
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(dena, labels, test_size=0.1, shuffle=True)

## Model making

In [21]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error

dena_model = LinearRegression()
dena_model.fit(x_train, y_train)
prediction = dena_model.predict(x_test)

error = int(mean_absolute_error(y_test, prediction))
print(f'{error:,} MT')

11,204,939 MT


## Save the model

In [22]:
import pickle
pickle.dump(dena_model, open('dena_model.sav', 'wb'))