# Pre-processing data and create model for Peugeot 405

## Importing packages

In [1]:
import os
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

## Reading dataset

In [2]:
p405 = pd.read_csv(f"{'/'.join(os.getcwd().split('/')[:-2])}/datasets/p405.csv")

In [3]:
p405

Unnamed: 0,0,1,2,3,4,5,6
0,پژو،,1396,SLX-405,"60,000 کیلومتر",دنده ای,مشکی,370000000
1,پژو،,1397,GLX دوگانه سوز-405,"52,000 کیلومتر",دنده ای,نوک مدادی,350000000
2,پژو،,1395,GLX بنزینی-405,"190,000 کیلومتر",دنده ای,نوک مدادی,235000000
3,پژو،,1398,GLX بنزینی-405,"40,000 کیلومتر",دنده ای,نوک مدادی,380000000
4,پژو،,1400,SLX-405,"9,300 کیلومتر",دنده ای,خاکستری,455000000
...,...,...,...,...,...,...,...
100,پژو،,1395,GLX بنزینی-405,"93,000 کیلومتر",دنده ای,نقره ای,270000000
101,پژو،,1395,SLX-405,"77,000 کیلومتر",دنده ای,مشکی,332000000
102,پژو،,1393,SLX-405,"40,000 کیلومتر",دنده ای,سفید,340000000
103,پژو،,1398,SLX-405,"100,000 کیلومتر",دنده ای,سفید,385000000


## Change columns name

In [4]:
def edit_cols_name(df):
    df.rename(columns={'0': 'نام خودرو'}, inplace=True)
    df.rename(columns={'1': 'سال تولید'}, inplace=True)
    df.rename(columns={'2': 'مدل'}, inplace=True)
    df.rename(columns={'3': 'کارکرد'}, inplace=True)
    df.rename(columns={'4': 'گیربکس'}, inplace=True)
    df.rename(columns={'5': 'رنگ'}, inplace=True)
    df.rename(columns={'6': 'قیمت'}, inplace=True)
    
edit_cols_name(p405)

## Convert km to standard mode

In [5]:
def fix_km(df):
    for index in range(len(df['کارکرد'])):
        if df['کارکرد'][index].strip() == 'کارکرد صفر':
            df['کارکرد'][index] = 0
        elif 'کیلومتر' in df['کارکرد'][index]:
            df['کارکرد'][index] = int(df['کارکرد'][index].split()[0].replace(',', ''))
                   
fix_km(p405)

## Convert price to standard mode

In [6]:
for i in range(len(p405)):
    p405['قیمت'][i] = p405['قیمت'][i].replace(',', '')
    p405['قیمت'][i] = int(p405['قیمت'][i])

## Check different car models and organize them

In [7]:
p405['مدل'].value_counts()

GLX بنزینی-405        43
SLX-405               38
GLX دوگانه سوز-405    23
GL-405                 1
Name: مدل, dtype: int64

In [8]:
for i in range(len(p405)):
    p405['مدل'][i] = p405['مدل'][i].split('-')[0]
    
for i in range(len(p405)):
    if p405['مدل'][i] == 'GLX بنزینی':
        p405['مدل'][i] = 'GLX'
    elif p405['مدل'][i] == 'GLX دوگانه سوز':
        p405['مدل'][i] = 'GLX 2fuel'
        
p405.drop(p405[p405['مدل'] == 'GL'].index, axis=0, inplace=True)

In [9]:
p405['مدل'].value_counts()

GLX          43
SLX          38
GLX 2fuel    23
Name: مدل, dtype: int64

## Delete the especially missing value

In [10]:
p405.drop(p405[p405['کارکرد'] == 'کارکرده'].index, axis=0, inplace=True)

## Check different car colors and organize them

In [11]:
p405['رنگ'].value_counts()

خاکستری      30
سفید         25
نقره ای      23
نوک مدادی    10
مشکی          8
زرد           2
دلفینی        2
سرمه ای       1
Name: رنگ, dtype: int64

In [12]:
p405.drop(p405[p405['رنگ'] == 'مشکی'].index, axis=0, inplace=True)
p405.drop(p405[p405['رنگ'] == 'زرد'].index, axis=0, inplace=True)
p405.drop(p405[p405['رنگ'] == 'دلفینی'].index, axis=0, inplace=True)
p405.drop(p405[p405['رنگ'] == 'سرمه ای'].index, axis=0, inplace=True)

In [13]:
p405['رنگ'].value_counts()

خاکستری      30
سفید         25
نقره ای      23
نوک مدادی    10
Name: رنگ, dtype: int64

## Remove extra fields

In [14]:
p405.drop(['نام خودرو'], axis=1, inplace=True)

In [15]:
p405

Unnamed: 0,سال تولید,مدل,کارکرد,گیربکس,رنگ,قیمت
1,1397,GLX 2fuel,52000,دنده ای,نوک مدادی,350000000
2,1395,GLX,190000,دنده ای,نوک مدادی,235000000
3,1398,GLX,40000,دنده ای,نوک مدادی,380000000
4,1400,SLX,9300,دنده ای,خاکستری,455000000
5,1399,SLX,50000,دنده ای,خاکستری,418000000
...,...,...,...,...,...,...
99,1399,GLX 2fuel,0,دنده ای,نقره ای,445000000
100,1395,GLX,93000,دنده ای,نقره ای,270000000
102,1393,SLX,40000,دنده ای,سفید,340000000
103,1398,SLX,100000,دنده ای,سفید,385000000


## One-hot fields

In [16]:
def make_one_hot(data, field):
    temp = pd.get_dummies(data[field], prefix=field)
    data.drop(field, axis=1, inplace=True)
    return pd.concat([data, temp], axis=1)

In [17]:
p405 = make_one_hot(p405, 'مدل')
p405 = make_one_hot(p405, 'گیربکس')
p405 = make_one_hot(p405, 'رنگ')

In [18]:
p405

Unnamed: 0,سال تولید,کارکرد,قیمت,مدل_GLX,مدل_GLX 2fuel,مدل_SLX,گیربکس_دنده ای,رنگ_خاکستری,رنگ_سفید,رنگ_نقره ای,رنگ_نوک مدادی
1,1397,52000,350000000,0,1,0,1,0,0,0,1
2,1395,190000,235000000,1,0,0,1,0,0,0,1
3,1398,40000,380000000,1,0,0,1,0,0,0,1
4,1400,9300,455000000,0,0,1,1,1,0,0,0
5,1399,50000,418000000,0,0,1,1,1,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...
99,1399,0,445000000,0,1,0,1,0,0,1,0
100,1395,93000,270000000,1,0,0,1,0,0,1,0
102,1393,40000,340000000,0,0,1,1,0,1,0,0
103,1398,100000,385000000,0,0,1,1,0,1,0,0


## Remove the label

In [19]:
labels = p405['قیمت']
p405.drop(['قیمت'], axis=1, inplace=True)

## Separating data into train and test sections

In [20]:
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(p405, labels, test_size=0.1, shuffle=True)

## Model making

In [21]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error

p405_model = LinearRegression()
p405_model.fit(x_train, y_train)
prediction = p405_model.predict(x_test)

error = int(mean_absolute_error(y_test, prediction))
print(f'{error:,} MT')

9,467,069 MT


## Save the model

In [22]:
import pickle
pickle.dump(p405_model, open('p405_model.sav', 'wb'))