# Pre-processing data and create model for Peugeot 207

## Importing packages

In [1]:
import os
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

## Reading dataset

In [2]:
p207 = pd.read_csv(f"{'/'.join(os.getcwd().split('/')[:-2])}/datasets/p207.csv")

In [3]:
p207

Unnamed: 0,0,1,2,3,4,5,6
0,پژو،,1401,MC اتوماتیک-207,کارکرد صفر,اتوماتیک,سفید,705000000
1,پژو،,1401,دنده ای-207,کارکرد صفر,دنده ای,سفید,590000000
2,پژو،,1397,اتوماتیک TU5-207,"40,000 کیلومتر",اتوماتیک,مشکی,615000000
3,پژو،,1401,پانوراما دنده ای-207,"24,500 کیلومتر",دنده ای,سفید,625000000
4,پژو،,1400,پانوراما اتوماتیک TU5-207,"22,800 کیلومتر",اتوماتیک,سفید,735000000
...,...,...,...,...,...,...,...
211,پژو،,1401,پانوراما دنده ای-207,کارکرد صفر,دنده ای,سفید,650000000
212,پژو،,1401,دنده ای-207,کارکرد صفر,دنده ای,سفید,575000000
213,پژو،,1401,دنده ای-207,کارکرد صفر,دنده ای,خاکستری,595000000
214,پژو،,1401,MC اتوماتیک-207,کارکرد صفر,اتوماتیک,سفید,710000000


## Change columns name

In [4]:
def edit_cols_name(df):
    df.rename(columns={'0': 'نام خودرو'}, inplace=True)
    df.rename(columns={'1': 'سال تولید'}, inplace=True)
    df.rename(columns={'2': 'مدل'}, inplace=True)
    df.rename(columns={'3': 'کارکرد'}, inplace=True)
    df.rename(columns={'4': 'گیربکس'}, inplace=True)
    df.rename(columns={'5': 'رنگ'}, inplace=True)
    df.rename(columns={'6': 'قیمت'}, inplace=True)
    
edit_cols_name(p207)

## Convert km to standard mode

In [5]:
def fix_km(df):
    for index in range(len(df['کارکرد'])):
        if df['کارکرد'][index].strip() == 'کارکرد صفر':
            df['کارکرد'][index] = 0
        elif 'کیلومتر' in df['کارکرد'][index]:
            df['کارکرد'][index] = int(df['کارکرد'][index].split()[0].replace(',', ''))
                   
fix_km(p207)

## Convert price to standard mode

In [6]:
for i in range(len(p207)):
    p207['قیمت'][i] = p207['قیمت'][i].replace(',', '')
    p207['قیمت'][i] = int(p207['قیمت'][i])

## Check different car models and organize them

In [7]:
p207['مدل'].value_counts()

دنده ای-207                   84
پانوراما دنده ای-207          74
MC اتوماتیک-207               25
اتوماتیک TU5-207              18
پانوراما اتوماتیک TU5-207     10
اتوماتیک TU5P-207              3
پانوراما اتوماتیک TU5P-207     2
Name: مدل, dtype: int64

In [8]:
for i in range(len(p207)):
    p207['نام خودرو'][i] = '207'
    p207['مدل'][i] = p207['مدل'][i].split('-')[0]
    
for i in range(len(p207)):
    if p207['مدل'][i] == 'اتوماتیک TU5':
        p207['مدل'][i] = 'TU5'
    elif p207['مدل'][i] == 'پانوراما اتوماتیک TU5':
        p207['مدل'][i] = 'TU5 PAN'
    elif p207['مدل'][i] == 'MC اتوماتیک':
        p207['مدل'][i] = 'MC'
    elif p207['مدل'][i] == 'پانوراما دنده ای':
        p207['مدل'][i] = 'PAN'
    elif p207['مدل'][i] == 'دنده ای':
        p207['مدل'][i] = 'Normal'
        
p207.drop(p207[p207['مدل'] == 'اتوماتیک TU5P'].index, axis=0, inplace=True)
p207.drop(p207[p207['مدل'] == 'پانوراما اتوماتیک TU5P'].index, axis=0, inplace=True)

In [9]:
p207['مدل'].value_counts()

Normal     84
PAN        74
MC         25
TU5        18
TU5 PAN    10
Name: مدل, dtype: int64

## Delete the especially missing value

In [10]:
p207.drop(p207[p207['کارکرد'] == 'کارکرده'].index, axis=0, inplace=True)

## Check different car colors and organize them

In [11]:
p207['رنگ'].value_counts()

سفید       123
مشکی        68
خاکستری      8
قرمز         3
نقره ای      3
دلفینی       1
سرمه ای      1
آبی          1
Name: رنگ, dtype: int64

In [12]:
p207.drop(p207[p207['رنگ'] == 'خاکستری'].index, axis=0, inplace=True)
p207.drop(p207[p207['رنگ'] == 'آبی'].index, axis=0, inplace=True)
p207.drop(p207[p207['رنگ'] == 'قرمز'].index, axis=0, inplace=True)
p207.drop(p207[p207['رنگ'] == 'نقره ای'].index, axis=0, inplace=True)
p207.drop(p207[p207['رنگ'] == 'سرمه ای'].index, axis=0, inplace=True)
p207.drop(p207[p207['رنگ'] == 'دلفینی'].index, axis=0, inplace=True)

In [13]:
p207['رنگ'].value_counts()

سفید    123
مشکی     68
Name: رنگ, dtype: int64

## Remove extra fields

In [14]:
p207.drop(['نام خودرو'], axis=1, inplace=True)

In [15]:
p207

Unnamed: 0,سال تولید,مدل,کارکرد,گیربکس,رنگ,قیمت
0,1401,MC,0,اتوماتیک,سفید,705000000
1,1401,Normal,0,دنده ای,سفید,590000000
2,1397,TU5,40000,اتوماتیک,مشکی,615000000
3,1401,PAN,24500,دنده ای,سفید,625000000
4,1400,TU5 PAN,22800,اتوماتیک,سفید,735000000
...,...,...,...,...,...,...
209,1398,TU5,62000,اتوماتیک,مشکی,600000000
210,1401,PAN,0,دنده ای,مشکی,660000000
211,1401,PAN,0,دنده ای,سفید,650000000
212,1401,Normal,0,دنده ای,سفید,575000000


## One-hot fields

In [16]:
def make_one_hot(data, field):
    temp = pd.get_dummies(data[field], prefix=field)
    data.drop(field, axis=1, inplace=True)
    return pd.concat([data, temp], axis=1)

In [17]:
p207 = make_one_hot(p207, 'مدل')
p207 = make_one_hot(p207, 'گیربکس')
p207 = make_one_hot(p207, 'رنگ')

In [18]:
p207

Unnamed: 0,سال تولید,کارکرد,قیمت,مدل_MC,مدل_Normal,مدل_PAN,مدل_TU5,مدل_TU5 PAN,گیربکس_اتوماتیک,گیربکس_دنده ای,رنگ_سفید,رنگ_مشکی
0,1401,0,705000000,1,0,0,0,0,1,0,1,0
1,1401,0,590000000,0,1,0,0,0,0,1,1,0
2,1397,40000,615000000,0,0,0,1,0,1,0,0,1
3,1401,24500,625000000,0,0,1,0,0,0,1,1,0
4,1400,22800,735000000,0,0,0,0,1,1,0,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...
209,1398,62000,600000000,0,0,0,1,0,1,0,0,1
210,1401,0,660000000,0,0,1,0,0,0,1,0,1
211,1401,0,650000000,0,0,1,0,0,0,1,1,0
212,1401,0,575000000,0,1,0,0,0,0,1,1,0


## Remove the label

In [19]:
labels = p207['قیمت']
p207.drop(['قیمت'], axis=1, inplace=True)

## Separating data into train and test sections

In [20]:
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(p207, labels, test_size=0.1, shuffle=True)

## Model making

In [21]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error

p207_model = LinearRegression()
p207_model.fit(x_train, y_train)
prediction = p207_model.predict(x_test)

error = int(mean_absolute_error(y_test, prediction))
print(f'{error:,} MT')

10,718,500 MT


## Save the model

In [22]:
import pickle
pickle.dump(p207_model, open('p207_model.sav', 'wb'))