# Pre-processing data and create model for Peugeot 206

## Importing packages

In [1]:
import os
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

## Reading dataset

In [2]:
p206 = pd.read_csv(f"{'/'.join(os.getcwd().split('/')[:-2])}/datasets/p206.csv")

In [3]:
p206

Unnamed: 0,0,1,2,3,4,5,6
0,پژو،,1401,تیپ 2-206,کارکرد صفر,دنده ای,سفید,483000000
1,پژو،,1391,تیپ 2-206,"108,000 کیلومتر",دنده ای,سفید,260000000
2,پژو،,1393,تیپ 5-206,"133,100 کیلومتر",دنده ای,سفید,345000000
3,پژو،,1398,تیپ 5-206,"38,000 کیلومتر",دنده ای,خاکستری,465000000
4,پژو،,1396,تیپ 2-206,"210,000 کیلومتر",دنده ای,سفید,339500000
...,...,...,...,...,...,...,...
495,پژو،,1394,تیپ 5-206,"93,000 کیلومتر",دنده ای,آبی,355000000
496,پژو،,1398,تیپ 2-206,"44,000 کیلومتر",دنده ای,نوک مدادی,389500000
497,پژو،,1399,تیپ 2-206,کارکرد صفر,دنده ای,سفید,435000000
498,پژو،,1397,تیپ 5-206,"72,000 کیلومتر",دنده ای,خاکستری,430000000


## Change columns name

In [4]:
def edit_cols_name(df):
    df.rename(columns={'0': 'نام خودرو'}, inplace=True)
    df.rename(columns={'1': 'سال تولید'}, inplace=True)
    df.rename(columns={'2': 'مدل'}, inplace=True)
    df.rename(columns={'3': 'کارکرد'}, inplace=True)
    df.rename(columns={'4': 'گیربکس'}, inplace=True)
    df.rename(columns={'5': 'رنگ'}, inplace=True)
    df.rename(columns={'6': 'قیمت'}, inplace=True)
    
edit_cols_name(p206)

## Convert km to standard mode

In [5]:
def fix_km(df):
    for index in range(len(df['کارکرد'])):
        if df['کارکرد'][index].strip() == 'کارکرد صفر':
            df['کارکرد'][index] = 0
        elif 'کیلومتر' in df['کارکرد'][index]:
            df['کارکرد'][index] = int(df['کارکرد'][index].split()[0].replace(',', ''))
                   
fix_km(p206)

## Convert price to standard mode

In [6]:
for i in range(len(p206)):
    p206['قیمت'][i] = p206['قیمت'][i].replace(',', '')
    p206['قیمت'][i] = int(p206['قیمت'][i])

## Check different car models and organize them

In [7]:
p206['مدل'].value_counts()

تیپ 2-206             327
تیپ 5-206             107
تیپ 3 پانوراما-206     60
تیپ 6-206               6
Name: مدل, dtype: int64

In [8]:
for i in range(len(p206)):
    p206['نام خودرو'][i] = '206'
    p206['مدل'][i] = p206['مدل'][i].split('-')[0]
    
p206.drop(p206[p206['مدل'] == 'تیپ 6'].index, axis=0, inplace=True)

In [9]:
p206['مدل'].value_counts()

تیپ 2             327
تیپ 5             107
تیپ 3 پانوراما     60
Name: مدل, dtype: int64

## Delete the especially missing value

In [10]:
p206.drop(p206[p206['کارکرد'] == 'کارکرده'].index, axis=0, inplace=True)

## Check different car colors and organize them

In [11]:
p206['رنگ'].value_counts()

سفید         391
خاکستری       41
مشکی          20
آبی           10
نوک مدادی      9
نقره ای        8
قرمز           7
گیلاسی         3
بادمجانی       1
Name: رنگ, dtype: int64

In [12]:
p206.drop(p206[p206['رنگ'] == 'بادمجانی'].index, axis=0, inplace=True)
p206.drop(p206[p206['رنگ'] == 'گیلاسی'].index, axis=0, inplace=True)
p206.drop(p206[p206['رنگ'] == 'قرمز'].index, axis=0, inplace=True)
p206.drop(p206[p206['رنگ'] == 'نقره ای'].index, axis=0, inplace=True)
p206.drop(p206[p206['رنگ'] == 'نوک مدادی'].index, axis=0, inplace=True)

In [13]:
p206['رنگ'].value_counts()

سفید       391
خاکستری     41
مشکی        20
آبی         10
Name: رنگ, dtype: int64

## Remove extra fields

In [14]:
p206.drop(['نام خودرو'], axis=1, inplace=True)

In [15]:
p206

Unnamed: 0,سال تولید,مدل,کارکرد,گیربکس,رنگ,قیمت
0,1401,تیپ 2,0,دنده ای,سفید,483000000
1,1391,تیپ 2,108000,دنده ای,سفید,260000000
2,1393,تیپ 5,133100,دنده ای,سفید,345000000
3,1398,تیپ 5,38000,دنده ای,خاکستری,465000000
4,1396,تیپ 2,210000,دنده ای,سفید,339500000
...,...,...,...,...,...,...
494,1399,تیپ 2,70000,دنده ای,سفید,420000000
495,1394,تیپ 5,93000,دنده ای,آبی,355000000
497,1399,تیپ 2,0,دنده ای,سفید,435000000
498,1397,تیپ 5,72000,دنده ای,خاکستری,430000000


## One-hot fields

In [16]:
def make_one_hot(data, field):
    temp = pd.get_dummies(data[field], prefix=field)
    data.drop(field, axis=1, inplace=True)
    return pd.concat([data, temp], axis=1)

In [17]:
p206 = make_one_hot(p206, 'مدل')
p206 = make_one_hot(p206, 'گیربکس')
p206 = make_one_hot(p206, 'رنگ')

In [18]:
p206

Unnamed: 0,سال تولید,کارکرد,قیمت,مدل_تیپ 2,مدل_تیپ 3 پانوراما,مدل_تیپ 5,گیربکس_دنده ای,رنگ_آبی,رنگ_خاکستری,رنگ_سفید,رنگ_مشکی
0,1401,0,483000000,1,0,0,1,0,0,1,0
1,1391,108000,260000000,1,0,0,1,0,0,1,0
2,1393,133100,345000000,0,0,1,1,0,0,1,0
3,1398,38000,465000000,0,0,1,1,0,1,0,0
4,1396,210000,339500000,1,0,0,1,0,0,1,0
...,...,...,...,...,...,...,...,...,...,...,...
494,1399,70000,420000000,1,0,0,1,0,0,1,0
495,1394,93000,355000000,0,0,1,1,1,0,0,0
497,1399,0,435000000,1,0,0,1,0,0,1,0
498,1397,72000,430000000,0,0,1,1,0,1,0,0


## Remove the label

In [19]:
labels = p206['قیمت']
p206.drop(['قیمت'], axis=1, inplace=True)

## Separating data into train and test sections

In [20]:
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(p206, labels, test_size=0.1, shuffle=True)

## Model making

In [21]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error

p206_model = LinearRegression()
p206_model.fit(x_train, y_train)
prediction = p206_model.predict(x_test)

error = int(mean_absolute_error(y_test, prediction))
print(f'{error:,} MT')

8,607,854 MT


## Save the model

In [22]:
import pickle
pickle.dump(p206_model, open('p206_model.sav', 'wb'))