In [54]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [55]:
def load_data():
    train_df = pd.read_csv('train.csv')
    test_df = pd.read_csv('test.csv')
    return train_df, test_df

In [56]:
train_df, test_df = load_data()

In [57]:
train_df.head()

Unnamed: 0,price,desc,ad_id,location,timestamp,mileage,brand,model,year,fuel,transmission,color,car_type
0,569000,"""เลขไมล์5,700กิโลแท้ 1.3 SP โฉมปัจจุบัน รถ2เดื...",354186401,กรุงเทพมหานคร,1584521455,5700,Mazda,Mazda2 Sport,2020,เบนซิน,เกียร์อัตโนมัติ,เทา,รถเก๋ง
1,1150000,ขาย Chevrolet c10 ปี 1965 รถแท้ ขับขวา พร้อมโอ...,356227846,กรุงเทพมหานคร,1591021387,1234,Chevrolet,รุ่นอื่นๆ,1965,เบนซิน,เกียร์อัตโนมัติ,แดง,รถอื่น ๆ
2,799000,📢มาแว้วว... ลค.ที่ชอบรถสีขาว​ ใสๆเลย\nใครเร็วก...,356055202,นนทบุรี,1590502642,100000,Mitsubishi,Pajero Sport,2016,ดีเซล,เกียร์อัตโนมัติ,ขาว,รถ MPV / SUV
3,429000,รหัส 130/v36\n2010 toyota CAMRY 2.4 hybrid nav...,356169430,กรุงเทพมหานคร,1590844871,184921,Toyota,Camry,2010,ไฮบริด,เกียร์อัตโนมัติ,ดำ,รถเก๋ง
4,268000,เครื่อง 1.2 E โฉมไฟใหม่ พ.พาวเวอร์ ก.ไฟฟ้า ซทล...,354415016,กรุงเทพมหานคร,1585546785,103000,Nissan,Almera,2016,เบนซิน,เกียร์อัตโนมัติ,ขาว,รถเก๋ง


In [58]:
test_df.head()

Unnamed: 0,price,desc,ad_id,location,timestamp,mileage,brand,model,year,fuel,transmission,color,car_type
0,549000,"Option: เครื่องเล่น CD, USB, กระจกไฟฟ้า, เซ็นท...",354696215,นนทบุรี,1586421506,31200.0,Ford,Ranger,2017,ดีเซล,เกียร์อัตโนมัติ,ดำ,รถกระบะ
1,358000,ขายรถบ้าน 2006 ISUZU MU-7 แรงๆๆ (เงินสดลดได้)\...,354237756,สมุทรปราการ,1584748598,267000.0,Isuzu,MU-7,2006,ดีเซล,เกียร์อัตโนมัติ,บรอนซ์เงิน,รถ MPV / SUV
2,529000,🔥แคปเปิดได้ 🔥รุ่นใหม่ล่าสุด 🔥แรง ประหยัด เครื่...,352545121,กรุงเทพมหานคร,1577353632,8.0,Toyota,Hilux Revo,2019,ดีเซล,เกียร์ธรรมดา,ขาว,รถกระบะ
3,1135000,TOYOTA NEW FORTUNER 2.8 V 4WD SUV AUTO ปี 2015...,356194406,เชียงใหม่,1590918420,100000.0,Toyota,Fortuner,2015,ดีเซล,เกียร์อัตโนมัติ,ขาว,รถ MPV / SUV
4,469000,💢 ออกรถ 999 บ. 💢\n#ฟรี#ออกรถพร้อมประกันตัวรถ 1...,355315874,นนทบุรี,1588235606,,Toyota,Hilux Vigo,2015,ดีเซล,เกียร์ธรรมดา,เทา,รถกระบะ


In [59]:
train_df.isna().sum()

price              0
desc             171
ad_id              0
location           0
timestamp          0
mileage         1662
brand              0
model              0
year               0
fuel               0
transmission     213
color            255
car_type           0
dtype: int64

In [60]:
test_df.isna().sum()

price             0
desc             43
ad_id             0
location          0
timestamp         0
mileage         416
brand             0
model             0
year              0
fuel              0
transmission     54
color            69
car_type          0
dtype: int64

# Feature Engineering

In [61]:
def fill_na(df):
    fill_df = df.copy()
    fill_df['desc'] = fill_df['desc'].fillna('')
    fill_df['mileage'] = fill_df['mileage'].fillna(-1)
    fill_df['transmission'] = fill_df['transmission'].fillna('no data')
    fill_df['color'] = fill_df['color'].fillna('no data')
    return fill_df

In [62]:
train_df_filled = fill_na(train_df)
test_df_filled = fill_na(test_df)

In [63]:
def extract_data(df):
    feat = df.copy()
    
    def fix_mileage(x):
        try:
            x = int(x)
        except:
            x = -1
        return x
    feat['mileage'] = feat['mileage'].apply(lambda x: fix_mileage(x))
    
    return feat

In [64]:
train_data = extract_data(train_df_filled)
test_data = extract_data(test_df_filled)

In [65]:
def drop_columns(df, drop_col):
    drop_feat = df.copy()
    drop_feat = drop_feat.drop(drop_col, axis=1)
    return drop_feat

In [66]:
drop_col = ['desc','ad_id','timestamp','location','model','year','fuel','color']
train_data_dropped = drop_columns(train_data, drop_col)
test_data_dropped = drop_columns(test_data, drop_col)

In [67]:
train_data_dropped

Unnamed: 0,price,mileage,brand,transmission,car_type
0,569000,5700,Mazda,เกียร์อัตโนมัติ,รถเก๋ง
1,1150000,1234,Chevrolet,เกียร์อัตโนมัติ,รถอื่น ๆ
2,799000,100000,Mitsubishi,เกียร์อัตโนมัติ,รถ MPV / SUV
3,429000,184921,Toyota,เกียร์อัตโนมัติ,รถเก๋ง
4,268000,103000,Nissan,เกียร์อัตโนมัติ,รถเก๋ง
...,...,...,...,...,...
7098,1990000,-1,Mercedes-Benz,เกียร์อัตโนมัติ,รถเก๋ง
7099,299000,169376,Mitsubishi,เกียร์ธรรมดา,รถกระบะ
7100,1290000,89000,BMW,เกียร์อัตโนมัติ,รถ MPV / SUV
7101,479000,-1,Honda,เกียร์อัตโนมัติ,รถ MPV / SUV


In [70]:
def extract_feature(df):
    feat = df.copy()
    numeric_feature = ['mileage']
    catogorical_feature = ['brand','transmission','car_type']
    feat = pd.get_dummies(feat, columns=catogorical_feature)
    return feat 

In [71]:
train_feature = extract_feature(train_data_dropped)
test_feature = extract_feature(test_data_dropped)

In [72]:
train_feature

Unnamed: 0,price,mileage,brand_Audi,brand_BMW,brand_Chevrolet,brand_Ford,brand_Honda,brand_Hyundai,brand_Isuzu,brand_Jeep,...,brand_Volvo,brand_ยี่ห้ออื่นๆ,transmission_no data,transmission_เกียร์ธรรมดา,transmission_เกียร์อัตโนมัติ,car_type_รถ MPV / SUV,car_type_รถกระบะ,car_type_รถตู้,car_type_รถอื่น ๆ,car_type_รถเก๋ง
0,569000,5700,0,0,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,1
1,1150000,1234,0,0,1,0,0,0,0,0,...,0,0,0,0,1,0,0,0,1,0
2,799000,100000,0,0,0,0,0,0,0,0,...,0,0,0,0,1,1,0,0,0,0
3,429000,184921,0,0,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,1
4,268000,103000,0,0,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7098,1990000,-1,0,0,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,1
7099,299000,169376,0,0,0,0,0,0,0,0,...,0,0,0,1,0,0,1,0,0,0
7100,1290000,89000,0,1,0,0,0,0,0,0,...,0,0,0,0,1,1,0,0,0,0
7101,479000,-1,0,0,0,0,1,0,0,0,...,0,0,0,0,1,1,0,0,0,0
