In [1]:
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns # seaborn là thư viện được xây trên matplotlib, giúp việc visualization đỡ khổ hơn
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.pipeline import Pipeline, make_pipeline
from sklearn.compose import ColumnTransformer, make_column_transformer
from sklearn.neural_network import MLPClassifier

In [2]:
cars_df = pd.read_csv("cars_dataset.csv", sep = "\t", encoding='utf-8')

In [79]:
#cars_df.info()

## Preprocessing data from raw 

In [4]:
num_cols = ['price', 'length', 'height', 'width', 'weight', 'weightTotal', 'emissionsCO2', 'numberOfAxles',
            'numberOfDoors', 'numberOfForwardGears', 'seatingCapacity', 'cargoVolume', 'roofLoad', 
            'accelerationTime', 'fuelCapacity', 'fuelConsumption', 'speed', 'payload', 'trailerWeight', 
            'vEengineDisplacement', 'vEenginePower', 'torque']

In [5]:
cat_cols = []
for col in cars_df.columns:
    if not (col in num_cols):
        cat_cols.append(col)

In [6]:
print(len(num_cols), len(cat_cols))
print(num_cols, '\n', cat_cols)

22 12
['price', 'length', 'height', 'width', 'weight', 'weightTotal', 'emissionsCO2', 'numberOfAxles', 'numberOfDoors', 'numberOfForwardGears', 'seatingCapacity', 'cargoVolume', 'roofLoad', 'accelerationTime', 'fuelCapacity', 'fuelConsumption', 'speed', 'payload', 'trailerWeight', 'vEengineDisplacement', 'vEenginePower', 'torque'] 
 ['url', 'name', 'model', 'brand', 'eLabel', 'bodyType', 'modelDate', 'fuelType', 'vehicleTransmission', 'driveWheelConfiguration', 'vEengineType', 'vEfuelType']


## Xử lý các cột dữ liệu số

In [7]:
# copy ra df để xư lý
df = cars_df.copy()

In [8]:
# Loại bỏ các cột không liên quan
#df.drop(['url', 'name', 'model'], axis=1, inplace=True)

In [10]:
# fucntion convert cac thuoc tinh khac
def cvtFloat(x):
    if type(x) == str:
        temp = x.replace(',', '.').split()[0]
    else:
        temp = x
    val = None
    try:
        val = float(temp)
    except ValueError:
        return val
    return val

In [11]:
for el in num_cols:
    if el != 'cargoVolume':
        print(el)
        df[el] = df[el].apply(cvtFloat)

price
length
height
width
weight
weightTotal
emissionsCO2
numberOfAxles
numberOfDoors
numberOfForwardGears
seatingCapacity
roofLoad
accelerationTime
fuelCapacity
fuelConsumption
speed
payload
trailerWeight
vEengineDisplacement
vEenginePower
torque


In [12]:
# Hàm xử lý riêng cho cargoVolume
def cvtFloat_cargoVolume(x):
    temp = x.split()[0]
    temp = temp.replace('-', ' ')
    temp = temp.split()
    if len(temp) > 0:
        temp = temp[-1]
    else:
        temp = x
    val = None
    try:
        val = float(temp)
    except ValueError:
        return val
    return val

In [13]:
df['cargoVolume'] = df['cargoVolume'].apply(cvtFloat_cargoVolume)

In [72]:
df[num_cols].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 84174 entries, 0 to 84173
Data columns (total 22 columns):
price                   83989 non-null float64
length                  84119 non-null float64
height                  84066 non-null float64
width                   84111 non-null float64
weight                  83795 non-null float64
weightTotal             83795 non-null float64
emissionsCO2            68428 non-null float64
numberOfAxles           84174 non-null float64
numberOfDoors           84174 non-null float64
numberOfForwardGears    82037 non-null float64
seatingCapacity         82228 non-null float64
cargoVolume             82921 non-null float64
roofLoad                70042 non-null float64
accelerationTime        81646 non-null float64
fuelCapacity            83966 non-null float64
fuelConsumption         82853 non-null float64
speed                   83242 non-null float64
payload                 82819 non-null float64
trailerWeight           79262 non-null float6

## Xử lý các cột dữ liệu categorize

In [19]:
for cat in cat_cols[:]:
    print(cat, len(cars_df[cat].unique()))

url 84173
name 44332
model 1678
brand 89
eLabel 9
bodyType 11
modelDate 52
fuelType 11
vehicleTransmission 1
driveWheelConfiguration 6
vEengineType 4
vEfuelType 11


* Có thể loại bỏ cột vehicleTransmission vì chỉ có 1 giá trị, không có ý nghĩa trong việc học.
* Cột fuelType và vEfuelType là giống nhau (do quá trình crawl nhóm không để ý), có thể drop cột fuelType.
* Các cột url, name, model có nhiều ý nghĩa, nên có thể loại bỏ.
* brand có thể xét vì có tới 89 giá trị (có khả năng sẽ có ý nghĩa với các brand có giá trị cao), modelDate cần xem xét.

**=> Số cột còn lại là: eLabel (9), bodyType (11), driveWheelConfiguration (6), vEengineType (4), vEfuelType (11).**

In [76]:
# chuẩn hóa cột modelDate
def norm_modelDate(x):
    if (x == 0):
        return None
    else:
        return str(x)
df['modelDate'] = df['modelDate'].apply(norm_modelDate)
df['modelDate'].unique()

array(['1999', '2018', '2019', '2015', '2016', '2017', '1991', '1995',
       '1984', '2009', '2012', '2011', '2010', '1979', '1980', '2001',
       '2004', '2003', '2002', '1994', '1981', '2007', '2008', '1983',
       '1982', '2005', '2006', '1998', '1993', '1990', '1985', '1986',
       '2013', '2014', '1997', None, '1996', '1988', '1992', '1987',
       '1989', '2000', '1976', '1978', '1977', '1972', '1975', '1974',
       '1973', '1970', '1971', '1969'], dtype=object)

In [39]:
df['driveWheelConfiguration'].unique()

array(['front+rear', 'front', 'rear', 'voor', 'voor+achter', 'achter'],
      dtype=object)

In [48]:
#df[['price', 'driveWheelConfiguration']].groupby('driveWheelConfiguration').mean()

In [35]:
df['bodyType'].unique()

array(['hatchback', 'stationwagon', 'suv/crossover', 'sedan', 'cabriolet',
       'coupe', 'mpv', 'van', nan, 'bus', 'pick-up'], dtype=object)

In [37]:
df['eLabel'].unique()

array(['G', 'C', 'E', 'D', 'B', 'F', 'N.A.', '-', 'A'], dtype=object)

In [50]:
df['vEengineType'].unique()

array(['dohc', 'ohc', 'ohv', nan], dtype=object)

In [52]:
df['vEfuelType'].unique()

array(['petrol', 'diesel', 'LPG', 'benzine', 'bio-ethanol', 'natural gas',
       nan, 'LPG / petrol', 'aardgas', 'aardgas / petrol',
       'petrol / bio-ethanol'], dtype=object)

* Cột driveWheelConfiguration không có giá trị lỗi ('N.A.', '-', ...)
* Các cột bodyType, vEengineType, vEfuelType có chứa nan (đã được xử lý).
* Cột eLabel có chứa các giá trị lỗi, cần được chuẩn hóa. Sau khi chuẩn hóa, dòng thiếu dữ liệu quá nhiều nên cần loại bỏ khi qua bước xử lý.

In [67]:
def norm_eLabel(x):
    if (x == 'N.A.' or x == '-'):
        return None
    else:
        return x

In [68]:
df['eLabel'] = df['eLabel'].apply(norm_eLabel)

In [77]:
df[cat_cols].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 84174 entries, 0 to 84173
Data columns (total 12 columns):
url                        84174 non-null object
name                       84174 non-null object
model                      84174 non-null object
brand                      84174 non-null object
eLabel                     68428 non-null object
bodyType                   83418 non-null object
modelDate                  83418 non-null object
fuelType                   83999 non-null object
vehicleTransmission        84174 non-null object
driveWheelConfiguration    84174 non-null object
vEengineType               84001 non-null object
vEfuelType                 83999 non-null object
dtypes: object(12)
memory usage: 7.7+ MB


### Lưu ra file để tiện xử lý

In [78]:
df.to_csv("cars_preprocessed_undrop.csv", sep = "\t", index=False, encoding='utf-8')