## Import libraries

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## Read data from file csv

In [None]:
data = pd.read_csv('Data/BonBanh.csv')
data

## Preprocessing

#### Change value *Xe mới* in into *0 km* and remove *km* in other values in **Số km đã đi** column

In [None]:
data['Số km đã đi'] = data['Số km đã đi'].replace('Xe mới', '0 Km')
data['Số km đã đi'] = data['Số km đã đi'].str.replace('Km', '')
def change_to_int(so_km):
    km = 0
    so_km = [int(x) for x in so_km.split(',')]
    n = len(so_km)
    for i in range(n):
        km += 1000**(n-i-1)*so_km[i] 
    return km
data['Số km đã đi'] = data['Số km đã đi'].apply(change_to_int)
data['Số km đã đi'] = data['Số km đã đi'].astype('int64')

#### Split **Tên xe** column into **Hãng xe** column and **Dòng xe** column

In [None]:
data['Tên xe'] = data['Tên xe'].str.replace('Xe ', '')
check =  lambda x : ' '.join(x.split()[:1]) if x.split()[0] != "Mercedes" else ' '.join(x.split()[:2])
cartype = data['Tên xe'].apply(check)
data['Hãng xe'] = cartype

In [None]:
#remove 2 first words from Tên xe column if the first word is not Merceides else take 1 word
data['Tên xe'] = data['Tên xe'].apply(lambda x : ' '.join(x.split()[1:]) if x.split()[0] != "Mercedes" else ' '.join(x.split()[2:]))

In [None]:
classcheck = lambda x: ' ' if x == '' else (' '.join(x.split()[:2]) if (x.split()[0] == "4" or x.split()[0]=="Range Rover" or x.split()[0]=="Lux" or x.split()[0]== "Range" ) else ' '.join(x.split()[:1]))
series = data['Tên xe'].apply(classcheck)
data['Series'] = series

In [None]:
data = data.drop('Tên xe', axis=1)

#### Split **Động cơ** column into **Dung tích** column and **Loại nhiên liệu** column

In [None]:
data['Dung tich'] = data['Động cơ'].str.extract(r'(\d\.\d)')
data['Loại nhiên liệu'] = data['Động cơ'].str.extract(r'(Xăng|Dầu|Hybrid|Điện)')

In [None]:
data['Dung tich'] = data['Dung tich'].fillna(0)
data = data.drop('Động cơ', axis=1)

#### Remove *Chỗ* in all values in **Số chỗ ngồi** column

In [None]:
#remove "cho" from So cho ngoi column
data['Số chỗ ngồi'] = data['Số chỗ ngồi'].str.replace('chỗ', '')
data['Số chỗ ngồi'] = data['Số chỗ ngồi'].astype('int64')

#### Take the first word in all value **Dẫn động**

In [None]:
data['Dẫn động'] = data['Dẫn động'].apply(lambda x: x.split()[0])

#### Change value in **Giá xe** column into *Triệu* unit

In [None]:
def convert_price(price):
    price = price.split(" ")[:-1]
    if len(price) == 3:
        return int(price[0])*1000 + int(price[2])
    return int(price[0])
data['Giá xe'] = data['Giá xe'].apply(convert_price)

## Exploratory and Data Analynist

In [None]:
data.nunique()

In [None]:

numerical_cols = []
categorical_cols = []
for col in data.columns:
    if len(data[col].unique()) < 6:
        categorical_cols.append(col)
    else:
        numerical_cols.append(col)
print(numerical_cols)
print(categorical_cols)


In [None]:
for col in numerical_cols:
    if data[col].dtypes == 'int64':
        print(col)

In [None]:
#see datatype of each column
data.dtypes

In [None]:
#draw box plot for each column
for col in data.columns: 
    plt.figure()
    sns.boxplot(x=data[col])


## Data Vizualization

In [None]:
plt.figure(figsize=(10,6))
plt.title('Car price distribution')
plt.hist(data_origin['Giá xe'], bins=200)
plt.show()

In [None]:
plt.figure(figsize=(10,6))
plt.title('Car year distribution')
plt.hist(data_origin['Năm sản xuất'], bins=50)
plt.show()