In [1]:
# Import packages 
import warnings
warnings.filterwarnings('ignore')
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import statsmodels.api as sm
import numpy as np
from sklearn.linear_model import LinearRegression
sns.set()

# Set global options 
pd.options.display.max_rows = 50
pd.options.display.max_columns = 100
plt.style.use("seaborn-whitegrid")
sns.set_color_codes("muted")

In [2]:
df= pd.read_excel('dataset_giaxemaycu.xlsx')

## Tổng quan dữ liệu

In [3]:
# Xem số dòng, số cột
df.shape

(219, 17)

In [4]:
# Xem một số dòng đầu 
df.head()

Unnamed: 0,Hãng xe,Trọng lượng,Mã lực,Màu xe,Năm sản xuất,Dòng xe,Loại xe,Tên xe,Giá bán,Năm đăng ký,Tình trạng,Dung Tích,Xuất xứ,Số km đã đi,Chính sách bảo hành,Giấy tờ,Địa chỉ người bán
0,Yamaha,117,15.4,Đỏ,2018,Exciter,Côn tay,Yamaha Exciter 2018,16800000,2018,0.7,150,Việt Nam,30000,Hãng,Chính chủ,Bình Dương
1,Honda,110,11.6,Xanh,2018,Air Blade,Tay ga,Honda Air Blade 2018,26500000,2018,0.6,125,Nhật Bản,7979,Hãng,Chính chủ,Đắk Lắk
2,Yamaha,99,8.8,Đen,2018,Sirius,Xe số,Yamaha Sirius 2018,9800000,2018,0.6,115,Việt Nam,20000,Hãng,Chính chủ,Cần Thơ
3,Yamaha,99,8.1,Xanh,2016,Grande,Tay ga,Yamaha Grande 2016,19500000,2016,0.6,125,Việt Nam,20000,Hãng,Chính chủ,Hà Nội
4,Honda,97,8.8,Trắng,2020,Vision,Tay ga,Honda Vision Smarkey 2020,25500000,2020,0.85,110,Việt Nam,10000,Hãng,Chính chủ,Hà Nội


In [5]:
# Xem một số dòng cuối để chắc rằng dữ liệu là đồng nhấu 
df.tail(4)

Unnamed: 0,Hãng xe,Trọng lượng,Mã lực,Màu xe,Năm sản xuất,Dòng xe,Loại xe,Tên xe,Giá bán,Năm đăng ký,Tình trạng,Dung Tích,Xuất xứ,Số km đã đi,Chính sách bảo hành,Giấy tờ,Địa chỉ người bán
215,Yamaha,116,15.4,Xám,2022,NVX,Tay ga,Yamaha NVX 155,38800000,2022,0.8,155.0,Nhật Bản,2300,Hãng,Chính chủ,Hà Nội
216,Honda,130,14.4,Vàng,2015,PCX,Tay ga,Honda PCX 150,21500000,2015,0.6,157.0,Việt Nam,76000,Hết thời hạn,Chính chủ,Đà Nẵng
217,Honda,96,8.8,Đỏ,2022,Vision,Tay ga,Honda Vision 2022,30500000,2022,0.85,110.0,Nhật Bản,4000,Hãng,Chính chủ,Đà Nẵng
218,Piaggio,116,11.7,Trắng,2015,Liberty,Tay ga,Piaggio Liberty 2015,5800000,2015,0.8,124.5,Việt Nam,20000,Hết thời hạn,Không chính chủ,Hà Nội


In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 219 entries, 0 to 218
Data columns (total 17 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   Hãng xe              219 non-null    object
 1   Trọng lượng          219 non-null    object
 2   Mã lực               219 non-null    object
 3   Màu xe               219 non-null    object
 4   Năm sản xuất         219 non-null    int64 
 5   Dòng xe              219 non-null    object
 6   Loại xe              219 non-null    object
 7   Tên xe               219 non-null    object
 8   Giá bán              219 non-null    int64 
 9   Năm đăng ký          219 non-null    int64 
 10  Tình trạng           219 non-null    object
 11  Dung Tích            219 non-null    object
 12  Xuất xứ              219 non-null    object
 13  Số km đã đi          219 non-null    object
 14  Chính sách bảo hành  219 non-null    object
 15  Giấy tờ            219 non-null    object
 16  Địa chỉ 

** COMMENT **
- Dataset về xe máy cũ
- Gồm 219 rows và 17 columns
- 

# 1. Tiền xử lý dữ liệu

#### Chuẩn hóa tên cột 
    - Viết thường
    - Thay thế khoảng trắng bằng dấu _

In [7]:
# View column's names
df.columns.to_list()

['Hãng xe',
 'Trọng lượng',
 'Mã lực',
 'Màu xe',
 'Năm sản xuất',
 'Dòng xe',
 'Loại xe',
 'Tên xe',
 'Giá bán',
 'Năm đăng ký',
 'Tình trạng',
 'Dung Tích',
 'Xuất xứ',
 'Số km đã đi',
 'Chính sách bảo hành',
 'Giấy tờ',
 'Địa chỉ người bán']

In [8]:
import re

#Standardize column names 
df.columns = [re.sub("[ -]", "_", c).lower().strip() for c in df.columns]

In [9]:
# Check result
df.head()

Unnamed: 0,hãng_xe,trọng_lượng,mã_lực,màu_xe,năm_sản_xuất,dòng_xe,loại_xe,tên_xe,giá_bán,năm_đăng_ký,tình_trạng,dung_tích,xuất_xứ,số_km_đã_đi,chính_sách_bảo_hành,giấy_tờ,địa_chỉ_người_bán
0,Yamaha,117,15.4,Đỏ,2018,Exciter,Côn tay,Yamaha Exciter 2018,16800000,2018,0.7,150,Việt Nam,30000,Hãng,Chính chủ,Bình Dương
1,Honda,110,11.6,Xanh,2018,Air Blade,Tay ga,Honda Air Blade 2018,26500000,2018,0.6,125,Nhật Bản,7979,Hãng,Chính chủ,Đắk Lắk
2,Yamaha,99,8.8,Đen,2018,Sirius,Xe số,Yamaha Sirius 2018,9800000,2018,0.6,115,Việt Nam,20000,Hãng,Chính chủ,Cần Thơ
3,Yamaha,99,8.1,Xanh,2016,Grande,Tay ga,Yamaha Grande 2016,19500000,2016,0.6,125,Việt Nam,20000,Hãng,Chính chủ,Hà Nội
4,Honda,97,8.8,Trắng,2020,Vision,Tay ga,Honda Vision Smarkey 2020,25500000,2020,0.85,110,Việt Nam,10000,Hãng,Chính chủ,Hà Nội


In [10]:
# Chuẩn hóa lại cột giá bán để dễ đọc
df['giá_bán'] = df['giá_bán'] / 1000000  # Chia cho 1 000 000 để đổi đơn vị ( ví dụ 16 800 000 thành 16.8)

In [11]:
#Check
df.head()

Unnamed: 0,hãng_xe,trọng_lượng,mã_lực,màu_xe,năm_sản_xuất,dòng_xe,loại_xe,tên_xe,giá_bán,năm_đăng_ký,tình_trạng,dung_tích,xuất_xứ,số_km_đã_đi,chính_sách_bảo_hành,giấy_tờ,địa_chỉ_người_bán
0,Yamaha,117,15.4,Đỏ,2018,Exciter,Côn tay,Yamaha Exciter 2018,16.8,2018,0.7,150,Việt Nam,30000,Hãng,Chính chủ,Bình Dương
1,Honda,110,11.6,Xanh,2018,Air Blade,Tay ga,Honda Air Blade 2018,26.5,2018,0.6,125,Nhật Bản,7979,Hãng,Chính chủ,Đắk Lắk
2,Yamaha,99,8.8,Đen,2018,Sirius,Xe số,Yamaha Sirius 2018,9.8,2018,0.6,115,Việt Nam,20000,Hãng,Chính chủ,Cần Thơ
3,Yamaha,99,8.1,Xanh,2016,Grande,Tay ga,Yamaha Grande 2016,19.5,2016,0.6,125,Việt Nam,20000,Hãng,Chính chủ,Hà Nội
4,Honda,97,8.8,Trắng,2020,Vision,Tay ga,Honda Vision Smarkey 2020,25.5,2020,0.85,110,Việt Nam,10000,Hãng,Chính chủ,Hà Nội


#### Check data quality

In [12]:
# Replace '?' thành NaN
df = df.replace('?', np.nan)

In [13]:
# Checking missing data
missing_data = df.isnull().sum()
print(missing_data)

hãng_xe                 0
trọng_lượng             2
mã_lực                  8
màu_xe                  0
năm_sản_xuất            0
dòng_xe                 1
loại_xe                 0
tên_xe                  0
giá_bán                 0
năm_đăng_ký             0
tình_trạng              2
dung_tích               3
xuất_xứ                29
số_km_đã_đi             6
chính_sách_bảo_hành     1
giấy_tờ               6
địa_chỉ_người_bán       0
dtype: int64


In [14]:
# % giá trị bị thiếu
missing_percentage = (df.isnull().sum() / len(df)) * 100
print(missing_percentage)

hãng_xe                 0.000000
trọng_lượng             0.913242
mã_lực                  3.652968
màu_xe                  0.000000
năm_sản_xuất            0.000000
dòng_xe                 0.456621
loại_xe                 0.000000
tên_xe                  0.000000
giá_bán                 0.000000
năm_đăng_ký             0.000000
tình_trạng              0.913242
dung_tích               1.369863
xuất_xứ                13.242009
số_km_đã_đi             2.739726
chính_sách_bảo_hành     0.456621
giấy_tờ               2.739726
địa_chỉ_người_bán       0.000000
dtype: float64


In [15]:
# Chuyển đổi thành numeric cho một số cột
df['số_km_đã_đi'] = pd.to_numeric(df['số_km_đã_đi'])
df['dung_tích'] = pd.to_numeric(df['dung_tích'])
df['mã_lực'] = pd.to_numeric(df['mã_lực'])
df['trọng_lượng'] = pd.to_numeric(df['trọng_lượng'])

ValueError: Unable to parse string "123,94" at position 87

In [18]:
# Thay thế giá trị thiếu trong bằng giá trị trung bình
df['column_name'] = df['column_name'].fillna(df['column_name'].mean())

KeyError: 'column_name'

In [None]:
# Check data types


# 2. Thống kê mô tả
    * summaries of important locations
    - min, max
    - mean, median, mode
    - quantile, percentile
    * sumaries of variation: varience, standard deviation
    * other: sum, kurtosis, skewness

# 3. EDA và Visualization