In [1]:
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.pipeline import Pipeline, make_pipeline
from sklearn.compose import ColumnTransformer, make_column_transformer
from sklearn.neural_network import MLPClassifier
from sklearn import set_config
set_config(display='diagram')

In [2]:
data_df = pd.read_csv('data02.csv')
data_df

Unnamed: 0,Name,Screen,Cpu,Main Camera,Selfie Camera,Rom,Ram,Pin,Price
0,Xiaomi POCO M3 - Chính hãng,"IPS LCD, 6.53"", Full HD+",Snapdragon 662 8 nhân,"Chính 48 MP & Phụ 2 MP, 2 MP",8MP,128/64 GB,4GB,6000mAh,3490000
1,Oppo Reno5 8GB/128GB chính hãng,"6,43 inch, OLED",Qualcomm SM7125 Snapdragon 720G (8 nm),"Chính 64 MP & Phụ 8 MP, 2 MP, 2 MP",44MP,128 GB,8 GB,4.310 mAh + Sạc nhanh 50W,7740000
2,Redmi Note 9 Pro 5G 6Gb/128Gb,,Octa-core (2x2.2 GHz Kryo 570 & 6x1.8 GHz Kryo...,Chính 108MP+8MP+2MP+2MP,16MP,128 GB,6GB,Li-Po 4820 mAh,6390000
3,iPhone SE Cũ 16Gb Nguyên Bản,"IPS LCD, 4.0"", DVGA",Apple A9,12 MP,1.2 MP,16 GB,2 GB,Li-Po 1624 mAh,2190000
4,Oppo A15 3GB/32GB Hàng chính hãng,"IPS LCD, 6.52"", HD+",MediaTek Helio P35 8 nhân,"Chính 13 MP & Phụ 2 MP, 2 MP",5MP,32 GB,3 GB,Li-Po 4230 mAh,3290000
...,...,...,...,...,...,...,...,...,...
1421,Masstel HAPI 10 Fami,"IPS LCD, 5"", HD",MediaTek MT6739 4 nhân,5 MP,5 MP,16 GB,2 GB,2000 mAh,1070000
1422,Itel Alpha Lite,"TFT LCD, 5"", FWVGA",Spreadtrum SC7731E 4 nhân,5 MP,2 MP,8 GB,1 GB,2050 mAh,790000
1423,Masstel X5 Fami,"IPS LCD, 5.45"", HD+",Spreadtrum SC7731E 4 nhân,8 MP,5 MP,8 GB,1 GB,3200 mAh,890000
1424,Mobell P41,"IPS LCD, 5.5"", FWVGA+",MediaTek MT6580A 4 nhân,5 MP,2 MP,8 GB,1 GB,3500 mAh,990000


In [3]:
data_df.Price.isna().sum()

0

In [4]:
data_df.shape

(1426, 9)

### Tách các tập.

In [5]:
# Tách X và y
y = data_df["Price"]
X = data_df.drop("Price", axis=1)

In [6]:
y

0       3490000
1       7740000
2       6390000
3       2190000
4       3290000
         ...   
1421    1070000
1422     790000
1423     890000
1424     990000
1425     590000
Name: Price, Length: 1426, dtype: int64

In [7]:
X

Unnamed: 0,Name,Screen,Cpu,Main Camera,Selfie Camera,Rom,Ram,Pin
0,Xiaomi POCO M3 - Chính hãng,"IPS LCD, 6.53"", Full HD+",Snapdragon 662 8 nhân,"Chính 48 MP & Phụ 2 MP, 2 MP",8MP,128/64 GB,4GB,6000mAh
1,Oppo Reno5 8GB/128GB chính hãng,"6,43 inch, OLED",Qualcomm SM7125 Snapdragon 720G (8 nm),"Chính 64 MP & Phụ 8 MP, 2 MP, 2 MP",44MP,128 GB,8 GB,4.310 mAh + Sạc nhanh 50W
2,Redmi Note 9 Pro 5G 6Gb/128Gb,,Octa-core (2x2.2 GHz Kryo 570 & 6x1.8 GHz Kryo...,Chính 108MP+8MP+2MP+2MP,16MP,128 GB,6GB,Li-Po 4820 mAh
3,iPhone SE Cũ 16Gb Nguyên Bản,"IPS LCD, 4.0"", DVGA",Apple A9,12 MP,1.2 MP,16 GB,2 GB,Li-Po 1624 mAh
4,Oppo A15 3GB/32GB Hàng chính hãng,"IPS LCD, 6.52"", HD+",MediaTek Helio P35 8 nhân,"Chính 13 MP & Phụ 2 MP, 2 MP",5MP,32 GB,3 GB,Li-Po 4230 mAh
...,...,...,...,...,...,...,...,...
1421,Masstel HAPI 10 Fami,"IPS LCD, 5"", HD",MediaTek MT6739 4 nhân,5 MP,5 MP,16 GB,2 GB,2000 mAh
1422,Itel Alpha Lite,"TFT LCD, 5"", FWVGA",Spreadtrum SC7731E 4 nhân,5 MP,2 MP,8 GB,1 GB,2050 mAh
1423,Masstel X5 Fami,"IPS LCD, 5.45"", HD+",Spreadtrum SC7731E 4 nhân,8 MP,5 MP,8 GB,1 GB,3200 mAh
1424,Mobell P41,"IPS LCD, 5.5"", FWVGA+",MediaTek MT6580A 4 nhân,5 MP,2 MP,8 GB,1 GB,3500 mAh


- Tách tập Train, Validation và Test với tỉ lệ 60:20:20

In [8]:
# tách tập train(train và val) và tập test với tỉ lệ 80:20
train_X, test_X, train_y, test_y = train_test_split(X, y, test_size=0.2, random_state=0)

In [9]:
# từ tập train tách ra tập train và tập validation với tỉ lệ 75:25 để ứng với 60:20 ở tập dữ liệu ban đâu.
tr_X, val_X, tr_y, val_y = train_test_split(train_X, train_y, test_size=0.25, random_state=0)

In [10]:
# tập train( dùng để huấn luyện)
tr_X.shape

(855, 8)

In [11]:
val_X.shape

(285, 8)

In [12]:
test_X.shape

(286, 8)

In [13]:
tr_X

Unnamed: 0,Name,Screen,Cpu,Main Camera,Selfie Camera,Rom,Ram,Pin
1265,Vivo V20 (8GB/128GB) Đen,"6.44 """,Qualcomm® Snapdragon™ 720G\t,64MP; 8MP; 2MP,44 MP,8GB,8GB,4000mAh
116,Samsung Galaxy S10 Plus 128Gb Chính Hãng,6.4 inches,Exynos 9820,"Triple: 12 MP, f/1.5-2.4, 26mm (wide), 1/2.55""...",8.0 MP,128 GB,8 GB,Li-Ion 4100 mAh
766,Huawei Honor 4C chính hãng,"IPS LCD, 5.0"", HD",HiSilicon Kirin 620,13 MP,5.0 MP,8 GB,2 GB,Li-Ion 2550 mAh
1015,Nomi 6,"TFT, 5.0"", HD",MediaTek MTK6752,8.0 MP,2.0 MP,16 GB,2 GB,Li-Po 2500 mAh
482,Sony X Performance Likenew,"IPS LCD , 5.0 inches qHD",Qualcomm Snapdragon 820 MSM8996,23 MP,13 MP,32 GB,3 GB,Non-removable Li-Ion 2700 mAh battery
...,...,...,...,...,...,...,...,...
1340,OPPO Reno4 Pro,"AMOLED, 6.5"", Full HD+",Snapdragon 720G 8 nhân,"Chính 48 MP & Phụ 8 MP, 2 MP, 2 MP",32 MP,256 GB,8 GB,"4000 mAh, có sạc nhanh"
454,Samsung Galaxy Note 9 512Gb Chính Hãng,"Super AMOLED, 6.4 inches",Exynos 9810 Octa,"Dual : 12 MP, f/1.5-2.4, 26mm, 1/2.55"", 1.4µm,...","8 MP, f/1.7, 25mm, 1/3.6"", 1.22µm, AF",512 GB,8GB,4000 mAh
573,Xiaomi Mi Note 3 64GB Ram 6GB,"5.5 inches, 83.4 cm2",Qualcomm Snapdragon 660,Dual 12 MP,16 MP,64 GB,6 GB,Li-Ion 3500 mAh
1076,Xiaomi Redmi Note 8 Chính Hãng Ram 4GB / 128GB,"6,39 inches, IPS LCD",Qualcomm SDM665 Snapdragon 665,Quad : 48 + 8 + 2 + 2 ( MP ),13 MP,128 GB,4 GB,4000 mAh


### Quan sát dữ liệu từ tập tr_X( tập huấn luyện) nhân thấy:
 - Ở thuôc tính Name có thể tách ra hãng sản xuất, do thực tế có thể thấy rằng, mỗi hãng khác nhau sẽ có giá bán khác nhau.
 - Các thuộc tính Screen, Main Camera, Selfie Camera, Ram, Rom và Pin có thể tách lấy các giá trị dạng số bằng với :
     + Screen: lấy kích thước màn hình( đơn vị inchs).
     + Main Camera, Selfie Camera: lấy giá trị độ phân giải của camera chính.( đối với giá trị có nhiều giá trị, ví dụ:Chính 48 MP & Phụ 8 MP, 2 MP, 2 MP, thì chỉ lấy giá trị lớn nhất( tương ứng là camera chính).
     + Đối với Ram và Rom xử lí chuỗi bình thường.
 - Thuộc tính CPU có thể tách ra loại chip: ví dụ: Qualcomm Snapdragon, MediaTek, Exynos, ... Nhưng trên thị trường có quá nhiều phiên bản khác nhau của chip nên sẽ bỏ qua cột dữ liệu này :((

- Class ColAdderDropper sẽ xử lý thuộc tính Name của dữ liệu, thay thế thuộc tính Name bằng thuốc tính Phone Maker, chỉ ra rằng giá trị của thuộc tính này là hãng điện thoại.

In [22]:
class ColAdderDropper(BaseEstimator, TransformerMixin):
    def __init__(self, num_top_pmakers=1):
        self.num_top_pmakers = num_top_pmakers
    def fit(self, tr_X, y=None):
        pmakers_col = pd.Series([name.split()[0].upper() for name in tr_X.Name])
        self.pmaker_counts_ = pmakers_col.value_counts()
        pmakers = list(self.pmaker_counts_.index)
        self.top_pmakers_ = pmakers[:max(1, min(self.num_top_pmakers, len(pmakers)))]
        return self
    def transform(self, X_df, y=None):
        name = X_df.Name
        df = X_df.drop(["Cpu","Name"], axis = 1)
        Pmakers = []
        for val in name:
            pmaker = 'OTHERS'
            for p in self.top_pmakers_:
                if p in val.upper():
                    pmaker = p
                    break
            Pmakers.append(pmaker)
        df['Phone Maker'] = pd.Series(Pmakers, index = df.index)
        return df

In [23]:
col_adderdropper = ColAdderDropper(num_top_pmakers=12)
col_adderdropper.fit(tr_X)
print(col_adderdropper.pmaker_counts_)
print()
print(col_adderdropper.top_pmakers_)

XIAOMI        171
IPHONE        123
SAMSUNG       106
OPPO           76
REALME         41
VIVO           40
VSMART         33
ASUS           27
SONY           26
HTC            25
NOKIA          22
BLACKBERRY     20
LENOVO         18
SKY            13
HUAWEI         12
PHILIPS        12
MOTOROLA       10
LG              9
GIONEE          8
KYOCERA         7
SHARP           7
GOOGLE          5
WIKO            5
MASSGO          4
NOMI            4
TECNO           3
ĐIỆN            2
INFINIX         2
MÁY             2
PANTECH         2
ONEPLUS         2
INFOCUS         2
MEIZU           2
ITEL            2
MOBELL          2
MASSTEL         2
KASHI           1
OBI             1
W               1
"MEIZU          1
WMOBILE         1
PHILIP          1
REDMI           1
ANOKA           1
dtype: int64

['XIAOMI', 'IPHONE', 'SAMSUNG', 'OPPO', 'REALME', 'VIVO', 'VSMART', 'ASUS', 'SONY', 'HTC', 'NOKIA', 'BLACKBERRY']


In [24]:
fewer_cols_train_X_df = col_adderdropper.transform(tr_X)

In [25]:
fewer_cols_train_X_df

Unnamed: 0,Screen,Main Camera,Selfie Camera,Rom,Ram,Pin,Phone Maker
1265,"6.44 """,64MP; 8MP; 2MP,44 MP,8GB,8GB,4000mAh,VIVO
116,6.4 inches,"Triple: 12 MP, f/1.5-2.4, 26mm (wide), 1/2.55""...",8.0 MP,128 GB,8 GB,Li-Ion 4100 mAh,SAMSUNG
766,"IPS LCD, 5.0"", HD",13 MP,5.0 MP,8 GB,2 GB,Li-Ion 2550 mAh,OTHERS
1015,"TFT, 5.0"", HD",8.0 MP,2.0 MP,16 GB,2 GB,Li-Po 2500 mAh,OTHERS
482,"IPS LCD , 5.0 inches qHD",23 MP,13 MP,32 GB,3 GB,Non-removable Li-Ion 2700 mAh battery,SONY
...,...,...,...,...,...,...,...
1340,"AMOLED, 6.5"", Full HD+","Chính 48 MP & Phụ 8 MP, 2 MP, 2 MP",32 MP,256 GB,8 GB,"4000 mAh, có sạc nhanh",OPPO
454,"Super AMOLED, 6.4 inches","Dual : 12 MP, f/1.5-2.4, 26mm, 1/2.55"", 1.4µm,...","8 MP, f/1.7, 25mm, 1/3.6"", 1.22µm, AF",512 GB,8GB,4000 mAh,SAMSUNG
573,"5.5 inches, 83.4 cm2",Dual 12 MP,16 MP,64 GB,6 GB,Li-Ion 3500 mAh,XIAOMI
1076,"6,39 inches, IPS LCD",Quad : 48 + 8 + 2 + 2 ( MP ),13 MP,128 GB,4 GB,4000 mAh,XIAOMI
