In [1]:
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.pipeline import Pipeline, make_pipeline
from sklearn.compose import ColumnTransformer, make_column_transformer
from sklearn.neural_network import MLPClassifier
from sklearn import set_config
set_config(display='diagram')

In [2]:
data_df = pd.read_csv('data02.csv')
data_df

Unnamed: 0,Name,Screen,Cpu,MainCamera,SelfieCamera,Rom,Ram,Pin,Price
0,Xiaomi POCO M3 - Chính hãng,"IPS LCD, 6.53"", Full HD+",Snapdragon 662 8 nhân,"Chính 48 MP & Phụ 2 MP, 2 MP",8MP,128/64 GB,4GB,6000mAh,3490000
1,Xiaomi Mi 11 128Gb Ram 8Gb,"AMOLED, 6.81"", Quad HD+ (2K+)",Snapdragon 888 (5 nm),"Chính 108 MP & Phụ 13 MP, 5 MP",20 MP,128 GB,8 GB,Li-Ion 4600 mAh,16490000
2,Oppo Reno5 8GB/128GB chính hãng,"6,43 inch, OLED",Qualcomm SM7125 Snapdragon 720G (8 nm),"Chính 64 MP & Phụ 8 MP, 2 MP, 2 MP",44MP,128 GB,8 GB,4.310 mAh + Sạc nhanh 50W,8690000
3,Redmi Note 9 Pro 5G 6Gb/128Gb,,Octa-core (2x2.2 GHz Kryo 570 & 6x1.8 GHz Kryo...,Chính 108MP+8MP+2MP+2MP,16MP,128 GB,6GB,Li-Po 4820 mAh,6390000
4,iPhone SE Cũ 16Gb Nguyên Bản,"IPS LCD, 4.0"", DVGA",Apple A9,12 MP,1.2 MP,16 GB,2 GB,Li-Po 1624 mAh,2190000
...,...,...,...,...,...,...,...,...,...
1416,Masstel HAPI 10 Fami,"IPS LCD, 5"", HD",MediaTek MT6739 4 nhân,5 MP,5 MP,16 GB,2 GB,2000 mAh,1070000
1417,Itel Alpha Lite,"TFT LCD, 5"", FWVGA",Spreadtrum SC7731E 4 nhân,5 MP,2 MP,8 GB,1 GB,2050 mAh,790000
1418,Masstel X5 Fami,"IPS LCD, 5.45"", HD+",Spreadtrum SC7731E 4 nhân,8 MP,5 MP,8 GB,1 GB,3200 mAh,890000
1419,Mobell P41,"IPS LCD, 5.5"", FWVGA+",MediaTek MT6580A 4 nhân,5 MP,2 MP,8 GB,1 GB,3500 mAh,990000


In [3]:
data_df.Price.isna().sum()

0

In [4]:
data_df.shape

(1421, 9)

### Tách các tập.

In [5]:
# Tách X và y
y = data_df["Price"]
X = data_df.drop("Price", axis=1)

In [6]:
y

0        3490000
1       16490000
2        8690000
3        6390000
4        2190000
          ...   
1416     1070000
1417      790000
1418      890000
1419      990000
1420      590000
Name: Price, Length: 1421, dtype: int64

In [7]:
X

Unnamed: 0,Name,Screen,Cpu,MainCamera,SelfieCamera,Rom,Ram,Pin
0,Xiaomi POCO M3 - Chính hãng,"IPS LCD, 6.53"", Full HD+",Snapdragon 662 8 nhân,"Chính 48 MP & Phụ 2 MP, 2 MP",8MP,128/64 GB,4GB,6000mAh
1,Xiaomi Mi 11 128Gb Ram 8Gb,"AMOLED, 6.81"", Quad HD+ (2K+)",Snapdragon 888 (5 nm),"Chính 108 MP & Phụ 13 MP, 5 MP",20 MP,128 GB,8 GB,Li-Ion 4600 mAh
2,Oppo Reno5 8GB/128GB chính hãng,"6,43 inch, OLED",Qualcomm SM7125 Snapdragon 720G (8 nm),"Chính 64 MP & Phụ 8 MP, 2 MP, 2 MP",44MP,128 GB,8 GB,4.310 mAh + Sạc nhanh 50W
3,Redmi Note 9 Pro 5G 6Gb/128Gb,,Octa-core (2x2.2 GHz Kryo 570 & 6x1.8 GHz Kryo...,Chính 108MP+8MP+2MP+2MP,16MP,128 GB,6GB,Li-Po 4820 mAh
4,iPhone SE Cũ 16Gb Nguyên Bản,"IPS LCD, 4.0"", DVGA",Apple A9,12 MP,1.2 MP,16 GB,2 GB,Li-Po 1624 mAh
...,...,...,...,...,...,...,...,...
1416,Masstel HAPI 10 Fami,"IPS LCD, 5"", HD",MediaTek MT6739 4 nhân,5 MP,5 MP,16 GB,2 GB,2000 mAh
1417,Itel Alpha Lite,"TFT LCD, 5"", FWVGA",Spreadtrum SC7731E 4 nhân,5 MP,2 MP,8 GB,1 GB,2050 mAh
1418,Masstel X5 Fami,"IPS LCD, 5.45"", HD+",Spreadtrum SC7731E 4 nhân,8 MP,5 MP,8 GB,1 GB,3200 mAh
1419,Mobell P41,"IPS LCD, 5.5"", FWVGA+",MediaTek MT6580A 4 nhân,5 MP,2 MP,8 GB,1 GB,3500 mAh


- Tách tập Train, Validation và Test với tỉ lệ 60:20:20

In [8]:
# tách tập train(train và val) và tập test với tỉ lệ 80:20
train_X, test_X, train_y, test_y = train_test_split(X, y, test_size=0.2, random_state=0)

In [9]:
# từ tập train tách ra tập train và tập validation với tỉ lệ 75:25 để ứng với 60:20 ở tập dữ liệu ban đâu.
tr_X, val_X, tr_y, val_y = train_test_split(train_X, train_y, test_size=0.25, random_state=0)

In [10]:
# tập train( dùng để huấn luyện)
tr_X.shape

(852, 8)

In [11]:
val_X.shape

(284, 8)

In [12]:
test_X.shape

(285, 8)

In [13]:
tr_X

Unnamed: 0,Name,Screen,Cpu,MainCamera,SelfieCamera,Rom,Ram,Pin
1414,Nokia C2,"IPS LCD, 5.7"", HD+",Spreadtrum SC9832E 4 nhân,5 MP,5 MP,16 GB,1 GB,2800 mAh
1379,Vivo Y30,"IPS LCD, 6.47"", HD+",MediaTek Helio P35 8 nhân,"Chính 13 MP & Phụ 8 MP, 2 MP, 2 MP",8 MP,128 GB,4 GB,5000 mAh
112,Xiaomi Redmi K30S 8GB/128GB,"6.67"" IPS LCD",Qualcomm SM8250 Snapdragon 865 (7 nm+),64MP+13MP+5MP,20MP,128 GB,8GB,Li-Ion 5000 mAh
636,Samsung Galaxy M20 Chính Hãng,"6.13 inches, 93.8 cm2",Exynos 7904,"Dual: 13 MP, PDAF 5 MP, depth sensor",8 MP,32 GB,3 GB,Li-Po 5000 mAh
1312,iPhone 11 Pro 256GB,"OLED, 5.8"", Super Retina XDR",Apple A13 Bionic 6 nhân,3 camera 12 MP,12 MP,256 GB,4 GB,"3046 mAh, có sạc nhanh"
...,...,...,...,...,...,...,...,...
201,iPhone 5C cũ 99%,"IPS LCD, 4.0"", DVGA",Apple A6,8.0 MP,1.2 MP,16/32 GB,1 GB,Li-Po 1510 mAh
990,HTC J Butterfly 3,"Super LCD 3, 5.2"", QuadHD (2K)",Qualcomm Snapdragon 810,20 MP,13 MP,32 GB,3 GB,Li-Po 2700 mAh
595,Xiaomi Mi 8 SE 64Gb Ram 6Gb,"5.88 inches, 87.6 cm2 (~81.3% screen-to-body ...",Qualcomm SDM710 Snapdragon 710,"Dual: 12 MP (f/1.9, 1.4µm, dual-pixel PDAF, gy...","20 MP (f/2.0, 2.0µm), 1080p",64 GB,6 GB,Non-removable Li-Po 3120 mAh battery
229,iPhone 8 Plus 64Gb Mới Chính Hãng VN/A,"IPS LCD, 5.5"", Retina HD",Apple A11 Bionic,Dual 12 MP,7.0 MP,64 GB,3 GB,Li-Ion 2691 mAh


### Quan sát dữ liệu từ tập tr_X( tập huấn luyện) nhân thấy:
 - Ở thuôc tính Name có thể tách ra hãng sản xuất, do thực tế có thể thấy rằng, mỗi hãng khác nhau sẽ có giá bán khác nhau.
 - Các thuộc tính Screen, Main Camera, Selfie Camera, Ram, Rom và Pin có thể tách lấy các giá trị dạng số bằng với :
     + Screen: lấy kích thước màn hình( đơn vị inchs).
     + Main Camera, Selfie Camera: lấy giá trị độ phân giải của camera chính.( đối với giá trị có nhiều giá trị, ví dụ:Chính 48 MP & Phụ 8 MP, 2 MP, 2 MP, thì chỉ lấy giá trị camera chính.
     + Đối với Ram và Rom xử lí chuỗi bình thường.
 - Thuộc tính CPU có thể tách ra loại chip: ví dụ: Qualcomm Snapdragon, MediaTek, Exynos, ... Nhưng trên thị trường có quá nhiều phiên bản khác nhau của chip nên sẽ bỏ qua cột dữ liệu này :((

- Class ColAdderDropper sẽ xử lý thuộc tính Name của dữ liệu, thay thế thuộc tính Name bằng thuốc tính Phone Maker, chỉ ra rằng giá trị của thuộc tính này là hãng điện thoại.

In [14]:
# xóa cột Name và thêm cột Phone Maker, xóa cột Cpu
class ColAdderDropper(BaseEstimator, TransformerMixin):
    def __init__(self, num_top_pmakers=1):
        self.num_top_pmakers = num_top_pmakers
    def fit(self, tr_X, y=None):
        pmakers_col = pd.Series([name.split()[0].upper() for name in tr_X.Name])
        self.pmaker_counts_ = pmakers_col.value_counts()
        pmakers = list(self.pmaker_counts_.index)
        self.top_pmakers_ = pmakers[:max(1, min(self.num_top_pmakers, len(pmakers)))]
        return self
    def transform(self, X_df, y=None):
        name = X_df.Name
        df = X_df.drop(["Cpu","Name"], axis = 1)
        Pmakers = []
        for val in name:
            pmaker = 'OTHERS'
            for p in self.top_pmakers_:
                if p in val.upper():
                    pmaker = p
                    break
            Pmakers.append(pmaker)
        df['PhoneMaker'] = pd.Series(Pmakers, index = df.index)
        return df

In [15]:
col_adderdropper = ColAdderDropper(num_top_pmakers=10)

In [16]:
col_adderdropper.fit_transform(tr_X)

Unnamed: 0,Screen,MainCamera,SelfieCamera,Rom,Ram,Pin,PhoneMaker
1414,"IPS LCD, 5.7"", HD+",5 MP,5 MP,16 GB,1 GB,2800 mAh,OTHERS
1379,"IPS LCD, 6.47"", HD+","Chính 13 MP & Phụ 8 MP, 2 MP, 2 MP",8 MP,128 GB,4 GB,5000 mAh,VIVO
112,"6.67"" IPS LCD",64MP+13MP+5MP,20MP,128 GB,8GB,Li-Ion 5000 mAh,XIAOMI
636,"6.13 inches, 93.8 cm2","Dual: 13 MP, PDAF 5 MP, depth sensor",8 MP,32 GB,3 GB,Li-Po 5000 mAh,SAMSUNG
1312,"OLED, 5.8"", Super Retina XDR",3 camera 12 MP,12 MP,256 GB,4 GB,"3046 mAh, có sạc nhanh",IPHONE
...,...,...,...,...,...,...,...
201,"IPS LCD, 4.0"", DVGA",8.0 MP,1.2 MP,16/32 GB,1 GB,Li-Po 1510 mAh,IPHONE
990,"Super LCD 3, 5.2"", QuadHD (2K)",20 MP,13 MP,32 GB,3 GB,Li-Po 2700 mAh,OTHERS
595,"5.88 inches, 87.6 cm2 (~81.3% screen-to-body ...","Dual: 12 MP (f/1.9, 1.4µm, dual-pixel PDAF, gy...","20 MP (f/2.0, 2.0µm), 1080p",64 GB,6 GB,Non-removable Li-Po 3120 mAh battery,XIAOMI
229,"IPS LCD, 5.5"", Retina HD",Dual 12 MP,7.0 MP,64 GB,3 GB,Li-Ion 2691 mAh,IPHONE


In [17]:
col_adderdropper = ColAdderDropper(num_top_pmakers=10)
col_adderdropper.fit(tr_X)
print(col_adderdropper.pmaker_counts_)
print()
print(col_adderdropper.top_pmakers_)

XIAOMI        133
SAMSUNG       127
IPHONE        121
OPPO           73
VIVO           43
REALME         38
VSMART         34
SONY           28
ASUS           26
BLACKBERRY     26
HTC            23
NOKIA          19
LENOVO         17
SKY            13
LG             12
PHILIPS        12
MOTOROLA       12
GIONEE         11
SHARP          11
HUAWEI          8
MASSGO          7
KYOCERA         6
WIKO            6
GOOGLE          6
ONEPLUS         4
ĐIỆN            4
INFINIX         3
NOMI            3
MEIZU           3
TECNO           3
ITEL            2
OBI             2
INFOCUS         2
PANTECH         2
HP              1
NUBIA           1
ENERGIZER       1
MASSTEL         1
LEAGOO          1
KASHI           1
ANOKA           1
"MEIZU          1
CAT             1
MOBELL          1
MÁY             1
REDMI           1
dtype: int64

['XIAOMI', 'SAMSUNG', 'IPHONE', 'OPPO', 'VIVO', 'REALME', 'VSMART', 'SONY', 'ASUS', 'BLACKBERRY']


In [18]:
# chuyển giá trị màn hình từ chuỗi sang số theo kích thước màn hình lọc được từ thông số màn hình.
# Camera trước và Selfie camera lấy theo giá trị camera chính.
### vì dữ liệu thu thập từ nhiều trang web khác nhau nên định dạng khác nhau ví dụ: 12 MP và 12MP ... Nên sẽ có 
##  một vài sai số. Nhưng tạm chấp nhận được :(((
class EncodingString(BaseEstimator, TransformerMixin):
    def __init__(self, cols = None):
        self. cols = cols
    def fit(self,X_df,y =None):
        encode = []
        for col in self.cols:
            encode.append((col,X_df[col].str.extract(r'([0-9][0-9]|[0-9][.,][0-9]|[0-9])', expand=False).str.replace(',','.')))
        self.encode = dict(encode)
        return self
    def transform(self, X_df, y=None):
        df = X_df.drop(self.cols, axis = 1)
        for col in self.cols:
            df[col] = pd.Series(pd.to_numeric(self.encode[col]), index = df.index)
        return df

In [19]:
cols = ["Screen","MainCamera","SelfieCamera"]
s = EncodingString(cols = cols)

In [20]:
s.fit_transform(tr_X)

Unnamed: 0,Name,Cpu,Rom,Ram,Pin,Screen,MainCamera,SelfieCamera
1414,Nokia C2,Spreadtrum SC9832E 4 nhân,16 GB,1 GB,2800 mAh,5.7,5.0,5.0
1379,Vivo Y30,MediaTek Helio P35 8 nhân,128 GB,4 GB,5000 mAh,6.4,13.0,8.0
112,Xiaomi Redmi K30S 8GB/128GB,Qualcomm SM8250 Snapdragon 865 (7 nm+),128 GB,8GB,Li-Ion 5000 mAh,6.6,64.0,20.0
636,Samsung Galaxy M20 Chính Hãng,Exynos 7904,32 GB,3 GB,Li-Po 5000 mAh,6.1,13.0,8.0
1312,iPhone 11 Pro 256GB,Apple A13 Bionic 6 nhân,256 GB,4 GB,"3046 mAh, có sạc nhanh",5.8,3.0,12.0
...,...,...,...,...,...,...,...,...
201,iPhone 5C cũ 99%,Apple A6,16/32 GB,1 GB,Li-Po 1510 mAh,4.0,8.0,1.2
990,HTC J Butterfly 3,Qualcomm Snapdragon 810,32 GB,3 GB,Li-Po 2700 mAh,3.0,20.0,13.0
595,Xiaomi Mi 8 SE 64Gb Ram 6Gb,Qualcomm SDM710 Snapdragon 710,64 GB,6 GB,Non-removable Li-Po 3120 mAh battery,5.8,12.0,20.0
229,iPhone 8 Plus 64Gb Mới Chính Hãng VN/A,Apple A11 Bionic,64 GB,3 GB,Li-Ion 2691 mAh,5.5,12.0,7.0


In [21]:
pipe = make_pipeline(
    (ColAdderDropper(num_top_pmakers=4)),
    (EncodingString(cols = ["Screen","MainCamera","SelfieCamera"]))
)

In [22]:
pipe

In [23]:
pipe.fit_transform(tr_X)

Unnamed: 0,Rom,Ram,Pin,PhoneMaker,Screen,MainCamera,SelfieCamera
1414,16 GB,1 GB,2800 mAh,OTHERS,5.7,5.0,5.0
1379,128 GB,4 GB,5000 mAh,OTHERS,6.4,13.0,8.0
112,128 GB,8GB,Li-Ion 5000 mAh,XIAOMI,6.6,64.0,20.0
636,32 GB,3 GB,Li-Po 5000 mAh,SAMSUNG,6.1,13.0,8.0
1312,256 GB,4 GB,"3046 mAh, có sạc nhanh",IPHONE,5.8,3.0,12.0
...,...,...,...,...,...,...,...
201,16/32 GB,1 GB,Li-Po 1510 mAh,IPHONE,4.0,8.0,1.2
990,32 GB,3 GB,Li-Po 2700 mAh,OTHERS,3.0,20.0,13.0
595,64 GB,6 GB,Non-removable Li-Po 3120 mAh battery,XIAOMI,5.8,12.0,20.0
229,64 GB,3 GB,Li-Ion 2691 mAh,IPHONE,5.5,12.0,7.0
