# Import thư viện cần thiết

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns # seaborn là thư viện được xây trên matplotlib, giúp việc visualization đỡ khổ hơn
import pandas as pd
import numpy as np
import re
import unicodedata

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.pipeline import Pipeline, make_pipeline
from sklearn.compose import ColumnTransformer, make_column_transformer
from sklearn.neural_network import MLPRegressor
from sklearn.impute import KNNImputer
# You can also import other things ...
# YOUR CODE HERE (OPTION)

## Một số xử lý trước khi chia tập train, test

#### Đọc file dữ liệu và đổi tên cột

In [None]:
df = pd.read_csv("raw_data3.csv",sep='\t')

df.columns = ["link", "name", "type", "area", "room_types", "price of the week", "location","utilities", "Weekend prices"]
df.head()

#### Do lúc lấy thông tin 1 địa điểm có 2 giá là giá cuối tuần và giá trong tuần. Nghĩa là 1 dòng có đến 2 output, vì vậy ta tiến hành xử lý đưa về 1 output và output này phải là số.

In [None]:
# Bỏ các dòng có giá bằng nan
df=df[ pd.isna(df['price of the week'])!=1]

# Do thời gian lấy dữ liệu cuối tuần và trong tuần ở 2 thời điểm khác nhau nên một số dữ liệu không còn 
# vì vậy ta sẽ lấy giá cuối tuần bằng giá trong tuần đối với các giá trị null
df['Weekend prices']=df.apply(lambda x:x['price of the week'] if pd.isna(x['Weekend prices']) else x['Weekend prices'],axis=1)

# Tiến hành gộp 2 cột về 1 cột
df['prices'] = df[['price of the week', 'Weekend prices']].apply(lambda x:[x['price of the week'],x['Weekend prices']], axis=1)
df=df.drop("price of the week",axis=1)
df=df.drop("Weekend prices",axis=1)
df.head()

# Thêm 2 cột thể hiện chỗ ở được thuê trong tuần hay cuối tuần
df['inweek']=1
df['weekend']=0

# Tạo 1 dataframe mới giống với df nhưng khác cột trong tuần và cuối tuần
temp=df.copy()
df['inweek']=0
df['weekend']=1

# Tiến hành nối 2 dataframe này lại với nhau
last_df=pd.concat([df, temp],ignore_index=True)

# Thêm một cột hiển thị giá cuối cùng theo trong tuần hay cuối tuần
last_df['last_prices']=np.nan
last_df['last_prices']=last_df.apply(lambda x: x['prices'][0] if (x['inweek']==1 or x['prices'][1]==np.nan) else x['prices'][1]  ,axis=1)
last_df=last_df.drop('prices',axis=1)

# Chuyển chuỗi ở cột last_prices thành số
last_df['last_prices']=last_df['last_prices'].str.split(" ").apply(lambda x: x[0][:-1].replace(",",""))

# Bỏ đi các giá trị không thể chuyển thành số 
last_df=last_df[last_df['last_prices'].str.isnumeric()]

# Chuyển kiểu dữ liệu về số
last_df['last_prices'] = pd.to_numeric(last_df['last_prices'])

In [None]:
last_df.head()

#### Tiến hành chia file train và file test

In [None]:
# y_sr = last_df["last_prices"] # sr là viết tắt của series
# X_df = last_df.drop("last_prices", axis=1)

# # Tách tập train và tập validation theo tỉ lệ 80%:20%
# train_X_df, test_X_df, train_y_sr, test_y_sr = train_test_split(X_df, y_sr, test_size=0.2, random_state=0)

# # Ghi X_train xuống file csv
# train_X_df.to_csv("X_train.csv",index_label="ID",sep="\t")

# # Ghi y_train xuống file csv
# train_y_sr.to_frame('Price').to_csv("y_train.csv",index_label="ID",sep="\t")

# # Ghi X_test xuống file csv
# test_X_df.to_csv("X_test.csv",index_label="ID",sep="\t")

# # Ghi y_test test xuống file csv
# test_y_sr.to_frame('Price').to_csv("y_test.csv",index_label="ID",sep="\t")

---
# Tiền xử lý

### Bỏ, thêm các cột, chuyển về kiểu dữ liệu phù hợp

In [None]:
# Load X_train
X_df = pd.read_csv('X_train.csv', index_col=0,sep="\t")

# Load y_train
y_sr = np.ravel(pd.read_csv('y_train.csv', index_col=0,sep="\t"))

In [None]:
# Tách tập train và tập validation theo tỉ lệ 75%:25%
train_X_df, val_X_df, train_y_sr, val_y_sr = train_test_split(X_df, y_sr, test_size=0.25, random_state=0)
X_df=train_X_df.copy()

In [None]:
train_X_df.dtypes

#### Dễ thấy cột link và name không giúp gì trong quá trình học nên ta sẽ bỏ nó đi

In [None]:
class LinkNameDropper(BaseEstimator, TransformerMixin):    
    def transform(self, X_df, y=None):
        # Copy ra 1 dataframe mới để không thay đổi X_df
        X_df_transform=X_df.copy()
        
        # Bỏ cột link
        X_df_transform=X_df_transform.drop("link",axis=1)
        
        # Bỏ cột name
        X_df_transform=X_df_transform.drop("name",axis=1)
        
        return X_df_transform

In [None]:
link_name_dropper =LinkNameDropper()

train_X_df = link_name_dropper.transform(train_X_df)

train_X_df.head()

#### Xử lý cột type

In [None]:
# Xem các giá trị trong cột type
train_X_df['type'].value_counts()

In [None]:
class TypeTransform(BaseEstimator, TransformerMixin):
    def __init__(self, num_top_types=1):
        self.num_top_types= num_top_types
    def fit(self, X_df, y=None):
        type_col = X_df['type']
        self.type_counts_ = type_col.value_counts()
        types = list(self.type_counts_.index)
        self.top_types_ = types[:max(1, min(self.num_top_types, len(types)))]
        return self
    def transform(self, X_df, y=None):
        # Copy ra 1 dataframe mới để không thay đổi X_df
        X_df_transform=X_df.copy()
        
        # Lấy cột type
        type_s=X_df_transform['type']
        
        # Chuyển các giá trị trong cột type về các giá trị trong top_types_
        type_s=type_s.apply(lambda x: x if x in self.top_types_ else "Others")
        
        # Thêm cột title vào dataframe
        X_df_transform['type']=type_s
        
        return X_df_transform

In [None]:
type_transform = TypeTransform(num_top_types=3)
type_transform.fit(train_X_df)
print(type_transform.type_counts_)
print()
print(type_transform.top_types_)

train_X_df = type_transform.transform(train_X_df)
train_X_df['type'].value_counts()

#### Xử lý cột area

In [None]:
train_X_df.dtypes

#### Chuyển kiểu dữ liệu về dạng số

In [None]:
class AreaTransform(BaseEstimator, TransformerMixin):
    def fit(self, X_df, y=None):
        self.X=X_df
        return self
    def transform(self, X_df, y=None):
        # Copy ra 1 dataframe mới để không thay đổi X_df
        X_df_transform=X_df.copy()
        
        # Lấy cột area
        area=X_df_transform['area']
        
        # Bỏ m2
        area= area.str.replace("m2","")
        X_df_transform['area']=area
        
        
        # Chuyển về thành số
        X_df_transform['area'] = pd.to_numeric(X_df_transform['area'])
        return X_df_transform

In [None]:
area_transform=AreaTransform()
train_X_df=area_transform.transform(train_X_df)
train_X_df.head()

In [None]:
train_X_df.dtypes

#### Xử lý cột room_types

Ta thấy cột room_types: cho biết thể loại cho thuê và số lượng các phòng mỗi loại

In [None]:
roomtypes=train_X_df['room_types'].str.split(" · ")\
.apply(lambda x: [[x[0]]]+\
       [i.split(" ",1) for i in x[1:-1]]+[x[-1].split(" ",2)[:-1]]+\
       [[re.findall(r'\d+',x[-1].split(" ",2)[-1])[0],"khách tối đa"]])
roomtypes.apply(lambda x: [i[-1] for i in x]).value_counts()

Ta thấy các dòng của cột room_types đều cho biết các thông tin: loại phòng, số phòng tắm, số giường, số phòng ngủ, số khách, số khách tối đa. Ta thấy thuộc tính số khách chính là số khách tối thiểu. Do đó khi xử lý cột này ta sẽ sinh ra thêm 6 cột: loại phòng, số phòng tắm, số giường, số phòng ngủ, số khách tối thiểu, số khách tối đa.

In [None]:
class Room_TypesTransform(BaseEstimator, TransformerMixin):
    def fit(self, X_df, y=None):
        self.X=X_df
        return self
    def transform(self, X_df, y=None):
        # Copy ra 1 dataframe mới để không thay đổi X_df
        X_df_transform=X_df.copy()
        
        # Rút trích các thông tin có trong cột room_types
        roomtypes=X_df_transform['room_types'].str.split(" · ")\
        .apply(lambda x: [[x[0]]]+\
               [i.split(" ",1) for i in x[1:-1]]+[x[-1].split(" ",2)[:-1]]+\
               [[re.findall(r'\d+',x[-1].split(" ",2)[-1])[0],"khách tối đa"]])
        
        # Thêm cột kind of rooms
        X_df_transform['kind of rooms']=roomtypes.apply(lambda x:x[0][0])
        def numeric(x):
            try:
                if x.str.isnumeric():
                    x=int(x)
            except:
                x=0
            return x
        
        # Thêm cột bathrooms, tiến thành chuyển kiểu số
        X_df_transform['bathrooms']=roomtypes.apply(lambda x:x[1][0])
        X_df_transform['bathrooms']= X_df_transform['bathrooms'].apply(numeric)
        
        # Thêm cột bathrooms, loại các dòng không thể ép thành số, tiến thành chuyển kiểu số
        X_df_transform['beds']=roomtypes.apply(lambda x:x[2][0])
        X_df_transform['beds']=X_df_transform['beds'].apply(numeric)
        
        # Thêm cột bathrooms, loại các dòng không thể ép thành số, tiến thành chuyển kiểu số
        X_df_transform['bedrooms']=roomtypes.apply(lambda x:x[3][0])
        X_df_transform['bedrooms']=X_df_transform['bedrooms'].apply(numeric)
        
        # Thêm cột bathrooms, loại các dòng không thể ép thành số, tiến thành chuyển kiểu số
        X_df_transform['min guests']=roomtypes.apply(lambda x:x[4][0])
        X_df_transform['min guests']=X_df_transform['min guests'].apply(numeric)
        
        # Thêm cột bathrooms, loại các dòng không thể ép thành số, tiến thành chuyển kiểu số
        X_df_transform['max guests']=roomtypes.apply(lambda x:x[5][0])
        X_df_transform['max guests']=X_df_transform['max guests'].apply(numeric)
        
        # Bỏ cột room_types  
        X_df_transform=X_df_transform.drop("room_types",axis=1)
        return X_df_transform

In [None]:
room_types_transform=Room_TypesTransform()
train_X_df=room_types_transform.transform(train_X_df)

In [None]:
train_X_df.dtypes

#### Xử lý cột location

In [None]:
x=train_X_df['location'].apply(lambda x:str(x).replace(", Vietnam","").split(",")[-1].strip()).value_counts()
x

#### Ta thấy Hà Nội xuất hiện 2 lần chắc là do sai khác kiểu lưu trữ, Vũng tàu và bà rịa vũng tàu tương đương nhau nên ta tiến hành convert lại

In [None]:
class ConvertTransform(BaseEstimator, TransformerMixin):
    def fit(self, X_df, y=None):
        self.X=X_df
        return self
    def transform(self, X_df, y=None):
        # Copy ra 1 dataframe mới để không thay đổi X_df
        X_df_transform=X_df.copy()
        
        def convert(x):
            if x.encode()==b'H\xc3\xa0 N\xe1\xbb\x99i':
                x='Hà Nội'
            elif x.encode()==b'Ha\xcc\x80 N\xc3\xb4\xcc\xa3i':
                x='Hà Nội'
            elif x=="Bà Rịa Vũng Tàu":
                x='Vũng Tàu'
            return x
        
        location_convert=X_df_transform['location']\
        .apply(lambda x:str(x).replace(", Vietnam","").split(",")[-1].strip()).apply(convert)
        
        
        X_df_transform['location']=location_convert
        return X_df_transform

In [None]:
convertTransform=ConvertTransform()

train_X_df=convertTransform.transform(train_X_df)
train_X_df['location'].value_counts()

In [None]:
class LocationTransform(BaseEstimator, TransformerMixin):
    def __init__(self, num_top_locations=1):
        self.num_top_locations= num_top_locations
    def fit(self, X_df, y=None):
        locations_col = X_df['location']
        self.location_counts_ = locations_col.value_counts()
        locations = list(self.location_counts_.index)
        self.top_locations_ = locations[:max(1, min(self.num_top_locations, len(locations)))]
        return self
    def transform(self, X_df, y=None):
        # Copy ra 1 dataframe mới để không thay đổi X_df
        X_df_transform=X_df.copy()
        
        # Lấy cột type
        location_s=X_df_transform['location']
        
        # Chuyển các giá trị trong cột type về các giá trị trong top_types_
        location_s=location_s.apply(lambda x: x if x in self.top_locations_ else "Others")
        
        # Thêm cột title vào dataframe
        X_df_transform['location']=location_s
        
        return X_df_transform

In [None]:
locationTransform=LocationTransform(num_top_locations=3)
locationTransform.fit(train_X_df)
train_X_df=locationTransform.transform(train_X_df)
train_X_df

#### Xử lý cột Ultilies

In [None]:
class UltiliesDropper(BaseEstimator, TransformerMixin):
    def fit(self, X_df, y=None):
        self.X=X_df
        return self
    def transform(self, X_df, y=None):
        # Copy ra 1 dataframe mới để không thay đổi X_df
        X_df_transform=X_df.copy()
        
        # Bỏ cột Ultilies
        # X_df_transform=X_df_transform.drop("Ultilies",axis=1)
        del X_df_transform['utilities']
        return X_df_transform

In [None]:
ultiliesdropper=UltiliesDropper()
ultiliesdropper.transform(train_X_df)

In [None]:
transform_column_pipeline=make_pipeline(LinkNameDropper(),\
                                        TypeTransform(num_top_types=3),\
                                        AreaTransform(),\
                                        Room_TypesTransform(),\
                                        ConvertTransform(),\
                                        UltiliesDropper(),\
                                        LocationTransform(num_top_locations=3)
                                        )

nume_cols = ['area', 'inweek', 'weekend','bathrooms','beds','bedrooms','min guests','max guests' ]
cate_cols = ['type', 'location', 'kind of rooms']
nume_transform=Pipeline(steps=[('knn', KNNImputer(n_neighbors=3))])

# Tạo 1 pipeline điền giá trị mode và onehotencoder
cate_transform=Pipeline(steps=[('imp_mode',SimpleImputer(missing_values=np.nan, strategy='most_frequent'))
                                ,('encoder',OneHotEncoder(handle_unknown='ignore'))])

# Tạo 1 ColumnTransformer xác định transformer với cột tương ứng
column_transform = ColumnTransformer(transformers=[('num', nume_transform, nume_cols)
                                                   ,('cat', cate_transform, cate_cols)])

preprocess_pipeline=make_pipeline(transform_column_pipeline,column_transform,StandardScaler())

preprocessed_train_X=preprocess_pipeline.fit_transform(X_df)

In [None]:
preprocessed_train_X.shape

In [None]:
preprocessed_val_X=preprocess_pipeline.transform(val_X_df)

In [None]:
preprocessed_val_X.shape

In [None]:
# Tính độ đo r^2 trên tập huấn luyện
def compute_mse(y, preds):
    return ((y - preds) ** 2).mean()
def compute_rr(y, preds, baseline_preds):
    return 1 - compute_mse(y, preds) / compute_mse(y, baseline_preds)
baseline_preds = train_y_sr.mean()

In [None]:
train_X_df=X_df
full_pipeline=Pipeline(steps=[('preprocess',preprocess_pipeline),
                                ('mlpregressor',MLPRegressor(hidden_layer_sizes=(300),early_stopping=True,\
                                                             activation='relu',max_iter=3000,
                                                               solver='lbfgs',random_state=0))])
# full_pipeline.set_params(preprocess__pipeline__typetransform__num_top_types=1,\
#                                      preprocess__pipeline__locationtransform__num_top_locations=2,\
#                                      mlpregressor__alpha=0.01)
# neural_net_model=full_pipeline.fit(train_X_df,train_y_sr)
# compute_rr(val_y_sr, neural_net_model.predict(val_X_df), baseline_preds)

In [None]:
# Thử nghiệm với các giá trị khác nhau của các siêu tham số
# và chọn ra các giá trị tốt nhất
train_X_df=X_df
train_rrs = []
val_rrs = []
alphas = [0.1, 1, 10, 100, 1000]
num_top_types = [1,2,3,4,5]
num_top_locations=[1,2,3,4,5]
best_val_rr = 0; best_alpha = None; best_num_top_types = None;best_num_top_locations=None
for alpha in alphas:
    for num_top_type in num_top_types:
        for num_top_location in num_top_locations:
            # set params cho mô hình
            full_pipeline.set_params(preprocess__pipeline__typetransform__num_top_types=num_top_type,\
                                     preprocess__pipeline__locationtransform__num_top_locations=num_top_location,\
                                     mlpregressor__alpha=alpha)

            # Fit dữ liệu vào mô hình
            neural_net_model=full_pipeline.fit(train_X_df,train_y_sr)

            # Tính train_err và thêm vào train_errs
            
            train_rrs.append(compute_rr(train_y_sr, neural_net_model.predict(train_X_df), baseline_preds))

            # Tính val_errs và thêm vào val_errs
            val_rrs.append(compute_rr(val_y_sr, neural_net_model.predict(val_X_df), baseline_preds))
            f = open("model.csv", "a",encoding="utf-8")
            f.write(f"{alpha}\t{num_top_type}\t{num_top_location}\t{train_rrs[-1]}\t{val_rrs[-1]}\t300\n")
            f.close()
            # Gán lại các giá trị tốt nhất
            if val_rrs[-1]>best_val_rr:
                best_val_rr=val_rrs[-1]
                best_alpha=alpha
                best_num_top_types=num_top_type
                best_num_top_locations=num_top_location
            
'Finish!'

In [None]:
# YOUR CODE HERE

# Nối 2 tập huẩn luyện + tập validation
X_df=pd.concat([train_X_df,val_X_df])
y_sr=pd.concat([train_y_sr,val_y_sr])

# Set params tốt nhất
full_pipeline.set_params(preprocess__coladderdropper__num_top_titles=best_num_top_titles,mlpclassifier__alpha=best_alpha)

# Train lại
best_neural_net_model=full_pipeline.fit(X_df,y_sr)