In [9]:
import pandas as pd
import numpy as np
from sklearn import preprocessing
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

In [5]:
df = pd.read_csv('total-data.csv')
address_encode = preprocessing.LabelEncoder()
investor_encode = preprocessing.LabelEncoder()
df['address'] = address_encode.fit_transform(df['address'])
df['investor'] = investor_encode.fit_transform(df['investor'])
X = df[['address', 'bedroom', 'toilet', 'investor', 'acreage', 'lat', 'long', 'distance']]
y = df['price']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [13]:
from sklearn.tree import DecisionTreeRegressor
regressor = DecisionTreeRegressor(random_state=0)
regressor.fit(X_train, y_train)
print(f'mean_squared_error: {mean_squared_error(y_test, regressor.predict(X_test))}')

mean_squared_error: 638.1758974120171


In [14]:
from sklearn.linear_model import SGDRegressor
regressor = SGDRegressor()
regressor.fit(X_train, y_train)
print(f'mean_squared_error: {mean_squared_error(y_test, regressor.predict(X_test))}')

mean_squared_error: 4.606558076071398e+24


In [15]:
from sklearn.kernel_ridge import KernelRidge
regressor = KernelRidge()
regressor.fit(X_train, y_train)
print(f'mean_squared_error: {mean_squared_error(y_test, regressor.predict(X_test))}')

mean_squared_error: 464.90804635095


In [17]:
from sklearn.svm import SVR
regressor = SVR()
regressor.fit(X_train, y_train)
print(f'mean_squared_error: {mean_squared_error(y_test, regressor.predict(X_test))}')

mean_squared_error: 485.7949147970786


In [18]:
from sklearn.ensemble import GradientBoostingRegressor
regressor = GradientBoostingRegressor()
regressor.fit(X_train, y_train)
print(f'mean_squared_error: {mean_squared_error(y_test, regressor.predict(X_test))}')

mean_squared_error: 726.8430947626526


In [20]:
from sklearn.linear_model import BayesianRidge
regressor = BayesianRidge()
regressor.fit(X_train, y_train)
print(f'mean_squared_error: {mean_squared_error(y_test, regressor.predict(X_test))}')

mean_squared_error: 475.474799153872


In [21]:
from sklearn.linear_model import ElasticNet
regressor = ElasticNet()
regressor.fit(X_train, y_train)
print(f'mean_squared_error: {mean_squared_error(y_test, regressor.predict(X_test))}')

mean_squared_error: 475.6487567659047


In [23]:
import pandas as pd
import numpy as np
from sklearn import preprocessing
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import pickle

df = pd.read_csv('total-data.csv')
address_encode = preprocessing.LabelEncoder()
investor_encode = preprocessing.LabelEncoder()
df['address'] = address_encode.fit_transform(df['address'])
df['investor'] = investor_encode.fit_transform(df['investor'])
X = df[['address', 'bedroom', 'toilet', 'investor', 'acreage', 'lat', 'long', 'distance']]
y = df['price']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

from sklearn.linear_model import BayesianRidge
bayesian_ridge_model = BayesianRidge()
bayesian_ridge_model.fit(X_train, y_train)
print(f'mean_squared_error: {mean_squared_error(y_test, bayesian_ridge_model.predict(X_test))}')

pickle.dump(bayesian_ridge_model, open('bayesian_ridge_model.pkl', 'wb'))
pickle.dump(address_encode, open('address_encode.pkl', 'wb'))
pickle.dump(investor_encode, open('investor_encode.pkl', 'wb'))

mean_squared_error: 475.474799153872


In [26]:
bayesian_ridge_model = pickle.load(open('bayesian_ridge_model.pkl', 'rb'))
address_encode = pickle.load(open('address_encode.pkl', 'rb'))
investor_encode = pickle.load(open('investor_encode.pkl', 'rb'))

In [34]:
address_encode.transform(['Hà Đông'])

array([9])

In [31]:
df = pd.read_csv('total-data.csv')

In [35]:
df['address'].unique()

array(['Nam Từ Liêm', 'Cầu Giấy', 'Tây Hồ', 'Bắc Từ Liêm', 'Hoàng Mai',
       'Thanh Xuân', 'Ba Đình', 'Gia Lâm', 'Hà Đông', 'Hoàn Kiếm',
       'Hai Bà Trưng', 'Long Biên', 'Đống Đa', 'Thanh Trì', 'Hoài Đức',
       'Thanh Oai', 'Đan Phượng', 'Đông Anh', 'Chương Mỹ'], dtype=object)

In [36]:
df['investor'].unique()

array(['other', 'tập đoàn vingroup', 'tân hoàng minh group',
       'tổng công ty đầu tư phát triển hạ tầng đô thị - udic',
       'công ty tnhh thương mại - quảng cáo - xây dựng - địa ốc việt hân',
       'công ty cp xây dựng số 2 - vinaconex2',
       'công ty cp xuất nhập khẩu tổng hợp hà nội - geleximco',
       'công ty cp tập đoàn sunshine', 'công ty cổ phần tập đoàn flc',
       'công ty cp xây dựng và thương mại bắc hà',
       'công ty tnhh phát triển khu đô thị nam thăng long',
       'công ty cp tập đoàn nam cường hà nội',
       'công ty cp đầu tư văn phú - invest',
       'công ty cp đầu tư xây dựng số 9 hà nội',
       'tổng công ty đầu tư và phát triển nhà hà nội - handico',
       'doanh nghiệp tư nhân xây dựng số 1 tỉnh điện biên',
       'tổng công ty đầu tư phát triển nhà và đô thị bộ quốc phòng',
       'công ty cp sông đà 7',
       'tổng công ty đầu tư phát triển nhà và đô thị hud',
       'công ty tnhh bất động sản và xây dựng việt hưng',
       'tập đoàn sun gro