In [8]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
%matplotlib inline
import matplotlib 
matplotlib.rcParams["figure.figsize"] = (20,10)
pd.set_option('display.float_format', lambda x: '%.2f' % x)

In [9]:
# Load the data
# df1 = pd.read_csv("muaBanCanHo.csv")
# df1.head()

In [10]:
def convert_price(price_str):
    if not isinstance(price_str, str):
        # Handle cases where the value is not a string (e.g., NaN or numeric values)
        return np.nan
    try:
        if 'tỷ' in price_str:
            return float(price_str.replace(' tỷ', '').replace(',', '.')) * 1e9
        elif 'triệu' in price_str:
            return float(price_str.replace(' triệu', '').replace(',', '.')) * 1e6
        elif 'nghìn' in price_str:
            return float(price_str.replace(' nghìn', '').replace(',', '.')) * 1e3
        else:
            # Handle cases where the value is already numeric
            return float(price_str.replace(',', '.'))
    except ValueError:
        print(f"ValueError: Could not convert {price_str} to float.")
        return np.nan

In [11]:
import re
# Function to clean and convert room and toilet columns
def clean_rooms_toilets(value):
    if pd.isna(value):
        return 0
    value = str(value).lower()
    # Extract number if the string contains 'nhiều hơn'
    if 'nhiều hơn' in value:
        match = re.search(r'\d+', value)
        if match:
            return int(match.group(0))
    # Clean and convert the value
    return int(value.replace('phòng', '').strip())

In [12]:
def convert_district_to_districtId(district):
    # Mapping dictionary for district names to district IDs
    district_mapping = {
        "Thành phố Thủ Đức": 1,
        "Quận 1": 2,
        "Quận 3": 3,
        "Quận 4": 4,
        "Quận 5": 5,
        "Quận 6": 6,
        "Quận 7": 7,
        "Quận 8": 8,
        "Quận 10": 9,
        "Quận 11": 10,
        "Quận 12": 11,
        "Quận Bình Tân": 12,
        "Quận Bình Thạnh": 13,
        "Quận Gò Vấp": 14,
        "Quận Phú Nhuận": 15,
        "Quận Tân Bình": 16,
        "Quận Tân Phú": 17,
        "Huyện Bình Chánh": 18,
        "Huyện Cần Giờ": 19,
        "Huyện Củ Chi": 20,
        "Huyện Hóc Môn": 21,
        "Huyện Nhà Bè": 22,
    }
    
    # Check if the district name exists in the mapping dictionary
    return district_mapping.get(district, np.nan)  # Returns np.nan if district is not found


In [13]:
def convert_ward_to_wardId(ward, districtId):
    # Mapping dictionary for ward names to ward IDs
    ward_mapping = {
        ("Phương An Khánh (Quận 2 cũ)", 1): 1,
        ("Phường An Lợi Đông (Quận 2 cũ)", 1): 2,
        ("Phường An Phú (Quận 2 cũ)", 1): 3,
        ("Phường Bình Trưng Đông (Quận 2 cũ)", 1): 4,
        ("Phường Bình Trưng Tây (Quận 2 cũ)", 1): 5,
        ("Phường Cát Lái (Quận 2 cũ)", 1): 6,
        ("Phường Thạnh Mỹ Lợi (Quận 2 cũ)", 1): 7,
        ("Phường Thảo Điền (Quận 2 cũ)", 1): 8,
        ("Phường Thủ Thiêm (Quận 2 cũ)", 1): 9,
        ("Phường Hiệp Phú (Quận 9 cũ)", 1): 10,
        ("Phường Long Bình (Quận 9 cũ)", 1): 11,
        ("Phường Long Phước (Quận 9 cũ)", 1): 12,
        ("Phường Long Thạnh Mỹ (Quận 9 cũ)", 1): 13,
        ("Phường Long Trường (Quận 9 cũ)", 1): 15,
        ("Phường Phú Hữu (Quận 9 cũ)", 1): 16,
        ("Phường Phước Bình (Quận 9 cũ)", 1): 17,
        ("Phường Phước Long A (Quận 9 cũ)", 1): 18,
        ("Phường Phước Long B (Quận 9 cũ)", 1): 19,
        ("Phường Tân Phú (Quận 9 cũ)", 1): 20,
        ("Phường Tăng Nhơn Phú A (Quận 9 cũ)", 1): 21,
        ("Phường Tăng Nhơn Phú B (Quận 9 cũ)", 1): 22,
        ("Phường Trường Thạnh (Quận 9 cũ)", 1): 23,
        ("Phường Bình Chiểu (Quận Thủ Đức cũ)", 1): 24,
        ("Phường Bình Thọ (Quận Thủ Đức cũ)", 1): 25,
        ("Phường Hiệp Bình Chánh (Quận Thủ Đức cũ)", 1): 26,
        ("Phường Hiệp Bình Phước (Quận Thủ Đức cũ)", 1): 27,
        ("Phường Linh Chiểu (Quận Thủ Đức cũ)", 1): 28,
        ("Phường Linh Đông (Quận Thủ Đức cũ)", 1): 29,
        ("Phường Linh Tây (Quận Thủ Đức cũ)", 1): 30,
        ("Phường Linh Trung (Quận Thủ Đức cũ)", 1): 31,
        ("Phường Linh Xuân (Quận Thủ Đức cũ)", 1): 32,
        ("Phường Tam Bình (Quận Thủ Đức cũ)", 1): 33,
        ("Phường Tam Phú (Quận Thủ Đức cũ)", 1): 34,
        ("Phường Trường Thọ (Quận Thủ Đức cũ)", 1): 35,
        ("Phường Bến Nghé", 2): 36,
        ("Phường Bến Thành", 2): 37,
        ("Phường Cầu Kho", 2): 38,
        ("Phường Cầu Ông Lãnh", 2): 39,
        ("Phường Cô Giang", 2): 40,
        ("Phường Đa Kao", 2): 41,
        ("Phường Nguyễn Cư Trinh", 2): 42,
        ("Phường Nguyễn Thái Bình", 2): 43,
        ("Phường Tân Định", 2): 327,
        ("Phường Phạm Ngũ Lão", 2): 328,
        ("Phường 1", 3): 44,
        ("Phường 2", 3): 45,
        ("Phường 3", 3): 46,
        ("Phường 4", 3): 47,
        ("Phường 5", 3): 48,
        ("Phường 9", 3): 49,
        ("Phường 10", 3): 50,
        ("Phường 11", 3): 51,
        ("Phường 12", 3): 52,
        ("Phường 13", 3): 53,
        ("Phường 14", 3): 54,
        ("Phường Võ Thị Sáu", 3): 329,
        ("Phường 1", 4): 56,
        ("Phường 2", 4): 57,
        ("Phường 3", 4): 58,
        ("Phường 4", 4): 59,
        ("Phường 6", 4): 60,
        ("Phường 8", 4): 61,
        ("Phường 9", 4): 62,
        ("Phường 10", 4): 63,
        ("Phường 13", 4): 64,
        ("Phường 14", 4): 65,
        ("Phường 15", 4): 66,
        ("Phường 16", 4): 67,
        ("Phường 18", 4): 68,
        ("Phường 1", 5): 69,
        ("Phường 2", 5): 70,
        ("Phường 3", 5): 71,
        ("Phường 4", 5): 72,
        ("Phường 5", 5): 73,
        ("Phường 6", 5): 74,
        ("Phường 7", 5): 75,
        ("Phường 8", 5): 76,
        ("Phường 9", 5): 77,
        ("Phường 10", 5): 78,
        ("Phường 11", 5): 79,
        ("Phường 12", 5): 80,
        ("Phường 13", 5): 81,
        ("Phường 14", 5): 82,
        ("Phường 1", 6): 83,
        ("Phường 2", 6): 84,
        ("Phường 3", 6): 85,
        ("Phường 4", 6): 86,
        ("Phường 5", 6): 87,
        ("Phường 6", 6): 88,
        ("Phường 7", 6): 89,
        ("Phường 8", 6): 90,
        ("Phường 9", 6): 91,
        ("Phường 10", 6): 92,
        ("Phường 11", 6): 93,
        ("Phường 12", 6): 94,
        ("Phường 13", 6): 95,
        ("Phường 14", 6): 96,
        ("Phường Bình Thuận", 7): 97,
        ("Phường Phú Mỹ", 7): 98,
        ("Phường Phú Thuận", 7): 99,
        ("Phường Tân Hưng", 7): 100,
        ("Phường Tân Kiểng", 7): 101,
        ("Phường Tân Phong", 7): 102,
        ("Phường Tân Phú", 7): 103,
        ("Phường Tân Quy", 7): 104,
        ("Phường Tân Thuận Đông", 7): 105,
        ("Phường Tân Thuận Tây", 7): 106,
        ("Phường 1", 8): 107,
        ("Phường 2", 8): 108,
        ("Phường 3", 8): 109,
        ("Phường 4", 8): 110,
        ("Phường 5", 8): 111,
        ("Phường 6", 8): 112,
        ("Phường 7", 8): 113,
        ("Phường 8", 8): 114,
        ("Phường 9", 8): 115,
        ("Phường 10", 8): 116,
        ("Phường 11", 8): 117,
        ("Phường 12", 8): 118,
        ("Phường 13", 8): 119,
        ("Phường 14", 8): 120,
        ("Phường 15", 8): 121,
        ("Phường 16", 8): 122,
        ("Phường 1", 9): 123,
        ("Phường 2", 9): 124,
        ("Phường 3", 9): 125,
        ("Phường 4", 9): 126,
        ("Phường 5", 9): 127,
        ("Phường 6", 9): 128,
        ("Phường 7", 9): 129,
        ("Phường 8", 9): 130,
        ("Phường 9", 9): 131,
        ("Phường 10", 9): 132,
        ("Phường 11", 9): 133,
        ("Phường 12", 9): 134,
        ("Phường 13", 9): 135,
        ("Phường 14", 9): 136,
        ("Phường 15", 9): 137,
        ("Phường 1", 10): 138,
        ("Phường 2", 10): 139,
        ("Phường 3", 10): 140,
        ("Phường 4", 10): 141,
        ("Phường 5", 10): 142,
        ("Phường 6", 10): 143,
        ("Phường 7", 10): 144,
        ("Phường 8", 10): 145,
        ("Phường 9", 10): 146,
        ("Phường 10", 10): 147,
        ("Phường 11", 10): 148,
        ("Phường 12", 10): 149,
        ("Phường 13", 10): 150,
        ("Phường 14", 10): 151,
        ("Phường 15", 10): 152,
        ("Phường 16", 10): 332,
        ("Phường An Phú Đông", 11): 154,
        ("Phường Đông Hưng Thuận", 11): 155,
        ("Phường Hiệp Thành", 11): 156,
        ("Phường Tân Chánh Hiệp", 11): 157,
        ("Phường Tân Hưng Thuận", 11): 158,
        ("Phường Tân Thới Hiệp", 11): 159,
        ("Phường Tân Thới Nhất", 11): 160,
        ("Phường Thạnh Lộc", 11): 161,
        ("Phường Thạnh Xuân", 11): 162,
        ("Phường Thới An", 11): 330,
        ("Phường Trung Mỹ Tây", 11): 331,
        ("Phường An Lạc", 12): 163,
        ("Phường An Lạc A", 12): 164,
        ("Phường Bình Hưng Hòa", 12): 165,
        ("Phường Bình Hưng Hoà A", 12): 166,
        ("Phường Bình Hưng Hoà B", 12): 167,
        ("Phường Bình Trị Đông", 12): 168,
        ("Phường Bình Trị Đông A", 12): 169,
        ("Phường Bình Trị Đông B", 12): 170,
        ("Phường Tân Tạo", 12): 171,
        ("Phường Tân Tạo A", 12): 172,
        ("Phường 1", 13): 178,
        ("Phường 2", 13): 179,
        ("Phường 3", 13): 180,
        ("Phường 5", 13): 183,
        ("Phường 6", 13): 184,
        ("Phường 7", 13): 188,
        ("Phường 11", 13): 189,
        ("Phường 12", 13): 190,
        ("Phường 13", 13): 191,
        ("Phường 14", 13): 192,
        ("Phường 15", 13): 193,
        ("Phường 17", 13): 194,
        ("Phường 19", 13): 195,
        ("Phường 21", 13): 196,
        ("Phường 22", 13): 197,
        ("Phường 24", 13): 198,
        ("Phường 25", 13): 199,
        ("Phường 26", 13): 200,
        ("Phường 27", 13): 201,
        ("Phường 28", 13): 326,
        ("Phường 1", 14): 202,
        ("Phường 3", 14): 204,
        ("Phường 4", 14): 205,
        ("Phường 5", 14): 206,
        ("Phường 6", 14): 207,
        ("Phường 7", 14): 208,
        ("Phường 8", 14): 209,
        ("Phường 9", 14): 210,
        ("Phường 10", 14): 211,
        ("Phường 11", 14): 212,
        ("Phường 12", 14): 213,
        ("Phường 13", 14): 217,
        ("Phường 14", 14): 218,
        ("Phường 15", 14): 219,
        ("Phường 16", 14): 220,
        ("Phường 17", 14): 221,
        ("Phường 1", 15): 222,
        ("Phường 2", 15): 223,
        ("Phường 3", 15): 224,
        ("Phường 4", 15): 225,
        ("Phường 5", 15): 226,
        ("Phường 7", 15): 228,
        ("Phường 8", 15): 229,
        ("Phường 9", 15): 230,
        ("Phường 10", 15): 231,
        ("Phường 11", 15): 232,
        ("Phường 13", 15): 234,
        ("Phường 15", 15): 236,
        ("Phường 17", 15): 325,
        ("Phường 1", 16): 237,
        ("Phường 2", 16): 238,
        ("Phường 3", 16): 239,
        ("Phường 4", 16): 240,
        ("Phường 5", 16): 241,
        ("Phường 6", 16): 242,
        ("Phường 7", 16): 243,
        ("Phường 8", 16): 244,
        ("Phường 9", 16): 245,
        ("Phường 10", 16): 246,
        ("Phường 11", 16): 247,
        ("Phường 12", 16): 248,
        ("Phường 13", 16): 249,
        ("Phường 14", 16): 250,
        ("Phường 15", 16): 333,
        ("Phường Hiệp Tân", 17): 251,
        ("Phường Hòa Thạnh", 17): 252,
        ("Phường Phú Thạnh", 17): 253,
        ("Phường Phú Thọ Hòa", 17): 254,
        ("Phường Phú Trung", 17): 255,
        ("Phường Sơn Kỳ", 17): 256,
        ("Phường Tân Quý", 17): 257,
        ("Phường Tân Sơn Nhì", 17): 258,
        ("Phường Tân Thành", 17): 259,
        ("Phường Tân Thới Hòa", 17): 260,
        ("Phường Tây Thạnh", 17): 261,
        ("Thị trấn Tân Túc", 18): 262,
        ("Xã An Phú Tây", 18): 263,
        ("Xã Bình Chánh", 18): 264,
        ("Xã Bình Hưng", 18): 265,
        ("Xã Bình Lợi", 18): 266,
        ("Xã Đa Phước", 18): 267,
        ("Xã Hưng Long", 18): 268,
        ("Xã Lê Minh Xuân", 18): 269,
        ("Xã Phạm Văn Hai", 18): 270,
        ("Xã Phong Phú", 18): 271,
        ("Xã Quy Đức", 18): 272,
        ("Xã Tân Kiên", 18): 273,
        ("Xã Tân Nhựt", 18): 274,
        ("Xã Tân Quý Tây", 18): 275,
        ("Xã Vĩnh Lộc A", 18): 276,
        ("Xã Vĩnh Lộc B", 18): 277,
        ("Thị trấn Cần Thạnh", 19): 278,
        ("Xã An Thới Đông", 19): 279,
        ("Xã Bình Khánh", 19): 280,
        ("Xã Long Hòa", 19): 281,
        ("Xã Lý Nhơn", 19): 282,
        ("Xã Tam Thôn Hiệp", 19): 283,
        ("Xã Thạnh An", 19): 284,
        ("Thị trấn Củ Chi", 20): 285,
        ("Xã An Nhơn Tây", 20): 286,
        ("Xã An Phú", 20): 287,
        ("Xã Bình Mỹ", 20): 288,
        ("Xã Hòa Phú", 20): 289,
        ("Xã Nhuận Đức", 20): 290,
        ("Xã Phạm Văn Cội", 20):291 ,
        ("Xã Phú Hòa Đông", 20): 292,
        ("Xã Phú Mỹ Hưng", 20): 293,
        ("Xã Phước Hiệp", 20): 294,
        ("Xã Phước Thạnh", 20): 295,
        ("Xã Phước Vĩnh An", 20): 296,
        ("Xã Tân An Hội", 20): 297,
        ("Xã Tân Phú Trung", 20): 298,
        ("Xã Tân Thạnh Đông", 20): 299,
        ("Xã Tân Thạnh Tây", 20): 300,
        ("Xã Tân Thông Hội", 20): 301,
        ("Xã Thái Mỹ", 20): 302,
        ("Xã Trung An", 20): 303,
        ("Xã Trung Lập Hạ", 20): 304,
        ("Xã Trung Lập Thượng", 20): 305,
        ("Thị trấn Hóc Môn", 21): 306,
        ("Xã Bà Điểm", 21): 307,
        ("Xã Đông Thạnh", 21): 308,
        ("Xã Nhị Bình", 21): 309,
        ("Xã Tân Hiệp", 21): 310,
        ("Xã Tân Thới Nhì", 21): 311,
        ("Xã Tân Xuân", 21): 312,
        ("Xã Thới Tam Thôn", 21): 313,
        ("Xã Trung Chánh", 21): 314,
        ("Xã Xuân Thới Đông", 21): 315,
        ("Xã Xuân Thới Sơn", 21): 316,
        ("Xã Xuân Thới Thượng", 21): 317,
        ("Thị trấn Nhà Bè", 22): 318,
        ("Xã Hiệp Phước", 22): 319,
        ("Xã Long Thới", 22): 320,
        ("Xã Nhơn Đức", 22): 321,
        ("Xã Phú Xuân", 22): 322,
        ("Xã Phước Kiển", 22): 323,
        ("Xã Phước Lộc", 22): 324,
    }
    
    # Check if the ward name exists in the mapping dictionary
    return ward_mapping.get((ward, districtId), np.nan)  # Returns np.nan if ward is not found


In [15]:
# Load the data
df1 = pd.read_csv("final_data.csv")
df1.head()

# Handle 'location' column if it exists
if 'address' in df1.columns:
    # Filter out rows where 'address' contains 'Cập nhật'
    df1 = df1[~df1['address'].str.contains('Cập nhật', case=False, na=False)]

    # Ensure all values in the 'address' column are strings and handle NaN values
    df1[['ward', 'district', 'province']] = df1['address'].apply(
        lambda x: pd.Series(str(x).split(', ')[-3:]) if pd.notnull(x) else pd.Series([None, None, None])
    )

    # Remove "Tp " from the beginning of the 'province' column
    df1['province'] = df1['province'].str.replace(r'^Tp\s+', '', regex=True)

    # Drop the 'address' column after splitting
    df1.drop(columns=['address'], inplace=True)


# Áp dụng hàm để chuyển đổi district thành districtId
df1['DistrictId'] = df1['district'].apply(convert_district_to_districtId)

# Thay thế np.nan bằng 0, sau đó chuyển cột thành kiểu int
df1['DistrictId'] = df1['DistrictId'].fillna(0).astype(int)

# Áp dụng hàm để chuyển đổi ward thành wardId
df1['WardId'] = df1.apply(lambda row: convert_ward_to_wardId(row['ward'], row['DistrictId']), axis=1)

# Chuyển đổi thành kiểu số nguyên nếu cần
df1['WardId'] = df1['WardId'].fillna(0).astype(int)

# Drop rows where price is "Giá thỏa thuận"
df1 = df1[df1['price'] != "Giá thỏa thuận"]

# Apply content to null value
df1['rooms'] = df1['rooms'].apply(clean_rooms_toilets)
df1['toilets'] = df1['toilets'].apply(clean_rooms_toilets)

df1['apartment_feature'] = df1['apartment_feature'].fillna('')
df1['apartment_type'] = df1['apartment_type'].fillna('')
df1['furnishing_sell'] = df1['furnishing_sell'].fillna('')

# Apply conversion functions
df1['price'] = df1['price'].astype(str).apply(convert_price)

# Ensure all values in 'price_m2' are strings before extracting the numeric part
df1['price_m2'] = df1['price_m2'].astype(str)

# Extract numeric value from 'price_m2', convert commas to periods, and convert to float
df1['price_m2'] = df1['price_m2'].str.extract(r'([\d,.]+)').replace(',', '.', regex=True).astype(float)

# Convert 'price' and 'price_m2' to numeric, if not already
df1['price'] = pd.to_numeric(df1['price'], errors='coerce')
df1['price_m2'] = pd.to_numeric(df1['price_m2'], errors='coerce')

# Ensure all values in 'size' are strings before removing 'm²' and converting to float
df1['size'] = df1['size'].astype(str)

# Remove 'm²' and any spaces from 'size', then convert to float
df1['size'] = df1['size'].str.replace(r'm²', '', regex=True).str.strip().astype(float)

# Nếu cột 'size' có giá trị NaN, tính toán lại giá trị cho nó
df1['size'] = df1['size'].fillna(df1['price'] / (df1['price_m2'] * 1000000))

# Làm tròn cột 'size' đến 2 chữ số thập phân
df1['size'] = df1['size'].round(2)

# Loại Bỏ Bản Ghi Trùng Lặp
duplicates = df1.duplicated().sum()

# Loại bỏ các bản ghi trùng lặp
df1.drop_duplicates(inplace=True)

# Drop rows where 'price' or 'size' are NaN
df1 = df1.dropna(subset=['price', 'size'])

# Compute IQR for price and size
Q1 = df1[['price', 'size']].quantile(0.25)
Q3 = df1[['price', 'size']].quantile(0.75)
IQR = Q3 - Q1

# Identify outliers
outliers = (df1[['price', 'size']] < (Q1 - 1.5 * IQR)) | (df1[['price', 'size']] > (Q3 + 1.5 * IQR))

# Remove outliers
df1 = df1[~outliers.any(axis=1)]

df1['Size'] = df1['size']
df1['Rooms'] = df1['rooms']
df1['Toilets'] = df1['toilets']
df1['Type'] = df1['apartment_type']
df1['FurnishingSell'] = df1['furnishing_sell']
df1['Urgent'] = df1['title'].apply(lambda x: 1 if 'gấp' in x.lower() or 'ngộp' in x.lower() else 0).astype(int)
df1['Price'] = df1['price']

df1.drop(columns=['ward'], inplace=True)
df1.drop(columns=['district'], inplace=True)
df1.drop(columns=['furnishing_sell'], inplace=True)
df1.drop(columns=['rooms'], inplace=True)
df1.drop(columns=['toilets'], inplace=True)
df1.drop(columns=['size'], inplace=True)
df1.drop(columns=['price'], inplace=True)
df1.drop(columns=['apartment_type'], inplace=True)
df1.drop(columns=['price_m2'], inplace=True)
df1.drop(columns=['property_legal_document'], inplace=True)
df1.drop(columns=['direction'], inplace=True)
df1.drop(columns=['province'], inplace=True)
df1.drop(columns=['balconydirection'], inplace=True)
df1.drop(columns=['apartment_feature'], inplace=True)
df1.drop(columns=['property_status'], inplace=True)
df1.drop(columns=['title'], inplace=True)

# Display the updated DataFrame
df1.head()


ValueError: Could not convert 5 triệu/tháng to float.
ValueError: Could not convert 26 triệu/tháng to float.
ValueError: Could not convert 35 triệu/tháng to float.
ValueError: Could not convert 23 triệu/tháng to float.
ValueError: Could not convert 5 triệu/tháng to float.
ValueError: Could not convert 7 triệu/tháng to float.
ValueError: Could not convert 3,9 triệu/tháng to float.
ValueError: Could not convert 19 triệu/tháng to float.
ValueError: Could not convert 5,5 triệu/tháng to float.
ValueError: Could not convert 13 triệu/tháng to float.
ValueError: Could not convert 5 triệu/tháng to float.
ValueError: Could not convert 5 triệu/tháng to float.
ValueError: Could not convert 280 triệu/tháng to float.
ValueError: Could not convert 2,3 triệu/tháng to float.
ValueError: Could not convert 20 triệu/tháng to float.
ValueError: Could not convert 5,5 triệu/tháng to float.
ValueError: Could not convert 8 triệu/tháng to float.
ValueError: Could not convert 30 triệu/tháng to float.
ValueError:

Unnamed: 0,DistrictId,WardId,Size,Rooms,Toilets,Type,FurnishingSell,Urgent,Price
1,1,13,90.0,3,0,Chung cư,,0,2850000000.0
2,12,163,72.0,2,1,Chung cư,Nội thất đầy đủ,0,2150000000.0
3,1,11,74.0,2,2,Chung cư,Nội thất cao cấp,0,4200000000.0
4,18,271,50.0,2,2,Chung cư,,0,1420000000.0
5,21,306,51.34,2,1,Chung cư,Bàn giao thô,0,2000000000.0


In [16]:
# Kiểm tra giá trị thiếu
print(df1.isnull().sum())
print(df1.shape)

DistrictId        0
WardId            0
Size              0
Rooms             0
Toilets           0
Type              0
FurnishingSell    0
Urgent            0
Price             0
dtype: int64
(11625, 9)


In [17]:
print(df1.describe())
df1.shape

       DistrictId   WardId     Size    Rooms  Toilets   Urgent         Price
count    11625.00 11625.00 11625.00 11625.00 11625.00 11625.00      11625.00
mean         8.84   132.47    67.51     2.02     1.54     0.12 2971388065.12
std          6.51    99.67    19.11     0.67     0.75     0.32 1367552142.62
min          0.00     0.00    12.68     0.00     0.00     0.00    2150000.00
25%          1.00    29.00    55.00     2.00     1.00     0.00 1960000000.00
50%          8.00   112.00    67.00     2.00     2.00     0.00 2695000000.00
75%         14.00   230.00    79.00     2.00     2.00     0.00 3680000000.00
max         22.00   333.00   128.00    10.00     6.00     1.00 7400000000.00


(11625, 9)

In [18]:
df1.to_csv('apartmentDataset.csv',encoding="utf-8-sig",index=False)

In [19]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
import joblib

# 1. Đọc dữ liệu từ CSV và chia thành X và y
df = pd.read_csv('apartmentDataset.csv')
X = df[['WardId', 'DistrictId', 'Size', 'Rooms', 'Toilets', 'Type', 'FurnishingSell', 'Urgent']]
y = df['Price']

# 2. Xác định các cột phân loại và các cột số
categorical_features = ['Type', 'FurnishingSell', 'Urgent', 'WardId', 'DistrictId']
numerical_features = ['Size', 'Rooms', 'Toilets']

# 3. Thiết lập bộ tiền xử lý với handle_unknown='ignore'
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numerical_features),       # Chuẩn hóa các cột số
        ('cat', OneHotEncoder(handle_unknown='ignore'), categorical_features)  # One-Hot Encoding cho các cột phân loại
    ]
)

# 4. Tạo pipeline bao gồm tiền xử lý và mô hình Linear Regression
pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('model', LinearRegression())
])

# 5. Chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 6. Huấn luyện mô hình
pipeline.fit(X_train, y_train)

# 7. Lưu mô hình đã huấn luyện
joblib.dump(pipeline, 'apartment_price_model.pkl')


['apartment_price_model.pkl']

In [20]:
# Đọc dữ liệu ngôi nhà mới vào một DataFrame
new_apartment = pd.DataFrame({
    'WardId': [166],
    'DistrictId': [12],
    'Size': [80],
    'Rooms': [8],
    'Toilets': [6],
    'Type': ['Nhà ngõ, hẻm'],
    'FurnishingSell': ['Nội thất đầy đủ'],
    'Urgent': [0],  
})

# 8. Tải lại mô hình đã lưu
loaded_model = joblib.load('apartment_price_model.pkl')

# 9. Dự đoán giá cho ngôi nhà mới
predicted_price = loaded_model.predict(new_apartment)
print(f"Giá dự đoán cho ngôi nhà mới là: {predicted_price[0]:,.0f} VND")


Giá dự đoán cho ngôi nhà mới là: 3,739,759,358 VND
