- Câu hỏi: Sinh viên nên thuê trọ vào tháng nào nhất ở một quận cụ thể?  
- Hướng trả lời:
  - Chỉ số x = giá phòng trọ/1m2/1 tháng
  - Tháng nên thuê phòng trọ là tháng có chỉ số x trung bình nhỏ nhất (tính từ năm 2018 đến 2022).
- Nếu trả lời được câu hỏi, thì sinh viên có thể biết tháng nào nên bắt đầu thuê trọ để tiết kiệm chi phí.
- Nguồn cảm hứng xuất phát từ câu hỏi của bản thân khi đi thuê trọ, muốn tiết kiệm tiền. Nếu thuê vào tháng rẻ nhất và ký hợp đồng 1 năm thì em sẽ tiết kiệm được nhiều tiền.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from datetime import date
import seaborn as sns
from datetime import datetime 
import import_ipynb 
from lib_final import *

from pandasql import sqldf 

importing Jupyter notebook from lib_final.ipynb


In [2]:
df = pd.read_csv('clean_data.csv')
df.head()

Unnamed: 0,Id,Title,Price,Square,District,City,Date
0,329,Tìm người ở ghép phòng trọ gần ngã 3 Lũy Bán B...,8.4,,Tân Phú,Hồ Chí Minh,2018-05-17
1,1110,"Cho thuê phòng trọ 25m2, giờ tự do hẻm 137 Trị...",2.5,25.0,Tân Phú,Hồ Chí Minh,2018-05-14
2,1114,Chuyên cho thuê CH Era Town có thể dọn vào ở l...,2.0,15.0,Quận 7,Hồ Chí Minh,2018-05-14
3,1275,"Phòng gác lửng, máy lạnh, ban công, WC riêng, ...",3.7,,Quận 7,Hồ Chí Minh,2018-05-14
4,1592,Cho thuê phòng full nội thất cho nữ trong căn ...,3.8,,Nhà Bè,Hồ Chí Minh,2018-05-14


In [3]:
# Lọc ra bộ dữ liệu chỉ gồm phòng trọ
df = title_clean('Title', df)

# Xóa những cột mà Price = null và Square = null
df = df[df["Price"].notna()]
df = df[df["Square"].notna()]
df.head()

Unnamed: 0,Id,Title,Price,Square,District,City,Date
1,1110,"cho thuê phòng trọ 25m2, giờ tự do hẻm 137 trị...",2.5,25.0,Tân Phú,Hồ Chí Minh,2018-05-14
2,2618,cho thuê phòng trọ mới xây tại 377/8/34 bạch đ...,3.0,20.0,Bình Thạnh,Hồ Chí Minh,2018-05-14
3,3880,cho thuê phòng trọ mới giá rẻ đường chu văn an...,3.3,22.0,Bình Thạnh,Hồ Chí Minh,2018-05-14
4,4182,"cho thuê phòng trọ hẻm 283 huỳnh tấn phát, kcx...",2.5,13.5,Quận 7,Hồ Chí Minh,2018-05-14
5,4834,"phòng trọ đầy đủ tiện nghi, nội thất mt 218 bạ...",5.6,30.0,Bình Thạnh,Hồ Chí Minh,2018-05-14


In [4]:
# Thêm cột Month, Year
df['Year'] = df['Date'].str.slice(0,4)
df['Month'] = df['Date'].str.slice(5,7)


In [5]:
# Thêm cột chỉ số x 
df["X"] = df["Price"]/df["Square"]
df = df[["X", "Price", "Square", "District", "Month", "Year"]]
df[df["District"] == "Bình Chánh"]


Unnamed: 0,X,Price,Square,District,Month,Year
306,0.16,4.8,30.0,Bình Chánh,7,2018
440,0.068,1.7,25.0,Bình Chánh,7,2018
528,0.055556,1.0,18.0,Bình Chánh,9,2018
840,0.066667,2.0,30.0,Bình Chánh,2,2020
1022,0.08,2.0,25.0,Bình Chánh,4,2021
1092,0.014,1.4,100.0,Bình Chánh,7,2022


In [10]:
"""       ** BẢNG DATA BAN ĐẦU **
 + District    Year     Month   Price    ...
 +  A          2018       5      0.1     ...
 +  A          2018       8      0.2     ...
 +  A          2019       5      0.8     ... 
 +  A          2020       8      0.1     ... 
 +  A          2021       8      0.1     ...

        ** BẢNG KẾT QUẢ **
 + District     Month    Price   ...  (không có cột Year)
 + A              5       0.9    
 + A              8       0.4    ... (Giả sử tính sum())
"""
result = df.groupby(['District', 'Month']).mean() # tính trung bình chỉ số X của mỗi quận, trên từng tháng, tính từ năm 2018 - 2022
result

Unnamed: 0_level_0,Unnamed: 1_level_0,X,Price,Square
District,Month,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Bình Chánh,02,0.066667,2.000000,30.000000
Bình Chánh,04,0.080000,2.000000,25.000000
Bình Chánh,07,0.080667,2.633333,51.666667
Bình Chánh,09,0.055556,1.000000,18.000000
Bình Thạnh,01,0.147443,2.417417,21.166667
...,...,...,...,...
Tân Phú,08,0.134167,3.625000,27.250000
Tân Phú,09,0.130938,2.500000,20.500000
Tân Phú,10,0.129270,3.040000,21.833333
Tân Phú,11,0.119771,3.000000,25.400000


In [13]:
result.loc["Bình Chánh", :]["X"].idxmin()

'09'

In [16]:
# Lấy chỉ số X của từng tháng
city_list = df["District"].unique()
city_list
for city in city_list:
    print("Tháng có giá thuê trọ nhỏ nhất trên 1m2 (hay chỉ số X) ở quận %s: Tháng"%city,  
    pd.to_numeric(result.loc[city, :]["X"].idxmin()))


Tháng có giá thuê trọ nhỏ nhất trên 1m2 (hay chỉ số X) ở quận Tân Phú: Tháng 1
Tháng có giá thuê trọ nhỏ nhất trên 1m2 (hay chỉ số X) ở quận Bình Thạnh: Tháng 4
Tháng có giá thuê trọ nhỏ nhất trên 1m2 (hay chỉ số X) ở quận Quận 7: Tháng 10
Tháng có giá thuê trọ nhỏ nhất trên 1m2 (hay chỉ số X) ở quận Quận 10: Tháng 8
Tháng có giá thuê trọ nhỏ nhất trên 1m2 (hay chỉ số X) ở quận Bình Tân: Tháng 6
Tháng có giá thuê trọ nhỏ nhất trên 1m2 (hay chỉ số X) ở quận Gò Vấp: Tháng 10
Tháng có giá thuê trọ nhỏ nhất trên 1m2 (hay chỉ số X) ở quận Quận 1: Tháng 5
Tháng có giá thuê trọ nhỏ nhất trên 1m2 (hay chỉ số X) ở quận Quận 3: Tháng 4
Tháng có giá thuê trọ nhỏ nhất trên 1m2 (hay chỉ số X) ở quận Tân Bình: Tháng 10
Tháng có giá thuê trọ nhỏ nhất trên 1m2 (hay chỉ số X) ở quận Phú Nhuận: Tháng 9
Tháng có giá thuê trọ nhỏ nhất trên 1m2 (hay chỉ số X) ở quận Quận 9: Tháng 2
Tháng có giá thuê trọ nhỏ nhất trên 1m2 (hay chỉ số X) ở quận Quận 11: Tháng 6
Tháng có giá thuê trọ nhỏ nhất trên 1m2 (hay ch