In [5]:
# Import các thư viện
import pandas as pd
import matplotlib.pyplot as plt
import re

In [2]:
# Đọc dữ liệu
df = pd.read_csv('data/db.csv')

In [None]:
bins = [0, 2, 3, 4, 5, 6, 7, 8, 9, 10, float('inf')]
labels = ['< 2 tỷ', '2 - 3 tỷ', '3 - 4 tỷ', '4 - 5 tỷ', '5 - 6 tỷ', 
          '6 - 7 tỷ', '7 - 8 tỷ', '8 - 9 tỷ', '9 - 10 tỷ', '> 10 tỷ']

df['max_price_category'] = pd.cut(df['max_selling_price'] / 1e9, bins=bins, labels=labels, right=False)
price_counts = df['price_category'].value_counts().sort_index()

# Vẽ biểu đồ cột cho lượng dự án theo khoảng giá
plt.figure(figsize=(10, 6))
price_counts.plot(kind='bar', color='skyblue')

# Thêm tiêu đề và nhãn cho biểu đồ
plt.title('Number of Projects by Price Range')
plt.xlabel('Price Range (tỷ VND)')
plt.ylabel('Number of Projects')
plt.xticks(rotation=45)
plt.grid(True)

# Hiển thị biểu đồ
plt.tight_layout()
plt.show()


In [None]:
# Biểu đồ lượng dự án theo diện tích
bins = [0, 0.5, 1, 5, 10, 100, float('inf')]  # Các khoảng diện tích (tính bằng ha)
labels = ['< 0.5 ha', '0.5 - 1 ha', '1 - 5 ha', '5 - 10 ha', '10-100 ha', '> 100 ha']

df['area_category'] = pd.cut(df['total_area'], bins=bins, labels=labels, right=False)

# Vẽ biểu đồ cột (bar plot) cho số lượng dự án ở từng khoảng diện tích
plt.figure(figsize=(8, 6))
df['area_category'].value_counts().plot(kind='bar', color='skyblue')

# Thêm tiêu đề và nhãn
plt.title('Distribution of Projects by Area')
plt.xlabel('Area Categories')
plt.ylabel('Number of Projects')
plt.xticks(rotation=45)
plt.grid(True)

# Hiển thị biểu đồ
plt.show()

In [None]:
# Biểu đồ lượng dự án theo quận
# Hàm trích xuất tên quận từ địa chỉ
def extract_district(address):
    match = re.search(r'Q\. (.*?),', address)
    if match:
        return match.group(1).strip()
    return None

# Tạo cột mới 'district' chứa tên quận
df['district'] = df['address'].apply(extract_district)

# Đếm số lượng dự án theo từng quận
district_counts = df['district'].value_counts()

# Vẽ biểu đồ tròn
plt.figure(figsize=(8, 8))
district_counts.plot(kind='pie', autopct='%1.1f%%', startangle=90, colormap='tab20')

# Thêm tiêu đề
plt.title('Distribution of Projects by District')
plt.ylabel('')  # Ẩn n  hãn trục Y
plt.axis('equal')  # Đảm bảo biểu đồ tròn

# Hiển thị biểu đồ
plt.tight_layout()
plt.show()

In [None]:
# Biểu đồ lượng dự án theo giá đỗ xe

# Xác định các khoảng phí gửi xe
bins = [-float('inf'), 0, 100000, 500000, 1000000, float('inf')]
labels = ['No Fee', '0 - 100,000 VND', '100,000 - 500,000 VND', '500,000 - 1 Million VND', '> 1 Million VND']

df['bike_parking_category'] = pd.cut(df['bike_parking_monthly'], bins=bins, labels=labels)
df['car_parking_category'] = pd.cut(df['car_parking_monthly'], bins=bins, labels=labels)

# Đếm số lượng dự án theo từng khoảng phí
bike_counts = df['bike_parking_category'].value_counts().sort_index()
car_counts = df['car_parking_category'].value_counts().sort_index()

# Vẽ biểu đồ cột đôi
fig, ax = plt.subplots(figsize=(10, 6))
bar_width = 0.35
index = range(len(labels))
ax.bar(index, bike_counts, bar_width, label='Bike Parking', color='skyblue')
ax.bar([i + bar_width for i in index], car_counts, bar_width, label='Car Parking', color='orange')

# Thêm tiêu đề và nhãn
ax.set_title('Comparison of Bike and Car Parking Fees by Category')
ax.set_xlabel('Parking Fee Category')
ax.set_ylabel('Number of Projects')
ax.set_xticks([i + bar_width / 2 for i in index])
ax.set_xticklabels(labels, rotation=45)
ax.legend()

plt.tight_layout()
plt.grid(True)
plt.show()