In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import json

### LOAD JSON INTO CSV

In [None]:
house_data_json = json.load(open('combined_file.json', 'r'))
house_data = pd.DataFrame()
print(">> Dataset size:", len(house_data_json))

for house_info in house_data_json:
    house_info = pd.DataFrame(house_info, index=[0])
    house_data = pd.concat([house_data, house_info], ignore_index=True)

house_data.head()

In [None]:
house_data.tail()

In [None]:
# Dataset size
house_data.shape

In [None]:
house_data.to_csv('house_data_nhadatvn.csv', index=False)

In [None]:
 # Details on columns in dataset: name, non-null count, data type
house_data.info()

In [None]:
# Number of unique values within each column
house_data.nunique()

### SIMPLE EDA

In [None]:
# Unique values within each unit column
print(">> Diện tích:", house_data['Diện tích_unit'].unique().tolist())
print(">> Giá:", house_data['Giá_unit'].unique().tolist())
print(">> Mặt tiền:", house_data['Mặt tiền_unit'].unique().tolist())
print(">> Đường vào:", house_data['Đường vào_unit'].unique().tolist())
print(">> Số tầng:", house_data['Số tầng_unit'].unique().tolist())

In [None]:
# Unique values within categorical columns
print(">> Pháp lý:", house_data['Pháp lý'].unique().tolist())
print(">> Hướng nhà:", house_data['Hướng nhà'].unique().tolist())
print(">> Hướng ban công:", house_data['Hướng ban công'].unique().tolist())

In [None]:
# Analyze distribution within categorical columns. including NaN counts.
print(">> Pháp lý:", house_data['Pháp lý'].value_counts(dropna=False))
print(">> Hướng nhà:", house_data['Hướng nhà'].value_counts(dropna=False))
print(">> Hướng ban công:", house_data['Hướng ban công'].value_counts(dropna=False))

fig, axes = plt.subplots(1, 3, figsize=(15, 5))
house_data['Pháp lý'].value_counts(dropna=False).plot(kind='bar', ax=axes[0], rot=45)
house_data['Hướng nhà'].value_counts(dropna=False).plot(kind='bar', ax=axes[1], rot=45)
house_data['Hướng ban công'].value_counts(dropna=False).plot(kind='bar', ax=axes[2], rot=45)

plt.show()

In [None]:
# Plot the distribution of number of bedrooms, number of stories, number of bathrooms, with x-axis in order
fig, axes = plt.subplots(1, 3, figsize=(15, 5))
house_data['Số phòng ngủ'].value_counts(dropna=False).sort_index().plot(kind='bar', ax=axes[0], rot=45)
house_data['Số tầng'].value_counts(dropna=False).sort_index().plot(kind='bar', ax=axes[1], rot=45)
house_data['Số phòng vệ sinh'].value_counts(dropna=False).sort_index().plot(kind='bar', ax=axes[2], rot=45)

plt.show()

In [None]:
# Plot histogram of house area and price, with x-axis in order
fig, axes = plt.subplots(1, 2, figsize=(15, 5))
house_data['Diện tích'].hist(ax=axes[0], bins=50)
axes[0].set_xlabel('Diện tích (m2)')
house_data['Giá'].hist(ax=axes[1], bins=50)
axes[1].set_xlabel('Giá (tỷ)')

plt.show()

# --- THE PLOT FOR PRICE IS WRONG, SOME VALUES ARE IN MILLIONS, SOME ARE IN BILLIONS ---

In [None]:
# Plot histogram of fronthouse and road, with x-axis in order
fig, axes = plt.subplots(1, 2, figsize=(15, 5))
house_data['Mặt tiền'].hist(ax=axes[0], bins=50)
axes[0].set_xlabel('Mặt tiền (m)')
house_data['Đường vào'].hist(ax=axes[1], bins=50)
axes[1].set_xlabel('Đường vào (m)')

plt.show()

In [None]:
# Plot histogram of the date the ad was posted, and the date the ad is due, with x-axis in order
fig, axes = plt.subplots(1, 2, figsize=(15, 5))
house_data['Ngày đăng'].hist(ax=axes[0], bins=50)
axes[0].set_xlabel('Ngày đăng')
house_data['Ngày hết hạn'].hist(ax=axes[1], bins=50)
axes[1].set_xlabel('Ngày hết hạn')

plt.show()

# --- MAYBE IT'D BE BETTER JUST TO TAKE THE MONTH AND YEAR OF THE DATE ---
# --- AND THEN PLOT A LINE GRAPH OF THE NUMBER OF ADS POSTED PER MONTH/YEAR ---

### END EDA