# PROJECT: MELBOURNE HOUSING MARKET
**GIẢNG VIÊN HƯỚNG DẪN: THẦY TRẦN TRUNG KIÊN**  

**THÔNG TIN NHÓM 1:**
1. CAO VĂN PHÚC - 18120509
2. PHAN VĂN VÕ QUYỀN - 18120529

## Import các thư viện cần thiết

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

## Thu thập dữ liệu

- Tập dữ liệu mà nhóm lựa chọn là `Melbource housing market`, tập dữ liệu này thu thập thông tin về dữ liệu nhà đất tại thành phố Melbource xinh đẹp của nước Úc, nó bao gồm các thuộc tính Address, Type of Real estate, Suburb, Method of Selling, Rooms, Price, Real Estate Agent, Date of Sale và distance từ C.B.D. Tập dữ liệu này được lấy từ trang `Kaggle` tại link sau đây: https://www.kaggle.com/anthonypino/melbourne-housing-market  
- Vì đây là dữ liệu trên `Kaggle` nên chúng ta chỉ cần đăng nhập là có thể lấy được dữ liệu này về một cách dễ dàng  
- Tập dữ liệu này được người ta thu thập bằng các kết quả có sẵn công khai hằng tuần từ trang `Domain.com.au`
- Trong đồ án này, nhóm xin được phép chỉ sử dụng file `MELBOURNE_HOUSE_PRICES_LESS.csv`

## Khám phá dữ liệu

### Đọc dữ liệu từ file.csv vào DataFrame

In [2]:
mhm_df = pd.read_csv('MELBOURNE_HOUSE_PRICES_LESS.csv')
mhm_df.head()

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Postcode,Regionname,Propertycount,Distance,CouncilArea
0,Abbotsford,49 Lithgow St,3,h,1490000.0,S,Jellis,1/04/2017,3067,Northern Metropolitan,4019,3.0,Yarra City Council
1,Abbotsford,59A Turner St,3,h,1220000.0,S,Marshall,1/04/2017,3067,Northern Metropolitan,4019,3.0,Yarra City Council
2,Abbotsford,119B Yarra St,3,h,1420000.0,S,Nelson,1/04/2017,3067,Northern Metropolitan,4019,3.0,Yarra City Council
3,Aberfeldie,68 Vida St,3,h,1515000.0,S,Barry,1/04/2017,3040,Western Metropolitan,1543,7.5,Moonee Valley City Council
4,Airport West,92 Clydesdale Rd,2,h,670000.0,S,Nelson,1/04/2017,3042,Western Metropolitan,3464,10.4,Moonee Valley City Council


### Dữ liệu có bao nhiêu dòng và bao nhiêu cột?

In [3]:
mhm_df.shape

(63023, 13)

Dữ liệu có 63023 dòng, 13 cột

### Mỗi dòng có ý nghĩa gì? Có vấn đề các dòng có ý nghĩa khác nhau hay không?

Mỗi dòng cho biết thông tin nhà được bán ở Melbourne. Có vẻ như ý nghĩa các dòng giống nhau

### Dữ liệu có các dòng bị lặp không?

Kiểm tra và lưu kết quả vào biến `have_duplicated_rows`. Biến này sẽ có giá trị True nếu dữ liệu có các dòng bị lặp và có giá trị False nếu ngược.

In [4]:
have_duplicated_rows = mhm_df.duplicated().sum().astype(bool)
have_duplicated_rows

True

### Vấn đề cần xử lý
- Có dòng bị lặp, cần loại bỏ các dòng đó

In [5]:
## Tiền xử lý

In [6]:
### Loại bỏ các dòng bị lặp

In [7]:
mhm_df = mhm_df.drop_duplicates()
mhm_df.shape

(63021, 13)

### Mỗi cột có ý nghĩa gì?

Mô tả của tập dữ liệu:

**Suburb**: Suburb

**Address**: Address

**Rooms**: Number of rooms

**Price**: Price in Australian dollars

**Method**: 
* S - property sold; 
* SP - property sold prior; 
* PI - property passed in; 
* PN - sold prior not disclosed; 
* SN - sold not disclosed; 
* NB - no bid; 
* VB - vendor bid; 
* W - withdrawn prior to auction; 
* SA - sold after auction; 
* SS - sold after auction price not disclosed. 
* N/A - price or highest bid not available.

**Type**:
* br - bedroom(s); 
* h - house,cottage,villa, semi,terrace; 
* u - unit, duplex;
* t - townhouse; 
* dev site - development site; 
* o res - other residential.

**SellerG**: Real Estate Agent

**Date**: Date sold

**Distance**: Distance from CBD in Kilometres

**Regionname**: General Region (West, North West, North, North east …etc)

**Propertycount**: Number of properties that exist in the suburb.

**CouncilArea**: Governing council for the area

### Mỗi cột hiện đang có kiểu dữ liệu gì? Có cột nào có kiểu dữ liệu chưa phù hợp để có thể xử lý tiếp không?

In [8]:
mhm_df.dtypes

Suburb            object
Address           object
Rooms              int64
Type              object
Price            float64
Method            object
SellerG           object
Date              object
Postcode           int64
Regionname        object
Propertycount      int64
Distance         float64
CouncilArea       object
dtype: object

mhm_df có 8 cột có dtype là object: "Suburb", "Address", "Type", "Method", "SellerG", "Date", "Regionname", "CouncilArea".Ta cần biết trong nội bộ mỗi cột này có các kiểu dữ liệu nào.

In [9]:
def open_object_dtype(s):
    dtypes = set(s.apply(type))
    return dtypes

In [10]:
obj_cols = mhm_df.select_dtypes(["object"]).columns
data = obj_cols.map(lambda x: open_object_dtype(mhm_df[x]))
pd.Series(data=data, index = obj_cols)

Suburb         {<class 'str'>}
Address        {<class 'str'>}
Type           {<class 'str'>}
Method         {<class 'str'>}
SellerG        {<class 'str'>}
Date           {<class 'str'>}
Regionname     {<class 'str'>}
CouncilArea    {<class 'str'>}
dtype: object

**Vấn đề cần tiền xử lý:**

- Cột "Date" đang có dtype là `str`. Để có thể tiếp tục khám phá thêm về cột này, ta sẽ thực hiện bước tiền xử lý là chuyển sang dạng `datetime`.

## Tiền xử lý

### Chuyển dtype của cột "Date" sang datetime

In [11]:
mhm_df['Date'] = pd.to_datetime(mhm_df['Date'], format = '%d/%m/%Y')
mhm_df['Date']

0       2017-04-01
1       2017-04-01
2       2017-04-01
3       2017-04-01
4       2017-04-01
           ...    
63018   2018-03-31
63019   2018-03-31
63020   2018-03-31
63021   2018-03-31
63022   2018-03-31
Name: Date, Length: 63021, dtype: datetime64[ns]

## Khám phá dữ liệu (tiếp)

### Với mỗi cột có kiểu dữ liệu dạng numeric, các giá trị được phân bố như thế nào?

Ta sẽ xếp các cột datetime vào nhóm numeric luôn. Hiện có 6 cột có vẻ là thuộc nhóm numeric: "Rooms", "Price", "Date", "Postcode", "Propertycount", "Distance". Tuy nhiên, cột "Postcode" thật ra là dạng categorical (vì là mã được đánh dưới dạng số). Như vậy, chỉ có 5 cột numeric là "Rooms", "Price", "Date", "Propertycount", "Distance".

In [12]:
def missing_ratio(s):
    return s.isnull().mean()*100

In [13]:
nume_cols = ["Rooms", "Price", "Date", "Propertycount", "Distance"]
nume_col_profiles_df = mhm_df[nume_cols].agg([missing_ratio, 'min', 'max'])
nume_col_profiles_df

Unnamed: 0,Rooms,Price,Date,Propertycount,Distance
missing_ratio,0.0,23.14943,0,0.0,0.0
min,1.0,85000.0,2016-01-28 00:00:00,39.0,0.0
max,31.0,11200000.0,2018-10-13 00:00:00,21650.0,64.1


missing_ratio, min và max của các cột có vẻ không có gì bất thường.

### Với mỗi cột có kiểu dữ liệu dạng categorical, các giá trị được phân bố như thế nào?

mhm_df có 8 cột categorical là "Suburb", "Address", "Type", "Method", "SellerG", "Postcode", "Regionname", "CouncilArea".

Với mỗi cột categorical, tính tỉ lệ % giá trị thiếu (từ 0 đến 100), số lượng giá trị khác nhau, các giá trị khác nhau. Kết quả lưu vào dataframe `cate_col_profiles_df`. Dataframe này có 3 dòng là "missing_ratio", "num_diff_vals", "diff_vals"; và có 8 cột là "Suburb", "Address", "Type", "Method", "SellerG", "Postcode", "Regionname", "CouncilArea".

In [14]:
def num_diff_vals(s):
    return s.nunique()

def diff_vals(s):
    return s.unique()

In [15]:
cate_cols = ["Suburb", "Address", "Type", "Method", "SellerG", "Postcode", "Regionname", "CouncilArea"]
cate_col_profiles_df = mhm_df[cate_cols].agg([missing_ratio, num_diff_vals, diff_vals])
cate_col_profiles_df

Unnamed: 0,Suburb,Address,Type,Method,SellerG,Postcode,Regionname,CouncilArea
missing_ratio,0,0,0,0,0,0,0,0
num_diff_vals,380,57754,3,9,476,225,8,34
diff_vals,"[Abbotsford, Aberfeldie, Airport West, Albanva...","[49 Lithgow St, 59A Turner St, 119B Yarra St, ...","[h, t, u]","[S, SP, PI, SN, VB, PN, SA, W, SS]","[Jellis, Marshall, Nelson, Barry, hockingstuar...","[3067, 3040, 3042, 3021, 3206, 3020, 3078, 301...","[Northern Metropolitan, Western Metropolitan, ...","[Yarra City Council, Moonee Valley City Counci..."


missing_ratio, num_diff_vals của các cột có vẻ không có gì bất thường.

## Đưa ra câu hỏi cần trả lời