# PROJECT: MELBOURNE HOUSING MARKET
**GIẢNG VIÊN HƯỚNG DẪN: THẦY TRẦN TRUNG KIÊN**  

**THÔNG TIN NHÓM 1:**
1. CAO VĂN PHÚC - 18120509
2. PHAN VĂN VÕ QUYỀN - 18120529

## Import các thư viện cần thiết

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

## Thu thập dữ liệu

- Tập dữ liệu mà nhóm lựa chọn là `Melbource housing market`, tập dữ liệu này thu thập thông tin về dữ liệu nhà đất tại thành phố Melbource xinh đẹp của nước Úc, nó bao gồm các thuộc tính Address, Type of Real estate, Suburb, Method of Selling, Rooms, Price, Real Estate Agent, Date of Sale và distance từ C.B.D. Tập dữ liệu này được lấy từ trang `Kaggle` tại link sau đây: https://www.kaggle.com/anthonypino/melbourne-housing-market  
- Vì đây là dữ liệu trên `Kaggle` nên chúng ta chỉ cần đăng nhập là có thể lấy được dữ liệu này về một cách dễ dàng  
- Tập dữ liệu này được người ta thu thập bằng các kết quả có sẵn công khai hằng tuần từ trang `Domain.com.au`
- Trong đồ án này, nhóm xin được phép chỉ sử dụng file `MELBOURNE_HOUSE_PRICES_LESS.csv`

## Khám phá dữ liệu

### Đọc dữ liệu từ file.csv vào DataFrame

In [2]:
mhm_df = pd.read_csv('MELBOURNE_HOUSE_PRICES_LESS.csv')
mhm_df.head()

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Postcode,Regionname,Propertycount,Distance,CouncilArea
0,Abbotsford,49 Lithgow St,3,h,1490000.0,S,Jellis,1/04/2017,3067,Northern Metropolitan,4019,3.0,Yarra City Council
1,Abbotsford,59A Turner St,3,h,1220000.0,S,Marshall,1/04/2017,3067,Northern Metropolitan,4019,3.0,Yarra City Council
2,Abbotsford,119B Yarra St,3,h,1420000.0,S,Nelson,1/04/2017,3067,Northern Metropolitan,4019,3.0,Yarra City Council
3,Aberfeldie,68 Vida St,3,h,1515000.0,S,Barry,1/04/2017,3040,Western Metropolitan,1543,7.5,Moonee Valley City Council
4,Airport West,92 Clydesdale Rd,2,h,670000.0,S,Nelson,1/04/2017,3042,Western Metropolitan,3464,10.4,Moonee Valley City Council


### Dữ liệu có bao nhiêu dòng và bao nhiêu cột?

Số dòng, số cột sẽ lần lượt lưu vào hai biến num_rows và num_cols

In [3]:
num_rows, num_cols = mhm_df.shape
print(num_rows, num_cols)

63023 13


### Mỗi dòng có ý nghĩa gì? Có vấn đề các dòng có ý nghĩa khác nhau hay không?

Mỗi dòng cung cấp thông tin về một ngôi nhà ở Melbourne

### Dữ liệu có các dòng bị lặp không?

In [4]:
have_duplicated_rows = mhm_df.duplicated().sum()
have_duplicated_rows

2

In [11]:
mhm_df = mhm_df.drop_duplicates()
mhm_df.shape

(63021, 13)

Sau khi loại bỏ dòng lặp, thì mhm_df còn đúng 63021 dòng dữ liệu

### Mỗi cột có ý nghĩa gì?

Dưới đây là phần mô tả của dữ liệu trên trang `Kaggle`
- Suburb: ngoại ô
- Address: địa chỉ cụ thể của ngôi nhà
- Rooms: số phòng của ngôi nhà
- Price: giá của ngôi nhà, tính bằng đô la Úc
- Method:
    - S - tài sản đã bán
    - SP - tài sản đã bán trước đó
    - PI - tài sản được chuyển vào
    - PN - bán trước không được tiết lộ
    - SN - bán không được tiết lộ
    - NB - không có giá thầu
    - VB - giá thầu của nhà cung cấp
    - W - thu hồi trước khi đấu giá
    - SA - bán sau khi đấu giá
    - SS - giá bán sau đấu giá không được tiết lộ
    - N / A - giá hoặc giá thầu cao nhất không có sẵn
- Type:
    - br - phòng ngủ
    - h - nhà, biệt thự, sân thượng
    - u - nhà đơn, nhà hai tầng
    - t - nhà phố
    - dev site - nhà có vị trí phát triển
    - o res - khu dân cư khác
- SellerG: Đại lý bất động sản
- Date: Ngày bán
- Distance: Khoảng cách từ CBD tính bằng Kilômét
- RegionName: Khu vực chung (Tây, Tây Bắc, Bắc, Đông Bắc… vv)
- Propertycount: Số lượng thuộc tính tồn tại ở vùng ngoại ô.
- Bedroom2: Số phòng ngủ có sẵn (từ nguồn khác)
- Bathroom: Số phòng tắm
- Car: Số lượng xe ô tô
- Landsize: Kích thước đất tính bằng mét
- BuildingArea: Kích thước tòa nhà tính bằng mét
- Yearbuilt: Năm ngôi nhà được xây dựng
- CouncilArea: Hội đồng quản lý khu vực

### Mỗi cột hiện đang có kiểu dữ liệu gì? Có cột nào có kiểu dữ liệu chưa phù hợp để có thể xử lý tiếp không?

In [12]:
col_dtypes = mhm_df.dtypes
col_dtypes

Suburb            object
Address           object
Rooms              int64
Type              object
Price            float64
Method            object
SellerG           object
Date              object
Postcode           int64
Regionname        object
Propertycount      int64
Distance         float64
CouncilArea       object
dtype: object

Trong Pandas, kiểu dữ liệu `object` thường ám chỉ chuỗi, nhưng thật ra kiểu dữ liệu `object` có thể chứa một đối tượng bất kỳ trong Python (vì thật ra ở bên dưới kiểu dữ liệu `object` chứa địa chỉ). Nếu một cột trong dataframe có `dtype` là `object` thì có thể các phần tử trong cột này sẽ có kiểu dữ liệu khác nhau; để biết được kiểu dữ liệu thật sự của các phần tử trong cột này thì ta phải truy xuất vào từng phần tử và dùng câu lệnh `type` để xem kiểu dữ liệu.Do đó tiền hành code hàm open_object_dtype trả về tập các kiểu dữ liệu có ở trong các cột

In [13]:
def open_object_dtype(s):
    dtypes = set()
    
    # YOUR CODE HERE
    dtypes = set(s.map(type))
    
    return dtypes

In [19]:
l = ['Suburb', 'Address', 'Type', 'Method', 'SellerG', 'Date', 'Regionname', 'CouncilArea']
for feature in l:
    object_dtype = open_object_dtype(mhm_df[feature])
    print(object_dtype)

{<class 'str'>}
{<class 'str'>}
{<class 'str'>}
{<class 'str'>}
{<class 'str'>}
{<class 'str'>}
{<class 'str'>}
{<class 'str'>}


**Vấn đề cần tiền xử lí:**
- Cột `Date` đang có kiểu dữ liệu là `str`, để khám phá thêm cột này ta sẽ phải chuyển nó về dạng `datetime`

## Tiền xử lý

## Đưa ra câu hỏi cần trả lời