## Selecting Data for Modeling – Chọn dữ liệu để xây dựng mô hình

Dataset thường có quá nhiều biến (columns), khiến việc quan sát hoặc in ra toàn bộ dữ liệu trở nên khó khăn.
Vậy làm thế nào để giảm bớt lượng dữ liệu này xuống mức dễ quản lý và hiểu được?

### 1. Chọn biến dựa trên trực giác

Trước hết, chúng ta sẽ chọn một vài biến quan trọng dựa trên **trực giác**.
Các khóa học nâng cao hơn sẽ hướng dẫn bạn **các phương pháp thống kê** để tự động chọn biến quan trọng.

### 2. Xem danh sách tất cả các cột trong DataFrame

Để chọn cột, trước tiên bạn cần biết dataset có những cột nào.
Dùng thuộc tính `.columns` của DataFrame:

```python
# Xem danh sách tất cả các cột
melbourne_data.columns


In [1]:
import pandas as pd

melbourne_file_path = '../input/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path)
melbourne_data.columns

Index(['Suburb', 'Address', 'Rooms', 'Type', 'Price', 'Method', 'SellerG',
       'Date', 'Distance', 'Postcode', 'Bedroom2', 'Bathroom', 'Car',
       'Landsize', 'BuildingArea', 'YearBuilt', 'CouncilArea', 'Lattitude',
       'Longtitude', 'Regionname', 'Propertycount'],
      dtype='object')

## Handling Missing Values – Xử lý giá trị thiếu

Dữ liệu Melbourne có một số giá trị bị thiếu (missing values) – ví dụ, một số thông tin của nhà không được ghi lại.
Chúng ta sẽ học cách xử lý missing values chi tiết trong các bài học sau.

Trong khi đó, để đơn giản, bạn có thể **loại bỏ các dòng có giá trị thiếu**:

```python
# dropna drops missing values (na = "not available")
melbourne_data = melbourne_data.dropna(axis=0)


In [2]:
melbourne_data = melbourne_data.dropna(axis=0)

## Selecting a Subset of Data – Chọn phần dữ liệu cần dùng

Có nhiều cách để chọn một phần dữ liệu trong Pandas.
Khóa học Pandas sẽ trình bày chi tiết hơn, nhưng ở đây chúng ta sẽ tập trung vào **hai cách cơ bản**:

1. **Dot notation** – chọn biến mục tiêu (prediction target)
2. **Chọn theo danh sách cột (column list)** – chọn các đặc trưng (features)

---

### 1. Chọn biến mục tiêu (Prediction Target)

Bạn có thể lấy một cột bằng **dot notation**.
Kết quả sẽ là một **Series**, giống như một DataFrame nhưng chỉ gồm **một cột dữ liệu**.

Cột mà bạn muốn dự đoán được gọi là **prediction target**, theo convention thường đặt tên là `y`.
Ví dụ, để lưu giá nhà trong dataset Melbourne:

```python
# Chọn biến mục tiêu
y = melbourne_data.Price


## Selecting the Prediction Target – Chọn biến mục tiêu

Bạn có thể lấy một biến (cột) bằng **dot notation**.
Kết quả sẽ là một **Series**, về cơ bản giống như một DataFrame nhưng chỉ có **một cột dữ liệu**.

Cột mà bạn muốn dự đoán được gọi là **prediction target**, theo convention thường đặt tên là `y`.

Ví dụ, để lưu giá nhà (`Price`) từ dataset Melbourne:

```python
# Chọn biến mục tiêu
y = melbourne_data.Price


In [3]:
y = melbourne_data.Price

## Choosing Features – Chọn các đặc trưng

Các cột được đưa vào mô hình và sử dụng để dự đoán được gọi là **features**.
Trong ví dụ về nhà ở Melbourne, các features là những cột giúp xác định **giá nhà**.

- Đôi khi bạn có thể dùng **tất cả các cột trừ biến mục tiêu** làm features.
- Những lúc khác, chọn **ít features hơn** có thể giúp mô hình hoạt động tốt hơn.

Ở đây, chúng ta sẽ xây dựng mô hình với **vài features cơ bản**.
Sau này, bạn sẽ học cách **so sánh nhiều mô hình** với các tập features khác nhau.

### Cách chọn nhiều features

Dùng **danh sách các tên cột** trong ngoặc vuông. Mỗi tên cột là một **chuỗi**:

```python
# Chọn các cột đặc trưng
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']
X = melbourne_data[feature_columns]


In [4]:
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']


In [5]:
X = melbourne_data[melbourne_features]

In [6]:
X.describe()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
count,6196.0,6196.0,6196.0,6196.0,6196.0
mean,2.931407,1.57634,471.00694,-37.807904,144.990201
std,0.971079,0.711362,897.449881,0.07585,0.099165
min,1.0,1.0,0.0,-38.16492,144.54237
25%,2.0,1.0,152.0,-37.855438,144.926198
50%,3.0,1.0,373.0,-37.80225,144.9958
75%,4.0,2.0,628.0,-37.7582,145.0527
max,8.0,8.0,37000.0,-37.45709,145.52635


In [7]:
X.head()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
1,2,1.0,156.0,-37.8079,144.9934
2,3,2.0,134.0,-37.8093,144.9944
4,4,1.0,120.0,-37.8072,144.9941
6,3,2.0,245.0,-37.8024,144.9993
7,2,1.0,256.0,-37.806,144.9954


## Building Your Model – Xây dựng mô hình

Chúng ta sẽ sử dụng thư viện **scikit-learn** để tạo mô hình.
Trong code, thư viện này được viết là `sklearn`. Đây là thư viện phổ biến nhất để xây dựng các mô hình dữ liệu dạng DataFrame.

### Các bước cơ bản để xây dựng và sử dụng mô hình

1. **Define** – Xác định loại mô hình.
   - Ví dụ: Decision Tree hay các loại mô hình khác.
   - Có thể kèm theo các tham số khác của mô hình.

2. **Fit** – Học các mẫu từ dữ liệu đã cung cấp.
   - Đây là **trái tim của việc modeling**.

3. **Predict** – Dùng mô hình để dự đoán giá trị mới.

4. **Evaluate** – Xác định độ chính xác của dự đoán.

### Ví dụ: Decision Tree với scikit-learn

```python
from sklearn.tree import DecisionTreeRegressor

# Định nghĩa mô hình
melbourne_model = DecisionTreeRegressor(random_state=1)

# Fit mô hình với features và target
melbourne_model.fit(X, y)


In [8]:
from sklearn.tree import DecisionTreeRegressor
melbourne_model = DecisionTreeRegressor(random_state=1)

# Fit mô hình với features và target
melbourne_model.fit(X, y)

0,1,2
,criterion,'squared_error'
,splitter,'best'
,max_depth,
,min_samples_split,2
,min_samples_leaf,1
,min_weight_fraction_leaf,0.0
,max_features,
,random_state,1
,max_leaf_nodes,
,min_impurity_decrease,0.0


## Randomness in Modeling – Ngẫu nhiên trong mô hình

Nhiều mô hình machine learning có yếu tố **ngẫu nhiên** khi huấn luyện.
Đặt một số cho `random_state` giúp **mỗi lần chạy đều cho kết quả giống nhau**, đây là **best practice**.

- Bạn có thể dùng bất kỳ số nào.
- Chất lượng mô hình **không phụ thuộc nhiều vào giá trị cụ thể** bạn chọn.

### Dự đoán với mô hình đã fit

Bây giờ, mô hình đã được **fit**, sẵn sàng để dự đoán.

Trong thực tế, bạn thường muốn dự đoán **giá nhà mới ra thị trường**,
nhưng để hiểu cách dùng `predict()`, chúng ta sẽ thử dự đoán **một vài dòng đầu của dữ liệu huấn luyện**:

```python
# Dự đoán giá nhà cho vài dòng đầu tiên
print(melbourne_model.predict(X.head()))


In [9]:
print('Making predictions for the following 5 houses:')
print(X.head())
print('The predictions are')
print(melbourne_model.predict(X.head()))

Making predictions for the following 5 houses:
   Rooms  Bathroom  Landsize  Lattitude  Longtitude
1      2       1.0     156.0   -37.8079    144.9934
2      3       2.0     134.0   -37.8093    144.9944
4      4       1.0     120.0   -37.8072    144.9941
6      3       2.0     245.0   -37.8024    144.9993
7      2       1.0     256.0   -37.8060    144.9954
The predictions are
[1035000. 1465000. 1600000. 1876000. 1636000.]
