# Hồi quy đa biến Multiple Regression (Diễn giải)

Trong notebook này, chúng ta sẽ sử dụng dữ liệu doanh số bán nhà ở Quận King để dự đoán giá nhà sử dụng hồi quy tuyến tính đa biến. Chúng ta sẽ:
* Thực hiện một số thiết kế đặc trưng bằng các hàm DataFrame nội bộ.
* Sử dụng các hàm sklearn có sẵn để tính hồi quy và truy cập các tham số của nó (hệ số).
* Viết hàm tính RSS với các trọng số hồi quy, yếu tố dự báo và đầu ra đã cho.
* Xem các hệ số và diễn giải ý nghĩa của chúng.
* Đánh giá mô hình đa biến qua RSS.

## Import thư viện

In [1]:
import sklearn, pandas
import numpy as np

## Load dữ liệu bán nhà

Tập dữ liệu từ doanh số bán nhà quận King, Seatle, WA.

In [2]:
full_data = pandas.read_csv("kc_house_data.csv", index_col=0)

## Chia dữ liệu thành tập huấn luyện và kiểm tra.
Chúng ta sử dụng seed=0 để mọi người chạy notebook này có đều được kết quả tương tự. Thực tế, các bạn có thể thiết lập seed ngẫu nhiên để đảm bảo tính nhất quán. 

In [5]:
from sklearn.model_selection import train_test_split
train_data, test_data = train_test_split(full_data, train_size=0.8, test_size=0.2, random_state=0)
train_data = train_data.copy()
test_data = test_data.copy()
print(train_data)

                       date      price  bedrooms  bathrooms  sqft_living  \
id                                                                         
5100402668  20150218T000000   495000.0         3       1.00         1570   
7856560480  20140808T000000   635000.0         3       2.50         1780   
2872900010  20150414T000000   382500.0         3       1.50         1090   
3216900070  20140617T000000   382500.0         4       2.50         2210   
976000790   20141020T000000   670000.0         3       2.50         1800   
...                     ...        ...       ...        ...          ...   
2322069010  20141007T000000  1180000.0         5       5.00         3960   
2114700368  20141118T000000   299000.0         2       2.50         1400   
5469501200  20140820T000000   431000.0         3       2.25         2360   
3751602797  20140702T000000   411000.0         4       2.00         2370   
4038600260  20140922T000000   699900.0         4       2.25         2380   

           

# Tìm hiểu mô hình hồi quy đa biến

Chúng ta có thể sử dụng code sau để tìm hiểu mô hình hồi quy đa biến dự đoán 'price' dựa trên các đặc trưng sau: example_features = ['sqft_living', 'bedrooms', 'bathrooms'] trong dữ liệu huấn luyện với code:

In [6]:
def extract_features(data, features_title):
    # nhận các đặc trưng từ DataFrame
    features = [data[title].values for title in features_title]
    # xếp chồng chúng thành 2d [examples, properties]
    return np.stack(features, axis=-1)

In [7]:
from sklearn.linear_model import LinearRegression

example_features_title = ['sqft_living', 'bedrooms', 'bathrooms']
# trích xuất đặc trưng thành các mảng numpy và xếp chồng chúng mỗi example 
example_features = extract_features(train_data, example_features_title)
example_labels = train_data['price']
example_model = LinearRegression().fit(example_features, example_labels)

Chúng ta đã khớp mô hình, giờ có thể trích xuất các trọng số mô hình (hệ số) từ mô hình như sau:

In [8]:
example_weight_summary = example_model.coef_
print(example_weight_summary)

[   313.17055038 -56754.66651422   6887.71910816]


## Đưa ra dự đoán

Trong notebook về gradient descent, chúng ta sử dụng numpy để thực hiện hồi quy. Trong notebook này, chúng ta sẽ sử dụng các hàm giao diện của mô hình sklearn hiện có để phân tích hồi quy đa biến.

Khi mô hình đã xây, chúng ta có thể sử dụng hàm `predict` để tìm các giá trị dự đoán cho dữ liệu mà chúng ta truyền vào. Ví dụ: sử dụng example_model trên: 

In [9]:
example_predictions = example_model.predict(example_features)
print(example_predictions[0]) # should be 395813.499

395813.4988028938


## Tính RSS

Bây giờ chúng ta có thể đưa ra các dự đoán cho mô hình, hãy viết một hàm tính RSS của mô hình. Hoàn thành hàm dưới đây để tính RSS với mô hình, dữ liệu và đầu ra đã biết.

In [16]:
def get_residual_sum_of_squares(model, data, outcome):
    # Trước tiên lấy các dự đoán
    dd = model.predict(data)
    # Sau đó tính các phần dư/lỗi
    phan_du = outcome - dd
    # Bình phương lên và cộng tổng 
    RSS = np.sum(phan_du**2)
    return(RSS)    

Kiểm tra hàm bằng cách tính RSS trong dữ liệu KIỂM TRA cho mô hình mẫu:

In [21]:
example_test_features = extract_features(test_data, example_features_title)
example_test_labels = test_data['price']
rss_example_test = get_residual_sum_of_squares(example_model,example_test_features, example_test_labels)
print(rss_example_test) # should be ~ 2.5921e+14

259213572106085.38


# Tạo một số đặc trưng mới

Chúng ta thường nghĩ hồi quy đa biến gồm nhiều đặc trưng khác nhau (ví dụ: số phòng ngủ, diện tích và số phòng tắm), nhưng chúng ta cũng có thể xem xét việc biến đổi các đối đặc trưng hiện có, ví dụ: log của squarefeet hoặc thậm chí các đặc trưng "tương tác" như tích của số phòng ngủ và số phòng tắm.

Giờ chúng ta sẽ sử dụng hàm logarit mặc định của python để tạo đặc trưng mới. Chúng ta cần import nó từ thư viện math.

In [22]:
from math import log

Tiếp theo, chúng ta sẽ tạo 4 đặc trưng mới sau làm cột trong cả dữ liệu HUẤN LUYỆN và KIỂM TRA:
* bedrooms_squared = bedrooms\*bedrooms
* bed_bath_rooms = bedrooms\*bathrooms
* log_sqft_living = log(sqft_living)
* lat_plus_long = lat + long 

Ví dụ như sau:

In [24]:
train_data['bedrooms_squared'] = train_data['bedrooms'].map(lambda x: x**2)
test_data['bedrooms_squared'] = test_data['bedrooms'].map(lambda x: x**2)

In [44]:
# tạo 3 đặc trưng còn lại trong cả dữ liệu HUẤN LUYỆN và KIỂM TRA
train_data['bed_bath_rooms'] = train_data['bedrooms']*train_data['bathrooms']
test_data['bed_bath_rooms'] = test_data['bathrooms']*test_data['bedrooms']
train_data['log_sqft_living'] = train_data['sqft_living'].map(lambda x: log(x))
test_data['log_sqft_living'] = test_data['sqft_living'].map(lambda x: log(x))
train_data['lat_plus_long'] = train_data['long'] + train_data['lat']
test_data['lat_plus_long'] = test_data['long'] + test_data['lat']

* bedrooms*bedrooms sẽ tăng phân tách giữa ít phòng ngủ (chẳng hạn: 1) và nhiều phòng ngủ (chẳng hạn: 4). Do đó, đặc trưng này phần lớn sẽ ảnh hưởng với nhiều phòng ngủ.
* bedrooms*bathrooms cho đặc trưng "tương tác", nó sẽ lớn khi cả hai đều lớn.
* log(sqft_living) khiến các giá trị lớn hơn gần nhau hơn và lan ra các giá trị nhỏ.
* lat + long hoàn toàn không có ý nghĩa nhưng chúng ta vẫn thực hiện (bạn sẽ biết lý do sau).

**Quiz: Giá trị trung bình cộng của 4 đặc trưng mới trong dữ liệu KIỂM TRA là bao nhiêu? (làm tròn tới 2 chữ số thập phân)**

In [45]:
# pandas.Series có hàm gọi chính xác như vậy.
print(test_data['bedrooms_squared'].mean())
print(test_data['bed_bath_rooms'].mean())
print(test_data['log_sqft_living'].mean())
print(test_data['lat_plus_long'].mean())

12.210501966227158
7.447721489706223
7.5502394677947615
-74.65426069858893


## Tìm hiểu mô hình đa biến

Bây giờ chúng ta sẽ tìm hiểu trọng số của ba mô hình (lồng nhau) dự đoán giá nhà. Mô hình đầu tiên sẽ ít đặc trưng nhất, mô hình thứ hai sẽ thêm một đặc trưng và mô hình thứ ba sẽ thêm vài đặc trưng khác:
* Mô hình 1: sqft_living, # bedrooms, # bathrooms, lat & long
* Mô hình 2: thêm bedrooms\*bathrooms
* Mô hình 3: thêm log_sqft, bedrooms_squared, và lat_plus_long

In [88]:
model_1_features = ['sqft_living', 'bedrooms', 'bathrooms', 'lat', 'long']
model_2_features = model_1_features + ['bed_bath_rooms']
model_3_features = model_2_features + ['bedrooms_squared', 'log_sqft_living', 'lat_plus_long']

Bạn đã có các đặc trưng, trọng số cho 3 mô hình khác nhau dự đoán target = 'price' sử dụng LinearRegression của sklearn và thấy giá trị trọng số/hệ số:

*Lưu ý: mô hình hồi quy trong khóa này thường có `coef_`*

In [91]:
# Tìm hiểu 3 mô hình. Trích xuất đặc trưng và khớp mô hình với các đặc trưng tương ứng. 
model_1a_features = extract_features(train_data, model_1_features)
model_2a_features = extract_features(train_data, model_2_features)
model_3a_features = extract_features(train_data, model_3_features)
example_model1 = LinearRegression().fit(model_1a_features, example_labels)
example_model2 = LinearRegression().fit(model_2a_features, example_labels)
example_model3 = LinearRegression().fit(model_3a_features, example_labels)
print(example_model1.coef_)
print(example_model2.coef_)
print(example_model3.coef_)
# Nếu không nhớ, hãy xem example_model bên trên


[ 3.12942010e+02 -5.30962691e+04  1.47770428e+04  6.53983343e+05
 -3.25707336e+05]
[ 3.06819573e+02 -1.04604718e+05 -7.01815289e+04  6.50590952e+05
 -3.09965751e+05  2.49441497e+04]
[ 5.37808085e+02  2.78047813e+03  1.01363765e+05  2.00388000e+12
  2.00387906e+12 -1.81822549e+04  7.24579933e+02 -5.71030021e+05
 -2.00387935e+12]


In [93]:
# Kiểm tra/trích xuất từng hệ số của mô hình. Nếu nghi ngỡ, hãy tham khảo tài liệu của sklearn. 
print(example_model1.coef_[2])
print(example_model2.coef_[2])

#Thay đổi một đặc trưng thì tất cả các trọng số cũng thay đổi,vì đang tìm min của RSS

14777.042799376424
-70181.52885557694


**Quiz: Dấu (dương hoặc âm) của hệ số/trọng số cho 'bathrooms' trong mô hình 1 là gì?**

**Quiz: Dấu (dương hoặc âm) của hệ số/trọng số cho 'bathrooms' trong mô hình 2 là gì?**

Hãy nghĩ xem điều này có ý nghĩa gì.

## So sánh các mô hình đa biến

Chúng ta đã nghiên cứu 3 mô hình và trích xuất trong số mô hình mà chúng ta muốn đánh giá là tốt nhất.

Trước tiên sử dụng các hàm trước đó để tính RSS trong dữ liệu HUẤN LUYỆN cho từng mô hình.

In [96]:
# Tính RSS trong dữ liệu HUẤN LUYỆN cho từng mô hình và hiển thị các giá trị. 
print(get_residual_sum_of_squares(example_model1,model_1a_features, example_labels))
print(get_residual_sum_of_squares(example_model2,model_2a_features, example_labels))
print(get_residual_sum_of_squares(example_model3,model_3a_features, example_labels))

# Xem lab trước nếu quên cách làm.
#example_model3 có RSSS thấp nhất trong dữ liệu HUẤN LUYỆN


979843597588329.8
970799199729578.0
913653646107523.2


**Quiz: Mô hình nào (1, 2 hay 3) có RSSS thấp nhất trong dữ liệu HUẤN LUYỆN?** Đây có phải điều chúng ta dự kiến?

Bây giờ hãy tính RSS trong dữ liệu KIỂM TRA cho từng mô hình. 

In [97]:
# Tính RSS trong dữ liệu KIỂM TRA cho từng mô hình và hiển thị các giá trị.
print(get_residual_sum_of_squares(example_model1,test_data[model_1_features], example_test_labels))
print(get_residual_sum_of_squares(example_model2,test_data[model_2_features], example_test_labels))
print(get_residual_sum_of_squares(example_model3,test_data[model_3_features], example_test_labels))

213487129319103.56
210778544168942.5
203972160257917.53




**Quiz: Mô hình nào (1, 2 hay 3) có RSSS thấp nhất trong dữ liệu KIỂM TRA?** Đây có phải điều chúng ta dự kiến? Nghĩ về các đặc trưng đã thêm vào từng mô hình trước đó. 

In [None]:
#example_model3 có RSSS thấp nhất trong dữ liệu KIỂM TRA
#Thay đổi một đặc trưng thì tất cả các trọng số cũng thay đổi.
#Càng nhiều đặc trưng khả cao sẽ tốt hơnn .