### Bias, Variance, and Irreducible Error

Hiệu suất của một model trong một task có thể được mô tả dưới dạng prediction error trên tất cả các mẫu không được sử dụng trong quá trình training model. Chúng ta ký hiệu là:
$$ Error(Model) $$

Model error bao gồm 3 thành phần: variance, bias và irreducible error
$$ Error(Model) = Variance(Model) + Bias(Model) + Variance(Irreducible Error) $$ 

### Bias

Bias ước lượng mức độ chặt chẽ của model có thể nắm bắt được sự ánh xạ giữa input và output. 
- Model với high bias sẽ **không** có sự liên kết chặt chẽ giữa input và output.
- Model với low bias sẽ liên kết chặt chẽ giữa input và output

Một số đặc điểm của một model high bias bao gồm:
- Không nắm bắt được xu hướng của dữ liệu (data trend)
- Tiềm năng dẫn tới hiện tượng underfitting 
- Tổng quát hóa/đơn giản hóa một cách quá mức
- High error rate 


### Variance 

Variance của mô hình là mức độ hiệu suất của mô hình thay đổi khi nó fit trên các training data khác nhau.

Nói một cách đơn giản, variance là độ biến thiên trong dự đoán của model. Variance xuất hiện từ các mô hình phức tạp với số lượng lớn features.

- Model với high bias => low variance
- Model với high variance => low bias 

Một số đặc điểm của một model high variance bao gồm:
- Dataset chứa nhiễu
- Tiềm năng dẫn tới hiện tượng overfitting
- Model quá phức tạp
- Cố gắng fit tất cả các điểm dữ liệu trong dataset

### Irreducible Error

Error Model bao gồm reducible error và irreducible error.

Reducible error là thành phần chúng ta có thể cải thiện - số lượng mà chúng ta sẽ cố gắng giảm trong quá trình training model trên training test và mục tiêu đưa error càng gần 0 càng tốt


Irreducible error là lỗi mà chúng ta không thể loại bỏ với mô hình của mình hoặc với bất kỳ mô hình nào. Lỗi do các yếu tố nằm ngoài tầm kiểm soát của chúng ta, ví dụ như nhiễu trong quá trình thống kê trong tập dữ liệu quan sát. 

"It is important to keep in mind that the irreducible error will always provide an upper bound on the accuracy of our prediction for Y. This bound is almost always unknown in practice" - An Introduction to Statistical Learning: with Applications in R

### Bias-Variance Trade-off 

Bias và Variance luôn có sự kết nối mật thiết với nhau. Trong điều kiện lý tưởng nhất là chúng ta xây dựng được một mô hình với low bias-low variance. Và trong thực tế để xây dựng được model như vậy sẽ rất khó khăn. 

Giảm bias có thể dễ dàng đạt được bằng cách tăng variance. Ngược lại, có thể dễ dàng giảm variance bằng cách tăng bias. Đây là một quá trình phức tạp trong việc chọn và tinh chỉnh model, chúng ta cần có sự đánh đổi giữa bias và variance.

Chúng ta có thể chọn một model cơ bản dựa trên bias hoặc variance. Trong Machine Learning một số model cơ bản như Linear Regression và Logistic Regression, thường cho high bias và low variance. Một số model phức tạp hơn như, Random Forest, thường thường cho low bias nhưng high variance.

Chúng ta có thể config model dựa trên Bias-Variance. Ví dụ đối với K-Nearest Neighbors chúng ta thường sử dụng tham số k để kiểm soát sự đánh đổi giữa bias và variance. Với giá k trị nhỏ, dẫn đến low bias và high variance, trong khi giá trị k lớn, dẫn đến high bias và low variance. Tương tự với C, kernel, Gamma trong SVM.

Chúng ta vẫn luôn phẩi kiểm tra những config khác nhau của model để kiểm tra xem đâu là bộ config tốt nhất trên tập dữ liệu đã được xác định.

### Calculate the Bias and Variance

In [1]:
%pip install mlxtend

Collecting mlxtend
  Downloading mlxtend-0.23.4-py3-none-any.whl.metadata (7.3 kB)
Downloading mlxtend-0.23.4-py3-none-any.whl (1.4 MB)
   ---------------------------------------- 0.0/1.4 MB ? eta -:--:--
   ---------------------------------------- 0.0/1.4 MB ? eta -:--:--
   ------- -------------------------------- 0.3/1.4 MB ? eta -:--:--
   ----------------------- ---------------- 0.8/1.4 MB 1.3 MB/s eta 0:00:01
   ------------------------------- -------- 1.0/1.4 MB 1.3 MB/s eta 0:00:01
   -------------------------------------- - 1.3/1.4 MB 1.3 MB/s eta 0:00:01
   ---------------------------------------- 1.4/1.4 MB 1.3 MB/s eta 0:00:00
Installing collected packages: mlxtend
Successfully installed mlxtend-0.23.4
Note: you may need to restart the kernel to use updated packages.


In [2]:
%pip install mlxtend --upgrade

Note: you may need to restart the kernel to use updated packages.


In [3]:
import pandas as pd 
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from mlxtend.evaluate import bias_variance_decomp

# load dataset
url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/housing.csv'
df  = pd.read_csv(url, header=None)

# split the data
data = df.values
X, y = data[:, :-1], data[:, -1]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Linear Regression 
model = LinearRegression()

# Calculate bias and variance
mse, bias, var = bias_variance_decomp(model, X_train, y_train, X_test, y_test, loss='mse', num_rounds=200, random_seed=1)

print('MSE: %.3f' % mse)
print('Bias: %.3f' % bias)
print('Variance: %.3f' % var)

MSE: 22.724
Bias: 21.531
Variance: 1.193


In [4]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # thay đổi train_test_split_rate

# Linear Regression
model = LinearRegression()

# Calculate bias and variance
mse, bias, var = bias_variance_decomp(model, X_train, y_train, X_test, y_test, loss='mse', num_rounds=200, random_seed=1)

print('MSE: %.3f' % mse)
print('Bias: %.3f' % bias)
print('Variance: %.3f' % var)

MSE: 25.687
Bias: 24.638
Variance: 1.049


In [5]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=42) # thay đổi train_test_split_rate

# Linear Regression 
model = LinearRegression()

# Calculate bias and variance
mse, bias, var = bias_variance_decomp(model, X_train, y_train, X_test, y_test, loss='mse', num_rounds=200, random_seed=1)

print('MSE: %.3f' % mse)
print('Bias: %.3f' % bias)
print('Variance: %.3f' % var)

MSE: 23.415
Bias: 21.808
Variance: 1.607
