In [3]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import collections

# Gini Impurity

Gini impurity là một chỉ số đo lường mức độ không thuần túy (impurity) của một tập dữ liệu

$G(p) = 1 - \sum^{k}_{i=1}{p_{i}^{2}}$

Trong đó:

- $p_{i}$ là xác suất (tần suất) của lớp i trong tập dữ liệu
- $k$ là số lượng lớp

**Ý nghĩa**

- Khi ***Gini impurity bằng 0***, điều này có nghĩa là tập dữ liệu hoàn toàn thuần túy, tức là tất cả các mẫu thuộc về 1 lớp duy nhất
- Giá trị Gini càng cao, mức độ không thuần túy của tập dữ liệu càng ao. Giá trị tối đa của Gini impurity là $\frac{k-1}{k}$ khi tất cả các lớp đều có xác suất bằng nhau

In [36]:
def cal_gini_impurity(array):
    c = collections.Counter(array)
    total = sum(c.values())
    p_classes = [k/total for k in c.values()]
    gini_impurity = 1 - sum([i**2 for i in p_classes])
    return gini_impurity

In [41]:
cal_gini_impurity([0] * 5 + [1] * 9)

0.4591836734693877

![image.png](attachment:efd754c8-bcab-47ee-8284-fb531760a0ba.png)

# Split in CART based on Gini Impurity

1. Xác định các Điểm Chia Có Thể:

- Đối với **dữ liệu numberical**, thuật toán sẽ xem xét mỗi giá trị duy nhất làm một điểm chia tiềm năng.
- Đối với **dữ liệu category**, mỗi giá trị riêng biệt của biến có thể được coi là một điểm chia.

2. Tính Gini Impurity Cho Mỗi Điểm Chia:
- Mỗi điểm chia tiềm năng được sử dụng để chia tập dữ liệu thành hai nhóm con.
- Tính Gini impurity cho mỗi nhóm con.
- Tính trọng số của Gini impurity cho chia này bằng cách lấy trung bình cộng của Gini impurity của mỗi nhóm, với trọng số dựa trên kích thước của nhóm.

3. Chọn Điểm Chia Tối Ưu:
- Điểm chia tối ưu sẽ là điểm có trọng số Gini impurity thấp nhất.
- Nói cách khác, nó là điểm chia làm giảm Gini impurity nhiều nhất so với tình hình ban đầu.

4. Tiếp tục Chia cho đến khi Đạt Đến Điều Kiện Dừng:
- Các điều kiện dừng có thể bao gồm độ sâu tối đa của cây, số mẫu tối thiểu tại một node, hoặc sự giảm thiểu tối thiểu về Gini impurity khi chia.

## Weighted Gini Impurity (of attribute)

Weighted Gini Impurity = $\frac{n_{1}}{n} * Gini_{1} + \frac{n_{2}}{n} * Gini_{2}$

Trong đó:

- $n_{1}, n_{2}$ là số mẫu trong nhóm con thứ nhất và hai
- n là tổng mẫu
- Gini1 và Gini2 là Gini Impurity của nhóm con 1 và 2

## Example of splitting

- X:   `1, 2, 3, 4, 5`
- Y:   `A, A, B, B, B`

Khi chọn điểm chia là X = 2.5
- Nhóm 1: là `A, A` => $Gini_{1} = 1 - (1^{2} + 0^{2}) = 0$
- Nhóm 2: là `B, B, B` => $Gini_{2} = 1 - (0^{2} + 1^{2}) = 0$
- Weighted Gini Impurity = $\frac{2}{5} * 0 + \frac{3}{5} * 0 = 0$

Khi chọn điểm chia là X = 3.5
- Nhóm 1: là `A, A, B` => $Gini_{1} = 1 - (\frac{2}{3}^{2} + \frac{1}{3}^{2}) = 0.4444$
- Nhóm 2: là `B, B` => $Gini_{2} = 1 - (0^{2} + 1^{2}) = 0$
- Weighted Gini Impurity = $\frac{3}{5} * 0.4444 + \frac{2}{5} * 0 = 0.2666$

Suy ra X = 2.5 với Weighted Gini Impurity = 0 is the best choice

## Splitting in Numberical Attributes

1. Sắp xếp dữ liệu tăng dần

2. Xác định điểm chia tiềm năng
- Điểm chia thường là giá trị trung bình cộng của 2 giá trị liên tiếp trong dữ liệu được chia (vd: 1,2,3,4,5 thì điểm chia là 1.5, 2.5, 3.5, 4.5)
3. Tính trọng số Gini Impurity cho mỗi điểm chia
4. So sánh và lựa chọn

## Splitting in Categorical Attributes

Khá đơn giản vì đã có sẵn điểm chia, tính thôi và chọn điểm chia mà mang lại lowest Weighted Gini Impurity

## How to select Root node

Chắc chắn! Hãy giả định một tình huống dựa trên yêu cầu của bạn:

**Dữ liệu giả định**:

| X1 | X2   | Target |
|----|------|--------|
| 1  | Red  | Yes    |
| 2  | Blue | No     |
| 3  | Red  | No     |
| 4  | Blue | Yes    |
| 5  | Red  | Yes    |

### Trường hợp 1: X1 làm root node

1. **Xem xét mỗi giá trị trong X1**:
   
   - Giả sử chọn \( X1 = 1.5 \) để chia:
     - Nhóm bên trái: `Yes`
     - Nhóm bên phải: `No, No, Yes, Yes`
     - Trọng số Gini impurity: 0.5

   - Giả sử chọn \( X1 = 2.5 \) để chia:
     - Nhóm bên trái: `Yes, No`
     - Nhóm bên phải: `No, Yes, Yes`
     - Trọng số Gini impurity: 0.48 (đây chỉ là một con số giả định)

   - ... (và tương tự với các giá trị khác của X1)

2. Giả định rằng chọn \( X1 = 2.5 \) mang lại trọng số Gini impurity thấp nhất. 

### Trường hợp 2: X2 làm root node

1. **Xem xét mỗi giá trị trong X2**:

   - Giả sử chọn X2 = Red:
     - Nhóm Red: `Yes, No, Yes`
     - Nhóm không phải Red (Blue): `No, Yes`
     - Trọng số Gini impurity: 0.44 (đây chỉ là một con số giả định)

   - Giả sử chọn X2 = Blue:
     - Nhóm Blue: `No, Yes`
     - Nhóm không phải Blue (Red): `Yes, No, Yes`
     - Trọng số Gini impurity: 0.44 (đây chỉ là một con số giả định)

2. Giả định rằng chọn \( X2 = Red \) hoặc \( X2 = Blue \) đều mang lại trọng số Gini impurity tương tự và thấp hơn so với khi chọn X1.

**Kết luận**:
- Nếu trọng số Gini impurity tối thiểu khi chọn X1 là nhỏ hơn trọng số Gini impurity tối thiểu khi chọn X2, thì X1 sẽ được chọn làm root node (và ngược lại).
- Trong ví dụ trên, giả sử rằng chọn X2 mang lại trọng số Gini impurity thấp hơn, vậy X2 sẽ được chọn làm root node.

Lưu ý rằng số liệu ở đây chỉ mang tính chất giả định và thực tế có thể khác biệt.

# Gini Gain

Chắc chắn! Hãy cùng đi qua một ví dụ về Gini gain.

**Dữ liệu giả định**:

| X1 | X2   | Target |
|----|------|--------|
| 1  | Red  | Yes    |
| 2  | Blue | No     |
| 3  | Red  | No     |
| 4  | Blue | Yes    |
| 5  | Red  | Yes    |

### Tính Gini impurity trước chia:

$ \text{Gini}_{\text{original}} = 1 - ( \frac{3}{5} )^2 - ( \frac{2}{5} )^2 = 0.48 $

### Tính Gini gain khi chia theo thuộc tính X1:

Giả sử chúng ta chọn \( X1 = 2.5 \) để chia:

- Nhóm bên trái (<= 2.5): `Yes, No`
  - Gini impurity: $ 1 - ( \frac{1}{2} )^2 - ( \frac{1}{2} )^2 = 0.5 $

- Nhóm bên phải (> 2.5): `No, Yes, Yes`
  - Gini impurity: $ 1 - ( \frac{1}{3} )^2 - ( \frac{2}{3} )^2 = 0.444 $

Trọng số Gini impurity sau chia:

$ \text{Weighted Gini} = \frac{2}{5} \times 0.5 + \frac{3}{5} \times 0.444 = 0.467 $

Gini gain:

$ \text{Gini Gain} = 0.48 - 0.467 = 0.013 $

### Tính Gini gain khi chia theo thuộc tính X2:

Giả sử chúng ta chọn X2 = Red để chia:

- Nhóm Red: `Yes, No, Yes`
  - Gini impurity: \( 1 - ( \frac{2}{3} )^2 - ( \frac{1}{3} )^2 = 0.444 \)

- Nhóm Blue: `No, Yes`
  - Gini impurity: \( 1 - ( \frac{1}{2} )^2 - ( \frac{1}{2} )^2 = 0.5 \)

Trọng số Gini impurity sau chia:

$ \text{Weighted Gini} = \frac{3}{5} \times 0.444 + \frac{2}{5} \times 0.5 = 0.467 $

Gini gain:

$ \text{Gini Gain} = 0.48 - 0.467 = 0.013 $

### Kết luận:
Trong trường hợp này, cả hai thuộc tính đều có cùng một Gini gain là 0.013, nghĩa là chúng đều mang lại lợi ích tương tự khi được sử dụng để chia dữ liệu. Trong thực tế, có thể có các yếu tố khác để chúng ta quyết định thuộc tính nào nên được chọn trước, như tính ổn định của thuộc tính hoặc các ưu tiên kinh doanh.

# Entropy

Gini impurity và entropy đều là hai tiêu chí đo lường sự không chắc chắn hoặc sự không đồng nhất trong một tập dữ liệu, và chúng đều được sử dụng phổ biến trong việc xây dựng các cây quyết định. Tuy nhiên, chúng có một số khác biệt về định nghĩa và công thức:

1. **Gini Impurity**:
$\text{Gini}(p) = 1 - \sum_{i=1}^{k} p_i^2 $
Trong đó \( p_i \) là xác suất để một mẫu ngẫu nhiên thuộc lớp \( i \) và \( k \) là số lớp.

Gini impurity đo lường xác suất để một mẫu ngẫu nhiên được phân loại không chính xác nếu nó được phân loại dựa trên phân phối của các mẫu trong tập dữ liệu.

2. **Entropy**:
$ \text{Entropy}(p) = - \sum_{i=1}^{k} p_i \log_2(p_i) $
Trong đó \( p_i \) là xác suất để một mẫu ngẫu nhiên thuộc lớp \( i \) và \( k \) là số lớp.

Entropy đo lường mức độ không chắc chắn hoặc sự ngạc nhiên trong tập dữ liệu. Khi một tập dữ liệu hoàn toàn đồng nhất (chỉ chứa một lớp), entropy là 0.

Mặc dù cả hai tiêu chí đều đo lường sự không chắc chắn, chúng có các đặc điểm riêng:

- **Dạng của chúng**: Gini impurity có giá trị trong khoảng từ 0 (hoàn toàn đồng nhất) đến 0.5 (trong trường hợp phân loại nhị phân) hoặc 1 - (1/k) cho tập dữ liệu với \( k \) lớp. Entropy có giá trị từ 0 (hoàn toàn đồng nhất) đến \( \log_2(k) \).

- **Độ nhạy**: Gini impurity thường ít nhạy hơn so với sự thay đổi trong xác suất so với entropy.

Trong thực tế, cả hai tiêu chí đều có thể sử dụng hiệu quả trong việc xây dựng cây quyết định và lựa chọn giữa chúng thường dựa trên sự ưu tiên hoặc kinh nghiệm của người xây dựng mô hình.