In [66]:
import pandas as pd

# Bining 
Khai niem: Binning (hoặc phân loại) là một kỹ thuật trong phân tích dữ liệu được sử dụng để chia dữ liệu thành các khoảng (bins) hoặc nhóm. Kỹ thuật này rất hữu ích trong nhiều tình huống khác nhau.


#### 1. Tạo và phân tích DataFrame

In [67]:
df = pd.DataFrame({'Math': [4, 4, 7, 8, 12, 13, 15, 18, 22, 23, 23, 25],
                   'Eng': [2, 5, 4, 7, 7, 8, 5, 4, 5, 11, 13, 8]})
df


Unnamed: 0,Math,Eng
0,4,2
1,4,5
2,7,4
3,8,7
4,12,7
5,13,8
6,15,5
7,18,4
8,22,5
9,23,11


In [68]:
# ra datafarm 12 dòng 2 cột
df.shape

(12, 2)

#### 2. Thực hiện Binning
Dưới đây là mã để chia cột Math thành 5 khoảng:
- pd.qcut: Hàm này sẽ chia dữ liệu thành q khoảng, trong trường hợp này là 5. Mỗi khoảng sẽ chứa số lượng phần tử xấp xỉ bằng nhau.
- Cột bin1: Cột mới được thêm vào DataFrame, chứa thông tin về khoảng mà mỗi giá trị trong cột Math thuộc về.


In [69]:
# Perform data biming on points variable
# chia làm 5 khoảng có số lượng phân tử trong từng khoản xấp xỉ bằng nhau
df['bin1'] = pd.qcut(df['Math'], q=5)
df

Unnamed: 0,Math,Eng,bin1
0,4,2,"(3.999, 7.2]"
1,4,5,"(3.999, 7.2]"
2,7,4,"(3.999, 7.2]"
3,8,7,"(7.2, 12.4]"
4,12,7,"(7.2, 12.4]"
5,13,8,"(12.4, 16.8]"
6,15,5,"(12.4, 16.8]"
7,18,4,"(16.8, 22.8]"
8,22,5,"(16.8, 22.8]"
9,23,11,"(22.8, 25.0]"


In [70]:
# Lay so luong moi khoang
# count frequency of each bin
# Each bin là chia khoản
df['bin1'].value_counts()

(3.999, 7.2]    3
(22.8, 25.0]    3
(7.2, 12.4]     2
(12.4, 16.8]    2
(16.8, 22.8]    2
Name: bin1, dtype: int64

q=[0, .2, .4, .6, .8, 1]: Đây là các phân vị mà bạn muốn sử dụng để chia dữ liệu. Trong trường hợp này:

<p>0: bắt đầu từ giá trị nhỏ nhất (0%).</p>
 <p>0.2: 20% dữ liệu đầu tiên.
</p>
<p>0.4: 40% dữ liệu tiếp theo.
</p>
<p>0.6: 60% dữ liệu tiếp theo.
</p><p>0.8: 80% dữ liệu tiếp theo.
</p><p>1: kết thúc tại giá trị lớn nhất (100%).</p>

In [71]:
# Perform data biming on points variable with specific quantiles
df['bin2'] = pd.qcut(df['Math'], q=[0, .2, .4, .6, .8, 1])
df

Unnamed: 0,Math,Eng,bin1,bin2
0,4,2,"(3.999, 7.2]","(3.999, 7.2]"
1,4,5,"(3.999, 7.2]","(3.999, 7.2]"
2,7,4,"(3.999, 7.2]","(3.999, 7.2]"
3,8,7,"(7.2, 12.4]","(7.2, 12.4]"
4,12,7,"(7.2, 12.4]","(7.2, 12.4]"
5,13,8,"(12.4, 16.8]","(12.4, 16.8]"
6,15,5,"(12.4, 16.8]","(12.4, 16.8]"
7,18,4,"(16.8, 22.8]","(16.8, 22.8]"
8,22,5,"(16.8, 22.8]","(16.8, 22.8]"
9,23,11,"(22.8, 25.0]","(22.8, 25.0]"


In [72]:
# Perform data biming on points variable with specific quantiles and labels
df['bin3'] = pd.qcut(df['Math'],
                           q=[0, .2, .5, .6, .8, 1],
                           labels=['A', 'B', 'C', 'D', 'E'])
df


Unnamed: 0,Math,Eng,bin1,bin2,bin3
0,4,2,"(3.999, 7.2]","(3.999, 7.2]",A
1,4,5,"(3.999, 7.2]","(3.999, 7.2]",A
2,7,4,"(3.999, 7.2]","(3.999, 7.2]",A
3,8,7,"(7.2, 12.4]","(7.2, 12.4]",B
4,12,7,"(7.2, 12.4]","(7.2, 12.4]",B
5,13,8,"(12.4, 16.8]","(12.4, 16.8]",B
6,15,5,"(12.4, 16.8]","(12.4, 16.8]",C
7,18,4,"(16.8, 22.8]","(16.8, 22.8]",D
8,22,5,"(16.8, 22.8]","(16.8, 22.8]",D
9,23,11,"(22.8, 25.0]","(22.8, 25.0]",E


##### 
- ==> Trong khoản C có 1 phần tử

<h4><b> Bining thành các nhóm (bins) dựa trên các giá trị cụ thể</b></h4>



<li style="padding-bottom: 10px"><b>df['Math']:</b> Đây là cột dữ liệu mà bạn muốn phân chia thành các nhóm.</li>
<li style="padding-bottom: 10px"><b>bins=[0, 5, 11, float('Inf')]:</b> Danh sách này xác định các ranh giới (boundaries) của các khoảng (bins) mà bạn muốn tạo:</li>
<li style="padding-bottom: 10px"><b>0:</b> Giá trị bắt đầu của khoảng đầu tiên.</li>
<li style="padding-bottom: 10px"><b>5:</b> Giá trị kết thúc của khoảng đầu tiên và bắt đầu của khoảng thứ hai.</li>
<li style="padding-bottom: 10px"><b>11:</b> Giá trị kết thúc của khoảng thứ hai và bắt đầu của khoảng thứ ba.</li>
<li style="padding-bottom: 10px"><b>float('Inf'): </b>Giá trị kết thúc của khoảng thứ ba, cho phép bao gồm tất cả các giá trị lớn hơn 11.</li>
<li style="padding-bottom: 10px"><b>labels=['Bad', 'OK', 'Good']:</b> Đây là nhãn cho các khoảng đã được định nghĩa:</li>
<li style="padding-bottom: 10px"><b>'Bad':</b> Nhãn cho khoảng (0, 5].</li>
<li style="padding-bottom: 10px"><b>'OK':</b> Nhãn cho khoảng (5, 11].</li>
<li style="padding-bottom: 10px"><b>'Good':</b> Nhãn cho khoảng (11, +∞).</li>

In [73]:
# Phân bản theo giá trị
df['bin4'] = pd.cut(df['Math'],
                      bins=[0, 5, 11, float('Inf')],
                      labels=['Bad', 'OK', 'Good'])
df

Unnamed: 0,Math,Eng,bin1,bin2,bin3,bin4
0,4,2,"(3.999, 7.2]","(3.999, 7.2]",A,Bad
1,4,5,"(3.999, 7.2]","(3.999, 7.2]",A,Bad
2,7,4,"(3.999, 7.2]","(3.999, 7.2]",A,OK
3,8,7,"(7.2, 12.4]","(7.2, 12.4]",B,OK
4,12,7,"(7.2, 12.4]","(7.2, 12.4]",B,Good
5,13,8,"(12.4, 16.8]","(12.4, 16.8]",B,Good
6,15,5,"(12.4, 16.8]","(12.4, 16.8]",C,Good
7,18,4,"(16.8, 22.8]","(16.8, 22.8]",D,Good
8,22,5,"(16.8, 22.8]","(16.8, 22.8]",D,Good
9,23,11,"(22.8, 25.0]","(22.8, 25.0]",E,Good


#####
- ==> có 2 cái Ok

In [74]:
df['bin4'].value_counts()

Good    8
Bad     2
OK      2
Name: bin4, dtype: int64