# Lập trình Python cơ bản

# Counter (module collections)

### BS. Lê Ngọc Khả Nhi

## Kiểm kê thủ công bằng dict và vòng lặp

Kiểm kê (đếm và phân loại) là một thao tác phổ biến trong đời sống cũng như khi phân tích dữ liệu. Thí dụ nếu ta có 1 danh sách chứa 100 phần tử gồm 3 loại: A, B hoặc C trộn lẫn với nhau và ta muốn biết mỗi loại có tổng cộng bao nhiêu phần tử:

In [25]:
import numpy as np
from collections import Counter

In [29]:
np.random.seed(999)

seq = np.random.choice(list('ABC'), size = 100, p = [0.2,0.5,0.3])

seq

array(['C', 'B', 'A', 'B', 'A', 'B', 'B', 'B', 'B', 'B', 'C', 'A', 'B',
       'B', 'C', 'A', 'C', 'B', 'C', 'B', 'B', 'C', 'A', 'B', 'B', 'B',
       'C', 'A', 'B', 'B', 'B', 'C', 'B', 'B', 'A', 'A', 'C', 'A', 'C',
       'C', 'C', 'C', 'C', 'A', 'B', 'B', 'B', 'C', 'C', 'A', 'B', 'B',
       'C', 'B', 'C', 'C', 'B', 'A', 'B', 'C', 'C', 'B', 'C', 'C', 'A',
       'C', 'B', 'C', 'C', 'A', 'C', 'C', 'B', 'C', 'C', 'B', 'B', 'B',
       'C', 'B', 'B', 'B', 'B', 'A', 'C', 'B', 'B', 'A', 'C', 'A', 'C',
       'B', 'B', 'B', 'C', 'B', 'B', 'B', 'C', 'B'], dtype='<U1')

Ta có thể viết code hoàn toàn thủ công để thực hiện kiểm kê, bằng cách kết hợp dictionary và vòng lặp for như sau:

In [30]:
count_dict = {key:0 for key in np.unique(seq)}

for i in range(len(seq)):
    count_dict[seq[i]] +=1
    
count_dict

{'A': 17, 'B': 47, 'C': 36}

## Class Counter của collections

Dictionary là 1 data container lý tưởng để lưu kết quả kiểm kê, tuy nhiên ta có thể làm nhiều hơn thế này nếu sử dụng một container khác là Counter của module collections.

collections là một module có sẵn ngay trong Python, nó hỗ trợ một số data container hữu ích, mà Counter là 1 trong số này.

Sau khi import Counter từ collections, ta sẽ nhận ra nó là 1 class riêng

In [38]:
type(Counter())

collections.Counter

Khi áp dụng class này cho dữ liệu seq bên trên, ta tạo ra 1 object thuộc class Counter:

In [95]:
c = Counter(seq)

c

Counter({'C': 36, 'B': 47, 'A': 17})

Có vẻ như object này có hình thức như 1 dictionary, và nội dung là kết quả kiểm kê giống như khi ta làm thủ công ở trên. 

Nếu tò mò, ta có thể kiểm tra 2 object là count_dict (class dictionary) và c (class collections.Counter), và nhận ra class Counter có bản chất là 1 dictionary, với tất cả method của dict, tuy nhiên Counter còn hỗ trợ thêm nhiều method khác mà dict không có:

In [42]:
type(count_dict)

dict

In [41]:
dir(count_dict)

['__class__',
 '__contains__',
 '__delattr__',
 '__delitem__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__setitem__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 'clear',
 'copy',
 'fromkeys',
 'get',
 'items',
 'keys',
 'pop',
 'popitem',
 'setdefault',
 'update',
 'values']

In [43]:
type(c)

collections.Counter

In [40]:
dir(c)

['__add__',
 '__and__',
 '__class__',
 '__contains__',
 '__delattr__',
 '__delitem__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__iand__',
 '__init__',
 '__init_subclass__',
 '__ior__',
 '__isub__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__missing__',
 '__module__',
 '__ne__',
 '__neg__',
 '__new__',
 '__or__',
 '__pos__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__setitem__',
 '__sizeof__',
 '__str__',
 '__sub__',
 '__subclasshook__',
 '__weakref__',
 '_keep_positive',
 'clear',
 'copy',
 'elements',
 'fromkeys',
 'get',
 'items',
 'keys',
 'most_common',
 'pop',
 'popitem',
 'setdefault',
 'subtract',
 'update',
 'values']

## Các dictionary method của class Counter

Đầu tiên, ta có method get() cho phép trích xuất value của 1 key, thí dụ 'A'

In [45]:
c.get('A')

17

In [48]:
count_dict.get('A')

17

Nếu key không tồn tại, method get sẽ xuất giá trị None, trừ khi ta báo giá trị mặc định, thí dụ 0

In [51]:
count_dict.get('D',0)

0

In [53]:
c.get('D', 0)

0

Nếu không biết chắc key có tồn tại hay không, ta chỉ cần thêm 0 cho mọi trường hợp: nếu object có chứa key, ta sẽ có kết quả là 1 con số nào đó, còn nếu không ta vẫn có kết quả = 0

In [54]:
c.get('A',0)

17

Vì counter có bản chất là 1 dict, method items() ra kết quả như nhau, là 1 list gồm nhiều tuples là cặp key:value

In [55]:
c.items()

dict_items([('C', 36), ('B', 47), ('A', 17)])

In [56]:
count_dict.items()

dict_items([('A', 17), ('B', 47), ('C', 36)])

Tương tự, method keys() liệt kê danh sách keys trong 1 list:

In [57]:
c.keys()

dict_keys(['C', 'B', 'A'])

In [58]:
count_dict.keys()

dict_keys(['A', 'B', 'C'])

method values() xuất list kết quả phép đếm cho mỗi key:

In [59]:
c.values()

dict_values([36, 47, 17])

In [60]:
count_dict.values()

dict_values([17, 47, 36])

## Những method độc đáo của class Counter

Đầu tiên là method elements(), nó sẽ tạo ra 1 iterator có khả năng sinh ra toàn bộ các phần tử với tần suất đúng bằng kết quả phép đếm. Nội dung bên trong chỉ được xuất ra khi ta cần, thí dụ bằng list comprehension

In [61]:
c.elements()

<itertools.chain at 0x16e3a071e88>

In [63]:
np.array([i for i in c.elements()])

array(['C', 'C', 'C', 'C', 'C', 'C', 'C', 'C', 'C', 'C', 'C', 'C', 'C',
       'C', 'C', 'C', 'C', 'C', 'C', 'C', 'C', 'C', 'C', 'C', 'C', 'C',
       'C', 'C', 'C', 'C', 'C', 'C', 'C', 'C', 'C', 'C', 'B', 'B', 'B',
       'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B',
       'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B',
       'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B',
       'B', 'B', 'B', 'B', 'B', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'A',
       'A', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'A'], dtype='<U1')

method mostcommon(n) cho phép xếp hạng thứ tự từ cao đến thấp những key phổ biến nhất trong danh sách, ta có thể đặt n=1 để tìm yếu vị (mode):

In [64]:
c.most_common()

[('B', 47), ('C', 36), ('A', 17)]

In [65]:
c.most_common(1)

[('B', 47)]

Trong danh sách các method của Counter class, ta thấy có method \__add\__ , cho thấy rằng ta có thể dùng toán tử + để thực hiện phép cộng cho object Counter, nhưng cộng với cái gì ?

không phải là cộng với 1 con số

In [66]:
c  + 1

TypeError: unsupported operand type(s) for +: 'Counter' and 'int'

Cũng không phải cộng dictionary, dù cùng cấu trúc:

In [67]:
c + count_dict

TypeError: unsupported operand type(s) for +: 'Counter' and 'dict'

Thực ra, đó là cộng với 1 object Counter khác:

In [68]:
print(c)
print(Counter(list('ABCD')))

c + Counter(list('ABCD'))

Counter({'B': 47, 'C': 36, 'A': 17})
Counter({'A': 1, 'B': 1, 'C': 1, 'D': 1})


Counter({'C': 37, 'B': 48, 'A': 18, 'D': 1})

Ta cũng thấy là Counter có thể biến 1 dict thành class Counter:

In [69]:
c + Counter(count_dict)

Counter({'C': 72, 'B': 94, 'A': 34})

Nếu cộng được, ta cũng có thể trừ được:

In [70]:
print(c)
print(Counter(list('ABCD')))

c - Counter(list('ABCD'))

Counter({'B': 47, 'C': 36, 'A': 17})
Counter({'A': 1, 'B': 1, 'C': 1, 'D': 1})


Counter({'C': 35, 'B': 46, 'A': 16})

Ngoài ra, Counter còn cho phép thực hiện phép toán trên tập hợp, thí dụ phép hợp = kết hợp 2 counter lại thành 1 counter duy nhất:

In [96]:
c | Counter(list('ABCDEFGH'))

Counter({'C': 36, 'B': 47, 'A': 17, 'D': 1, 'E': 1, 'F': 1, 'G': 1, 'H': 1})

Hoặc phép giao = phần chung giữa 2 tập hợp Counter

In [97]:
c & Counter(list('ABCDEFGH'))

Counter({'C': 1, 'B': 1, 'A': 1})

## Thêm method khác ?

Ta có thể tạo ra 1 class Counter của riêng mình và thêm vào đó những method mới tùy thích, thí dụ Nhi có thể tạo ra 1 class my_Counter kế thừa tất cả khả năng của Counter, và còn cho phép nhân hay chia values trong dict với 1 con số:

Gợi ý: Toán tử * tương ứng dunder method mul và toán tử / tương ứng với dunder method truediv

In [130]:
class my_Counter(Counter):
    def __mul__(self, item):
        return {key:i for key,i in zip(self.keys(),[v * item for v in self.values()])}
    
    def __truediv__(self, item):
        return {key:i for key,i in zip(self.keys(),[v / item for v in self.values()])}

In [123]:
c2 = my_Counter(seq)

c2

my_Counter({'C': 36, 'B': 47, 'A': 17})

In [124]:
c2 * 10

{'C': 360, 'B': 470, 'A': 170}

In [125]:
c2 / 10

{'C': 3.6, 'B': 4.7, 'A': 1.7}

## Sử dụng Counter để giải quyết bài toán kiểm kê

Giả sử ta có 1 mô hình tự động phân tích sóng điện não đồ và xuất ra kết quả là 5 trạng thái giấc ngủ: N1, N2, N3, Wake và REM với mã hóa 1,2,3,0,4 với cửa sổ lấy mẫu là 30 giây

Ta muốn ước tính tỉ lệ thời gian của giấc ngủ REM so với tổng thời gian ngử (bao gồm N1, N2, N3, REM), chỉ số này có thể tính như sau:

In [131]:
pred_seq = np.random.choice([0,1,2,3,4],size = 840, p = [0.1,0.2,0.3,0.2,0.2])

pred_seq[:20] = 0
pred_seq[-5:-1]=0

In [147]:
def rem_ratio(pred_seq = None):
    sleep_counter = Counter(pred_seq)
    return 100*sleep_counter.get(4,0)/sum([sleep_counter.get(i,0) for i in [1,2,3,4]])

Class Counter được dùng để kiểm kê 5 trạng thái giấc ngủ trong chuỗi pred_seq, sau đó ta chỉ cần tính tỉ lệ rem/(N1,N2,N3,Rem)

In [148]:
rem_ratio(pred_seq)

20.24793388429752

Bài thực hành đến đây tạm dừng nhé, hẹn gặp lại các bạn lần tới.