# Các mẫu thiết kế GOF : Bridge

**BS. Lê Ngọc Khả Nhi**

# Giới thiệu

Bridge (Cầu nối) là một mẫu thiết kế về cấu trúc. Mục tiêu nhằm quy hoạch những bộ phận trong chương trình trên tinh thần: (1) theo thứ bậc gồm 2 cấp độ : trừu tượng (abstraction) và thực thi (Implementation) ; và (2) Giữ cho các đơn vị (class, hàm) độc lập với nhau, nhưng vẫn đảm bảo mối liên kết giữa chúng trong quá trình vận hành. 

Mô thức Bridge nguyên bản chỉ áp dụng cho lập trình hướng đối tượng (OOP), và được triển khai thông qua cơ chế Composition (tổng hợp), nó khuyến khích lập trình viên thay thế mô thức Inheritance (Kế thừa) bằng Composition khi muốn mở rộng tính năng của một class hay kết hợp nhiều class với nhau. 

Khi dùng mô thức Bridge, một đơn vị sẽ được thiết kế với 2 cấp độ : giao thức(interface)/trừu tượng (abstraction) và cấp độ thực thi (Implementation). Abstraction là chìa khóa để thực hiện điều tưởng như vô lý : Giữ cho 2 class độc lập, riêng biệt với nhau nhưng vẫn bảo tồn một cầu nối (vô hình) giữa chúng khi vận hành. Một cách đơn giản, mỗi bộ phận trong chương trình sẽ được thiết kế sao cho nó không biết đến nội dung của những bộ phận khác, dù đến một lúc nào đó chúng vẫn sẽ khớp nối (coupling) với nhau để thực hiện 1 quy trình nào đó. Tính độc lập này mang lại rất nhiều lợi ích, nó cho phép mở rộng tính năng, thay đổi nội dung mỗi bộ phận trong chương trình riêng biệt nhau, chỉ cần sửa code cục bộ.

Tuy nhiên, khi áp dụng mô thức Bridge (cũng như mọi mô thức khác) vào ngôn ngữ Python, chúng ta không bắt buộc phải giới hạn trong phạm vi OOP, mà có thể vận dụng linh hoạt tất cả những tiện ích khác mà Python cung cấp, chỉ cần giữ đúng tinh thần của mô thức. 
Trong bài thực hành này, Nhi triển khai mô thức Bridge không thuần túy cho OOP, nhưng kết hợp tất cả những tính năng mà Python cung cấp, như :

Trong Python, Abstraction/Interface có thể được triển khai bằng bằng 3 hình thức : Abstract Base class (ABC) và Protocol cho class hoặc dataclass, và type Callable cho hàm (function).

Composition giữa 2 class, giữa class và hàm có thể được thực hiện theo 2 cách : tường minh/cụ thể qua 1 object, hoặc trừu tượng, thông qua Type hinting. Trong bài này Nhi sử dụng cách thứ hai, vì cho phép tính độc lập gần như tuyệt đối giữa các module. Sự khớp nối (Coupling) chỉ diễn ra duy nhất trong code của người dùng sau cùng.

# Tình huống minh họa :

Một chuyên viên thống kê muốn thiết kế một chương trình nhỏ, cho phép anh/chị ta xây dựng bảng mô tả đặc tính dân số nghiên cứu (Bảng số 1 trong bài báo khoa học), với tính năng như sau:

Chương trình nhận dữ liệu đầu vào là 1 dataframe dữ liệu, trong đó có những biến định lượng, định tính, và 1 biến phân nhóm gồm 2 bậc giá trị.

Người dùng xác định loại dữ liệu nào cần phân tích: Định tính hay định lượng ?

Nếu là định tính, người dùng lại có thể chọn 1 trong 2 phương pháp nhận diện biến định tính: 1) dựa vào datatype là object; 2) Dựa vào số giá trị unique trong data mỗi biến, nếu ít hơn 10 thì xem như biến định tính

Tiếp theo, người dùng có thể chọn hình thức báo cáo kết quả: tần suất/tỉ lệ, Mean/SD, Median(IQR), Median(5-95 quantiles); 

Sau đó, người dùng lại có thể chọn 1 loại kiểm định cho phép so sánh phân bố giữa 2 phân nhóm, thí dụ Chi-squared, Student t test, Mann-Whitney U test.

# Giải quyết vấn đề bằng thiết kế Bridge

Explorer này có liên hệ (Aggregate) với 3 bộ phận khác, là: Dữ liệu đầu vào (Input_data), Descriptor (thống kê mô tả) và Statistical_test (Kiểm định thống kê).

Descriptor có bản chất hàm, nó chứa hàm thống kê mô tả, cho phép báo cáo kết quả bằng nhiều hình thức: tần suất/tỉ lệ, Mean/SD, Median(IQR), Median(5-95 quantiles); 

Statistical_test có bản chất hàm, nó cho phép làm kiểm định cho phép so sánh phân bố giữa 2 phân nhóm, thí dụ Chi-squared, Student t test, Mann-Whitney U test.

Ta cũng thiết kế cả 3 nhân tố trên theo cấp độ Abstraction và Implementation.

Việc khớp nối chỉ được diễn ra trong End-user code

Sơ đồ UML như sau:

!['uml'](bridge_uml.png)

Nội dung của dữ liệu và code nằm tại thư mục Github sau:

https://github.com/kinokoberuji/Python-snipets/tree/master/GOF/Bridge

Trong chương trình này, ta cần 1 đơn vị thực hiện phân tích mô tả và so sánh, nó sẽ được thiết kế ở 2 cấp độ: abstraction/interface (giao thức trừu tượng) và Implementation (Categorical explorer và Numeric explorer).

Abstraction của Explorer nằm trong module analysis, ta dùng Protocol:

In [None]:
class Explorer(Protocol):
    @property
    def mix_df(self) -> pd.DataFrame:
        ...

    def describe(self, desc_method: Desc_Method) -> pd.DataFrame:
        ...

    def test(self, test_method: Test_Method) -> pd.DataFrame:
        ...

2 implementation của nó, nằm cùng module analysis; là 2 dataclass

In [None]:
@dataclass
class Categorical_explorer:

    data: Input_data = field(init=True)

    @property
    def mix_df(self) -> pd.DataFrame:

        df = self.data.filtered.copy()

        mix_df = pd.get_dummies(df.loc[:, self.variables], prefix_sep="=")

        mix_df = pd.concat([mix_df, self.data.stratified], axis=1)

        return mix_df

    @property
    def variables(self) -> List[str]:

        vars_lst = set(self.data.filtered.columns)
        vars_lst = vars_lst.difference(set([self.data.group]))

        return list(vars_lst)

    def test(self, test_method: Test_Method) -> pd.DataFrame:

        test_df = self.data.filtered
        grp_name = self.data.group
        pvals = dict()

        for x in self.variables:

            p = test_method(test_df, x, grp_name)

            pvals[x] = p

        return pd.DataFrame.from_dict(pvals, orient="index", columns=["p_val"])

    def describe(self, desc_method: Desc_Method) -> pd.DataFrame:

        mix_df = self.mix_df

        targs = mix_df.iloc[:, :-1].columns

        grp_name = self.data.group

        desc_table = mix_df.groupby(grp_name)[targs].agg(desc_method).T

        return desc_table


@dataclass
class Numeric_explorer:

    data: Input_data = field(init=True)

    @property
    def mix_df(self) -> pd.DataFrame:

        mix_df = pd.concat([self.data.filtered, self.data.stratified], axis=1)

        return mix_df

    def test(self, test_method: Test_Method) -> pd.DataFrame:

        mix_df = self.mix_df
        grp_name = self.data.group
        vars_lst = self.data.filtered.columns

        pvals = dict()

        for var in vars_lst:
            p = test_method(mix_df, var, grp_name)

            pvals[var] = p

        return pd.DataFrame.from_dict(pvals, orient="index", columns=["p_val"])

    def describe(self, desc_method: Desc_Method) -> pd.DataFrame:

        mix_df = self.mix_df
        grp_name = self.data.group
        vars_lst = self.data.filtered.columns

        desc_table = mix_df.groupby(grp_name)[vars_lst].agg(desc_method).T

        return desc_table

Implementation của Input data nằm trong module data_builder, nó là 1 dataclass, nó thực hiện việc lọc dữ liệu, chỉ giữ lại biến định tính hoặc định lượng, và xác định biến phân nhóm, nó cũng tạo ra các dummie variables cho phân tích định tính.

In [None]:
class DType(Enum):
    NUMERIC = auto()
    CATEGORICAL = auto()

Check_Dtype = Callable[[pd.DataFrame, str], bool]
    
@dataclass
class Data:

    data: pd.DataFrame = field(init=True)
    dtype: DType = DType.NUMERIC
    _group: str = field(default = None)
    method: Check_Dtype = unique_val_based_rule
    
    def set_group(self, group: str)->None:
        self._group = group
        
    def set_dtype(self, dtype: DType)->None:
        self.dtype = dtype
        
    def set_method(self, method: Check_Dtype)->None:
        self.method = method
        
    @property
    def filtered(self) -> pd.DataFrame:

        df = self.data.copy()
        check_method = self.method

        if self.dtype == DType.NUMERIC:
            return df.loc[:,~df.apply(lambda x: check_method(x))]
        elif self.dtype == DType.CATEGORICAL:
            return df.loc[:,df.apply(lambda x: check_method(x))]
        else:
            return df[[]]
        
    @property
    def group(self) -> str:
        return self._group
    
    @property
    def stratified(self) -> pd.DataFrame:
        
        if self._group:
            return self.data[[self._group]]
        else:
            return self.data[[]]

Abstraction của Input data, được triển khai thông qua Protocol từ thư viện typing; nó nằm trong module analysis

In [None]:
class Input_data(Protocol):
    def set_dtype(self, dtype: DType) -> None:
        ...

    def set_group(self, group: str) -> None:
        ...

    def set_method(self, method: Check_Dtype) -> None:
        ...

    @property
    def group(self) -> str:
        ...

    @property
    def stratified(self) -> pd.DataFrame:
        ...

Abstraction của Descriptor và Stats_test được triển khai thông qua type Callable từ thư viện typing (vì chúng là hàm);

Các hàm thống kê mô tả nằm trong module descriptive_tools;

In [None]:
Desc_Method = Callable[[pd.DataFrame], str]
Test_Method = Callable[[pd.DataFrame, str, str], str]

In [None]:
import numpy as np
from scipy.stats import sem

def median_iqr(x):

    """Descriptive method for continous data,
    using Median and interquartile range
    """
    mu = x.median()
    l, u = np.quantile(x, [0.25, 0.75])

    return f"{mu:.2f}({l:.2f} - {u:.2f})"


def median_p95(x):

    """Descriptive method for continous data,
    using Median and 5th, 95th percentiles
    """
    mu = x.median()
    l, u = np.quantile(x, [0.05, 0.95])

    return f"{mu:.2f}({l:.2f} - {u:.2f})"


def mean_sd(x):

    """Descriptive method for continous data,
    using Mean and standard deviation
    """
    mu = x.mean()
    sigma = x.std()

    return f"{mu:.2f} ± {sigma:.2f}"


def mean_se(x):

    """Descriptive method for continous data,
    using Mean and standard error
    """
    mu = x.mean()
    se = sem(x)

    return f"{mu:.2f},({se:.2f})"


def freq_perct(x):

    """Descriptive method for categorical data,
    using frequency and percent
    """

    freq = x.sum()
    rate = x.mean()

    return f"{freq}({rate*100:.2f} %)"

In [None]:
Các hàm kiểm định nằm trong module statistical_tests

In [None]:
import pandas as pd
import pingouin as pg

def chi_sq_test(data: pd.DataFrame, x: str,y: str)-> str:

    """Chi-square test"""

    _, _, stats = pg.chi2_independence(data,x,y)
    
    return f"{stats.loc[1,'pval']}"

def t_test(data: pd.DataFrame,var: str,g: str) -> str:

    """Student independent samples t-test"""
    
    gp_data = data.groupby(g)[var].apply(lambda v: v.values)
    x = gp_data.iloc[0]
    y = gp_data.iloc[1]
    
    p = pg.ttest(x, y).iloc[0,3]
    
    return f"{p}"

def mwu_test(data: pd.DataFrame,var: str,g: str) -> str:

    """Mann-Whitney U test"""
    
    gp_data = data.groupby(g)[var].apply(lambda v: v.values)
    x = gp_data.iloc[0]
    y = gp_data.iloc[1]
    
    p = pg.mwu(x, y).iloc[0,2]
    
    return f"{p}"

# Sử dụng chương trình

Nhi import tất cả module vừa tạo ra,

In [1]:
import warnings
warnings.filterwarnings("ignore")

from analysis import *
from categorical_checkers import *
from data_builder import *
from descriptive_tools import *
from statistical_tests import *

Sau đó tải 1 dữ liệu y học :

In [2]:
# A set of 146 patients with stage C prostate cancer, from a study exploring the prognostic value of flow cytometry.

PATH = 'https://vincentarelbundock.github.io/Rdatasets/csv/rpart/stagec.csv'

In [3]:
df = pd.read_csv(PATH, index_col = 0)
df['pgstat'] = df['pgstat'].map({0:'Censored',1:'Progress'})
df['eet'] = df['eet'].map({1:'No',2:'Yes'})

df = df.astype({'pgtime':'float64',
         'pgstat':'object',
          'age':'float64',
          'eet':'object',
          'g2':'float64',
          'grade':'object',
          'gleason':'float',
          'ploidy':'object',}
         )

df = df.dropna(axis = 0)

df

Unnamed: 0,pgtime,pgstat,age,eet,g2,grade,gleason,ploidy
1,6.1,Censored,64.0,Yes,10.26,2,4.0,diploid
3,5.2,Progress,59.0,Yes,9.99,3,7.0,diploid
4,3.2,Progress,62.0,Yes,3.57,2,4.0,diploid
5,1.9,Progress,64.0,Yes,22.56,4,8.0,tetraploid
6,4.8,Censored,69.0,No,6.14,3,7.0,diploid
...,...,...,...,...,...,...,...,...
141,8.2,Censored,62.0,Yes,10.72,3,7.0,diploid
142,10.2,Censored,63.0,Yes,5.14,2,5.0,diploid
143,2.5,Progress,73.0,Yes,46.92,4,9.0,tetraploid
145,5.6,Censored,51.0,Yes,9.59,3,6.0,diploid


# Mô tả định tính

In [4]:
cat_df = Data(data = df, dtype = DType.CATEGORICAL,)

cat_df.set_group('pgstat')

cat_exp = Categorical_explorer(data = cat_df)

In [5]:
cat_exp.describe(desc_method = freq_perct)

pgstat,Censored,Progress
ploidy=aneuploid,1(1.18 %),4(8.16 %)
ploidy=diploid,52(61.18 %),13(26.53 %)
ploidy=tetraploid,32(37.65 %),32(65.31 %)
grade=1,2(2.35 %),0(0.00 %)
grade=2,46(54.12 %),8(16.33 %)
grade=3,37(43.53 %),36(73.47 %)
grade=4,0(0.00 %),5(10.20 %)
eet=No,19(22.35 %),13(26.53 %)
eet=Yes,66(77.65 %),36(73.47 %)


Kiểm định Chi-squared

In [6]:
cat_exp.test(test_method = chi_sq_test)

Unnamed: 0,p_val
ploidy,0.0002263833878723
grade,7.893844453247292e-06
eet,0.7371874786004449


# Mô tả định lượng

In [7]:
num_df = Data(data = df, dtype = DType.NUMERIC,)

num_df.set_group('pgstat')

num_exp = Numeric_explorer(data = num_df)

Sử dụng trung vị và IQR

In [8]:
num_exp.describe(desc_method = median_iqr)

pgstat,Censored,Progress
pgtime,6.70(5.60 - 9.80),3.20(1.90 - 5.10)
age,63.00(59.00 - 67.00),62.00(58.00 - 66.00)
g2,11.35(8.11 - 16.05),14.14(11.35 - 17.16)
gleason,6.00(5.00 - 7.00),7.00(6.00 - 8.00)


Sử dụng trung vị và bách phân vị thứ 5,95

In [9]:
num_exp.describe(desc_method = median_p95)

pgstat,Censored,Progress
pgtime,6.70(3.64 - 14.38),3.20(0.70 - 7.66)
age,63.00(54.00 - 70.80),62.00(51.20 - 72.60)
g2,11.35(5.17 - 29.21),14.14(5.28 - 24.24)
gleason,6.00(4.00 - 8.00),7.00(5.00 - 9.00)


Sử dụng trung bình và SD

In [10]:
num_exp.describe(desc_method = mean_sd)

pgstat,Censored,Progress
pgtime,7.82 ± 3.40,3.61 ± 2.22
age,63.12 ± 5.42,62.08 ± 6.48
g2,13.90 ± 8.80,15.22 ± 7.46
gleason,5.92 ± 1.22,6.96 ± 1.31


Sử dụng trung bình và SE

In [11]:
num_exp.describe(desc_method = mean_se)

pgstat,Censored,Progress
pgtime,"7.82,(0.37)","3.61,(0.32)"
age,"63.12,(0.59)","62.08,(0.93)"
g2,"13.90,(0.95)","15.22,(1.07)"
gleason,"5.92,(0.13)","6.96,(0.19)"


So sánh bằng t-test

In [12]:
num_exp.test(test_method = t_test)

Unnamed: 0,p_val
pgtime,1.5369241934408364e-14
age,0.3472956874205677
g2,0.3614242591753178
gleason,1.554465674861372e-05


So sánh bằng Mann-Whitney U test

In [13]:
num_exp.test(test_method = mwu_test)

Unnamed: 0,p_val
pgtime,5.016123920353628e-12
age,0.406132836611341
g2,0.0194077602305719
gleason,1.666229490972139e-05
