# Tạo giá trị ngẫu nhiên

### BS. Lê Ngọc Khả Nhi

Tạo giá trị ngẫu nhiên là một trong các kỹ năng cần biết càng sớm càng tốt trên hành trình tự học thống kê với Python. 

Trong nghề lập trình, tính năng sinh giá trị ngẫu nhiên được dùng cho mục đích bảo mật (sinh mật khẩu), mô phỏng các hiện tượng ngẫu nhiên trong cuộc sống hay các trò chơi may rủi. Nhưng vai trò của giá trị ngẫu nhiên càng quan trọng hơn rất nhiều khi lập trình xác suất, phân tích thống kê, với những ứng dụng hữu ích như:

1. Kỹ thuật: Tạo dữ liệu mô phỏng để thử nghiệm một phương pháp, mô hình thống kê, kiểm tra code

2. Machine learning: Chọn mẫu và bootstrap, tạo nhiễu (thí dụ Oversampling, Data augmentation)

3. Giảng dạy và học tập: Minh họa các khái niệm về phân phối xác suất hay mô phỏng giả thuyết

5. Lập trình xác suất (mô hình Bayes, chuỗi Markov...)

6. Nghiên cứu y học lâm sàng: Mô phỏng thí nghiệm, giả thuyết, tính cỡ mẫu, power, effect size, phân chia bệnh nhân trong nghiên cứu can thiệp đối chứng ngẫu nhiên

...

Python có sẵn module sinh giá trị ngẫu nhiên là *random*, tính năng của nó đủ đáp ứng những việc đơn giản. Tuy nhiên, ta có giải pháp tốt hơn khi làm thống kê, đó là module random của numpy với nhiều tính năng mở rộng và mô phỏng được nhiều họ phân phối hơn, vì numpy là công cụ chuyên dụng cho tính toán khoa học.

In [1]:
import random
import numpy as np
import string

Các methods của module random có sẵn trong Python:

In [2]:
dir(random)

['BPF',
 'LOG4',
 'NV_MAGICCONST',
 'RECIP_BPF',
 'Random',
 'SG_MAGICCONST',
 'SystemRandom',
 'TWOPI',
 '_BuiltinMethodType',
 '_MethodType',
 '_Sequence',
 '_Set',
 '__all__',
 '__builtins__',
 '__cached__',
 '__doc__',
 '__file__',
 '__loader__',
 '__name__',
 '__package__',
 '__spec__',
 '_acos',
 '_bisect',
 '_ceil',
 '_cos',
 '_e',
 '_exp',
 '_inst',
 '_itertools',
 '_log',
 '_os',
 '_pi',
 '_random',
 '_sha512',
 '_sin',
 '_sqrt',
 '_test',
 '_test_generator',
 '_urandom',
 '_warn',
 'betavariate',
 'choice',
 'choices',
 'expovariate',
 'gammavariate',
 'gauss',
 'getrandbits',
 'getstate',
 'lognormvariate',
 'normalvariate',
 'paretovariate',
 'randint',
 'random',
 'randrange',
 'sample',
 'seed',
 'setstate',
 'shuffle',
 'triangular',
 'uniform',
 'vonmisesvariate',
 'weibullvariate']

Các methods của module numpy.random

In [3]:
dir(np.random)

['BitGenerator',
 'Generator',
 'MT19937',
 'PCG64',
 'Philox',
 'RandomState',
 'SFC64',
 'SeedSequence',
 '__RandomState_ctor',
 '__all__',
 '__builtins__',
 '__cached__',
 '__doc__',
 '__file__',
 '__loader__',
 '__name__',
 '__package__',
 '__path__',
 '__spec__',
 '_bit_generator',
 '_bounded_integers',
 '_common',
 '_generator',
 '_mt19937',
 '_pcg64',
 '_philox',
 '_pickle',
 '_sfc64',
 'absolute_import',
 'beta',
 'binomial',
 'bytes',
 'chisquare',
 'choice',
 'default_rng',
 'dirichlet',
 'division',
 'exponential',
 'f',
 'gamma',
 'geometric',
 'get_state',
 'gumbel',
 'hypergeometric',
 'laplace',
 'logistic',
 'lognormal',
 'logseries',
 'mtrand',
 'multinomial',
 'multivariate_normal',
 'negative_binomial',
 'noncentral_chisquare',
 'noncentral_f',
 'normal',
 'pareto',
 'permutation',
 'poisson',
 'power',
 'print_function',
 'rand',
 'randint',
 'randn',
 'random',
 'random_integers',
 'random_sample',
 'ranf',
 'rayleigh',
 'sample',
 'seed',
 'set_state',
 'shuffle',

# Chọn sử dụng method nào ?

Như ta thấy, có nhiều method trong mỗi module. Tuy nhiên mỗi method có một ứng dụng khác nhau tùy vào hoàn cảnh và mục tiêu ta mong muốn. Bạn cần tự hỏi mình muốn làm chính xác điều gì ?

Thí dụ:

1) Tôi cần rút ngẫu nhiên k phần tử từ tập hợp S gồm N phần tử (S có thể là một iterable object, phần tử có thể là số, chữ). 
Có ít nhất 2 cách thực hiện: a) Trực tiếp (method sample, choice/choices) hoặc dựa vào index (tạo số đếm ngẫu nhiên).

2) Tôi cần rút n giá trị ngẫu nhiên từ một họ phân phối xác định: Ta cần dùng các method chuyên biệt cho mỗi phân phối; thí dụ Gaussian, Uniform, Poisson, Gamma, ...

3) Tôi cần rút n giá trị ngẫu nhiên trên một miền/khoảng giá trị liên tục (thí dụ từ 0 tới 1)

4) Tôi chỉ cần tạo một chuỗi nhiễu ngẫu nhiên : Ta có thể dùng các phân phối như uniform, standard_normal, normal hay method random (tương ứng với uniform từ 0-1)

5) Tôi cần tạo chuỗi giá trị số nguyên: dùng method randint

6) Tôi chỉ cần xáo trộn thứ tự của dữ liệu hiện thời: dùng method shuffle

v.v

## Sự khác biệt giữa random cơ bản và random của numpy

Ta cũng thấy một số method có vẻ trùng lặp giữa 2 module random cơ bản và random của numpy, nhưng  chúng không tương đương nhau.

1) numpy cung cấp nhiều tính năng mở rộng hơn cho cùng một method so với random, một trong số đó là random cơ bản chỉ cho phép tạo ra mỗi lần 1 giá trị - bạn phải dùng vòng lặp nếu muốn sinh ra hàng loạt giá trị ngẫu nhiên. Trong khi đó numpy cho phép tạo ra nhiều giá trị đồng thời, và cho phép sắp xếp chúng vào arrays với cấu trúc tùy chọn.

2) random seed của random và numpy.random là độc lập (không ảnh hưởng chéo lên nhau): bạn không thể set random.seed cho methods của numpy.random và ngược lại: không thể set numpy.random.seed cho method của random.

## random

Method random sinh ra giá trị ngẫu nhiên trong khoảng \[0-1) (bao gồm 0, nhưng không gồm 1). 

In [4]:
random.random()

0.2752471569026508

In [5]:
np.random.random(size = 10)

array([0.72408116, 0.90459241, 0.49389395, 0.86490913, 0.78031604,
       0.95588593, 0.70353984, 0.59757277, 0.91560481, 0.58631299])

In [6]:
np.random.random(size = (3,3,2))

array([[[0.52331646, 0.88880974],
        [0.79662424, 0.92234362],
        [0.31043783, 0.16930642]],

       [[0.80076574, 0.78867375],
        [0.02199694, 0.25091662],
        [0.13822089, 0.58215769]],

       [[0.79601647, 0.80008638],
        [0.01783448, 0.03917662],
        [0.96308286, 0.09076941]]])

## Xáo trộn thứ tự: Shuffle

Method này xáo trộn trình tự của một list hay 1D numpy array

In [11]:
a = [1,2,3,4,5]

print(a)

random.shuffle(a)

print(a)

[1, 2, 3, 4, 5]
[4, 1, 2, 3, 5]


In [14]:
b = np.array([1,2,3,4,5,])

print(b)

random.shuffle(b)

print(b)

[1 2 3 4 5]
[3 5 1 2 4]


In [22]:
b = np.array([1,2,3,4,5])

print(b)

np.random.shuffle(b)

print(b)

[1 2 3 4 5]
[1 4 3 5 2]


In [24]:
a = list(string.ascii_uppercase)
print('Ban đầu', a)

random.shuffle(a)
print('Sau khi trộn', a)

Ban đầu ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z']
Sau khi trộn ['A', 'B', 'Z', 'I', 'T', 'K', 'S', 'Q', 'X', 'L', 'U', 'G', 'C', 'Y', 'V', 'D', 'E', 'J', 'N', 'P', 'H', 'W', 'F', 'M', 'O', 'R']


In [25]:
a = list(string.ascii_uppercase)
print('Ban đầu', a)

np.random.shuffle(a)
print('Sau khi trộn', a)

Ban đầu ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z']
Sau khi trộn ['O', 'W', 'C', 'M', 'F', 'P', 'S', 'B', 'U', 'Y', 'Z', 'A', 'E', 'N', 'L', 'R', 'J', 'V', 'X', 'K', 'H', 'I', 'Q', 'G', 'D', 'T']


## Số nguyên / indices ngẫu nhiên: randint

Method này rút ngẫu nhiên 1 (module random) là số nguyên trong khoảng \[a,b\], bao gồm a và b.

Với numpy, method này rút ngẫu nhiên 1 hay nhiều số nguyên trong khoảng \[low,high\], bao gồm low nhưng không gồm high; 

nếu chỉ có 1 argument, nó được xem là Low nhưng hiểu là ngưỡng trên, và numpy sẽ rút ngẫu nhiên trong khoảng từ 0 đến low

In [5]:
random.randint(a= 1, b = 10)

4

Lưu ý là random.randint có thể rút ra giá trị cao nhất là b trong khoảng \[a,b\], nếu ta không muốn bao gồm b, có thể dùng method random.randrange, method này còn cho phép tùy chỉnh step

In [55]:
random.randrange(0,10,step = 1)

9

In [57]:
random.randrange(0,10,step = 2)

2

In [6]:
np.random.randint(low = 100)

32

method randint của numpy không bao gồm giá trị cao nhất trong khoảng \[low,high\] nên thích hợp hơn cho mục tiêu resampling dựa vào array indices (vì hệ index của Python đếm từ 0)

In [7]:
np.random.randint(low = 1, high = 30)

11

In [9]:
np.random.randint(low = 1, high = 30, 
                  size = 10)

array([11, 24,  4, 13, 10, 11, 15,  8,  3, 11])

In [10]:
np.random.randint(low = 1, high = 30, 
                  size = (3,3,3))

array([[[14,  7, 22],
        [17,  7,  9],
        [21,  3, 13]],

       [[14, 19, 22],
        [17, 12, 20],
        [18, 25, 26]],

       [[14, 29,  6],
        [ 3, 11, 12],
        [19, 11, 17]]])

## Chọn mẫu và rút thăm: Choice của random cơ bản

Với module random cơ bản trong Python: method choice rút 1 (choice) hay nhiều (choices) phần tử từ 1 tập hợp dữ liệu có sẵn, tương đương với hành động rút thăm, hay chọn mẫu S từ quần thể P. Method choices cho phép ấn định tỉ trọng (weight) của từng phần tử trong P. Lưu ý đây là rút thăm có hoàn trả lại (có replacement), cho phép choices rút ra số phần tử lớn hơn kích thước dữ liệu gốc.

In [14]:
random.choice([1,2,3,4,5])  # Áp dụng được cho list

3

In [13]:
random.choice(('A','B','C','D')) # Áp dụng được cho tuple

'C'

In [18]:
random.choice({1,2,3,4,5}) # không dùng cho set

TypeError: 'set' object is not subscriptable

In [19]:
random.choice({'Yes':1, 'No':0}) # không dùng cho dict

KeyError: 0

In [21]:
random.choice(range(10)) # Dùng được cho iterator

5

In [22]:
random.choice(string.ascii_uppercase) # Dùng được cho string list

'E'

Choices chọn nhiều phần tử với argument k = số phần tử.

Lưu ý: có replacement, k có thể cao hơn kích thước population.

In [23]:
random.choices(population = range(10), k = 20)

[1, 8, 7, 6, 5, 4, 4, 8, 2, 0, 2, 6, 5, 3, 6, 4, 1, 6, 7, 5]

In [25]:
random.choices(string.ascii_uppercase, k = 10)

['D', 'Q', 'C', 'T', 'G', 'I', 'J', 'T', 'J', 'Q']

Argument weights cho phép ấn định tỉ trọng cho mỗi phần tử:

In [24]:
random.choices(list('ABC'),k = 10, weights = (0.6,0.1,0.3))

['C', 'B', 'C', 'A', 'A', 'A', 'A', 'C', 'A', 'C']

## Chọn mẫu và rút thăm: Sample của random cơ bản

Method sample của random cơ bản cũng thực hiện 1 hành động rút thăm (chọn mẫu), nhưng không có hoàn trả lại, như vậy ta chỉ có thể rút tối đa số phần tử bằng với kích thước của dữ liệu gốc.

In [33]:
random.sample([1,0,0,2,1,3,5,2,4], k=4) # Dùng cho list

[2, 1, 5, 4]

In [36]:
random.sample({'A','B','C','D'}, 2) # Dùng cho set được

['C', 'B']

In [38]:
random.sample((1,2,3,4,5,6,), k = 3) # Dùng cho tuple cũng được

[3, 2, 6]

In [40]:
random.sample({'Yes':1, 'No':0}, 1) # không dùng cho dict

TypeError: Population must be a sequence or set.  For dicts, use list(d).

In [41]:
random.sample(list({'Yes':1, 'No':0}), 1) # nhưng chuyển dict thành list thì dùng được

['Yes']

## Chọn mẫu và rút thăm: Choice của numpy.random

Khác với random cơ bản, module random của numpy chỉ có 1 method choice duy nhất, nó cho phép tùy chỉnh cả 3 tham số: số phần tử được rút (k), tỉ trọng (p) và có hoàn trả hay không (replacement, mặc định là có = True)

Khi chọn tùy chỉnh replacement = False, sẽ tương đương method sample của random cơ bản.

In [27]:
np.random.choice(a = list('ABC'), size = 10)

array(['B', 'B', 'A', 'C', 'C', 'C', 'B', 'A', 'B', 'A'], dtype='<U1')

In [31]:
np.random.choice(list('ABC'),10, p = (0.6,0.1,0.3)) # p nhận cả tuple lẫn list

array(['A', 'C', 'C', 'A', 'A', 'A', 'C', 'C', 'B', 'C'], dtype='<U1')

In [32]:
np.random.choice(list(string.ascii_uppercase), 5, replace = False)

array(['V', 'K', 'Q', 'N', 'S'], dtype='<U1')

# Kết luận

Bài thưc hành tạm dừng tại đây, nội dung trong bài chỉ giới hạn về kỹ thuật chọn mẫu nhưng chưa đề cập về vấn đề mô phỏng các quy luật phân phối - nhưng vấn đề đó cũng khá dễ hiểu - bạn chỉ cần dùng đúng method chuyên biệt cho phân phối cần mô phỏng.

Cho ứng dụng thống kê, ta nên dùng module numpy.random thay cho random cơ bản, vì ít method cần phải nhớ hơn mà tính năng lại mở rộng hơn.