In [31]:
# Import các thư viện thông dụng
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
# Import các distribution packages từ thư viện scipy
from scipy.stats import binom
from scipy.stats import poisson
from scipy.stats import norm
from scipy.stats import t

### Tạo dữ liệu

In [32]:
# Tạo dữ liệu mẫu
np.random.seed(42)

# Phân phối Nhị Thức: Số lần trúng số trong 10 lần chơi (xác suất trúng là 0.2)
binomial_data = binom.rvs(n=10, p=0.2, size=1000)

# Phân phối Poisson: Số khách hàng đến quán cafe trong một giờ (trung bình 5 khách/giờ)
poisson_data = poisson.rvs(mu=5, size=1000)

# Phân phối Chuẩn: Điểm thi của 1000 học sinh (trung bình 70, độ lệch chuẩn 10)
normal_data = norm.rvs(loc=70, scale=10, size=1000)

# Tạo DataFrame chứa dữ liệu
df = pd.DataFrame({
    'Binomial': binomial_data,
    'Poisson': poisson_data,
    'Normal': normal_data
})

df.head()


Unnamed: 0,Binomial,Poisson,Normal
0,1,8,77.031425
1,4,4,75.332073
2,3,5,71.654037
3,2,10,56.179824
4,1,3,65.163829


### Bài 1: Phân phối Nhị Thức
Một trò chơi quay số có 10 lần quay, xác suất trúng mỗi lần là 0.2. Nếu một người chơi thử 1000 lần, hãy:

- Tính số lần trung bình mà người chơi trúng trong 10 lần quay.
- Xác suất để một người trúng ít nhất 3 lần trong một vòng quay 10 lần.

In [33]:
n, p = 10, 0.2
mean_binom = n * p
prob_binom_3_or_more = 1 - binom.cdf(2, n, p)


print("Số lần trung bình mà người chơi trúng trong 10 lần là:", mean_binom)
print("Xác xuất để một ngời trúng ít nhất 3 lần:", prob_binom_3_or_more)

Số lần trung bình mà người chơi trúng trong 10 lần là: 2.0
Xác xuất để một ngời trúng ít nhất 3 lần: 0.32220047360000026


### Bài 2: Phân phối Poisson
Một quán cafe có trung bình 5 khách hàng đến mỗi giờ. Trong một ngày 8 tiếng, hãy:

- Tính xác suất có đúng 7 khách đến trong một giờ bất kỳ.
- Tính xác suất có hơn 40 khách trong một ngày.

In [34]:
lambda_hour = 5
prob_poisson_7 = poisson.pmf(7, mu=lambda_hour)
lambda_day = lambda_hour * 8
prob_poisson_more_than_40 = 1 - poisson.cdf(40, mu=lambda_day)

print("Xác xuất có đúng 7 khách đến trong một giờ bất kỳ:", prob_poisson_7)
print("Xác xuất có hơn 40 khách trong một ngày:", prob_poisson_more_than_40)

Xác xuất có đúng 7 khách đến trong một giờ bất kỳ: 0.10444486295705395
Xác xuất có hơn 40 khách trong một ngày: 0.4580818216374629


### Bài 3: Phân phối Chuẩn
Điểm thi trung bình của học sinh là 70, độ lệch chuẩn 10. Hãy tính:

- Xác suất một học sinh có điểm trên 80.
- Xác suất một học sinh có điểm trong khoảng 60 đến 80.

In [35]:
mu, sigma = 70, 10
prob_norm_above_80 = 1 - norm.cdf(80, loc=mu, scale=sigma)
prob_norm_60_to_80 = norm.cdf(80, loc=mu, scale=sigma) - norm.cdf(60, loc=mu, scale=sigma)

print("Xác xuất một học sinh có điểm trên 80:", prob_poisson_7)
print("Xác xuất một học sinh có điểm trong khoảng 60 đến 80:", prob_poisson_more_than_40)

Xác xuất một học sinh có điểm trên 80: 0.10444486295705395
Xác xuất một học sinh có điểm trong khoảng 60 đến 80: 0.4580818216374629


### Bài 4:
Giả sử chiều cao của sinh viên năm hai ở một trường đại học là đại lượng ngẫu nhiên có phân phối chuẩn với trung bình mu = 172 cm và độ lệch chuẩn sigma = 8cm

In [36]:
mu, sigma = 172, 8

- Tỷ lệ sinh viên có chiều cao lớn hơn 184 cm là bao nhiêu?

In [37]:
print("Tỷ lệ sinh viên có chiều cao lớn hơn 184 cm là:", 1 - norm.cdf(184, loc=mu, scale=sigma))

Tỷ lệ sinh viên có chiều cao lớn hơn 184 cm là: 0.06680720126885809


- Tỷ lệ sinh viên có chiều cao trong khoảng từ 164 cm - 180 cm là bao nhiêu?

In [38]:
norm_180 = norm.cdf(180, loc=mu, scale=sigma)
norm_164 = norm.cdf(164, loc=mu, scale=sigma)
norm_164_to_180 = norm_180 -  norm_164

print("Tỷ lệ sinh viên có chiều cao trong khoảng từ 164 cm - 180 cm:", norm_164_to_180)

Tỷ lệ sinh viên có chiều cao trong khoảng từ 164 cm - 180 cm: 0.6826894921370859


- Nếu biết chiều cao của bạn, từ đó xác định xem có bao nhiêu % sinh viên có chiều cao thấp hơn bạn.

In [39]:
me = 168
norm_below_168 = norm.cdf(me, loc=mu, scale=sigma)

print("Tỷ lệ sinh viên có chiều cao thấp hơn 168:", norm_below_168)

Tỷ lệ sinh viên có chiều cao thấp hơn 168: 0.3085375387259869


- Chiều cao tối thiểu của nhóm top 10% sinh viên cao nhất là bao nhiêu?

In [40]:
# 10% cao nhất tương đương với lớn hơn P(X <= L) = 0.9
# L = norm.ppf(0.9, loc=mu, scale=sigma)
L = norm.isf(0.1, loc=mu, scale=sigma)

print("Chiều cao tối thiểu của nhóm top 10% sinh viên cao nhất:", L)

Chiều cao tối thiểu của nhóm top 10% sinh viên cao nhất: 182.2524125243568


- Chiều cao tối đa của nhóm 5% sinh viên thấp nhất là bao nhiêu?

In [41]:
# 5% cao nhất tương đương với lớn hơn P(X <= L) = 0.05
L = norm.ppf(0.05, loc=mu, scale=sigma)

print("Chiều cao tối thiểu của nhóm top 5% sinh viên thấp nhất:", L)

Chiều cao tối thiểu của nhóm top 5% sinh viên thấp nhất: 158.8411709843882


### Bài 5:
Một công ty dược phẩm sản xuất viên nang thuốc và muốn kiểm tra chất lượng của chúng.
Xác suất một viên thuốc bị lỗi trong quá trình sản xuất là 5%. Đánh giá chất lượng của một lô thuốc bằng cách lấy ngẫu nhiên 10 viên thuốc để kiểm tra.

In [42]:
n, p = 10, 0.05

- Xác suất để có đúng 2 viên thuốc bị lỗi trong số 10 viên được chọn là bao nhiêu?

In [43]:
binom_p_2 =  binom.pmf(2, n, p)

print("Xác suất để có đúng 2 viên thuốc bị lỗi trong số 10 viên:", binom_p_2)

Xác suất để có đúng 2 viên thuốc bị lỗi trong số 10 viên: 0.07463479852001963


- Xác suất để có nhiều nhất 1 viên thuốc lỗi trong mẫu là bao nhiêu?

In [44]:
binom_cdf_1 =  binom.cdf(1, n, p)

print("Xác suất để có nhiều nhất 1 viên thuốc lỗi trong mẫu là:", binom_cdf_1)

Xác suất để có nhiều nhất 1 viên thuốc lỗi trong mẫu là: 0.9138616441006836


-  Xác suất để có ít nhất 2 viên lỗi là bao nhiêu?

In [45]:
binom_min_2 =  binom.sf(1, n, p)

print("Xác suất để có ít nhất 2 viên lỗi là:", binom_min_2)

Xác suất để có ít nhất 2 viên lỗi là: 0.08613835589931643


### Bài 6:
Một kỳ thi trắc nghiệm có 15 câu hỏi, mỗi câu có 4 đáp án. Một học sinh đoán ngẫu nhiên mọi câu.

In [46]:
n, p = 15, 0.25

- Xác suất để học sinh trả lời đúng chính xác 5 câu?

In [47]:
binom_p_5 = binom.pmf(5, n, p)
print("Xác suất để học sinh trả lời đúng chính xác 5 câu:", binom_p_5)

Xác suất để học sinh trả lời đúng chính xác 5 câu: 0.16514598112553355


- Xác suất để học sinh trả lời đúng nhiều nhất 3 câu?

In [48]:
binom_cdf_3 = binom.pmf(3, n, p)
print("Xác suất để học sinh trả lời đúng nhiều nhất 3 câu:", binom_cdf_3)

Xác suất để học sinh trả lời đúng nhiều nhất 3 câu: 0.22519906517118224


- Xác suất để học sinh trả lời đúng ít nhất 7 câu

In [49]:
binom_sf_7 = binom.sf(6, n, p)
print("Xác suất để học sinh trả lời đúng ít nhất 7 câu:", binom_sf_7)

Xác suất để học sinh trả lời đúng ít nhất 7 câu: 0.05662031006067991


- Một học sinh cần trả lời đúng ít nhất bao nhiêu câu để nằm trong top 10% cao nhất

In [50]:
binom_isf_10 = binom.isf(0.1, n, p)
print("Một học sinh cần trả lời đúng ít nhất bao nhiêu câu để nằm trong top 10% cao nhất:", binom_isf_10)

Một học sinh cần trả lời đúng ít nhất bao nhiêu câu để nằm trong top 10% cao nhất: 6.0


### Bài 7:
Một trung tâm chăm sóc khách hàng nhận trung bình 12 cuộc gọi mỗi giờ.

In [51]:
lamda = 12

- Xác suất để trung tâm nhận đúng 15 cuộc gọi trong một giờ?

In [52]:
possion_p_15  = poisson.pmf(15, lamda)
print("Xác suất để trung tâm nhận đúng 15 cuộc gọi trong một giờ:", possion_p_15)

Xác suất để trung tâm nhận đúng 15 cuộc gọi trong một giờ: 0.07239112014663847


- Xác suất để trung tâm nhận nhiều hơn 20 cuộc gọi trong một giờ?

In [53]:
possion_sf_20  = poisson.sf(20, lamda)
print("Xác suất để trung tâm nhận nhiều hơn 20 cuộc gọi trong một giờ:", possion_sf_20)

Xác suất để trung tâm nhận nhiều hơn 20 cuộc gọi trong một giờ: 0.011597737214807462


- Xác suất để trung tâm nhận ít hơn 10 cuộc gọi trong một giờ?

In [54]:
possion_cdf_10  = poisson.cdf(10, lamda)
print("Xác suất để trung tâm nhận ít hơn 10 cuộc gọi trong một giờ:", possion_cdf_10)

Xác suất để trung tâm nhận ít hơn 10 cuộc gọi trong một giờ: 0.34722941755417197


- Một giờ có số cuộc gọi lớn nhất của 5% thời gian thì sẽ có ít nhất bao nhiêu cuộc gọi?

In [55]:
possion_isf_10  = poisson.isf(0.05, lamda)
print("Một giờ có số cuộc gọi lớn nhất của 5% thời gian thì sẽ có ít nhất bao nhiêu cuộc gọi:", possion_isf_10)

Một giờ có số cuộc gọi lớn nhất của 5% thời gian thì sẽ có ít nhất bao nhiêu cuộc gọi: 18.0


### Bài 8:
Chiều cao của sinh viên trong một trường đại học có phân phối chuẩn với trung bình 170 cm, độ lệch chuẩn 6 cm.

In [56]:
mu, sigma = 170, 6

- Xác suất để một sinh viên có chiều cao lớn hơn 180 cm

In [57]:
norm_sf_180 = norm.sf(180, loc=mu, scale=sigma)
print("Xác suất để một sinh viên có chiều cao lớn hơn 180 cm:", norm_sf_180)

Xác suất để một sinh viên có chiều cao lớn hơn 180 cm: 0.0477903522728147


- Xác suất để một sinh viên có chiều cao trong khoảng 165 cm - 175 cm?

In [58]:
norm_cdf_165 = norm.cdf(165, loc=mu, scale=sigma)
norm_cdf_175 = norm.cdf(175, loc=mu, scale=sigma)
norm_cdf_165_to_175 = norm_cdf_175 - norm_cdf_165
print("Xác suất để một sinh viên có chiều cao trong khoảng 165 cm - 175 cm:", norm_cdf_165_to_175)

Xác suất để một sinh viên có chiều cao trong khoảng 165 cm - 175 cm: 0.5953432380727137


- Một sinh viên có chiều cao bao nhiêu thì sẽ nằm trong top 1% cao nhất?

In [59]:
norm_isf_top_1_highest = norm.isf(0.01, loc=mu, scale=sigma)
print("Một sinh viên có chiều cao bao nhiêu thì sẽ nằm trong top 1% cao nhất:", norm_isf_top_1_highest)

Một sinh viên có chiều cao bao nhiêu thì sẽ nằm trong top 1% cao nhất: 183.95808724424504


- Một sinh viên có chiều cao bao nhiêu thì sẽ nằm trong top 5% thấp nhất?

In [60]:
norm_cdf_top_5_lowest = norm.ppf(0.05, loc=mu, scale=sigma)
print("Một sinh viên có chiều cao bao nhiêu thì sẽ nằm trong top 5% thấp nhất:", norm_cdf_top_5_lowest)

Một sinh viên có chiều cao bao nhiêu thì sẽ nằm trong top 5% thấp nhất: 160.13087823829116
