# Họ và tên: Lâm Quang Phú
# MSSV: 21094601

## Bài 1:
Mẫu dưới đây thu nhận ngẫu nhiên độ tuổi của người mắc bệnh tiểu đường ở một địa bàn 
trong thời gian khảo sát:
35 37 40 42 55 57 60 61 66 45
Có ý kiến cho rằng "Người mắc bệnh tiểu đường có độ tuổi trung bình trên 45 tuổi". Với 
mức ý nghĩa 5% bạn hãy kiểm định ý kiến này đúng hay sai? Hãy tính toán và đưa ra kết 
luận?


$\text{Giả thiết null (H0):} \quad \mu = 45$

$\text{Giả thiết thay thế (H1):} \quad \mu > 45$

$\bar{X} = \frac{35 + 37 + 40 + 42 + 55 + 57 + 60 + 61 + 66 + 45}{10} = 49.8$
$S = \sqrt{\frac{(35-49.8)^2 + (37-49.8)^2 + \ldots + (45-49.8)^2}{9}} \approx 9.41$

$t = \frac{49.8 - 45}{\frac{9.41}{\sqrt{10}}} \approx 2.12$

$t_{\text{critical}} \approx 1.833 \quad \text{(với } df = 9 \text{ và } \alpha = 0.05)$

$\text{Vì } t = 2.12 > t_{\text{critical}} = 1.833, \text{ nên bác bỏ giả thiết null.}$

**Vì vậy ở mức ý nghĩa 5%, chúng ta có đủ bằng chứng để kết luận rằng độ tuổi trung bình của người mắc bệnh tiểu đường là lớn hơn 45 tuổi.**


In [10]:
import numpy as np
from scipy.stats import t

In [11]:
# Dữ liệu mẫu
data = np.array([35, 37, 40, 42, 55, 57, 60, 61, 66, 45])

# Giả thiết null
mu_0 = 45

# Tính giá trị trung bình của mẫu
sample_mean = np.mean(data)

# Tính độ lệch chuẩn của mẫu
sample_std = np.std(data, ddof=1)

# Tính giá trị thống kê t
t_statistic = (sample_mean - mu_0) / (sample_std / np.sqrt(len(data)))

# Tính giá trị t critical
df = len(data) - 1
alpha = 0.05
t_critical = t.ppf(1 - alpha, df)
reject_null = t_statistic > t_critical

print(f"Giá trị thống kê t: {t_statistic}")
print(f"Giá trị t critical: {t_critical}")
print("Bác bỏ giả thiết null." if reject_null else "Không đủ bằng chứng để bác bỏ giả thiết null.")

Giá trị thống kê t: 1.3524853621776194
Giá trị t critical: 1.8331129326536333
Không đủ bằng chứng để bác bỏ giả thiết null.


## Bài 2:
Điều tra chi tiêu hàng năm của 40 công nhân khu công nghiệp A thấy trung bình mẫu là 
34 triệu đồng và độ lệch chuẩn mẫu là 5,8 triệu đồng. Điều tra công nhân tại khu công 
nghiệp B thì chi tiêu trung bình là 35 triệu đồng và độ lệch chuẩn là 5 triệu đồng.
- Với mức ý nghĩa 5%, có thể cho rằng chỉ tiêu trung bình của công nhân khu công 
nghiệp A và B là như nhau không?
- Tính p-value của kiểm định và cho biết kết luận thu được có thể mắc phải sai lầm loại 
mấy? Giả thiết chi tiêu công nhân là biến ngẫu nhiên phân phối chuẩn.

$\text{Giả thiết:}
\begin{align*}
&H_0: \mu_A = \mu_B \quad \text{(Chỉ tiêu trung bình của công nhân khu công nghiệp A và B là như nhau)} \\
&H_1: \mu_A \neq \mu_B \quad \text{(Chỉ tiêu trung bình của công nhân khu công nghiệp A và B không như nhau)}
\end{align*}$

$\text{Dữ liệu:}
\begin{align*}
&n_A = 40 \quad \text{(kích thước mẫu công nhân khu công nghiệp A)} \\
&n_B = 40 \quad \text{(giả sử kích thước mẫu công nhân khu công nghiệp B cũng là 40)}
\end{align*}$

$\text{Thông tin:}
\begin{align*}
&\bar{X}_A = 34 \quad \text{(trung bình mẫu của công nhân khu công nghiệp A)} \\
&\bar{X}_B = 35 \quad \text{(trung bình mẫu của công nhân khu công nghiệp B)} \\
&s_A = 5.8 \quad \text{(độ lệch chuẩn mẫu của công nhân khu công nghiệp A)} \\
&s_B = 5 \quad \text{(độ lệch chuẩn mẫu của công nhân khu công nghiệp B)}
\end{align*}$

$
\begin{align*}
&t = \frac{(\bar{X}_A - \bar{X}_B)}{\sqrt{\frac{s_A^2}{n_A} + \frac{s_B^2}{n_B}}}
\end{align*}$

$\text{P-value:}
\begin{align*}
 (df = n_A + n_B - 2).
\end{align*}$



In [12]:
# Dữ liệu và thông tin
n_A = 40
n_B = 40  # Giả sử kích thước mẫu công nhân khu công nghiệp B cũng là 40
mean_A = 34
mean_B = 35
std_A = 5.8
std_B = 5

# Tính giá trị t-statistic
t_statistic = (mean_A - mean_B) / np.sqrt((std_A**2 / n_A) + (std_B**2 / n_B))

# Tính p-value
df = n_A + n_B - 2
p_value = 2 * (1 - t.cdf(np.abs(t_statistic), df))
alpha = 0.05
reject_null = p_value < alpha
print(f"Giá trị t-statistic: {t_statistic}")
print(f"P-value: {p_value}")
print("Bác bỏ giả thiết null." if reject_null else "Không đủ bằng chứng để bác bỏ giả thiết null.")

Giá trị t-statistic: -0.8259105521236186
P-value: 0.4113739395395395
Không đủ bằng chứng để bác bỏ giả thiết null.


$\begin{align*}
&\text{p-value < } \alpha, \text{ ta bác bỏ }
\end{align*}$ **Vì vậy có đủ bằng chứng để kết luận rằng chỉ tiêu trung bình của công nhân khu công nghiệp A và B khác nhau.**


**Sai lầm loại một có thể xảy ra nếu bác bỏ giả thiết null khi thực sự không có sự khác biệt (khi alpha thấp, nguy cơ sai lầm loại I tăng lên)**

## Bài 3:
Quảng cáo của một công ty cho rằng tỷ lệ phế phẩm của công ty trên thị trường tối đa là 
12%. Kiểm tra 400 sản phẩm của công ty trên thị trường thì có 60 phế phẩm. Với mức ý 
nghĩa 5% có thể cho rằng quảng cáo của công ty là đúng không

$\text{Giả thiết:}
\begin{align*}
&H_0: p \leq 0.12 \quad \text{(Quảng cáo đúng, tỷ lệ phế phẩm tối đa là 12%)} \\
&H_1: p > 0.12 \quad \text{(Quảng cáo sai, tỷ lệ phế phẩm lớn hơn 12%)}
\end{align*}$

$\text{Dữ liệu và thông tin:}
\begin{align*}
&n = 400 \quad \text{(số lượng sản phẩm được kiểm tra)} \\
&x = 60 \quad \text{(số lượng phế phẩm trong mẫu)} \\
&p_0 = 0.12 \quad \text{(tỷ lệ phế phẩm tối đa theo quảng cáo)}
\end{align*}$

$
\begin{align*}
&z = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}}
\end{align*}$

In [13]:
from scipy.stats import norm

In [14]:
# Dữ liệu và thông tin
n = 400
x = 60
p_0 = 0.12

# Tính tỷ lệ mẫu
p_hat = x / n

# Tính z-score
z_score = (p_hat - p_0) / np.sqrt((p_0 * (1 - p_0)) / n)

# Tính p-value
p_value = 1 - norm.cdf(z_score)
alpha = 0.05
reject_null = p_value < alpha
print(f"Tỷ lệ mẫu: {p_hat}")
print(f"Z-score: {z_score}")
print(f"P-value: {p_value}")
print("Bác bỏ giả thiết null." if reject_null else "Không đủ bằng chứng để bác bỏ giả thiết null.")


Tỷ lệ mẫu: 0.15
Z-score: 1.846372364689991
P-value: 0.032419078496033205
Bác bỏ giả thiết null.


$\begin{align*}
&\text{ p-value < } \alpha, \text{ ta bác bỏ } H_0
\end{align*}$
**Vì vậy có đủ bằng chứng để kết luận rằng tỷ lệ phế phẩm lớn hơn 12%**