# Kích thước dữ liệu nhỏ

## t-statistics
Áp dụng khi kích thước mẫu n < 30, ngược lại ta dùng z-score. Khi kích thước mẫu càng lớn thì t-score xấp xỉ z-score.
- z-test: so sánh mẫu thu thập với quần thể (sample vs population)
- t-test: so sánh 2 mẫu thu thập độc lập (sample_1 vs sample_2, curve_1 vs curve_2)

In [1]:
# import libraries
from scipy import stats
import math
import numpy as np

In [2]:
print "t-test cho từng n"
print "n = 3:", stats.t.ppf(0.975, 2)
print "n = 10:", stats.t.ppf(0.975, 9)
print "n = 10:", stats.t.ppf(0.975, 19)
print "\nn = 100:", stats.t.ppf(0.975, 99)
print "z-score:", stats.norm.ppf(0.975)

t-test cho từng n
n = 3: 4.30265272991
n = 10: 2.26215716274
n = 10: 2.09302405441

n = 100: 1.98421695151
z-score: 1.95996398454


**Bài toán: tính khoảng tin cậy cho điểm số học sinh**
$$SE_{\bar{X}} = \frac{s}{\sqrt{n}} \ (SE: standard \ error)$$
$$UCL = \bar{x} + tScore * SE_{\bar{X}}$$
$$LCL = \bar{x} - tScore * SE_{\bar{X}}$$

In [3]:
# điểm của 10 học sinh
scores = np.asarray([120, 105, 100, 130, 115, 100, 185, 105, 130, 170])

# chuẩn bị các thông số
n = scores.size
degree_of_fredom = n - 1
confidence_interval = 0.98

sample_mean = scores.mean()
t_score = stats.t.ppf(confidence_interval, degree_of_fredom)
standard_err = scores.std() / math.sqrt(n) 

print "sample mean:", sample_mean
print "t-score:", t_score
print "standard error:", standard_err

# tính khoảng tin cậy
ucl = sample_mean + t_score * standard_err
lcl = sample_mean - t_score * standard_err

print "Tin cậy trên:", ucl
print "Tin cậy dưới:", lcl

sample mean: 126.0
t-score: 2.39844098471
standard error: 8.85437744847
Tin cậy trên: 147.236701767
Tin cậy dưới: 104.763298233


# So sánh hai quần thể
**Case study**
- Sử dụng **aspirin** có giảm tình trạng đau tim hay không?
- **Nam giới** khi lái xe thường gây ra tai nạn nhiều hơn **nữ giới** phải không?
- Tình trạng an ninh ở **Hồ Chí Minh** có tốt hơn ở **Hà Nội**?
- **Nam giới** thường có mức lương cao hơn **nữ giới** đúng không?

**Steps**
1. Chia quần thể thành experiment và control group
2. Chuẩn bị các thông số
    - Tính standard error
    - Tính khoảng tin cậy
3. Thực hiện kiểm định giả thuyết


## Theo tỉ lệ
$$SE = \sqrt{\frac{\hat{p}_1(1 - \hat{p_1})}{n_1} + \frac{\hat{p}_2(1 - \hat{p_2})}{n_2}}$$
$$UCL = (\hat{p}_1 - \hat{p}_1) + (Zscore * SE)$$
$$LCL = (\hat{p}_1 - \hat{p}_1) - (Zscore * SE)$$

**Sử dụng aspirin có giảm tình trạng đau tim hay không?**

In [4]:
# 1. Chia quần thể thành experiment và control group
group_aspirin = 2219
group_control = 2035
aspirin_heart_attacks = 26
control_heart_attacks = 46

In [5]:
# 2. Chuẩn bị các thông số
p_aspirin = aspirin_heart_attacks * 1.0 / group_aspirin
p_control = control_heart_attacks * 1.0 / group_control
print "Tỉ lệ phần trăm bị đau tim khi sử dụng aspirin:", p_aspirin * 100
print "Tỉ lệ phần trăm bị đau tim khi không sử dụng aspirin:", p_control * 100

# tính standard error
SE = math.sqrt(abs(p_aspirin * (1 - p_aspirin) / group_aspirin + p_control * (1 - p_control) / group_control))
print "Standard error giữa hai nhóm lấy mẫu:", SE

# tính khoảng tin cậy
diff_from_samples = abs(p_aspirin - p_control)
critical_value = stats.norm.ppf(0.975)
ucl = diff_from_samples + critical_value * SE
lcl = diff_from_samples - critical_value * SE
print "Differences from samples:", diff_from_samples
print "UCL:", ucl
print "LCL:", lcl

Tỉ lệ phần trăm bị đau tim khi sử dụng aspirin: 1.1716989635
Tỉ lệ phần trăm bị đau tim khi không sử dụng aspirin: 2.26044226044
Standard error giữa hai nhóm lấy mẫu: 0.00400938535831
Differences from samples: 0.0108874329695
UCL: 0.0187456838719
LCL: 0.00302918206703


In [6]:
# 3. Thực hiện kiểm định giả thuyết
# H0: cho rằng tỉ lệ mắc bệnh tim không thay đỗi. Nghĩa là p1 - p0 = 0
# H1: cho rằng tỉ lệ mắc bệnh tim sẽ giảm. Nghĩa là p1 - p0 != 0
# Chọn significant level (alpha, mức ý nghĩa) = 5%
# Ở đây là population nên ta sẽ chọn Z-statistic để test

$$z = \frac{(\hat{p}_1 - \hat{p}_2) - (p_1 - p_2)}{SE} = \frac{\hat{p}_1 - \hat{p}_2}{SE} \ (assuming \ no \ differences: p_1 = p_2)$$

In [7]:
z = diff_from_samples / SE
print "Z-score:", z

if z > critical_value:
    print "Reject H0 => Sử dụng aspirin làm giảm nguy cơ bị đau tim"
else:
    print "Reject Ha => Sử dụng aspirin không làm giảm nguy cơ bị đau tim"

Z-score: 2.71548678824
Reject H0 => Sử dụng aspirin làm giảm nguy cơ bị đau tim


## Theo mean
$$SE = \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}$$
$$z = \frac{(\bar{x_1} - \bar{x_2}) - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}}$$

# Chi-square
$$X^2 = \sum \frac{(observed - expected)^2}{expected}$$

# ANOVA
Giả định của ANOVA
- Normal distribution
- Independent observations
- Equivalent variance

SST: Total sum of squares
$$SST = \sum_{i=1}^n (y_i - \bar{y})^2$$

SSW: Sum of squares within
$$SSW = \sum_{i=1}^k \sum_{j=1}^{n_i} (x_{ij} - \bar{x}_i)^2$$

SSB: Sum of squares between
$$SSB = n \sum_{i=1}^k \sum_{j=1}^n (\bar{x}_i - \bar{x})^2$$

f-statistics
$$F-stat = \frac{\frac{SSB}{m - 1}}{\frac{SSW}{n_t - m}}$$

# Hồi quy