In [1]:
import numpy as np
import pandas as pd
import scipy.stats as stats
from matplotlib import pyplot as plt
import seaborn as sns

### 6.19
**Trong giai đoạn đầu của một nghiên cứu về chi phí vận chuyển sữa từ trang trại đến nhà máy sữa, một cuộc khảo sát được thực hiện đối với các công ty tham gia vận chuyển. Dữ liệu chi phí trên $X_1 = fuel$, $X_2 = repair$ và $X_3 = capital$, các phép đo trên cơ sở mỗi dặm, được trình bày trong bảng 6.10 trang 345 cho $n_1=36$ xe chạy bằng xăng và $n_2 = 23$ xe chạy bằng dầu diesel.**

In [2]:
path_19 = 'T6-10.txt'
data_19 = pd.read_table(path_19, delim_whitespace=True, header=None)
data_19.columns=['x1(fuel)', 'x2(repair)', 'x3(capital)', 'type_truck']

gasoline_df = data_19[data_19['type_truck']=='gasoline'].iloc[:,:-1]
diesel_df = data_19[data_19['type_truck']=='diesel'].iloc[:,:-1]

print('>> Gasoline trunks data: \n', gasoline_df.head(5))
print('\n>> Diesel trunks data: \n', diesel_df.head(5))

n1, p = gasoline_df.shape
n2 = diesel_df.shape[0]

print('\n>> Number of samples: n1 = {} and n2 = {}'.format(n1,n2))

>> Gasoline trunks data: 
    x1(fuel)  x2(repair)  x3(capital)
0     16.44       12.43        11.23
1      7.19        2.70         3.92
2      9.92        1.35         9.75
3      4.24        5.78         7.78
4     11.20        5.05        10.67

>> Diesel trunks data: 
     x1(fuel)  x2(repair)  x3(capital)
36      8.50       12.26         9.11
37      7.42        5.13        17.15
38     10.28        3.32        11.23
39     10.16       14.72         5.99
40     12.79        4.17        29.28

>> Number of samples: n1 = 36 and n2 = 23


**(a) Kiểm định sự chênh lệch giữa các vectơ chi phí trung bình với mức ý nghĩa $\alpha = 0.01$.**

In [3]:
x1_mean = gasoline_df.mean(axis=0)
S1 = np.cov(gasoline_df.T)

x2_mean = diesel_df.mean(axis=0)
S2 = np.cov(diesel_df.T)

S_pooled = (n1-1)/(n1+n2-2)*S1 + (n2-1)/(n1+n2-2)*S2

print('>> Summary statistics: \n')
print('* x1_mean = \n', np.array(x1_mean).reshape(-1,1))
print('\n* x2_mean = \n', np.array(x2_mean).reshape(-1,1))
print('\n* S1 = \n', S1)
print('\n* S2 = \n', S2)
print('\n* S_pooled = \n', S_pooled)

>> Summary statistics: 

* x1_mean = 
 [[12.21861111]
 [ 8.1125    ]
 [ 9.59027778]]

* x2_mean = 
 [[10.10565217]
 [10.76217391]
 [18.16782609]]

* S1 = 
 [[23.01336087 12.366395    2.90660897]
 [12.366395   17.54411071  4.77308214]
 [ 2.90660897  4.77308214 13.96333421]]

* S2 = 
 [[ 4.3623166   0.75988715  2.36209921]
 [ 0.75988715 25.85123597  7.68573221]
 [ 2.36209921  7.68573221 46.6543996 ]]

* S_pooled = 
 [[15.81471221  7.88669022  2.69644731]
 [ 7.88669022 20.75036958  5.89726287]
 [ 2.69644731  5.89726287 26.5809384 ]]


Phát biểu giả thuyết:
$$H_0: \boldsymbol\mu_1 - \boldsymbol\mu_2 = 0 \quad\text{ và }\quad H_1: \boldsymbol\mu_1 - \boldsymbol\mu_2 \neq 0$$

Giả sử $H_0$ đúng, ta có thống kê
$$T^2 = (\overline{\textbf{x}}_1 - \overline{\textbf{x}}_2)'\left[\left(\dfrac{1}{n_1}+\dfrac{1}{n_2}\right)\textbf{S}_{\textbf{pooled}}\right]^{-1}(\overline{\textbf{x}}_1 - \overline{\textbf{x}}_2) \sim \dfrac{(n_1+n_2-2)p}{n_1+n_2-p-1}F_{p, n_1+n_2-p-1}$$

Với mẫu thực nghiệm, ta có giá trị thống kê như sau

In [4]:
T2 = np.transpose(x1_mean - x2_mean).dot(np.linalg.inv((1/n1+1/n2)*S_pooled).dot(x1_mean - x2_mean))
print('>> Giá trị thống kê: ',T2)

>> Giá trị thống kê:  50.91278683116499


Với mức ý nghĩa $\alpha = 0.01$, ta có

In [5]:
alpha = 0.01

f = stats.f.ppf(q=1-alpha, dfn=p, dfd=n1+n2-p-1)
F = (((n1+n2-2)*p)/(n1+n2-p-1))*f

F

12.9309599794576

Vì 50.91278683116499 > 12.9309599794576 nên ta bác bỏ giả thuyết $H_0$ với mức ý nghĩa $\alpha=0.01$. Do đó với mức ý nghĩa $0.01$, có sự chênh lệch giữa các vectơ chi phí trung bình giữa các xe chạy bằng gasoline và xe chạy bằng dầu diesel.

**(b) Nếu giả thuyết các vectơ chi phí bằng nhau bị bác bỏ ở câu (a), tìm tổ hợp tuyến tính của các thành phần trung bình ảnh hưởng lớn nhất đến việc bác bỏ.**

Tổ hợp tuyến tính quan trọng nhất của các thành phần trung bình dẫn đến việc bác bỏ giả thuyết $H_0$ có vectơ hệ số như sau
$$\hat{\textbf{a}}\propto \textbf{S}_{\textbf{pooled}}^{-1}(\overline{\textbf{x}}_1 - \overline{\textbf{x}}_2)$$

In [6]:
a_hat = np.linalg.inv(S_pooled).dot(x1_mean - x2_mean)
np.array(a_hat).reshape(-1,1)

array([[ 3.5750683 ],
       [-1.87918888],
       [-4.47442266]])

Ta có thể thấy rằng, sự chênh lệch giữa việc tiêu thụ nhiên liệu giữa những xe chạy bằng xăng và xe chạy bằng dầu diesel có ảnh hưởng mạnh nhất đến việc bác bỏ giả thuyết $H_0$.

**(c) Xây dựng các khoảng tin cậy đồng thời 99% cho các cặp thành phần trung bình. Chi phí (nếu có) nào có sự chênh lệch?**

In [7]:
lcb = lambda i: (x1_mean[i] - x2_mean[i]) - np.sqrt(F)*np.sqrt((1/n1+1/n2)*S_pooled[i][i])
ucb = lambda i: (x1_mean[i] - x2_mean[i]) + np.sqrt(F)*np.sqrt((1/n1+1/n2)*S_pooled[i][i])

# 95% simultaneous confidence intervals for individual means
print("99% simultaneous confidence intervals for mean components are: \n")
IC = []
for i in range(p):
    ic = [lcb(i), ucb(i)]
    print(">> {}:\t{}\n".format(data_19.columns[i], ic))
    IC.append(ic)

99% simultaneous confidence intervals for mean components are: 

>> x1(fuel):	[-1.704346120977224, 5.9302639953733625]

>> x2(repair):	[-7.022267760770974, 1.7229199346840192]

>> x3(capital):	[-13.526479046383113, -3.6286175719743694]



Với mức ý nghĩa 0.01, ta thấy rằng khoảng tin cậy đồng thời 99% cho thành phần trung bình thứ 3 (capital) không chứa 0, do đó chi phí cho phần vốn bỏ ra có sự chênh lệch giữa xe chạy bằng xăng và xe chạy bằng dầu diesel.

**(d) Nhận xét về tính hợp lý của các giả thuyết được sử dụng trong bài phân tích của bạn. Lưu ý rằng, các quan trắc 9 và 21 đối với xe chạy bằng xăng được cho là ngoại lai. Lặp lại câu (a) với việc xoá đi các quan trắc này. Nhận xét kết quả.**

In [8]:
gasoline_df_without_outliers = gasoline_df.drop([9,21], axis=0)
n1 = gasoline_df_without_outliers.shape[0]
print('>> Number of samples for gasoline after remove outliers: ', n1)

>> Number of samples for gasoline after remove outliers:  34


In [9]:
x1_mean = gasoline_df.mean(axis=0)
S1 = np.cov(gasoline_df.T)

print('>> Summary statistics after romove outliers: \n')
print('* x1_mean = \n', np.array(x1_mean).reshape(-1,1))
print('\n* x2_mean = \n', np.array(x2_mean).reshape(-1,1))
print('\n* S1 = \n', S1)
print('\n* S2 = \n', S2)

>> Summary statistics after romove outliers: 

* x1_mean = 
 [[12.21861111]
 [ 8.1125    ]
 [ 9.59027778]]

* x2_mean = 
 [[10.10565217]
 [10.76217391]
 [18.16782609]]

* S1 = 
 [[23.01336087 12.366395    2.90660897]
 [12.366395   17.54411071  4.77308214]
 [ 2.90660897  4.77308214 13.96333421]]

* S2 = 
 [[ 4.3623166   0.75988715  2.36209921]
 [ 0.75988715 25.85123597  7.68573221]
 [ 2.36209921  7.68573221 46.6543996 ]]


Phát biểu giả thuyết:
$$H_0: \boldsymbol\mu_1 - \boldsymbol\mu_2 = 0 \quad\text{ và }\quad H_1: \boldsymbol\mu_1 - \boldsymbol\mu_2 \neq 0$$

Giả sử $\boldsymbol\Sigma_1=\boldsymbol\Sigma_2$ và giả thuyết $H_0$ đúng. Vì $\textbf{S}_1$ và $\textbf{S}_2$ khá khác nhau nên việc gộp chúng lại không hợp lý. Tuy nhiên, bằng cách sử dụng lý thuyết cỡ mẫu lớn $(n_1=34, n_2=23)$ và theo kết quả 6.4 ta có thống kê
$$(\overline{\textbf{x}}_1 - \overline{\textbf{x}}_2)'\left(\dfrac{1}{n_1}\textbf{S}_1+\dfrac{1}{n_2}\textbf{S}_2\right)^{-1}(\overline{\textbf{x}}_1 - \overline{\textbf{x}}_2) \sim \chi_p^2$$

In [10]:
T2 = np.transpose(x1_mean - x2_mean).dot(np.linalg.inv(1/n1*S1+1/n2*S2).dot(x1_mean - x2_mean))
print('>> Giá trị thống kê: ',T2)

>> Giá trị thống kê:  42.524812258635734


In [11]:
alpha = 0.01

chisq = stats.chi2.ppf(1-alpha, p)

chisq

11.344866730144373

Vì 42.524812258635734 > 11.344866730144373 nên ta bác bỏ giả thuyết $H_0$ với mức ý nghĩa $\alpha=0.01$. Do đó với mức ý nghĩa $0.01$, có sự chênh lệch giữa các vectơ chi phí trung bình giữa các xe chạy bằng gasoline và xe chạy bằng dầu diesel.

Như vậy, kết quả trên tương đồng với kết quả ở câu (a).

### 6.23
**Xây dựng one-way MANOVA bằng cách sử dụng các phép đo chiều rộng từ bộ dữ liệu iris trong bảng 11.5. Xây dựng các khoảng tin cậy đồng thời 95% cho các chênh lệch giữa các thành phần của vectơ trung bình đối với 2 phản hồi cho mỗi cặp tổng thể. Nhận xét về tính hợp lý cho giả thuyết $\boldsymbol\Sigma_1 = \boldsymbol\Sigma_2 = \boldsymbol\Sigma_3$.**

In [43]:
path_23 = 'T11-5.txt'
data_23 = pd.read_table(path_23, delim_whitespace=True, header=None)
data_23.columns=['Sepal_Length', 'Sepal_Width', 'Petal_Length', 'Petal_Width', 'Species']
data_23 = data_23.drop(['Sepal_Length', 'Petal_Length'], axis=1)
print(data_23)
setosa_df = data_23[data_23['Species']==1].iloc[:,:-1]
versicolor_df = data_23[data_23['Species']==2].iloc[:,:-1]
virginica_df = data_23[data_23['Species']==3].iloc[:,:-1]

print('>> Iris setosa data: \n', setosa_df.head(5))
print('\n>> Iris versicolor data: \n', versicolor_df.head(5))
print('\n>> Iris virginica data: \n', virginica_df.head(5))

g = len(np.unique(data_23['Species']))
n1, p = setosa_df.shape
n2, n3 = versicolor_df.shape[0], virginica_df.shape[0]

print('\n>> Number of samples: n1 = {}, n2 = {} and n3 = {}'.format(n1,n2,n3))
print('\n>> Number of dimentions: p = {}'.format(p))
print('\n>> Number of populations: g = {}'.format(g))

     Sepal_Width  Petal_Width  Species
0            3.5          0.2        1
1            3.0          0.2        1
2            3.2          0.2        1
3            3.1          0.2        1
4            3.6          0.2        1
..           ...          ...      ...
145          3.0          2.3        3
146          2.5          1.9        3
147          3.0          2.0        3
148          3.4          2.3        3
149          3.0          1.8        3

[150 rows x 3 columns]
>> Iris setosa data: 
    Sepal_Width  Petal_Width
0          3.5          0.2
1          3.0          0.2
2          3.2          0.2
3          3.1          0.2
4          3.6          0.2

>> Iris versicolor data: 
     Sepal_Width  Petal_Width
50          3.2          1.4
51          3.2          1.5
52          3.1          1.5
53          2.3          1.3
54          2.8          1.5

>> Iris virginica data: 
      Sepal_Width  Petal_Width
100          3.3          2.5
101          2.7          1.

In [13]:
class OneWayMANOVA:
    def __init__(self):
        self.list_n = []
        self.n = None
        self.g = None
        self.p = None
        self.mean = None
        self.list_means = []
        self.list_cov = []
        self.B = None
        self.W = None
        self.B_Plus_W = None
        
    def _calc_init_values(self, X, y):
        self.g = len(np.unique(y))
        self.p = X.shape[1]
        self.mean = np.array(np.mean(X,axis=0)).reshape(-1,1)
        for i in np.unique(y):
            data = X[y==i]
            self.list_n.append(data.shape[0])
            self.list_means.append(np.array(np.mean(data, axis=0)).reshape(-1,1))
            self.list_cov.append(np.array(np.cov(data.T)))
        self.n = np.sum(self.list_n)
        
    def fit(self, X, y):
        self._calc_init_values(X, y)
        
        B = np.zeros((self.p, self.p))
        W = np.zeros((self.p, self.p))
        for i in range(self.g):
            
            B += self.list_n[i]*(self.list_means[i] - self.mean).dot((self.list_means[i] - self.mean).T)
            data = X[y==np.unique(y)[i]].to_numpy()
            W += (self.list_n[i]-1)*(self.list_cov[i])
        
        self.B = (B, self.g-1)
        self.W = (W, self.n-self.g)
        self.B_Plus_W = (B+W, self.n-1)
    
    def table(self):
        print('>> MANOVA Table: \n')
        print('*'*50)
        print('> Treatment: \nB = \n{},\t d.f. = {}'.format(self.B[0], self.B[1]))
        print('\n> Residual: \nW = \n{},\t d.f. = {}'.format(self.W[0], self.W[1]))
        print('\n> Total: \nB+W = \n{},\t d.f. = {}'.format(self.B_Plus_W[0], self.B_Plus_W[1]))
        print('*'*50)
        
    def simultaneous_confidence_intervals(self, alpha):
        import scipy.stats as stats
        t = stats.t.ppf(q=1 - (alpha/(self.p*self.g*(self.g-1))), df=np.sum(self.n - self.g))
        lcb = lambda i, k, l: (self.list_means[k][i]-self.list_means[l][i]) - t*np.sqrt(self.W[0][i][i]/(self.n-self.g)*(1/self.list_n[k]+1/self.list_n[l]))
        ucb = lambda i, k, l: (self.list_means[k][i]-self.list_means[l][i]) + t*np.sqrt(self.W[0][i][i]/(self.n-self.g)*(1/self.list_n[k]+1/self.list_n[l]))
        
        for i in range(self.p):
            for k in range(self.g):
                for l in range(0, k):
                    print('> 95% Confidence interval of tau_{}{} - tau_{}{}: \n[{}, {}]\n'.format(k,i,l,i,lcb(i,k,l),ucb(i,k,l)))

In [14]:
X = data_23.drop(['Species'], axis=1)
y = data_23['Species']
maov = OneWayMANOVA()
maov.fit(X, y)
maov.table()

>> MANOVA Table: 

**************************************************
> Treatment: 
B = 
[[ 11.34493333 -22.93266667]
 [-22.93266667  80.41333333]],	 d.f. = 2

> Residual: 
W = 
[[16.962   4.8084]
 [ 4.8084  6.1566]],	 d.f. = 147

> Total: 
B+W = 
[[ 28.30693333 -18.12426667]
 [-18.12426667  86.56993333]],	 d.f. = 149
**************************************************


In [15]:
alpha = 0.05
maov.simultaneous_confidence_intervals(alpha)

> 95% Confidence interval of tau_10 - tau_00: 
[[-0.83969436], [-0.47630564]]

> 95% Confidence interval of tau_20 - tau_00: 
[[-0.63569436], [-0.27230564]]

> 95% Confidence interval of tau_20 - tau_10: 
[[0.02230564], [0.38569436]]

> 95% Confidence interval of tau_11 - tau_01: 
[[0.97053548], [1.18946452]]

> 95% Confidence interval of tau_21 - tau_01: 
[[1.67053548], [1.88946452]]

> 95% Confidence interval of tau_21 - tau_11: 
[[0.59053548], [0.80946452]]



Phát biểu giả thuyết
    $$\begin{cases}
        H_0: \tau_1 = \tau_2 = \tau_3 = 0 \\
        H_1: \exists i \in \{1,2,3\} : \tau_i \neq 0
    \end{cases}$$
    
Giả sử giả thuyết $H_0$ đúng, ta sử dụng thống kê Wilk's lambda để kiểm định giả thuyết trên. Khi đó ta có giá trị thống kê
    $$\Lambda^* = \dfrac{|\textbf{W|}}{|\textbf{B}+\textbf{W}|}$$

In [16]:
Lambda = np.linalg.det(maov.W[0])/np.linalg.det(maov.B_Plus_W[0])
Lambda

0.03831573747619264

Ta có giá trị thống kê của $\Lambda^*$ là 0.03831573747619264.

Do $p=2$ và $g=3\geq 2$ nên ta xét thống kê
    $$\left(\dfrac{n-g-1}{g-1}\right)\left(\dfrac{1-\sqrt{\Lambda^*}}{\sqrt{\Lambda^*}}\right)\sim F_{2(g-1),2(n-g-1)}$$

In [17]:
value = ((maov.n - maov.g - 1)/(maov.g - 1))*((1 - np.sqrt(Lambda))/np.sqrt(Lambda))
value

299.9359632698892

Với mức ý nghĩa $\alpha =0.05$ ta có

In [18]:
f = stats.f.ppf(q=1-alpha,dfn=2*(maov.g-1),dfd=2*(maov.n-maov.g-1))
f

2.40256219045279

Vì $299.9359632698892 > 2.40256219045279$ nên ta bác bỏ $H_0$ với mức ý nghĩa $0.05$. Điều đó cho thấy rằng có sự chênh lệch độ rộng ở 3 loài hoa.

### 6.28
**Hai loài ruồi cắn-biting flies (chi Leptoconops) giống nhau về hình thái, đến nỗi trong nhiều năm chúng được cho là một. Các sai khác về mặt sinh học như tỷ lệ giới tính của emerging flies và biting flies được tìm thấy. Dữ liệu phân loại được liệt kê trong bảng 6.15 trang 352 và trên trang www.prenhall.com/statistics có cho thấy sự khác biệt nào giữa hai loài *L.carteri* và *L.torrens* không? Kiểm định tính bằng nhau giữa các vectơ trung bình tổng thể với mức ý nghĩa $\alpha =0.05$. Nếu giả thuyết các vectơ trung bình bằng nhau bị bác bỏ, hãy xác định các thành phần của vectơ trung bình (hoặc các tổ hợp tuyến tình của các thành phần của vectơ trung bình) ảnh hưởng nhiều nhất đến việc bác bỏ $H_0$. Biện minh cho việc sử dụng các phương pháp lý thuyết thông thường cho bộ dữ liệu này.**

In [19]:
path_28 = 'T6-15.txt'
data_28 = pd.read_table(path_28, delim_whitespace=True, header=None)
data_28.columns=['Wing_Length', 'WingWidth', 'Third_Palp_Length', 'Third_Palp_Width', 'Fourth_Palp_Length', 'Length_of_Antennal_Segment12', 'Length_of_Antennal_Segment13', 'Species']
data_28

Unnamed: 0,Wing_Length,WingWidth,Third_Palp_Length,Third_Palp_Width,Fourth_Palp_Length,Length_of_Antennal_Segment12,Length_of_Antennal_Segment13,Species
0,85,41,31,13,25,9,8,0
1,87,38,32,14,22,13,13,0
2,94,44,36,15,27,8,9,0
3,92,43,32,17,28,9,9,0
4,96,43,35,14,26,10,10,0
...,...,...,...,...,...,...,...,...
65,101,47,38,14,37,11,11,1
66,103,47,40,15,32,11,11,1
67,99,43,37,14,23,11,10,1
68,105,50,40,16,33,12,11,1


In [32]:
L_torrens_df = data_28[data_28['Species']==0].iloc[:,:-1]
n1, p = L_torrens_df.shape
L_carteri_df = data_28[data_28['Species']==1].iloc[:,:-1]
n2 = L_torrens_df.shape[0]

sample_mean = pd.DataFrame({'L.torrens': np.array(L_torrens_df.mean()), 'L.carteri': np.array(L_carteri_df.mean())})
sample_mean['Difference'] = sample_mean['L.torrens'] - sample_mean['L.carteri']

print('>> Sample Mean for L.torrens and L.carteri: ')
sample_mean

>> Sample Mean for L.torrens and L.carteri: 


Unnamed: 0,L.torrens,L.carteri,Difference
0,96.457143,99.342857,-2.885714
1,42.914286,43.742857,-0.828571
2,35.371429,39.314286,-3.942857
3,14.514286,14.657143,-0.142857
4,25.628571,30.0,-4.371429
5,9.571429,9.657143,-0.085714
6,9.714286,9.371429,0.342857


In [33]:
S1 = np.cov(L_torrens_df.T)
S2 = np.cov(L_carteri_df.T)

S_pooled = (n1-1)/(n1+n2-2)*S1 + (n2-1)/(n1+n2-2)*S2 
print('>> Pooled Sample Covariance Matrix: ')
S_pooled

>> Pooled Sample Covariance Matrix: 


array([[36.00840336, 14.59495798,  6.07773109,  3.67478992,  9.57268908,
         2.42605042,  2.6487395 ],
       [14.59495798, 16.63865546,  2.76386555,  2.99201681,  6.1012605 ,
         1.05336134,  0.93361345],
       [ 6.07773109,  2.76386555,  6.43697479,  0.69243697,  1.61512605,
         0.21092437,  0.6710084 ],
       [ 3.67478992,  2.99201681,  0.69243697,  3.03865546,  2.40714286,
         0.27352941,  0.22941176],
       [ 9.57268908,  6.1012605 ,  1.61512605,  2.40714286, 13.76722689,
         0.56512605,  0.63655462],
       [ 2.42605042,  1.05336134,  0.21092437,  0.27352941,  0.56512605,
         1.21260504,  0.91428571],
       [ 2.6487395 ,  0.93361345,  0.6710084 ,  0.22941176,  0.63655462,
         0.91428571,  0.98991597]])

Phát biểu giả thuyết:
$$H_0: \boldsymbol\mu_1 - \boldsymbol\mu_2 = 0 \quad\text{ và }\quad H_1: \boldsymbol\mu_1 - \boldsymbol\mu_2 \neq 0$$

Giả sử $H_0$ đúng, ta có thống kê
$$T^2 = (\overline{\textbf{x}}_1 - \overline{\textbf{x}}_2)'\left[\left(\dfrac{1}{n_1}+\dfrac{1}{n_2}\right)\textbf{S}_{\textbf{pooled}}\right]^{-1}(\overline{\textbf{x}}_1 - \overline{\textbf{x}}_2) \sim \dfrac{(n_1+n_2-2)p}{n_1+n_2-p-1}F_{p, n_1+n_2-p-1}$$

Với mẫu thực nghiệm, ta có giá trị thống kê như sau

In [34]:
T2 = np.transpose(sample_mean['Difference']).dot(np.linalg.inv((1/n1+1/n2)*S_pooled).dot(sample_mean['Difference']))
print('>> Giá trị thống kê: ',T2)

>> Giá trị thống kê:  106.13481343310384


Với mức ý nghĩa $\alpha = 0.05$, ta có

In [35]:
alpha = 0.05

f = stats.f.ppf(q=1-alpha, dfn=p, dfd=n1+n2-p-1)
F = (((n1+n2-2)*p)/(n1+n2-p-1))*f

F

16.593314751671375

Vì 106.13481343310384 > 16.593314751671375 nên ta bác bỏ giả thuyết $H_0$ với mức ý nghĩa $\alpha=0.05$. Do đó với mức ý nghĩa $0.05$, có sự khác biệt giữa hai loài.

Tổ hợp tuyến tính quan trọng nhất của các thành phần trung bình dẫn đến việc bác bỏ giả thuyết $H_0$ có vectơ hệ số như sau
$$\hat{\textbf{a}}\propto \textbf{S}_{\textbf{pooled}}^{-1}(\overline{\textbf{x}}_1 - \overline{\textbf{x}}_2)$$

In [38]:
a_hat = np.linalg.inv(S_pooled).dot(sample_mean['Difference'])
np.array(a_hat).reshape(-1,1)

array([[ 0.00623561],
       [ 0.15059417],
       [-0.85382218],
       [ 0.26757305],
       [-0.38278705],
       [-2.18730695],
       [ 2.97072661]])

Ta có thể thấy rằng, sự khác biệt giữa hai loài L.torrens và L.carteri được thể hiện nổi bật ở thành phần *Length of Antennal Segment 13*.

In [41]:
lcb = lambda i: (sample_mean['Difference'][i]) - np.sqrt(F)*np.sqrt((1/n1+1/n2)*S_pooled[i][i])
ucb = lambda i: (sample_mean['Difference'][i]) + np.sqrt(F)*np.sqrt((1/n1+1/n2)*S_pooled[i][i])

# 95% simultaneous confidence intervals for individual means
print("95% simultaneous confidence intervals for mean components are: \n")
IC = []
for i in range(p):
    ic = [lcb(i), ucb(i)]
    print(">> {}:\n{}\n".format(data_28.columns[i], ic))
    IC.append(ic)

95% simultaneous confidence intervals for mean components are: 

>> Wing_Length:
[-8.72889722791249, 2.957468656483919]

>> WingWidth:
[-4.80054788605201, 3.143405028909152]

>> Third_Palp_Length:
[-6.413377605520244, -1.4723366801940418]

>> Third_Palp_Width:
[-1.8402731034264352, 1.5545588177121505]

>> Fourth_Palp_Length:
[-7.984452070272665, -0.7584050725844755]

>> Length_of_Antennal_Segment12:
[-1.1579918918712138, 0.9865633204426429]

>> Length_of_Antennal_Segment13:
[-0.6259709329409787, 1.311685218655262]



Các thành phần *Third Palp Length* và *Fourth Palp Length* có khoảng tin cậy đồng thời 95% không chứa 0. Do đó việc bác bỏ giả thuyết $H_0$ là hợp lý.

### 6.33
**Tham khảo bài tập 6.32. Dữ liệu trong bảng 6.18 là các phép đo trên các biến: $X_1 = $ phần trăm độ phản xạ phổ ở bước sóng 560 nm (xanh lục), $X_2 = $ phần trăm độ phản xạ phổ ở bước sóng 720 nm (gần hồng ngoại), cho ba loài (sitka spruce [SS], Japanese larch [JL] và lodgepole pine [LP]) của một cây con 1 tuổi được lấy vào 3 thời điểm khác nhau (Julian day 150 [1], Julian day 235 [2] và Julian day 320 [3]) trong mùa sinh trưởng. Tất cả các cây con đều được trồng với mức dinh dưỡng tối ưu.**

In [59]:
path_33 = 'T6-18.txt'
data_33 = pd.read_table(path_33, delim_whitespace=True, header=None)
data_33.columns=['560_nm', '720_nm', 'Species', 'Time', 'Replication']
data_33

Unnamed: 0,560_nm,720_nm,Species,Time,Replication
0,9.33,19.14,SS,1,1
1,8.74,19.55,SS,1,2
2,9.31,19.24,SS,1,3
3,8.27,16.37,SS,1,4
4,10.22,25.0,SS,2,1
5,10.13,25.32,SS,2,2
6,10.42,27.12,SS,2,3
7,10.62,26.28,SS,2,4
8,15.25,38.89,SS,3,1
9,16.22,36.67,SS,3,2


**(a) Thực hiện two-factor MANOVA bằng cách sử dụng dữ liệu trong bảng 6.18. Kiểm định cho species effect, time effect và species-time interation với mức ý nghĩa $\alpha = 0.05$.**

In [57]:
a = {'a': [[0,1,2],[1,2,3]], 'b': [[0,1,2],[1,2,3]]}
np.mean(a['a'])

1.5

In [120]:
class TwoWayMANOVA:
    def __init__(self):
        self.g = None
        self.b = None
        self.n = None
        self.p = None
        self.mean = None
        self.list_means = []
        self.list_cov = []
        self.Fac1 = None
        self.Fac2 = None
        self.Int = None
        self.Res = None
        self.Cor = None
        
    def _calc_init_values(self, X, y1, y2):
        self.g = len(np.unique(y1))
        self.b = len(np.unique(y2))
        _, counts = np.unique(y1, return_counts=True)
        self.n = counts[0]/self.b
        self.p = X.shape[1]
        self.mean = np.array(np.mean(X,axis=0)).reshape(-1,1)
        for i in np.unique(y1):
            data = X[y1==i]
            temp_mean = []
            temp_cov = []
            for j in np.unique(y2):
                data1 = data[y2==j]
                temp_mean.append(np.array(np.mean(data1, axis=0)).reshape(-1,1))
                temp_cov.append(np.array(np.cov(data1.T)))
            self.list_means.append(temp_mean)
            self.list_cov.append(temp_cov)
        self.list_means = np.array(self.list_means)
        self.list_cov = np.array(self.list_cov)
    
    def fit(self, X, y1, y2):
        self._calc_init_values(X, y1, y2)

        Fac1 = np.zeros((self.p, self.p))
        Fac2 = np.zeros((self.p, self.p))
        Int = np.zeros((self.p, self.p))
        Res = np.zeros((self.p, self.p))
        for l in range(self.g):
            Fac1 += self.b*self.n*(np.mean(self.list_means[l], axis=0) - self.mean).dot((np.mean(self.list_means[l], axis=0) - self.mean).T)
            for k in range(self.b):
                Int += self.n*(self.list_means[l][k] - np.mean(self.list_means[l], axis=0) - np.mean(self.list_means[:,k], axis=0) + self.mean).dot((self.list_means[l][k] - np.mean(self.list_means[l], axis=0) - np.mean(self.list_means[:,k], axis=0) + self.mean).T)
                Res += (self.n-1)*self.list_cov[l][k]
            
        for k in range(self.b):
            Fac2 += self.g*self.n*(np.mean(self.list_means[:,k], axis=0) - self.mean).dot((np.mean(self.list_means[:,k], axis=0) - self.mean).T)
        self.Fac1 = (Fac1, self.g-1)
        self.Fac2 = (Fac2, self.b-1)
        self.Int = (Int, (self.g-1)*(self.b-1))
        self.Res = (Res, self.g*self.b*(self.n-1))
        self.Cor = (Fac1+Fac2+Int+Res, self.g*self.b*self.n - 1)
        
    def table(self):
        print('>> MANOVA Table: \n')
        print('*'*50)
        print('> Factor 1: \nSSP_fac1 = \n{},\t d.f. = {}'.format(self.Fac1[0], self.Fac1[1]))
        print('> Factor 2: \nSSP_fac2 = \n{},\t d.f. = {}'.format(self.Fac2[0], self.Fac2[1]))
        print('> Interaction: \nSSP_int = \n{},\t d.f. = {}'.format(self.Int[0], self.Int[1]))
        print('\n> Residual: \nSSP_res = \n{},\t d.f. = {}'.format(self.Res[0], self.Res[1]))
        print('\n> Total: \nSSP_cor = \n{},\t d.f. = {}'.format(self.Cor[0], self.Cor[1]))
        print('*'*50)

In [121]:
X = data_33[['560_nm', '720_nm']]
y1 = data_33['Species']
y2 = data_33['Time']
maov = TwoWayMANOVA()
maov.fit(X, y1, y2)
maov.table()

>> MANOVA Table: 

**************************************************
> Factor 1: 
SSP_fac1 = 
[[ 965.18117222 1377.60191389]
 [1377.60191389 2026.85637222]],	 d.f. = 2
> Factor 2: 
SSP_fac2 = 
[[1275.24773889 2644.92736389]
 [2644.92736389 5573.80570556]],	 d.f. = 2
> Interaction: 
SSP_int = 
[[795.80794444 375.96311944]
 [375.96311944 193.54926111]],	 d.f. = 4

> Residual: 
SSP_res = 
[[  76.658775   37.9299  ]
 [  37.9299   1769.642225]],	 d.f. = 27.0

> Total: 
SSP_cor = 
[[3112.89563056 4436.42229722]
 [4436.42229722 9563.85356389]],	 d.f. = 35.0
**************************************************


  data1 = data[y2==j]


**(b) Bạn có nghĩ rằng các giả thuyết MANOVA thông thường được thoả mãn với bộ dữ liệu này không? Thảo luận với sự tương quan giữa residual analysis và khả năng các quan trắc có quan hệ với nhau theo thời gian.**

**(c) Kiểm lâm đặc biệt quan tâm dến sự tác động giữa các loài và thời gian. Sự tác động có cho thấy một biến mà có cho thấy biến còn lại không? Kiểm tra bằng cách chạy two-factor ANOVA cho mỗi phản hồi trong hai phản hồi.**

**(d) Bạn có thể nghĩ ra một phương pháp để phân tích những dữ liệu này (hoặc một thiết kế thử nghiệm khác) cho phép tạo ra xu hướng thời gian tiềm năng trong số các phản xạ quang phổ không?**