## Running a Multivariate Regression in Python

*Suggested Answers follow (usually there are multiple ways to solve a problem in Python).*

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


Let’s continue working on the file we used when we worked on univariate regressions.

*****

Run a multivariate regression with 5 independent variables – from Test 1 to Test 5.

In [None]:
import numpy as np
import pandas as pd
from scipy import stats
import statsmodels.api as sm
import matplotlib.pyplot as plt

In [None]:
data = pd.read_excel('/content/drive/MyDrive/ptdl/tuan10/da07/03_regression/03_Running a Multivariate Regression/IQ_data.xlsx')

In [None]:
data

Unnamed: 0,IQ,Test 1,Test 2,Test 3,Test 4,Test 5
0,107,84,35,66,64,65
1,93,74,20,74,49,83
2,103,55,82,83,66,74
3,122,97,73,92,89,95
4,103,85,54,73,69,83
5,106,87,73,64,78,58
6,98,77,63,65,70,65
7,93,55,50,44,53,85
8,95,38,44,93,40,73
9,13,43,55,97,49,84


### Multivariate Regression:

Independent Variables: *Test 1, Test 2, Test 3, Test 4, Test 5*

In [None]:
X = data[['Test 1', 'Test 2', 'Test 3', 'Test 4', 'Test 5']]
Y = data['IQ']

In [None]:
X1 = sm.add_constant(X)
reg = sm.OLS(Y, X1).fit()

reg.summary()

0,1,2,3
Dep. Variable:,IQ,R-squared:,0.416
Model:,OLS,Adj. R-squared:,0.294
Method:,Least Squares,F-statistic:,3.42
Date:,"Wed, 05 Nov 2025",Prob (F-statistic):,0.0179
Time:,16:35:31,Log-Likelihood:,-131.36
No. Observations:,30,AIC:,274.7
Df Residuals:,24,BIC:,283.1
Df Model:,5,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,75.5185,33.275,2.270,0.033,6.843,144.194
Test 1,-0.0495,0.554,-0.089,0.930,-1.194,1.095
Test 2,-0.3442,0.355,-0.971,0.341,-1.076,0.388
Test 3,-0.4229,0.317,-1.334,0.195,-1.077,0.231
Test 4,1.2706,0.882,1.441,0.162,-0.549,3.090
Test 5,-0.1029,0.292,-0.353,0.727,-0.705,0.499

0,1,2,3
Omnibus:,13.24,Durbin-Watson:,2.684
Prob(Omnibus):,0.001,Jarque-Bera (JB):,13.706
Skew:,-1.235,Prob(JB):,0.00106
Kurtosis:,5.205,Cond. No.,1260.0


The p-value of the variable Test 1 in the univariate regression looked very promising. Is it still low? If not – what do you think would be the reason for the change?

Trả lời: P-value của biến Test 1 trong hồi quy đa biến này là 0.930, một giá trị rất cao. Nó không còn thấp nữa.

Lý do cho sự thay đổi: Khi chuyển từ hồi quy đơn biến (chỉ có Test 1) sang hồi quy đa biến (có Test 1, Test 2, Test 3, Test 4, Test 5), sự thay đổi này thường là dấu hiệu của đa cộng tuyến (multicollinearity). Đa cộng tuyến xảy ra khi một biến độc lập (như Test 1) bị tương quan mạnh với một hoặc nhiều biến độc lập khác trong mô hình. Khi các biến độc lập tương quan với nhau, mô hình gặp khó khăn trong việc phân bổ tác động riêng biệt lên biến phụ thuộc (IQ), dẫn đến:

* Hệ số (coef) của các biến liên quan có thể thay đổi dấu hoặc độ lớn một cách đáng kể.

* Sai số chuẩn (std err) tăng lên rất nhiều, làm cho giá trị t-statistic giảm xuống và kết quả là P-value của biến đó tăng lên (như với Test 1: P-value = 0.930), cho thấy biến đó không còn có ý nghĩa thống kê riêng lẻ nữa.

********

Try regressing Test 1 and Test 2 on the IQ score first. Then, regress Test 1, 2, and 3 on IQ, and finally, regress Test 1, 2, 3, and 4 on IQ. What is the Test 1 p-value in these regressions?

Independent Variables: *Test 1, Test 2*

In [None]:
X = data[['Test 1', 'Test 2']]
Y = data['IQ']

In [None]:
X1 = sm.add_constant(X)
reg = sm.OLS(Y, X1).fit()

reg.summary()

0,1,2,3
Dep. Variable:,IQ,R-squared:,0.259
Model:,OLS,Adj. R-squared:,0.205
Method:,Least Squares,F-statistic:,4.729
Date:,"Wed, 05 Nov 2025",Prob (F-statistic):,0.0173
Time:,16:35:31,Log-Likelihood:,-134.92
No. Observations:,30,AIC:,275.8
Df Residuals:,27,BIC:,280.0
Df Model:,2,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,44.2256,19.658,2.250,0.033,3.891,84.560
Test 1,0.7549,0.248,3.043,0.005,0.246,1.264
Test 2,0.0327,0.193,0.170,0.867,-0.363,0.429

0,1,2,3
Omnibus:,18.165,Durbin-Watson:,2.8
Prob(Omnibus):,0.0,Jarque-Bera (JB):,23.499
Skew:,-1.524,Prob(JB):,7.89e-06
Kurtosis:,6.085,Cond. No.,428.0


P-value của Test 1: P>|t| cho Test 1 là 0.005.

Nhận xét: P-value của Test 1 là 0.005 (rất nhỏ), cho thấy Test 1 là một biến có ý nghĩa thống kê mạnh mẽ (significant) trong mô hình này (chỉ có Test 1 và Test 2).

Independent Variables: *Test 1, Test 2, Test 3*

In [None]:
X = data[['Test 1', 'Test 2', 'Test 3']]
Y = data['IQ']

In [None]:
X1 = sm.add_constant(X)
reg = sm.OLS(Y, X1).fit()

reg.summary()

0,1,2,3
Dep. Variable:,IQ,R-squared:,0.346
Model:,OLS,Adj. R-squared:,0.27
Method:,Least Squares,F-statistic:,4.579
Date:,"Wed, 05 Nov 2025",Prob (F-statistic):,0.0105
Time:,16:35:31,Log-Likelihood:,-133.06
No. Observations:,30,AIC:,274.1
Df Residuals:,26,BIC:,279.7
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,86.4940,29.595,2.923,0.007,25.660,147.328
Test 1,0.6339,0.246,2.572,0.016,0.127,1.141
Test 2,0.1152,0.190,0.606,0.550,-0.276,0.506
Test 3,-0.5465,0.295,-1.851,0.076,-1.153,0.060

0,1,2,3
Omnibus:,8.771,Durbin-Watson:,2.818
Prob(Omnibus):,0.012,Jarque-Bera (JB):,7.131
Skew:,-1.019,Prob(JB):,0.0283
Kurtosis:,4.245,Cond. No.,852.0


P-value của Test 1:P>|t| cho Test 1 là 0.016.

Nhận xét: P-value của Test 1 là 0.016, vẫn thấp và cho thấy Test 1 vẫn là một biến có ý nghĩa thống kê trong mô hình này.

Independent Variables: *Test 1, Test 2, Test 3, Test 4*

In [None]:
X = data[['Test 1', 'Test 2', 'Test 3', 'Test 4']]
Y = data['IQ']

In [None]:
X1 = sm.add_constant(X)
reg = sm.OLS(Y, X1).fit()

reg.summary()

0,1,2,3
Dep. Variable:,IQ,R-squared:,0.413
Model:,OLS,Adj. R-squared:,0.319
Method:,Least Squares,F-statistic:,4.398
Date:,"Wed, 05 Nov 2025",Prob (F-statistic):,0.0079
Time:,16:35:31,Log-Likelihood:,-131.43
No. Observations:,30,AIC:,272.9
Df Residuals:,25,BIC:,279.9
Df Model:,4,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,70.8868,30.034,2.360,0.026,9.030,132.743
Test 1,-0.1220,0.506,-0.241,0.811,-1.164,0.920
Test 2,-0.3705,0.341,-1.088,0.287,-1.072,0.331
Test 3,-0.4644,0.289,-1.606,0.121,-1.060,0.131
Test 4,1.3775,0.813,1.694,0.103,-0.297,3.053

0,1,2,3
Omnibus:,13.831,Durbin-Watson:,2.777
Prob(Omnibus):,0.001,Jarque-Bera (JB):,14.836
Skew:,-1.26,Prob(JB):,0.0006
Kurtosis:,5.349,Cond. No.,1030.0


P-value của Test 1:P>|t| cho Test 1 là 0.811.

Nhận xét: P-value của Test 1 đã tăng vọt lên 0.811. Sự thay đổi đột ngột này, từ 0.016 lên 0.811 ngay sau khi thêm Test 4, là một dấu hiệu mạnh mẽ của Đa cộng tuyến (Multicollinearity). Điều này ngụ ý rằng Test 4 đã chia sẻ một phần lớn khả năng giải thích biến thiên của IQ mà Test 1 đã có, khiến cho đóng góp độc lập của Test 1 trong mô hình mới trở nên không đáng kể về mặt thống kê.

It seems it increases a lot when we add the result from Test 4.

****

Run a regression with only Test 1 and Test 4 as independent variables. How would you interpret the p-values in this case?

Independent Variables: *Test 1, Test 4*

In [None]:
X = data[['Test 1', 'Test 4']]
Y = data['IQ']

In [None]:
X1 = sm.add_constant(X)
reg = sm.OLS(Y, X1).fit()

reg.summary()

0,1,2,3
Dep. Variable:,IQ,R-squared:,0.295
Model:,OLS,Adj. R-squared:,0.242
Method:,Least Squares,F-statistic:,5.637
Date:,"Wed, 05 Nov 2025",Prob (F-statistic):,0.009
Time:,16:35:31,Log-Likelihood:,-134.19
No. Observations:,30,AIC:,274.4
Df Residuals:,27,BIC:,278.6
Df Model:,2,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,32.8727,20.007,1.643,0.112,-8.178,73.923
Test 1,0.4339,0.367,1.181,0.248,-0.320,1.187
Test 4,0.5396,0.460,1.173,0.251,-0.405,1.484

0,1,2,3
Omnibus:,19.846,Durbin-Watson:,2.867
Prob(Omnibus):,0.0,Jarque-Bera (JB):,27.196
Skew:,-1.639,Prob(JB):,1.24e-06
Kurtosis:,6.319,Cond. No.,466.0


P-value của Test 1 (0.248) và Test 4 (0.251) đều cao (lớn hơn 0.05), cho thấy riêng lẻ trong mô hình này, cả Test 1 và Test 4 đều không có ý nghĩa thống kê đáng kể để giải thích cho IQ.

Tuy nhiên, Prob (F-statistic) của mô hình là 0.00900 (rất nhỏ, nhỏ hơn 0.05), cho thấy mô hình tổng thể (với cả Test 1 và Test 4) có ý nghĩa thống kê.

Tình huống này là một dấu hiệu kinh điển của đa cộng tuyến (Multicollinearity). Cụ thể:

* Các biến độc lập (Test 1 và Test 4) tương quan mạnh mẽ với nhau.

* Khi chúng được đưa vào cùng một mô hình, mô hình có thể giải thích được sự biến thiên đáng kể trong IQ (F-statistic thấp), nhưng vì chúng chia sẻ thông tin giải thích chung, mô hình không thể xác định đóng góp độc lập của từng biến một cách chính xác.

*Điều này dẫn đến sai số chuẩn (std err) của các hệ số hồi quy tăng lên, làm cho giá trị $t$ nhỏ đi và P-value của từng biến trở nên cao, khiến chúng bị coi là không có ý nghĩa thống kê cá nhân ở mức ý nghĩa thông thường (ví dụ $\alpha=0.05$).Kết luận (theo gợi ý của file): Test 1 và Test 4 có thể tương quan (correlated) và đóng góp vào việc giải thích IQ theo một cách tương tự (contribute to the preparation of the IQ test in a similar way).

Independent Variables: *Test 4*



In [None]:
X = data[['Test 4']]
Y = data['IQ']

In [None]:
X1 = sm.add_constant(X)
reg = sm.OLS(Y, X1).fit()

reg.summary()

0,1,2,3
Dep. Variable:,IQ,R-squared:,0.258
Model:,OLS,Adj. R-squared:,0.232
Method:,Least Squares,F-statistic:,9.741
Date:,"Wed, 05 Nov 2025",Prob (F-statistic):,0.00415
Time:,16:35:31,Log-Likelihood:,-134.95
No. Observations:,30,AIC:,273.9
Df Residuals:,28,BIC:,276.7
Df Model:,1,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,35.5060,20.022,1.773,0.087,-5.507,76.519
Test 4,0.9497,0.304,3.121,0.004,0.326,1.573

0,1,2,3
Omnibus:,24.727,Durbin-Watson:,2.792
Prob(Omnibus):,0.0,Jarque-Bera (JB):,40.594
Skew:,-1.95,Prob(JB):,1.53e-09
Kurtosis:,7.155,Cond. No.,321.0


Nhận xét:

* Test 4 có ý nghĩa thống kê riêng lẻ: P-value của Test 4 là 0.004, một giá trị rất thấp (nhỏ hơn $\alpha = 0.05$). Điều này chứng tỏ Test 4 một mình là một biến độc lập có ý nghĩa thống kê mạnh mẽ trong việc dự đoán điểm IQ.

* Vấn đề Đa cộng tuyến (Multicollinearity):

  * Trong hồi quy đa biến (Test 1 và Test 4), P-value của Test 4 là 0.251 (không có ý nghĩa).
  
  * Trong hồi quy đơn biến (chỉ Test 4), P-value của Test 4 là 0.004 (rất có ý nghĩa).
  
Sự thay đổi đột ngột này xác nhận rằng khi Test 1 và Test 4 được đặt chung trong một mô hình, chúng gây ra đa cộng tuyến. Mặc dù cả hai đều có khả năng giải thích tốt cho IQ khi đứng riêng (Test 1 có P-value là $0.005$ khi đi cùng Test 2, Test 4 có P-value là $0.004$ khi đứng một mình), nhưng do chúng tương quan và cung cấp thông tin trùng lặp, chúng đã "hủy bỏ" ý nghĩa thống kê cá nhân của nhau trong mô hình đa biến.

***Suggested Answer:***
*Test 1 and Test 4 are correlated, and they contribute to the preparation of the IQ test in a similar way.*