In [1]:
import numpy as np
import pandas as pd
import statsmodels.api as sm
from sklearn.linear_model import LinearRegression

In [2]:
data = {'so_khach': [61, 63, 67, 69, 70, 74, 76, 81, 86, 91, 95, 97],
        'chi_phi': [4.280, 4.080, 4.420, 4.170, 4.480, 4.300, 
                     4.820, 4.700, 5.110, 5.130, 5.640, 5.560]
       }
df = pd.DataFrame(data)
print(df)

    so_khach  chi_phi
0         61     4.28
1         63     4.08
2         67     4.42
3         69     4.17
4         70     4.48
5         74     4.30
6         76     4.82
7         81     4.70
8         86     5.11
9         91     5.13
10        95     5.64
11        97     5.56


In [3]:
# Thực hiện hồi quy trong statsmodels
so_khach = sm.add_constant(df.so_khach)
model = sm.OLS(df.chi_phi, so_khach).fit()
model.summary()



0,1,2,3
Dep. Variable:,chi_phi,R-squared:,0.899
Model:,OLS,Adj. R-squared:,0.889
Method:,Least Squares,F-statistic:,89.09
Date:,"Thu, 23 May 2024",Prob (F-statistic):,2.69e-06
Time:,08:38:21,Log-Likelihood:,4.8312
No. Observations:,12,AIC:,-5.662
Df Residuals:,10,BIC:,-4.693
Df Model:,1,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,1.5698,0.338,4.643,0.001,0.816,2.323
so_khach,0.0407,0.004,9.439,0.000,0.031,0.050

0,1,2,3
Omnibus:,1.556,Durbin-Watson:,2.962
Prob(Omnibus):,0.459,Jarque-Bera (JB):,0.872
Skew:,-0.253,Prob(JB):,0.647
Kurtosis:,1.78,Cond. No.,518.0


#### Kết quả
Từ những kết quả trên ta có:
- Mô hình ước lượng (mô hình hồi quy mẫu) của chi phí theo số khách:
 $$\hat{Y} = 1.5698 + 0.0407*X$$
- Hệ số xác định của mô hình là $R^2 = R-squared = 0.899$
- Khoảng tin cậy 95% cho hệ số góc của mô hình:

so_khach: [0.025, 0.975] = [0.031, 0.050]

- Bài toán kiểm định sự có ý nghĩa của mô hình:
$H_0: \beta_1 = 0$ và $H_1: \beta_1 \ne 0$

có p-giá trị là: P>|t| < 0.001 (vì kết quả cho 0.000 đến 3 chữ số sau dấu phảy vẫn là 0 nên nhỏ hơn 0.001 ). Từ đó p-giá trị < 0.05 nên bác bỏ H0 hay mô hình hồi quy có ý nghĩa.

In [7]:
# Dự báo cho chi phí khi số khách bằng 75
# Khi số khách là 75 thì chi phí chuyến bay là $4622.4
model.predict([1, 75])

array([4.62241267])

In [8]:
# Khoảng tin cậy 95% cho hệ số góc:
model.conf_int(0.95)

Unnamed: 0,0,1
const,1.548055,1.591531
so_khach,0.040424,0.040979


In [7]:
# Khoảng tin cậy 90% cho hệ số góc:
model.conf_int(0.9)

Unnamed: 0,0,1
const,1.526217,1.613368
so_khach,0.040146,0.041257


In [13]:
# Khoảng tin cậy và khoảng dự báo 95% cho chi phí khi số hành khách là 75
predictions = model.get_prediction([1, 75])
predictions.summary_frame(alpha=0.05)
# Khoảng tin cậy 95% cho giá trị trung bình
#[mean_ci_lower, mean_ci_upper] = [4.505922, 4.738904]
# Khoảng dự báo cho giá trị cá biệt
# [obs_ci_lower, obs_ci_upper] = [4.21072, 5.034103]

Unnamed: 0,mean,mean_se,mean_ci_lower,mean_ci_upper,obs_ci_lower,obs_ci_upper
0,4.622413,0.052282,4.505922,4.738904,4.210723,5.034103


In [15]:
# Khoảng tin cậy và khoảng dự báo 90% cho chi phí khi số hành khách là 75
predictions.summary_frame(alpha=0.1)
# Khoảng tin cậy 95% cho giá trị trung bình
#[mean_ci_lower, mean_ci_upper] = [4.527654, 4.717171]
# Khoảng dự báo cho giá trị cá biệt
# [obs_ci_lower, obs_ci_upper] = [4.287527, 4.957298]

Unnamed: 0,mean,mean_se,mean_ci_lower,mean_ci_upper,obs_ci_lower,obs_ci_upper
0,4.622413,0.052282,4.527654,4.717171,4.287527,4.957298
