- [REGRESSION](#REGRESSION)
- [FORCASTING](#FORCASTING)

# I. REGRESSION

In [1]:
import numpy as np
import pandas as pd
from scipy.stats import linregress
import statsmodels.api as sm

In [2]:
x = np.array([40, 72, 98, 110, 75, 50, 120, 145])  # Sản lượng sản xuất (nghìn bình)
y = np.array([35, 32, 29, 29, 31, 33, 28, 27])      # Giá thành đơn vị (nghìn đồng)

### 1. Tính độ tương quan

In [3]:
np.corrcoef(x, y)

array([[ 1.        , -0.97653724],
       [-0.97653724,  1.        ]])

### 2. Xây dựng mô hình

In [4]:
# Xây dựng mô hình ordinary least square (OLS)
model = sm.formula.ols('y~x', data=pd.DataFrame({'x': x, 'y':y})).fit()

print(model.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.954
Model:                            OLS   Adj. R-squared:                  0.946
Method:                 Least Squares   F-statistic:                     123.4
Date:                Sat, 23 Nov 2024   Prob (F-statistic):           3.17e-05
Time:                        12:34:46   Log-Likelihood:                -6.5547
No. Observations:                   8   AIC:                             17.11
Df Residuals:                       6   BIC:                             17.27
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     37.0784      0.633     58.554      0.0

  res = hypotest_fun_out(*samples, **kwds)


In [5]:
b0 = model.params.iloc[0]
b1 = model.params.iloc[1]
print(f'b0={b0}, b1={b1}')

b0=37.07844440751203, b1=-0.07412331726774113


- **Ý nghĩa:** Hệ số góc $b_i$ thể hiện mức thay đổi trung bình của $y$ khi $x$ tăng thêm một đơn vị. Nếu $b-i$ âm, giá thành đơn vị giảm khi sản lượng tăng.

### 3. Kiếm định

$$t_i = \dfrac{b_i}{S_{b_i}}$$

- Giá trị tới hạn

In [6]:
from scipy.stats import t

# Định nghĩa thông số
n=10
k=2
alpha = 0.05  # Mức ý nghĩa
df = n - k - 1  # Bậc tự do: n - k - 1

# Tính giá trị tới hạn t
t_critical = t.ppf(1 - alpha / 2, df)
t_critical


2.3646242515927844

- Giá trị t của các biến

In [12]:
model.tvalues.iloc[1:]

x   -11.107656
dtype: float64

- **Nhận xét:** Từ giá trị kiểm định t của biến x và giá trị tới hạn cho thấy $|t| > t^{n-k-1}_{\alpha/2}$, nên x có ý nghĩa thống kê

### 4. Đánh giá mô hình bằng $R^2$

In [8]:
model.rsquared

0.953624985617673

### 5. Dự đoán

In [9]:
model.params

Intercept    37.078444
x            -0.074123
dtype: float64

In [10]:
model.params.iloc[0] + model.params.iloc[1]*150

25.95994681735086

In [11]:
model.predict(exog=dict(x=150))

0    25.959947
dtype: float64

<a name="FORCASTING"></a>
# II. FORCASTING