**Hồi Quy Logistic**

1. Tải dữ liệu
2. Tạo biến Y=0 nếu chỉ số  giảm và biến Y=1 nếu chỉ số tăng.
3. Sử dụng hàm LogisticRegression từ thư viện sklearn

**CHỈ SỐ KINH TẾ VĨ MÔ: CPI**

In [20]:
# Import các thư viện cần thiết
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Bước 1: Đọc dữ liệu, tạo biến mục tiêu Y
data = pd.read_csv('cpi.csv')
#Kiểm tra tiêu đề các cột
df.head()
#Dữ liệu có cột: 't', 'cpi'
df = df.sort_values('t')

# Tạo biến Y: 1 nếu giá tăng, 0 nếu giá giảm
df['Y'] = (df['cpi'].diff() > 0).astype(int)

# Bước 2: Tạo các đặc trưng (ở đây chỉ sử dụng cpi hôm trước)
df['cpi_lag1'] = df['cpi'].shift(1)

df.dropna(inplace=True)

# Chọn X (các đặc trưng) và Y (nhãn mục tiêu)
X = df[['cpi_lag1']].values
Y = df['Y'].values
# Bước 3: Chia dữ liệu thành tập huấn luyện và kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=42)

# Bước 4: Chuẩn hóa dữ liệu
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Bước 5: Huấn luyện mô hình Logistic Regression
model = LogisticRegression()
model.fit(X_train_scaled, y_train)

# Bước 6: Dự đoán trên tập kiểm tra
y_pred = model.predict(X_test_scaled)

# Bước 7: Đánh giá mô hình
accuracy = accuracy_score(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred)
class_report = classification_report(y_test, y_pred)

print(f"Độ chính xác của mô hình: {accuracy * 100:.2f}%")
print("Confusion Matrix:")
print(conf_matrix)
print("Classification Report:")
print(class_report)


Độ chính xác của mô hình: 67.69%
Confusion Matrix:
[[18 14]
 [ 7 26]]
Classification Report:
              precision    recall  f1-score   support

           0       0.72      0.56      0.63        32
           1       0.65      0.79      0.71        33

    accuracy                           0.68        65
   macro avg       0.69      0.68      0.67        65
weighted avg       0.68      0.68      0.67        65



In [21]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, classification_report
# Hàm sigmoid
def sigmoid(z):
    return 1 / (1 + np.exp(-z))

# Hàm mất mát (binary cross-entropy)
def compute_loss(Y, Y_hat):
    m = Y.shape[0]
    return -(1/m) * np.sum(Y * np.log(Y_hat) + (1 - Y) * np.log(1 - Y_hat))

# Hàm Stochastic Gradient Descent
def stochastic_gradient_descent(X, Y, learning_rate=0.01, iterations=1000):
    m, n = X.shape
    # Khởi tạo tham số (weights và bias)
    weights = np.zeros(n)
    bias = 0
    losses = []

    for i in range(iterations):
        for j in range(m):  # Cập nhật cho từng mẫu dữ liệu
            # Chọn một mẫu ngẫu nhiên
            random_index = np.random.randint(m)
            X_sample = X[random_index].reshape(1, -1)
            Y_sample = Y[random_index].reshape(1, -1)

            # Tính toán dự đoán Y_hat cho mẫu này
            Z = np.dot(X_sample, weights) + bias
            Y_hat = sigmoid(Z)

            # Tính gradient cho mẫu này
            dw = np.dot(X_sample.T, (Y_hat - Y_sample)) / m
            db = (Y_hat - Y_sample) / m

            # Cập nhật trọng số
            weights -= learning_rate * dw.ravel()
            bias -= learning_rate * db.ravel()

        # Tính toán hàm mất mát sau mỗi lần lặp trên tất cả các mẫu
        Z_all = np.dot(X, weights) + bias
        Y_hat_all = sigmoid(Z_all)
        loss = compute_loss(Y, Y_hat_all)
        losses.append(loss)

        # In ra mỗi 100 iterations
        if i % 100 == 0:
            print(f'Iteration {i}, Loss: {loss}')

    return weights, bias, losses

# Hàm dự đoán
def predict(X, weights, bias):
    Z = np.dot(X, weights) + bias
    Y_hat = sigmoid(Z)
    return np.where(Y_hat >= 0.5, 1, 0)

# Bước 1: Đọc dữ liệu, tạo biến mục tiêu Y
data = pd.read_csv('cpi.csv')
#Kiểm tra tiêu đề các cột
df.head()
#Dữ liệu có cột: 't', 'cpi'
df = df.sort_values('t')

# Tạo biến Y: 1 nếu giá tăng, 0 nếu giá giảm
df['Y'] = (df['cpi'].diff() > 0).astype(int)

# Bước 2: Tạo các đặc trưng (ở đây chỉ sử dụng cpi hôm trước)
df['cpi_lag1'] = df['cpi'].shift(1)

df.dropna(inplace=True)

# Chọn X (các đặc trưng) và Y (nhãn mục tiêu)
X = df[['cpi_lag1']].values
Y = df['Y'].values
df.dropna(inplace=True)


# Chuẩn hóa dữ liệu
scaler = StandardScaler()
X = scaler.fit_transform(X)

# Chia dữ liệu thành tập huấn luyện và kiểm tra
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=42)

# Huấn luyện mô hình bằng Stochastic Gradient Descent
weights, bias, losses = stochastic_gradient_descent(X_train, Y_train, learning_rate=0.01, iterations=1000)

# Dự đoán trên tập kiểm tra
Y_pred = predict(X_test, weights, bias)

# Đánh giá mô hình
accuracy = np.mean(Y_pred == Y_test)
print(f'Accuracy: {accuracy:.2f}')
# Báo cáo chi tiết kết quả dự đoán
print(classification_report(Y_test, Y_pred))

Iteration 0, Loss: 0.6927907906371544
Iteration 100, Loss: 0.6588742199447375
Iteration 200, Loss: 0.6372632019459956
Iteration 300, Loss: 0.6236162433579624
Iteration 400, Loss: 0.6147627716877456
Iteration 500, Loss: 0.6086645195483775
Iteration 600, Loss: 0.6040219110786471
Iteration 700, Loss: 0.6006502038139464
Iteration 800, Loss: 0.5982574947432919
Iteration 900, Loss: 0.5964305297860713
Accuracy: 0.71
              precision    recall  f1-score   support

           0       0.75      0.58      0.65        31
           1       0.68      0.82      0.75        34

    accuracy                           0.71        65
   macro avg       0.72      0.70      0.70        65
weighted avg       0.71      0.71      0.70        65



In [23]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, classification_report
# Hàm sigmoid
def sigmoid(z):
    return 1 / (1 + np.exp(-z))

# Hàm mất mát (binary cross-entropy)
def compute_loss(Y, Y_hat):
    m = Y.shape[0]
    return -(1/m) * np.sum(Y * np.log(Y_hat) + (1 - Y) * np.log(1 - Y_hat))

# Hàm Batch Gradient Descent
def batch_gradient_descent(X, Y, learning_rate=0.01, iterations=1000):
    m, n = X.shape
    # Khởi tạo tham số (weights và bias)
    weights = np.zeros(n)
    bias = 0
    losses = []

    for i in range(iterations):
        # Tính toán dự đoán Y_hat
        Z = np.dot(X, weights) + bias
        Y_hat = sigmoid(Z)

        # Tính gradient của hàm mất mát
        dw = (1/m) * np.dot(X.T, (Y_hat - Y))
        db = (1/m) * np.sum(Y_hat - Y)

        # Cập nhật trọng số
        weights -= learning_rate * dw
        bias -= learning_rate * db

        # Tính và lưu lại hàm mất mát
        loss = compute_loss(Y, Y_hat)
        losses.append(loss)

        # In ra mỗi 100 iterations
        if i % 100 == 0:
            print(f'Iteration {i}, Loss: {loss}')

    return weights, bias, losses

# Hàm dự đoán
def predict(X, weights, bias):
    Z = np.dot(X, weights) + bias
    Y_hat = sigmoid(Z)
    return np.where(Y_hat >= 0.5, 1, 0)

# Bước 1: Đọc dữ liệu, tạo biến mục tiêu Y
data = pd.read_csv('cpi.csv')
#Kiểm tra tiêu đề các cột
df.head()
#Dữ liệu có cột: 't', 'cpi'
df = df.sort_values('t')

# Tạo biến Y: 1 nếu giá tăng, 0 nếu giá giảm
df['Y'] = (df['cpi'].diff() > 0).astype(int)

# Bước 2: Tạo các đặc trưng (ở đây chỉ sử dụng cpi hôm trước)
df['cpi_lag1'] = df['cpi'].shift(1)

df.dropna(inplace=True)

# Chọn X (các đặc trưng) và Y (nhãn mục tiêu)
X = df[['cpi_lag1']].values
Y = df['Y'].values
df.dropna(inplace=True)


# Chuẩn hóa dữ liệu
scaler = StandardScaler()
X = scaler.fit_transform(X)

# Chia dữ liệu thành tập huấn luyện và kiểm tra
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=42)

# Huấn luyện mô hình bằng Batch Gradient Descent
weights, bias, losses = batch_gradient_descent(X_train, Y_train, learning_rate=0.01, iterations=1000)

# Dự đoán trên tập kiểm tra
Y_pred = predict(X_test, weights, bias)

# Đánh giá mô hình
accuracy = np.mean(Y_pred == Y_test)
print(f'Accuracy: {accuracy:.2f}')
# Báo cáo chi tiết kết quả dự đoán
print(classification_report(Y_test, Y_pred))

Iteration 0, Loss: 0.6931471805599453
Iteration 100, Loss: 0.6604527084833003
Iteration 200, Loss: 0.639916716416077
Iteration 300, Loss: 0.6266248257841454
Iteration 400, Loss: 0.6177417376882857
Iteration 500, Loss: 0.6116315221020682
Iteration 600, Loss: 0.6073235178961773
Iteration 700, Loss: 0.6042219677986207
Iteration 800, Loss: 0.6019491253566417
Iteration 900, Loss: 0.6002583452080458
Accuracy: 0.66
              precision    recall  f1-score   support

           0       0.76      0.54      0.63        35
           1       0.60      0.80      0.69        30

    accuracy                           0.66        65
   macro avg       0.68      0.67      0.66        65
weighted avg       0.69      0.66      0.66        65

