**Hồi Quy Logistic**

1. Tải dữ liệu
2. Tạo biến Y=0 nếu giá CK giảm và biến Y=1 nếu giá CK tăng.
3. Sử dụng hàm LogisticRegression từ thư viện sklearn

**VCB**

In [2]:
import os
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report,precision_score, recall_score, f1_score
from sklearn.preprocessing import StandardScaler

In [12]:
# Đường dẫn đến thư mục chứa các file CSV
folder_path = r'D:\Detainam2024\SolieuHong'

# Lấy danh sách tất cả các file CSV trong thư mục
file_list = [f for f in os.listdir(folder_path) if f.endswith('.csv')]
results=[]
# Vòng lặp qua từng file CSV
for file_name in file_list:
    # Đọc dữ liệu từ file CSV
    file_path = os.path.join(folder_path, file_name)
    df = pd.read_csv(file_path)
    
    # Sắp xếp theo ngày
    df = df.sort_values('time')

    # Tạo cột Y: nếu giá đóng cửa hôm nay thấp hơn hôm qua, Y=0, nếu ngược lại Y=1
    df['Y'] = (df['close'].diff() > 0).astype(int)

    # Hiển thị dữ liệu với cột Y
    print(df[['time', 'close', 'Y']])
    # Shift dữ liệu Close để lấy giá của ngày trước làm đặc trưng
    df['Close_lag1'] = df['close'].shift(1)
    df['Volume_lag1'] = df['volume'].shift(1)

    # Loại bỏ các hàng chứa giá trị NaN
    df.dropna(inplace=True)

    # Chọn các đặc trưng (X) và mục tiêu (Y)
    X = df[['Close_lag1', 'Volume_lag1']]
    Y = df['Y']
    
    # Chia dữ liệu thành tập huấn luyện và kiểm tra
    X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=42)
    
    # Khởi tạo mô hình Hồi quy Logistic
    model = LogisticRegression()
    
    # Huấn luyện mô hình
    model.fit(X_train, y_train)
    
    # Dự đoán trên tập kiểm tra
    y_pred = model.predict(X_test)
    
    # Tính độ chính xác
    accuracy = accuracy_score(y_test, y_pred)
    precision = precision_score(y_test, y_pred, average='weighted')
    recall = recall_score(y_test, y_pred, average='weighted')
    f1 = f1_score(y_test, y_pred, average='weighted')
    
      # Lưu kết quả vào danh sách
    results.append({
        'file': file_name,
        'accuracy': accuracy,
        'precision': precision,
        'recall': recall,
        'f1_score': f1
    })
# Ghi kết quả ra file CSV
results_df = pd.DataFrame(results)
results_df.to_csv(r'D:\Detainam2024\SolieuHong\output\logistic_regression_results.csv', index=False)

            time  close  Y
0     2015-01-05   2.80  0
1     2015-01-06   2.84  1
2     2015-01-07   2.87  1
3     2015-01-08   2.89  1
4     2015-01-09   2.91  1
...          ...    ... ..
2354  2024-06-17  24.55  0
2355  2024-06-18  24.55  0
2356  2024-06-19  24.65  1
2357  2024-06-20  24.80  1
2358  2024-06-21  24.55  0

[2359 rows x 3 columns]
            time   close  Y
0     2015-01-05   43.60  0
1     2015-01-06   43.60  0
2     2015-01-07   43.14  0
3     2015-01-08   43.14  0
4     2015-01-09   43.14  0
...          ...     ... ..
2421  2024-09-13  106.60  0
2422  2024-09-16  106.60  0
2423  2024-09-17  107.30  1
2424  2024-09-18  107.60  1
2425  2024-09-19  107.70  1

[2426 rows x 3 columns]


  _warn_prf(average, modifier, msg_start, len(result))


            time   close  Y
0     2015-01-05    8.54  0
1     2015-01-06    8.59  1
2     2015-01-07    8.65  1
3     2015-01-08    8.56  0
4     2015-01-09    8.63  1
...          ...     ... ..
2421  2024-09-13  133.00  1
2422  2024-09-16  131.10  0
2423  2024-09-17  132.90  1
2424  2024-09-18  134.60  1
2425  2024-09-19  134.50  0

[2426 rows x 3 columns]
            time  close  Y
0     2015-01-05   3.37  0
1     2015-01-06   3.45  1
2     2015-01-07   3.37  0
3     2015-01-08   3.37  0
4     2015-01-09   3.41  1
...          ...    ... ..
2414  2024-09-13   4.27  1
2415  2024-09-16   4.17  0
2416  2024-09-17   4.19  1
2417  2024-09-18   4.19  0
2418  2024-09-19   4.21  1

[2419 rows x 3 columns]


  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


           time   close  Y
276   1/10/2018  214.26  0
525   1/10/2019  192.42  0
777   1/10/2020  251.11  1
1027  1/10/2021  570.49  1
48    1/11/2017  193.87  0
...         ...     ... ..
1490   9/8/2023  492.69  0
509    9/9/2019  183.42  0
761    9/9/2020  232.80  1
1011   9/9/2021  589.51  1
1261   9/9/2022  511.66  0

[1706 rows x 3 columns]
           time   close  Y
276   1/10/2018  214.26  0
525   1/10/2019  192.42  0
777   1/10/2020  251.11  1
1027  1/10/2021  570.49  1
48    1/11/2017  193.87  0
...         ...     ... ..
509    9/9/2019  183.42  0
761    9/9/2020  232.80  1
1011   9/9/2021  589.51  1
1261   9/9/2022  511.66  0
1759   9/9/2024  507.85  0

[1768 rows x 3 columns]


  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


            time  close  Y
0     2015-01-05   4.13  0
1     2015-01-06   4.17  1
2     2015-01-07   4.13  0
3     2015-01-08   4.13  0
4     2015-01-09   4.21  1
...          ...    ... ..
2421  2024-09-13  25.00  0
2422  2024-09-16  24.85  0
2423  2024-09-17  25.25  1
2424  2024-09-18  25.10  0
2425  2024-09-19  25.35  1

[2426 rows x 3 columns]
            time  close  Y
0     2015-01-05  20.81  0
1     2015-01-06  20.60  0
2     2015-01-07  19.99  0
3     2015-01-08  19.66  0
4     2015-01-09  19.57  0
...          ...    ... ..
2421  2024-09-13  54.80  0
2422  2024-09-16  54.80  0
2423  2024-09-17  54.80  0
2424  2024-09-18  54.50  0
2425  2024-09-19  54.50  0

[2426 rows x 3 columns]
            time  close  Y
0     2015-01-05  11.36  0
1     2015-01-06  11.56  1
2     2015-01-07  11.44  0
3     2015-01-08  11.32  0
4     2015-01-09  11.40  1
...          ...    ... ..
2421  2024-09-13  65.70  0
2422  2024-09-16  64.70  0
2423  2024-09-17  64.90  1
2424  2024-09-18  65.80  1
2425 

  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


            time  close  Y
0     2015-01-05  13.06  0
1     2015-01-06  12.69  0
2     2015-01-07  13.56  1
3     2015-01-08  14.01  1
4     2015-01-09  14.99  1
...          ...    ... ..
2419  2024-09-13  48.55  0
2420  2024-09-16  48.80  1
2421  2024-09-17  49.70  1
2422  2024-09-18  49.90  1
2423  2024-09-19  49.90  0

[2424 rows x 3 columns]
            time  close  Y
0     2015-01-05  14.12  0
1     2015-01-06  15.05  1
2     2015-01-07  14.87  0
3     2015-01-08  15.31  1
4     2015-01-09  16.33  1
...          ...    ... ..
2421  2024-09-13  89.90  1
2422  2024-09-16  88.90  0
2423  2024-09-17  90.50  1
2424  2024-09-18  91.00  1
2425  2024-09-19  91.60  1

[2426 rows x 3 columns]


  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


            time  close  Y
0     2015-01-05  20.44  0
1     2015-01-06  20.53  1
2     2015-01-07  20.48  0
3     2015-01-08  20.61  1
4     2015-01-09  20.53  0
...          ...    ... ..
2421  2024-09-13  42.90  0
2422  2024-09-16  42.05  0
2423  2024-09-17  42.90  1
2424  2024-09-18  42.65  0
2425  2024-09-19  43.00  1

[2426 rows x 3 columns]
            time    close  Y
0     2017-08-24   747.72  0
1     2017-08-25   751.14  1
2     2017-08-28   758.02  1
3     2017-08-29   754.59  0
4     2017-08-30   764.57  1
...          ...      ... ..
1699  2024-06-17  1309.70  0
1700  2024-06-18  1309.89  1
1701  2024-06-19  1314.22  1
1702  2024-06-20  1322.36  1
1703  2024-06-21  1319.93  0

[1704 rows x 3 columns]


  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


            time    close  Y
0     2015-01-05   544.45  0
1     2015-01-06   549.66  1
2     2015-01-07   552.05  1
3     2015-01-08   553.47  1
4     2015-01-09   569.73  1
...          ...      ... ..
2419  2024-09-13  1251.71  0
2420  2024-09-16  1239.26  0
2421  2024-09-17  1258.95  1
2422  2024-09-18  1264.90  1
2423  2024-09-19  1266.08  1

[2424 rows x 3 columns]
            time  close  Y
0     2015-01-05  31.64  0
1     2015-01-06  31.64  0
2     2015-01-07  32.30  1
3     2015-01-08  32.47  1
4     2015-01-09  33.95  1
...          ...    ... ..
2421  2024-09-13  72.90  0
2422  2024-09-16  71.90  0
2423  2024-09-17  73.40  1
2424  2024-09-18  73.30  0
2425  2024-09-19  73.10  0

[2426 rows x 3 columns]


  _warn_prf(average, modifier, msg_start, len(result))


**Hồi quy Logistic sử dụng Thuật toán  Batch Gradient Descent cho Hồi quy Logistic**

In [3]:
# Hàm sigmoid
def sigmoid(z):
    return 1 / (1 + np.exp(-z))

# Hàm mất mát (binary cross-entropy)
def compute_loss(Y, Y_hat):
    m = Y.shape[0]
    return -(1/m) * np.sum(Y * np.log(Y_hat) + (1 - Y) * np.log(1 - Y_hat))

# Hàm Batch Gradient Descent
def batch_gradient_descent(X, Y, learning_rate=0.01, iterations=1000):
    m, n = X.shape
    # Khởi tạo tham số (weights và bias)
    weights = np.zeros(n)
    bias = 0
    losses = []

    for i in range(iterations):
        # Tính toán dự đoán Y_hat
        Z = np.dot(X, weights) + bias
        Y_hat = sigmoid(Z)

        # Tính gradient của hàm mất mát
        dw = (1/m) * np.dot(X.T, (Y_hat - Y))
        db = (1/m) * np.sum(Y_hat - Y)

        # Cập nhật trọng số
        weights -= learning_rate * dw
        bias -= learning_rate * db

        # Tính và lưu lại hàm mất mát
        loss = compute_loss(Y, Y_hat)
        losses.append(loss)

        # In ra mỗi 100 iterations
        if i % 100 == 0:
            print(f'Iteration {i}, Loss: {loss}')

    return weights, bias, losses

# Hàm dự đoán
def predict(X, weights, bias):
    Z = np.dot(X, weights) + bias
    Y_hat = sigmoid(Z)
    return np.where(Y_hat >= 0.5, 1, 0)

# Đọc dữ liệu
# Đường dẫn đến thư mục chứa các file CSV
folder_path = r'D:\Detainam2024\SolieuHong'

# Lấy danh sách tất cả các file CSV trong thư mục
file_list = [f for f in os.listdir(folder_path) if f.endswith('.csv')]
results=[]
# Vòng lặp qua từng file CSV
for file_name in file_list:
    # Đọc dữ liệu từ file CSV
    file_path = os.path.join(folder_path, file_name)
    df = pd.read_csv(file_path)
    
    # Sắp xếp theo ngày
    df = df.sort_values('time')

    # Tạo cột Y: nếu giá đóng cửa hôm nay thấp hơn hôm qua, Y=0, nếu ngược lại Y=1
    df['Y'] = (df['close'].diff() > 0).astype(int)

    # Shift dữ liệu Close để lấy giá của ngày trước làm đặc trưng
    df['Close_lag1'] = df['close'].shift(1)
    df['Volume_lag1'] = df['volume'].shift(1)

    # Loại bỏ các hàng chứa giá trị NaN
    df.dropna(inplace=True)

    # Chọn các đặc trưng (X) và mục tiêu (Y)
    X = df[['Close_lag1', 'Volume_lag1']]
    Y = df['Y']
    
   # Chuẩn hóa dữ liệu
    scaler = StandardScaler()
    X = scaler.fit_transform(X)

    # Chia dữ liệu thành tập huấn luyện và kiểm tra
    X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=42)

    # Huấn luyện mô hình bằng Batch Gradient Descent
    weights, bias, losses = batch_gradient_descent(X_train, Y_train, learning_rate=0.01, iterations=1000)

    # Dự đoán trên tập kiểm tra
    Y_pred = predict(X_test, weights, bias)

    # Tính độ chính xác
    accuracy = accuracy_score(Y_test, Y_pred)
    precision = precision_score(Y_test, Y_pred, average='weighted')
    recall = recall_score(Y_test, Y_pred, average='weighted')
    f1 = f1_score(Y_test, Y_pred, average='weighted')
    
      # Lưu kết quả vào danh sách
    results.append({
        'file': file_name,
        'accuracy': accuracy,
        'precision': precision,
        'recall': recall,
        'f1_score': f1
    })
# Ghi kết quả ra file CSV
results_df = pd.DataFrame(results)
results_df.to_csv(r'D:\Detainam2024\SolieuHong\output\logistic_regression_BGD_results.csv', index=False)

Iteration 0, Loss: 0.6931471805599454
Iteration 100, Loss: 0.6888139610925803
Iteration 200, Loss: 0.6864385785967335
Iteration 300, Loss: 0.6850948982521616
Iteration 400, Loss: 0.6843120121303357
Iteration 500, Loss: 0.6838431944952994
Iteration 600, Loss: 0.6835551265336074
Iteration 700, Loss: 0.6833736610446622
Iteration 800, Loss: 0.683256484198579
Iteration 900, Loss: 0.6831788974179017
Iteration 0, Loss: 0.6931471805599453
Iteration 100, Loss: 0.6851714899657647
Iteration 200, Loss: 0.6803421882851136
Iteration 300, Loss: 0.677409797522675
Iteration 400, Loss: 0.6756232885393972
Iteration 500, Loss: 0.6745313202180165
Iteration 600, Loss: 0.6738618936224097
Iteration 700, Loss: 0.6734504465314155
Iteration 800, Loss: 0.6731970083707242
Iteration 900, Loss: 0.6730406141992518
Iteration 0, Loss: 0.6931471805599453
Iteration 100, Loss: 0.6927331120238959
Iteration 200, Loss: 0.6925385628351203
Iteration 300, Loss: 0.6924447376315543
Iteration 400, Loss: 0.6923980244331146
Iteratio

  _warn_prf(average, modifier, msg_start, len(result))


Iteration 0, Loss: 0.6931471805599453
Iteration 100, Loss: 0.6923686195584698
Iteration 200, Loss: 0.6918986028521242
Iteration 300, Loss: 0.691614746717364
Iteration 400, Loss: 0.6914432412605611
Iteration 500, Loss: 0.691339571939769
Iteration 600, Loss: 0.6912768819299622
Iteration 700, Loss: 0.6912389591714884
Iteration 800, Loss: 0.6912160118387798
Iteration 900, Loss: 0.6912021227345617
Iteration 0, Loss: 0.6931471805599453
Iteration 100, Loss: 0.6899735647842553
Iteration 200, Loss: 0.6880473235186592
Iteration 300, Loss: 0.6868770086262518
Iteration 400, Loss: 0.6861651077648764
Iteration 500, Loss: 0.6857315338028971
Iteration 600, Loss: 0.6854671740838059
Iteration 700, Loss: 0.6853058267222889
Iteration 800, Loss: 0.6852072653644818
Iteration 900, Loss: 0.6851470125423166


  _warn_prf(average, modifier, msg_start, len(result))


Iteration 0, Loss: 0.6931471805599453
Iteration 100, Loss: 0.690857113189304
Iteration 200, Loss: 0.6894470455406244
Iteration 300, Loss: 0.6885709318425
Iteration 400, Loss: 0.6880207011860068
Iteration 500, Loss: 0.687670707745403
Iteration 600, Loss: 0.6874447124155696
Iteration 700, Loss: 0.6872962120154053
Iteration 800, Loss: 0.6871966766302252
Iteration 900, Loss: 0.6871284871084496


  _warn_prf(average, modifier, msg_start, len(result))


Iteration 0, Loss: 0.6931471805599452
Iteration 100, Loss: 0.6902419974086684
Iteration 200, Loss: 0.6884712249874001
Iteration 300, Loss: 0.6873885697785593
Iteration 400, Loss: 0.6867238213419957
Iteration 500, Loss: 0.6863133593573574
Iteration 600, Loss: 0.6860580043527401
Iteration 700, Loss: 0.6858975486139296
Iteration 800, Loss: 0.6857953790496414
Iteration 900, Loss: 0.6857291874935394


  _warn_prf(average, modifier, msg_start, len(result))


Iteration 0, Loss: 0.6931471805599453
Iteration 100, Loss: 0.6908170776027487
Iteration 200, Loss: 0.6894045929282393
Iteration 300, Loss: 0.6885477599752172
Iteration 400, Loss: 0.6880275633973447
Iteration 500, Loss: 0.6877114867624602
Iteration 600, Loss: 0.6875192936165033
Iteration 700, Loss: 0.6874023541491694
Iteration 800, Loss: 0.6873311642573637
Iteration 900, Loss: 0.6872878062484292
Accuracy: 0.58
              precision    recall  f1-score   support

           0       0.58      1.00      0.73       279
           1       0.00      0.00      0.00       206

    accuracy                           0.58       485
   macro avg       0.29      0.50      0.37       485
weighted avg       0.33      0.58      0.42       485



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


**Hồi quy Logistic sử dụng Thuật toán Stochastic Gradient Descent cho Hồi quy Logistic**

In [9]:
#Dựa trên thư viện SGDClassifier trong Sklearnt 
from sklearn.linear_model import SGDClassifier
from sklearn.model_selection import train_test_split
# Đọc dữ liệu
# Đường dẫn đến thư mục chứa các file CSV
folder_path = r'D:\Detainam2024\SolieuHong'

# Lấy danh sách tất cả các file CSV trong thư mục
file_list = [f for f in os.listdir(folder_path) if f.endswith('.csv')]
results=[]
# Vòng lặp qua từng file CSV
for file_name in file_list:
    # Đọc dữ liệu từ file CSV
    file_path = os.path.join(folder_path, file_name)
    df = pd.read_csv(file_path)

    # Giả sử dữ liệu có cột: 'time', 'close', 'volume'
    df = df.sort_values('time')

    # Tạo biến Y: 1 nếu giá tăng, 0 nếu giá giảm
    df['Y'] = (df['close'].diff() > 0).astype(int)

    # Tạo các đặc trưng (ở đây chỉ sử dụng giá hôm trước và khối lượng giao dịch)
    df['Close_lag1'] = df['close'].shift(1)
    df['Volume_lag1'] = df['volume'].shift(1)
    df.dropna(inplace=True)

    # Chọn X (các đặc trưng) và Y (nhãn mục tiêu)
    X = df[['Close_lag1', 'Volume_lag1']].values
    Y = df['Y'].values

    # Chuẩn hóa dữ liệu
    scaler = StandardScaler()
    X = scaler.fit_transform(X)
    # Chia dữ liệu thành tập huấn luyện và kiểm tra
    X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=42)
    # Khởi tạo mô hình SGD Logistic Regression
    sgd_classifier = SGDClassifier(loss='huber', learning_rate='optimal', eta0=0.01, max_iter=1000)
    # Huấn luyện mô hình
    sgd_classifier.fit(X_train, Y_train)
    # Dự đoán
    Y_pred = sgd_classifier.predict(X_test)
    # Tính độ chính xác
    accuracy = accuracy_score(Y_test, Y_pred)
    precision = precision_score(Y_test, Y_pred, average='weighted')
    recall = recall_score(Y_test, Y_pred, average='weighted')
    f1 = f1_score(Y_test, Y_pred, average='weighted')
    
      # Lưu kết quả vào danh sách
    results.append({
        'file': file_name,
        'accuracy': accuracy,
        'precision': precision,
        'recall': recall,
        'f1_score': f1
    })
# Ghi kết quả ra file CSV
results_df = pd.DataFrame(results)
results_df.to_csv(r'D:\Detainam2024\SolieuHong\output\logistic_regression_SGD_results.csv', index=False)

  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


In [1]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, classification_report
# Hàm sigmoid
def sigmoid(z):
    return 1 / (1 + np.exp(-z))

# Hàm mất mát (binary cross-entropy)
def compute_loss(Y, Y_hat):
    m = Y.shape[0]
    return -(1/m) * np.sum(Y * np.log(Y_hat) + (1 - Y) * np.log(1 - Y_hat))

# Hàm Batch Gradient Descent
def batch_gradient_descent(X, Y, learning_rate=0.01, iterations=1000):
    m, n = X.shape
    # Khởi tạo tham số (weights và bias)
    weights = np.zeros(n)
    bias = 0
    losses = []

    for i in range(iterations):
        # Tính toán dự đoán Y_hat
        Z = np.dot(X, weights) + bias
        Y_hat = sigmoid(Z)

        # Tính gradient của hàm mất mát
        dw = (1/m) * np.dot(X.T, (Y_hat - Y))
        db = (1/m) * np.sum(Y_hat - Y)

        # Cập nhật trọng số
        weights -= learning_rate * dw
        bias -= learning_rate * db

        # Tính và lưu lại hàm mất mát
        loss = compute_loss(Y, Y_hat)
        losses.append(loss)

        # In ra mỗi 100 iterations
        if i % 100 == 0:
            print(f'Iteration {i}, Loss: {loss}')

    return weights, bias, losses

# Hàm dự đoán
def predict(X, weights, bias):
    Z = np.dot(X, weights) + bias
    Y_hat = sigmoid(Z)
    return np.where(Y_hat >= 0.5, 1, 0)

# Đọc dữ liệu
df = pd.read_csv('cpi.csv')

# Giả sử dữ liệu có cột: 'time', 'close', 'Volume'
df = df.sort_values('t')

# Tạo biến Y: 1 nếu giá tăng, 0 nếu giá giảm
df['Y'] = (df['cpi'].diff() > 0).astype(int)

# Tạo các đặc trưng (ở đây chỉ sử dụng cpi hôm trước)
df['cpi_lag1'] = df['cpi'].shift(1)

df.dropna(inplace=True)

# Chọn X (các đặc trưng) và Y (nhãn mục tiêu)
X = df[['cpi_lag1']].values
Y = df['Y'].values

# Chuẩn hóa dữ liệu
scaler = StandardScaler()
X = scaler.fit_transform(X)

# Chia dữ liệu thành tập huấn luyện và kiểm tra
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=42)

# Huấn luyện mô hình bằng Batch Gradient Descent
weights, bias, losses = batch_gradient_descent(X_train, Y_train, learning_rate=0.01, iterations=1000)

# Dự đoán trên tập kiểm tra
Y_pred = predict(X_test, weights, bias)

# Đánh giá mô hình
accuracy = np.mean(Y_pred == Y_test)
print(f'Accuracy: {accuracy:.2f}')
# Báo cáo chi tiết kết quả dự đoán
print(classification_report(Y_test, Y_pred))

Iteration 0, Loss: 0.6931471805599453
Iteration 100, Loss: 0.6581083158597071
Iteration 200, Loss: 0.6369392865692096
Iteration 300, Loss: 0.6235701815708732
Iteration 400, Loss: 0.6147476565223007
Iteration 500, Loss: 0.6087058740849657
Iteration 600, Loss: 0.6044419526871659
Iteration 700, Loss: 0.6013582400752571
Iteration 800, Loss: 0.5990829158545075
Iteration 900, Loss: 0.597375972085473
Accuracy: 0.71
              precision    recall  f1-score   support

           0       0.78      0.56      0.65        32
           1       0.67      0.85      0.75        33

    accuracy                           0.71        65
   macro avg       0.72      0.71      0.70        65
weighted avg       0.72      0.71      0.70        65



**CHỈ SỐ KINH TẾ VĨ MÔ: CPI**

In [19]:

# Đọc dữ liệu
df = pd.read_csv('cpi.csv')
#Kiểm tra tiêu đề các cột
df.head()
# Giả sử dữ liệu có cột: 't', 'cpi'
df = df.sort_values('t')

# Tạo biến Y: 1 nếu giá tăng, 0 nếu giá giảm
df['Y'] = (df['cpi'].diff() > 0).astype(int)

In [4]:
# Hiển thị dữ liệu với cột Y
print(df[['t', 'cpi', 'Y']])

           t     cpi  Y
0     1995M1  103.80  0
9    1995M10  100.10  0
10   1995M11  100.10  0
11   1995M12  100.30  1
1     1995M2  103.40  1
..       ...     ... ..
316   2021M5  100.16  1
317   2021M6  100.19  1
318   2021M7  100.62  1
319   2021M8  100.25  0
320   2021M9   99.38  0

[324 rows x 3 columns]


In [6]:
df.head()

Unnamed: 0,t,cpi,Y
0,1995M1,103.8,0
9,1995M10,100.1,0
10,1995M11,100.1,0
11,1995M12,100.3,1
1,1995M2,103.4,1


In [20]:
# Import các thư viện cần thiết
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Bước 1: Đọc dữ liệu, tạo biến mục tiêu Y
data = pd.read_csv('cpi.csv')
#Kiểm tra tiêu đề các cột
df.head()
#Dữ liệu có cột: 't', 'cpi'
df = df.sort_values('t')

# Tạo biến Y: 1 nếu giá tăng, 0 nếu giá giảm
df['Y'] = (df['cpi'].diff() > 0).astype(int)

# Bước 2: Tạo các đặc trưng (ở đây chỉ sử dụng cpi hôm trước)
df['cpi_lag1'] = df['cpi'].shift(1)

df.dropna(inplace=True)

# Chọn X (các đặc trưng) và Y (nhãn mục tiêu)
X = df[['cpi_lag1']].values
Y = df['Y'].values
# Bước 3: Chia dữ liệu thành tập huấn luyện và kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=42)

# Bước 4: Chuẩn hóa dữ liệu
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Bước 5: Huấn luyện mô hình Logistic Regression
model = LogisticRegression()
model.fit(X_train_scaled, y_train)

# Bước 6: Dự đoán trên tập kiểm tra
y_pred = model.predict(X_test_scaled)

# Bước 7: Đánh giá mô hình
accuracy = accuracy_score(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred)
class_report = classification_report(y_test, y_pred)

print(f"Độ chính xác của mô hình: {accuracy * 100:.2f}%")
print("Confusion Matrix:")
print(conf_matrix)
print("Classification Report:")
print(class_report)


Độ chính xác của mô hình: 67.69%
Confusion Matrix:
[[18 14]
 [ 7 26]]
Classification Report:
              precision    recall  f1-score   support

           0       0.72      0.56      0.63        32
           1       0.65      0.79      0.71        33

    accuracy                           0.68        65
   macro avg       0.69      0.68      0.67        65
weighted avg       0.68      0.68      0.67        65

