In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, f1_score, confusion_matrix


In [2]:
df = pd.read_csv('C:/Users/ADMIN/Downloads/clean_feature (1).csv')

In [3]:
threshold = df['count'].mean()  # Ngưỡng trung bình để xác định sự cố
df['incident'] = (df['count'].shift(-1) > threshold).astype(int)

In [4]:
df = df.dropna()

In [5]:
df['lag_1_count'] = df['count'].shift(1)
df['lag_2_count'] = df['count'].shift(2)
df['lag_1_passed'] = df['passed'].shift(1)
df['lag_2_passed'] = df['passed'].shift(2)

In [6]:
threshold = df['count'].mean()  # Ngưỡng trung bình để xác định sự cố
df['incident'] = (df['count'].shift(-1) > threshold).astype(int)

In [7]:
df = df.dropna()

In [8]:
X = df[['lag_1_count', 'lag_2_count', 'lag_1_passed', 'lag_2_passed']]
y = df['incident']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [9]:
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [10]:
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train_scaled, y_train)

In [11]:
y_pred = model.predict(X_test_scaled)
accuracy = accuracy_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)
cm = confusion_matrix(y_test, y_pred)

In [12]:
print(f'Accuracy: {accuracy}')
print(f'F1-score: {f1}')
print('Confusion Matrix:')
print(cm)

Accuracy: 0.7118290545188275
F1-score: 0.5649003294432967
Confusion Matrix:
[[70948 19050]
 [19911 25292]]


In [13]:
# Xem 10 kết quả dự đoán đầu tiên của mô hình trên tập kiểm tra
y_pred = model.predict(X_test_scaled)

# In ra 10 kết quả dự đoán và nhãn thực tế
for i in range(10):
    print(f"Dự đoán: {y_pred[i]}, Thực tế: {y_test.iloc[i]}")

Dự đoán: 0, Thực tế: 1
Dự đoán: 0, Thực tế: 0
Dự đoán: 0, Thực tế: 0
Dự đoán: 0, Thực tế: 0
Dự đoán: 1, Thực tế: 0
Dự đoán: 0, Thực tế: 0
Dự đoán: 1, Thực tế: 1
Dự đoán: 0, Thực tế: 0
Dự đoán: 0, Thực tế: 0
Dự đoán: 0, Thực tế: 0


In [14]:
# Tính toán số lượng dự đoán đúng và sai
correct_predictions = sum(y_pred == y_test)
incorrect_predictions = sum(y_pred != y_test)

print(f"Số lượng dự đoán đúng: {correct_predictions}")
print(f"Số lượng dự đoán sai: {incorrect_predictions}")

Số lượng dự đoán đúng: 96240
Số lượng dự đoán sai: 38961


In [15]:
print(df.columns)

Index(['Day                                                          ',
       'DoWeek', 'hour', 'count', 'passed', 'period', 'data', 'ServiceID',
       'incident', 'lag_1_count', 'lag_2_count', 'lag_1_passed',
       'lag_2_passed'],
      dtype='object')


In [16]:
# Xóa khoảng trắng ở đầu và cuối của tên cột
df.columns = df.columns.str.strip()

# Kiểm tra lại tên cột sau khi xóa khoảng trắng
print(df.columns)

Index(['Day', 'DoWeek', 'hour', 'count', 'passed', 'period', 'data',
       'ServiceID', 'incident', 'lag_1_count', 'lag_2_count', 'lag_1_passed',
       'lag_2_passed'],
      dtype='object')


In [18]:
from sklearn.model_selection import train_test_split

# Giả sử X là các đặc trưng và y là nhãn
X = df[['lag_1_count', 'lag_2_count', 'lag_1_passed', 'lag_2_passed']]
y = df['incident']

# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [19]:
# Sao chép dữ liệu từ X_test
df_test = X_test.copy()

# Tạo cột 'index' từ chỉ số của X_test và df
df_test['index'] = X_test.index
df['index'] = df.index  # Sử dụng loc để gán cột 'index' cho df

In [20]:
# Sao chép lại X_test
df_test = X_test.copy()

# Tạo cột 'index' từ chỉ số của X_test và df
df_test['index'] = X_test.index
df.loc[:, 'index'] = df.index  # Sử dụng loc để gán giá trị an toàn

# Merge dựa trên 'index'
df_test = df_test.merge(df[['index', 'Day']], on='index', how='left')

# Thêm cột dự đoán và thực tế
df_test['Dự đoán sự cố'] = y_pred
df_test['Thực tế sự cố'] = y_test.values

In [21]:
# Kiểm tra kích thước và chỉ số của X_test và df
print(f"Kích thước của X_test: {X_test.shape}")
print(f"Kích thước của df: {df.shape}")
print(f"Chỉ số của X_test: {X_test.index}")
print(f"Chỉ số của df: {df.index}")

Kích thước của X_test: (135201, 4)
Kích thước của df: (450669, 14)
Chỉ số của X_test: Index([ 85526,  22400,  84021, 280309, 185344, 317583, 327230, 292582, 227672,
       205498,
       ...
       282890,  68302, 282819, 207294,  69235, 315721,  10059, 380161, 168119,
       288705],
      dtype='int64', length=135201)
Chỉ số của df: Index([     2,      3,      4,      5,      6,      7,      8,      9,     10,
           11,
       ...
       450661, 450662, 450663, 450664, 450665, 450666, 450667, 450668, 450669,
       450670],
      dtype='int64', length=450669)


In [22]:
# Tạo cột 'index' từ chỉ số của X_test và df
df_test['index'] = X_test.index
df['index'] = df.index

# Merge dựa trên 'index'
df_test = df_test.merge(df[['index', 'Day']], on='index', how='left')

# Thêm cột dự đoán và thực tế
df_test['Dự đoán sự cố'] = y_pred
df_test['Thực tế sự cố'] = y_test.values

In [24]:
# Sao chép lại X_test
df_test = X_test.copy()

# Tạo cột 'index' từ chỉ số của X_test và df
df_test['index'] = X_test.index
df['index'] = df.index

# Merge dựa trên 'index' để ghép thông tin thời gian từ df
df_test = df_test.merge(df[['index', 'Day']], on='index', how='left')

# Thêm cột dự đoán và thực tế vào DataFrame test
df_test['Dự đoán sự cố'] = y_pred
df_test['Thực tế sự cố'] = y_test.values

# Lọc các trường hợp mô hình dự đoán có sự cố
incidents_predicted = df_test[df_test['Dự đoán sự cố'] == 1]

# In ra các thời điểm mà mô hình dự đoán có sự cố
print("Các thời điểm mô hình dự đoán có sự cố:")
print(incidents_predicted[['Day', 'Dự đoán sự cố', 'Thực tế sự cố']])


Các thời điểm mô hình dự đoán có sự cố:
               Day  Dự đoán sự cố  Thực tế sự cố
4        2/10/2023              1              0
6         7/1/2023              1              1
11       6/18/2022              1              1
18        5/8/2023              1              0
19       6/27/2023              1              1
...            ...            ...            ...
135184   9/30/2022              1              1
135188  10/23/2022              1              1
135191  11/23/2022              1              1
135199  11/11/2022              1              0
135200  12/22/2022              1              0

[44342 rows x 3 columns]


In [26]:
# Sao chép lại X_test
df_test = X_test.copy()

# Tạo cột 'index' từ chỉ số của X_test và df
df_test['index'] = X_test.index
df['index'] = df.index

# Merge để ghép thông tin thời gian từ df vào df_test
df_test = df_test.merge(df[['index', 'Day']], on='index', how='left')

# Thêm cột dự đoán và thực tế
df_test['Dự đoán sự cố'] = y_pred
df_test['Thực tế sự cố'] = y_test.values

# Tìm những trường hợp dự đoán sai (False Positives và False Negatives)
df_test['Dự đoán sai'] = df_test['Dự đoán sự cố'] != df_test['Thực tế sự cố']

# Lọc các trường hợp dự đoán sai
incorrect_predictions_df = df_test[df_test['Dự đoán sai'] == True]

# In ra các thời điểm mô hình dự đoán sai (cột 'Day' thay vì 'Thời điểm')
print("Các thời điểm mô hình dự đoán sai:")
print(incorrect_predictions_df[['Day', 'Dự đoán sự cố', 'Thực tế sự cố']])

Các thời điểm mô hình dự đoán sai:
               Day  Dự đoán sự cố  Thực tế sự cố
0        4/15/2023              0              1
4        2/10/2023              1              0
15        5/5/2022              0              1
18        5/8/2023              1              0
20       7/19/2022              1              0
...            ...            ...            ...
135186    2/2/2023              0              1
135195   1/20/2023              0              1
135197    3/4/2022              0              1
135199  11/11/2022              1              0
135200  12/22/2022              1              0

[38961 rows x 3 columns]
