# Chương trình dự đoán kết quả xổ số

## 1.Khai báo các thư viện cần thiết để train model

In [23]:
import numpy as np
import pandas as pd
from sklearn.metrics import r2_score
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.preprocessing import PolynomialFeatures
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import train_test_split

## 2. Nhập dữ liệu

In [24]:
dataset = pd.read_csv('data.csv')
X = dataset.iloc[2:, 1:].values
y = dataset.iloc[1: -1, 1:].values

## 3. Phân chia dữ liệu thành hai tập
#### -Tập huấn luyện 
#### -Tập kiểm tra 

In [25]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

## Huấn luyện mô hình Linear Regression

In [26]:
linear_model = LinearRegression()
linear_model.fit(X_train, y_train)

## Huấn luyện mô hình Polynominal Regression

In [27]:
poly_reg = PolynomialFeatures(degree = 2)
X_poly = poly_reg.fit_transform(X_train)
poly_model = LinearRegression()
poly_model.fit(X_poly, y_train)

## Huấn luyện mô hình Decision Tree

In [28]:
dt_model = DecisionTreeRegressor(random_state = 0)
dt_model.fit(X_train, y_train)

## Huấn luyện mô hình Random Forest

In [29]:
rf_model = RandomForestRegressor(n_estimators=1000, random_state=0)
rf_model.fit(X_train, y_train)

## Lấy dữ liệu kết quả ngày hôm qua và ngày hôm nay

In [60]:
yesterday = dataset.iloc[1:2, 1:].values
today = dataset.iloc[:1, 1:].values

## Cho các mô hình dự đoán kết quả xổ số hôm nay

In [61]:
prediction1 = linear_model.predict(yesterday)
prediction2 = poly_model.predict(poly_reg.fit_transform(yesterday))
prediction3 = dt_model.predict(yesterday)
prediction4 = rf_model.predict(yesterday)

## Làm tròn lại các số

In [63]:
prediction1 = np.round(prediction1, 0)
prediction2 = np.round(prediction2, 0)
prediction3 = np.round(prediction3, 0)
prediction4 = np.round(prediction4, 0)

## Đưa ra kết quả dự đoán

In [64]:
print(prediction1[0])
print(prediction2[0])
print(prediction3[0])
print(prediction4[0])

[ 3.  6. 10. 13. 17. 21. 25. 29. 33. 36. 40. 44. 48. 52. 55. 58. 62. 65.
 68. 72. 75. 79. 82. 86. 89. 93. 96.]
[ 4.  6. 11. 15. 20. 22. 24. 29. 32. 33. 39. 46. 50. 53. 55. 57. 61. 65.
 67. 73. 75. 78. 83. 89. 90. 91. 95.]
[ 1.  1.  3. 14. 15. 16. 16. 21. 43. 44. 48. 50. 51. 54. 56. 61. 62. 64.
 65. 68. 80. 80. 83. 84. 93. 95. 96.]
[ 4.  7. 11. 14. 18. 21. 25. 29. 34. 38. 41. 46. 50. 53. 57. 61. 64. 67.
 71. 74. 77. 81. 84. 87. 90. 93. 96.]


## Kết quả xổ số hôm nay

In [49]:
print(today[0])

[ 8 10 21 23 36 38 40 47 49 53 55 60 60 62 64 65 72 73 78 82 85 86 89 89
 93 95 99]


## So sánh với kết quả xổ số hôm nay

In [69]:
cnt1 = 0
cnt2 = 0
cnt3 = 0
cnt4 = 0
for ind in range(0, 27):
    if prediction1[0][ind] in today:
        cnt1 += 1
    if prediction2[0][ind] in today:
        cnt2 += 1
    if prediction3[0][ind] in today:
        cnt3 += 1
    if prediction4[0][ind] in today:
        cnt4 += 1
print(f"Mô hình Linear Regression dự đoán đúng {cnt1}/27 số")
print(f"Mô hình Polynominal Regression dự đoán đúng {cnt2}/27 số")
print(f"Mô hình Decision Tree Regression dự đoán đúng {cnt3}/27 số")
print(f"Mô hình Random Forest Regression dự đoán đúng {cnt4}/27 số")

Mô hình Linear Regression dự đoán đúng 12/27 số
Mô hình Polynominal Regression dự đoán đúng 7/27 số
Mô hình Decision Tree Regression dự đoán đúng 6/27 số
Mô hình Random Forest Regression dự đoán đúng 5/27 số


## Cho các model dự đoán kết quả của tập X_test

In [70]:
y_pred1 = linear_model.predict(X_test)
y_pred2 = poly_model.predict(poly_reg.fit_transform(X_test))
y_pred3 = dt_model.predict(X_test)
y_pred4 = rf_model.predict(X_test)

In [71]:
print(r2_score(y_test, y_pred1))
print(r2_score(y_test, y_pred2))
print(r2_score(y_test, y_pred3))
print(r2_score(y_test, y_pred4))

-0.004333160991357256
-0.12596333737436274
-1.2377279008675302
-0.020945049257623652


R2 score là một chỉ số dùng để đánh giá mức độ phù hợp của mô hình với dữ liệu. R2 cho biết phần trăm biến thiên trong biến mục tiêu (y) có thể được giải thích bởi các biến đầu vào (X) trong mô hình. Ở đây chúng ta thấy R2 score ở cả 4 mô hình đều bé hơn 0. Điều này có nghĩa là các mô hình khó có thể dự đoán được kết quả xổ số dựa trên thông tin của những ngày trước.