In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

In [2]:
#створимо модель логістичної регресії

# Завантаження великого датасету з результатами ігор
matches_data = pd.read_csv('final_df_2019_2023.csv') 

# Визначення залежної та незалежних змінних для home
home_dependent_variable = 'HomeWin' 
home_independent_variables = ['FTHG', 'HS', 'HST', 'AR', 'HomeTeam_Elo_Rating', 'AwayTeam_Elo_Rating']

X_home = matches_data[home_independent_variables]
y_home = matches_data[home_dependent_variable]

X_home_train, X_home_test, y_home_train, y_home_test = train_test_split(X_home, y_home, test_size=0.2, random_state=42)

# Визначення залежної та незалежних змінних для нічиєї
draw_dependent_variable = 'Draw'
draw_independent_variables = ['FTHG', 'HS', 'HST', 'AR', 'HomeTeam_Elo_Rating', 'AwayTeam_Elo_Rating', 'FTAG', 'AS', 'AST', 'HR']

X_draw = matches_data[draw_independent_variables]
y_draw = matches_data[draw_dependent_variable]

# Розділення даних на навчальний і тестовий набори для нічиєї
X_draw_train, X_draw_test, y_draw_train, y_draw_test = train_test_split(X_draw, y_draw, test_size=0.2, random_state=42)

# Визначення залежної та незалежних змінних для перемоги гостьової команди
away_win_dependent_variable = 'AwayWin'
away_win_independent_variables = ['HomeTeam_Elo_Rating', 'AwayTeam_Elo_Rating', 'FTAG', 'AS', 'AST', 'HR']

X_away_win = matches_data[away_win_independent_variables]
y_away_win = matches_data[away_win_dependent_variable]

# Розділення даних на навчальний і тестовий набори для перемоги гостьової команди
X_away_win_train, X_away_win_test, y_away_win_train, y_away_win_test = train_test_split(X_away_win, y_away_win, test_size=0.2, random_state=42)

# Стандартизація даних для home win
scaler_home = StandardScaler()
X_home_train = scaler_home.fit_transform(X_home_train)
X_home_test = scaler_home.transform(X_home_test)

# Стандартизація даних для нічиєї
scaler_draw = StandardScaler()
X_draw_train = scaler_draw.fit_transform(X_draw_train)
X_draw_test = scaler_draw.transform(X_draw_test)

# Стандартизація даних для перемоги гостьової команди
scaler_away_win = StandardScaler()
X_away_win_train = scaler_away_win.fit_transform(X_away_win_train)
X_away_win_test = scaler_away_win.transform(X_away_win_test)

# Побудова та навчання моделі логістичної регресії home
model_home = LogisticRegression()
model_home.fit(X_home_train, y_home_train)

# Побудова та навчання моделі логістичної регресії для нічиєї
model_draw = LogisticRegression()
model_draw.fit(X_draw_train, y_draw_train)

# Побудова та навчання моделі логістичної регресії для перемоги гостьової команди
model_away_win = LogisticRegression()
model_away_win.fit(X_away_win_train, y_away_win_train)

# Прогнозування результатів home
y_home_pred = model_home.predict(X_home_test)

# Прогнозування результатів для нічиєї
y_draw_pred = model_draw.predict(X_draw_test)

# Прогнозування результатів для перемоги гостьової команди
y_away_win_pred = model_away_win.predict(X_away_win_test)

# Оцінка моделей
accuracy_home = accuracy_score(y_home_test, y_home_pred)
accuracy_draw = accuracy_score(y_draw_test, y_draw_pred)
accuracy_away_win = accuracy_score(y_away_win_test, y_away_win_pred)

conf_matrix_home = confusion_matrix(y_home_test, y_home_pred)
conf_matrix_draw = confusion_matrix(y_draw_test, y_draw_pred)
conf_matrix_away_win = confusion_matrix(y_away_win_test, y_away_win_pred)

class_report_home = classification_report(y_home_test, y_home_pred)
class_report_draw = classification_report(y_draw_test, y_draw_pred)
class_report_away_win = classification_report(y_away_win_test, y_away_win_pred)

print("Metrics for Home win:")
print(f'Accuracy: {accuracy_home}')
print(f'Confusion Matrix:\n{conf_matrix_home}')
print(f'Classification Report:\n{class_report_home}')

print("Metrics for Draw:")
print(f'Accuracy: {accuracy_draw}')
print(f'Confusion Matrix:\n{conf_matrix_draw}')
print(f'Classification Report:\n{class_report_draw}')

print("\nMetrics for AwayWin:")
print(f'Accuracy: {accuracy_away_win}')
print(f'Confusion Matrix:\n{conf_matrix_away_win}')
print(f'Classification Report:\n{class_report_away_win}')

Metrics for Home win:
Accuracy: 0.8256578947368421
Confusion Matrix:
[[150  21]
 [ 32 101]]
Classification Report:
              precision    recall  f1-score   support

           0       0.82      0.88      0.85       171
           1       0.83      0.76      0.79       133

    accuracy                           0.83       304
   macro avg       0.83      0.82      0.82       304
weighted avg       0.83      0.83      0.82       304

Metrics for Draw:
Accuracy: 0.7828947368421053
Confusion Matrix:
[[236   1]
 [ 65   2]]
Classification Report:
              precision    recall  f1-score   support

           0       0.78      1.00      0.88       237
           1       0.67      0.03      0.06        67

    accuracy                           0.78       304
   macro avg       0.73      0.51      0.47       304
weighted avg       0.76      0.78      0.70       304


Metrics for AwayWin:
Accuracy: 0.8322368421052632
Confusion Matrix:
[[182  18]
 [ 33  71]]
Classification Report:
     

In [5]:
# Показники для команд
team1_data = np.array([1.298246, 11.070175, 4.385965, 0.105263, 1459.519284, 1493.953359])
team2_data = np.array([1.223684, 11.960526, 4.605263, 0.118421, 1493.953359, 1459.519284])

# Стандартизація даних 
team1_data_scaled = scaler_home.transform(team1_data.reshape(1, -1))
team2_data_scaled = scaler_home.transform(team2_data.reshape(1, -1))

# Передбачення результату гри для home win 
result_home = model_home.predict_proba(team1_data_scaled - team2_data_scaled)[:, 1]


# Передбачення результату гри для перемоги гостьової команди 
result_away_win = model_away_win.predict_proba(team1_data_scaled - team2_data_scaled)[:, 1]


print("Predicted Probability for Home Win:", result_home[0])

print("Predicted Probability for Away Win:", result_away_win[0])

Predicted Probability for Home Win: 0.31477100391342927
Predicted Probability for Away Win: 0.21348073150880031




In [6]:
team1_data = np.array([1.298246, 11.070175, 4.385965, 0.105263, 1459.519284, 1493.953359, 1.223684, 11.960526, 4.605263, 0.118421])
team2_data = np.array([1.223684, 11.960526, 4.605263, 0.118421, 1493.953359, 1459.519284, 1.298246, 11.070175, 4.385965, 0.105263])

# Створюэмо окремий масив для нічиєї
draw_data = np.array([team1_data[i] - team2_data[i] for i in range(len(team1_data))])

# Стандартизація даних 
draw_data_scaled = scaler_draw.transform(draw_data.reshape(1, -1))

# Передбачення результату гри для нічиєї 
result_draw = model_draw.predict_proba(draw_data_scaled)[:, 1]

print("Predicted Probability for Draw:", result_draw[0])

Predicted Probability for Draw: 0.901504408550424


