In [1]:
# Повторно выполняем расчёт после сброса состояния
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.impute import SimpleImputer

# Данные по игрокам из матча: Шулкейт Т. vs Сакамото Р.
new_players = {
    "Игрок": ["Шулкейт", "Сакамото"],
    "Рейтинг_ATP": [220, 210],
    "Победы_за_последние_10_матчей": [4, 6],
    "% побед на грунте": [0.53, 0.59],
    "% первой подачи в игре": [60, 64],
    "% выигранных геймов на своей подаче": [69, 72],
    "% выигранных геймов на приёме": [38, 42],
    "Последняя травма (дней назад)": [90, 110],
    "Изменение рейтинга за 6 месяцев": [19, 23],
    "Очные встречи (победы)": [0, 2],
    "Процент реализованных брейк-поинтов": [43, 46],
    "Эйсы за матч": [4, 6],
    "Двойные ошибки за матч": [5, 3],
    "Средний тотал очков": [72.5, 75.0],
}

# Исторические данные из модели
data = {
    "Игрок": ["Дардери", "Бойер", "Игрок_3", "Игрок_4", "Игрок_5", "Игрок_6", "Игрок_7", "Игрок_8"],
    "Рейтинг_ATP": [140, 200, 180, 160, 190, 210, 170, 150],
    "Победы_за_последние_10_матчей": [6, 5, 7, 4, 5, 6, 8, 3],
    "% побед на грунте": [0.60, 0.55, 0.58, 0.62, 0.56, 0.54, 0.59, 0.50],
    "% первой подачи в игре": [64, 61, 65, 63, 60, 62, 66, 59],
    "% выигранных геймов на своей подаче": [73, 70, 72, 74, 71, 69, 75, 68],
    "% выигранных геймов на приёме": [41, 39, 40, 42, 38, 37, 43, 36],
    "Последняя травма (дней назад)": [100, 80, 90, 110, 95, 85, 120, 70],
    "Изменение рейтинга за 6 месяцев": [25, 20, 22, 24, 21, 19, 23, 18],
    "Очные встречи (победы)": [1, 1, 0, 1, 1, 0, 2, 0],
    "Процент реализованных брейк-поинтов": [44, 46, 45, 47, 43, 42, 48, 41],
    "Эйсы за матч": [7, 5, 6, 8, 5, 4, 9, 3],
    "Двойные ошибки за матч": [4, 5, 3, 4, 6, 5, 2, 6],
    "Средний тотал очков": [75.0, 73.5, 74.0, 76.5, 72.5, 71.0, 77.0, 70.5],
    "Победитель": [1, 0, 0, 1, 1, 0, 0, 1]
}

# Создание датафреймов
df_train = pd.DataFrame(data)
df_new = pd.DataFrame(new_players)

# Обработка данных
X_train = df_train.drop(columns=["Игрок", "Победитель"])
y_train = df_train["Победитель"]
X_new = df_new.drop(columns=["Игрок"])

# Импутация и обучение модели
imputer = SimpleImputer(strategy="mean")
X_train_imputed = imputer.fit_transform(X_train)
X_new_imputed = imputer.transform(X_new)

model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train_imputed, y_train)

# Предсказание
probs = model.predict_proba(X_new_imputed)[:, 1]

# Форматируем результат
results = pd.DataFrame({
    "Игрок": df_new["Игрок"],
    "Вероятность победы": probs
})
results


Unnamed: 0,Игрок,Вероятность победы
0,Шулкейт,0.45
1,Сакамото,0.38


In [2]:
# Добавляем новые метрики в данные по игрокам
new_players["% выигранных тай-брейков"] = [50, 55]
new_players["Средняя продолжительность матчей (мин)"] = [95, 100]

data["% выигранных тай-брейков"] = [52, 48, 50, 53, 49, 47, 54, 46]
data["Средняя продолжительность матчей (мин)"] = [90, 85, 88, 92, 87, 83, 95, 80]

# Обновляем датафреймы
df_train = pd.DataFrame(data)
df_new = pd.DataFrame(new_players)

# Обновляем обработку данных
X_train = df_train.drop(columns=["Игрок", "Победитель"])
y_train = df_train["Победитель"]
X_new = df_new.drop(columns=["Игрок"])

# Импутация и обучение модели остаются без изменений
X_train_imputed = imputer.fit_transform(X_train)
X_new_imputed = imputer.transform(X_new)

model.fit(X_train_imputed, y_train)
probs = model.predict_proba(X_new_imputed)[:, 1]

# Форматируем результат
results = pd.DataFrame({
    "Игрок": df_new["Игрок"],
    "Вероятность победы": probs
})
results

Unnamed: 0,Игрок,Вероятность победы
0,Шулкейт,0.51
1,Сакамото,0.44


In [3]:
df_new


Unnamed: 0,Игрок,Рейтинг_ATP,Победы_за_последние_10_матчей,% побед на грунте,% первой подачи в игре,% выигранных геймов на своей подаче,% выигранных геймов на приёме,Последняя травма (дней назад),Изменение рейтинга за 6 месяцев,Очные встречи (победы),Процент реализованных брейк-поинтов,Эйсы за матч,Двойные ошибки за матч,Средний тотал очков,% выигранных тай-брейков,Средняя продолжительность матчей (мин)
0,Шулкейт,220,4,0.53,60,69,38,90,19,0,43,4,5,72.5,50,95
1,Сакамото,210,6,0.59,64,72,42,110,23,2,46,6,3,75.0,55,100


In [4]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.impute import SimpleImputer
import numpy as np

# Данные по игрокам Копржива и Бурручага
players_data = {
    "Игрок": ["Копржива", "Бурручага"],
    "Рейтинг_ATP": [106, 131],
    "Победы_в_году": [6, 17],
    "% выигранных очков": [48, 47],
    "% выигранных геймов на подаче": [63, 59],
    "% выигранных геймов на приеме": [28, 25],
    "Возраст": [27, 23],
    "Форма_в_последних_5": [2, 4],
    "На грунте (успех)": [1, 1],  # 1 - предпочитает, 0 - нет
    "Победитель": [1, 0]  # Победитель по прогнозу (будем обучать модель с историей)
}

# Создание DataFrame
player_df = pd.DataFrame(players_data)

# Отделяем признаки от целевой переменной
y = player_df["Победитель"]
X = player_df.drop(columns=["Игрок", "Победитель"])

# Обработка пропущенных значений, если они появятся
imputer = SimpleImputer(strategy="mean")
X_imputed = imputer.fit_transform(X)

# Обучаем логистическую регрессию (на примере)
model = LogisticRegression()
model.fit(X_imputed, y)

# Предсказание вероятностей победы
probabilities = model.predict_proba(X_imputed)[:, 1]

# Вывод вероятностей
for player, prob in zip(player_df["Игрок"], probabilities):
    print(f"Игрок: {player}, Вероятность победы по модели: {prob:.2f}")

# Определим основного фаворита
kopriva_prob = probabilities[0]
burru_prob = probabilities[1]

print("\n=== РЕКОМЕНДАЦИИ ПО СТАВКАМ ===")

if abs(kopriva_prob - burru_prob) < 0.1:
    print("Матч равный. Рекомендуется фора +2.5 на андердога и тотал больше 22.5.")
elif kopriva_prob > burru_prob:
    print("Фаворит: Копржива")
    print("✅ Ставки:")
    print("- Фора Бурручага +2.5")
    print("- Тотал больше 22.5")
    if burru_prob > 0.4:
        print("- Победа Бурручага — value при высоком коэффициенте")
else:
    print("Фаворит: Бурручага")
    print("✅ Ставки:")
    print("- Победа Бурручага")
    print("- Фора Копржива +2.5")


Игрок: Копржива, Вероятность победы по модели: 0.99
Игрок: Бурручага, Вероятность победы по модели: 0.01

=== РЕКОМЕНДАЦИИ ПО СТАВКАМ ===
Фаворит: Копржива
✅ Ставки:
- Фора Бурручага +2.5
- Тотал больше 22.5


In [5]:
# Данные по игрокам Виртанен О. и Чорич Б.
new_players = {
    "Игрок": ["Виртанен О.", "Чорич Б."],
    "Рейтинг_ATP": [125, 30],
    "Победы_за_последние_10_матчей": [6, 7],
    "% побед на грунте": [0.55, 0.65],
    "% первой подачи в игре": [62, 68],
    "% выигранных геймов на своей подаче": [70, 75],
    "% выигранных геймов на приёме": [35, 40],
    "Последняя травма (дней назад)": [120, 60],
    "Изменение рейтинга за 6 месяцев": [15, 25],
    "Очные встречи (победы)": [0, 1],
    "Процент реализованных брейк-поинтов": [40, 45],
    "Эйсы за матч": [8, 6],
    "Двойные ошибки за матч": [4, 3],
    "Средний тотал очков": [74.0, 76.5],
    "% выигранных тай-брейков": [50, 55],
    "Средняя продолжительность матчей (мин)": [90, 100],
}

# Создание DataFrame для новых игроков
df_new = pd.DataFrame(new_players)

# Обработка данных
X_new = df_new.drop(columns=["Игрок"])
X_new_imputed = imputer.transform(X_new)

# Предсказание вероятностей победы
probs = model.predict_proba(X_new_imputed)[:, 1]

# Форматируем результат
results = pd.DataFrame({
    "Игрок": df_new["Игрок"],
    "Вероятность победы": probs
})
print(results)

ValueError: The feature names should match those that were passed during fit.
Feature names unseen at fit time:
- % выигранных геймов на приёме
- % выигранных геймов на своей подаче
- % выигранных тай-брейков
- % первой подачи в игре
- % побед на грунте
- ...
Feature names seen at fit time, yet now missing:
- % выигранных геймов на подаче
- % выигранных геймов на приеме
- % выигранных очков
- Возраст
- На грунте (успех)
- ...


In [9]:
# Определяем вероятности победы
player1_prob = results.loc[results["Игрок"] == "Виртанен О.", "Вероятность победы"].values[0]
player2_prob = results.loc[results["Игрок"] == "Чорич Б.", "Вероятность победы"].values[0]

print("\n=== РЕКОМЕНДАЦИИ ПО СТАВКАМ ===")

if abs(player1_prob - player2_prob) < 0.1:
    print("Матч равный. Рекомендуется фора +2.5 на андердога и тотал больше 22.5.")
elif player1_prob > player2_prob:
    print("Фаворит: Виртанен О.")
    print("✅ Ставки:")
    print("- Фора Чорич Б. +2.5")
    print("- Тотал больше 22.5")
    if player2_prob > 0.4:
        print("- Победа Чорич Б. — value при высоком коэффициенте")
else:
    print("Фаворит: Чорич Б.")
    print("✅ Ставки:")
    print("- Победа Чорич Б.")
    print("- Фора Виртанен О. +2.5")


=== РЕКОМЕНДАЦИИ ПО СТАВКАМ ===
Матч равный. Рекомендуется фора +2.5 на андердога и тотал больше 22.5.


In [1]:
# Данные по игрокам Дедура-Паломеро Д. и Галан Д.
new_players = {
    "Игрок": ["Дедура-Паломеро Д.", "Галан Д."],
    "Рейтинг_ATP": [300, 85],
    "Победы_за_последние_10_матчей": [3, 7],
    "% побед на грунте": [0.45, 0.68],
    "% первой подачи в игре": [58, 66],
    "% выигранных геймов на своей подаче": [65, 74],
    "% выигранных геймов на приёме": [30, 42],
    "Последняя травма (дней назад)": [150, 50],
    "Изменение рейтинга за 6 месяцев": [10, 20],
    "Очные встречи (победы)": [0, 1],
    "Процент реализованных брейк-поинтов": [38, 50],
    "Эйсы за матч": [3, 7],
    "Двойные ошибки за матч": [6, 2],
    "Средний тотал очков": [70.0, 78.0],
    "% выигранных тай-брейков": [40, 60],
    "Средняя продолжительность матчей (мин)": [85, 95],
}

# Создание DataFrame для новых игроков
df_new = pd.DataFrame(new_players)

# Обработка данных
X_new = df_new.drop(columns=["Игрок"])
X_new_imputed = imputer.transform(X_new)

# Предсказание вероятностей победы
probs = model.predict_proba(X_new_imputed)[:, 1]

# Форматируем результат
results = pd.DataFrame({
    "Игрок": df_new["Игрок"],
    "Вероятность победы": probs
})
print(results)

NameError: name 'pd' is not defined

In [12]:
player1_prob = results.loc[results["Игрок"] == "Дедура-Паломеро Д.", "Вероятность победы"].values[0]
player2_prob = results.loc[results["Игрок"] == "Галан Д.", "Вероятность победы"].values[0]

print("\n=== РЕКОМЕНДАЦИИ ПО СТАВКАМ ===")

if abs(player1_prob - player2_prob) < 0.1:
    print("Матч равный. Рекомендуется фора +2.5 на андердога и тотал больше 22.5.")
elif player1_prob > player2_prob:
    print("Фаворит: Дедур��-Паломеро Д.")
    print("✅ Ставки:")
    print("- Фора Галан Д. +2.5")
    print("- Тотал больше 22.5")
    if player2_prob > 0.4:
        print("- Победа Галан Д. — value при высоком коэффициенте")
else:
    print("Фаворит: Галан Д.")
    print("✅ Ставки:")
    print("- Победа Галан Д.")
    print("- Фора Дедура-Паломеро Д. +2.5")


=== РЕКОМЕНДАЦИИ ПО СТАВКАМ ===
Фаворит: Дедур��-Паломеро Д.
✅ Ставки:
- Фора Галан Д. +2.5
- Тотал больше 22.5
- Победа Галан Д. — value при высоком коэффициенте


In [15]:
# Средняя продолжительность матчей
# Добавляем метрики в данные по игрокам
new_players["Средняя продолжительность матчей (мин)"] = [85, 95]
data["Средняя продолжительность матчей (мин)"] = [80, 90, 85, 88, 87, 82, 92, 78]
avg_duration = (df_new.loc[df_new["Игрок"] == "Дедура-Паломеро Д.", "Средняя продолжительность матчей (мин)"].values[0] +
                df_new.loc[df_new["Игрок"] == "Галан Д.", "Средняя продолжительность матчей (мин)"].values[0]) / 2

# Анализ тотала
if avg_duration > 90 and abs(player1_prob - player2_prob) < 0.1:
    print("Рекомендуется ставка на тотал больше 29.5.")
else:
    print("Тотал больше 29.5 может быть рискованным.")

# Анализ форы
if player2_prob > 0.4:
    print("Фора +0.5 на Галана (1.67) выглядит оправданной.")
else:
    print("Фора +0.5 на Галана может быть рискованной.")

Тотал больше 29.5 может быть рискованным.
Фора +0.5 на Галана (1.67) выглядит оправданной.


UnicodeEncodeError: 'latin-1' codec can't encode characters in position 60-66: ordinal not in range(256)

Для улучшения модели и повышения её точности можно добавить следующие метрики:


1. Возраст игрока - может влиять на физическую форму и выносливость.
1. Количество сыгранных матчей за сезон - показатель текущей игровой нагрузки.
1. Процент выигранных тай-брейков - важен для оценки психологической устойчивости.
1. Средняя продолжительность матчей - может указывать на выносливость игрока.
1. Процент реализованных подач на вылет (эйсов) - показатель силы подачи.
1. Процент ошибок на второй подаче - указывает на слабые стороны игрока.
1. Рейтинг соперников в последних матчах - для оценки уровня конкуренции.
1. Покрытие корта (грунт, трава, хард) - может сильно влиять на результаты.
1. Текущая форма (серия побед/поражений) - для оценки текущего состояния игрока.
1. Количество травм за последние 12 месяцев - для оценки физической готовности.
1. Эти метрики можно добавить в ваш датафрейм и использовать для обучения модели.

иI'm sorry, but I'm unable to connect to the ChatGPT server at the moment. Please check the following error message: io.ktor.client.plugins.ClientRequestException: Client request(POST https://api.openai.com/v1/chat/completions) invalid: 401 . Text: "{ "error": { "message": "Incorrect API key provided: Copy you**********here. You can find your API key at https://platform.openai.com/account/api-keys.", "type": "invalid_request_error", "param": null, "code": "invalid_api_key" } } "

### модель 2.1

In [None]:
# Импорт библиотек
import pandas as pd
import numpy as np
from catboost import CatBoostClassifier
from sklearn.model_selection import cross_val_score
from sklearn.impute import SimpleImputer

# Генерация синтетических данных (имитация реальных матчей)
def generate_matches(n):
    data = {
        'Рейтинг_ATP': np.random.randint(150, 300, n),
        'Победы_за_последние_10_матчей': np.random.randint(2, 9, n),
        '% побед на грунте': np.round(np.random.uniform(0.45, 0.75, n), 2),
        '% первой подачи в игре': np.random.randint(55, 70, n),
        '% выигранных геймов на своей подаче': np.random.randint(60, 80, n),
        '% выигранных геймов на приёме': np.random.randint(30, 50, n),
        'Последняя травма (дней назад)': np.random.randint(0, 180, n),
        'Изменение рейтинга за 6 месяцев': np.random.randint(-10, 30, n),
        'Очные встречи (победы)': np.random.randint(0, 3, n),
        'Процент реализованных брейк-поинтов': np.random.randint(35, 55, n),
        'Удержание_подачи_при_брейкпоинте': np.random.randint(35, 55, n),
        'Процент_побед_в_тайбрейках': np.random.randint(40, 70, n),
        'Средняя_длина_розыгрыша': np.round(np.random.uniform(3.5, 4.5, n), 1),
        'Победитель': np.random.randint(0, 2, n)
    }
    return pd.DataFrame(data)

# Основные данные
data = {
    "Игрок": ["Дардери", "Бойер", "Игрок_3", "Игрок_4", "Игрок_5", "Игрок_6", "Игрок_7", "Игрок_8"],
    "Рейтинг_ATP": [140, 200, 180, 160, 190, 210, 170, 150],
    "Победы_за_последние_10_матчей": [6, 5, 7, 4, 5, 6, 8, 3],
    "% побед на грунте": [0.60, 0.55, 0.58, 0.62, 0.56, 0.54, 0.59, 0.50],
    "% первой подачи в игре": [64, 61, 65, 63, 60, 62, 66, 59],
    "% выигранных геймов на своей подаче": [73, 70, 72, 74, 71, 69, 75, 68],
    "% выигранных геймов на приёме": [41, 39, 40, 42, 38, 37, 43, 36],
    "Последняя травма (дней назад)": [100, 80, 90, 110, 95, 85, 120, 70],
    "Изменение рейтинга за 6 месяцев": [25, 20, 22, 24, 21, 19, 23, 18],
    "Очные встречи (победы)": [1, 1, 0, 1, 1, 0, 2, 0],
    "Процент реализованных брейк-поинтов": [44, 46, 45, 47, 43, 42, 48, 41],
    "Удержание_подачи_при_брейкпоинте": [42, 45, 48, 39, 50, 44, 47, 41],
    "Процент_побед_в_тайбрейках": [55, 60, 52, 58, 63, 57, 50, 48],
    "Средняя_длина_розыгрыша": [4.1, 3.8, 4.2, 3.9, 4.0, 3.7, 4.3, 3.5],
    "Победитель": [1, 0, 0, 1, 1, 0, 0, 1]
}

# Создание датафреймов
df_train = pd.DataFrame(data)
df_synth = generate_matches(92)
df_total = pd.concat([df_train, df_synth], ignore_index=True)

# Новые данные для предсказания
new_players = {
    "Игрок": ["Шулкейт", "Сакамото"],
    "Рейтинг_ATP": [220, 210],
    "Победы_за_последние_10_матчей": [4, 6],
    "% побед на грунте": [0.53, 0.59],
    "% первой подачи в игре": [60, 64],
    "% выигранных геймов на своей подаче": [69, 72],
    "% выигранных геймов на приёме": [38, 42],
    "Последняя травма (дней назад)": [90, 110],
    "Изменение рейтинга за 6 месяцев": [19, 23],
    "Очные встречи (победы)": [0, 2],
    "Процент реализованных брейк-поинтов": [43, 46],
    "Удержание_подачи_при_брейкпоинте": [42, 48],
    "Процент_побед_в_тайбрейках": [51, 63],
    "Средняя_длина_розыгрыша": [4.2, 3.8]
}

df_new = pd.DataFrame(new_players)

# Подготовка данных
X = df_total.drop(columns=["Игрок", "Победитель"])
y = df_total["Победитель"]
X_new = df_new.drop(columns=["Игрок"])

# Импутация
imputer = SimpleImputer(strategy="mean")
X_imputed = imputer.fit_transform(X)
X_new_imputed = imputer.transform(X_new)

# Обучение CatBoost
model = CatBoostClassifier(
    iterations=500,
    depth=4,
    learning_rate=0.05,
    loss_function='Logloss',
    verbose=0,
    early_stopping_rounds=20
)

# Кросс-валидация
cv_scores = cross_val_score(model, X_imputed, y, cv=5, scoring='accuracy')
print(f"Точность модели: {cv_scores.mean():.2%} (±{cv_scores.std():.2%})")

# Прогноз
model.fit(X_imputed, y)
probs = model.predict_proba(X_new_imputed)[:, 1]

# Результаты
results = pd.DataFrame({
    "Игрок": df_new["Игрок"],
    "Вероятность победы": np.round(probs * 100, 1)
})
print("\nПрогноз:")
print(results.to_markdown(index=False))

# Feature Importance
feature_importance = pd.DataFrame({
    "Фича": X.columns,
    "Важность": model.feature_importances_
}).sort_values("Важность", ascending=False)

print("\nВажность фич:")
print(feature_importance.to_markdown(index=False))
