In [None]:
import pandas as pd
from scipy.stats import ks_2samp

matches = []
for year in range(1980, 2023):
    matches.append(pd.read_csv(f'C:/Users/tinew/Desktop/tennis_atp-master/atp_matches_{year}.csv')['match_num'])

# Объединяем данные о количестве матчей за все годы
all_matches = pd.concat(matches)

# Проводим тест на однородность Колмогорова-Смирнова для всей выборки
# Этот тест проверяет, являются ли выборки из одного и того же непрерывного распределения.
# Нулевая гипотеза (H0): Распределения выборок идентичны.
# Ссылка на документацию: https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ks_2samp.html

statistic, p_value = ks_2samp(all_matches, all_matches)

# Отображаем результаты
print("Statistic:", statistic)
print("P-value:", p_value)

#Statistic: 0.0
#P-value: 1.0
#P-значение равно 1.0, что означает, что у нас нет достаточных доказательств для отвержения нулевой гипотезы. Нулевая гипотеза гласит, что распределения выборок идентичны. Таким образом, наши данные не предоставляют достаточных доказательств для того, чтобы утверждать, что распределения количества матчей за все годы отличаются.

In [None]:
# Для проверки утверждения А

import pandas as pd
import statsmodels.stats.proportion as sm

# Загрузка данных за все года
all_matches = pd.concat([pd.read_csv(f'C:/Users/tinew/Desktop/tennis_atp-master/atp_matches_{year}.csv') for year in range(1980, 2023)])

# Выборки побед с разницей в ранге более 20 позиций и менее или равно 20 позиций
higher_rank_wins = all_matches[(all_matches['winner_rank'] - all_matches['loser_rank']) > 20]
lower_rank_wins = all_matches[(all_matches['winner_rank'] - all_matches['loser_rank']) <= 20]

# Вычисление количества побед в каждой выборке
n_higher_rank_wins = len(higher_rank_wins)
n_lower_rank_wins = len(lower_rank_wins)

# Вычисление общего количества матчей в каждой выборке
n_higher_rank_matches = len(all_matches)
n_lower_rank_matches = len(all_matches)

# Выполнение Z-теста для двух пропорций
stat, p_value = sm.proportions_ztest([n_higher_rank_wins, n_lower_rank_wins],
                                     [n_higher_rank_matches, n_lower_rank_matches])

# Вывод результатов
print(f"Статистика теста: {stat}")
print(f"P-значение: {p_value}")
print("Нулевая гипотеза: Доли побед игроков с разницей в ранге более 20 позиций и менее или равно 20 позиций равны.")
print("Документация: https://www.statsmodels.org/stable/generated/statsmodels.stats.proportion.proportions_ztest.html")





"""
Статистика теста: -257.6201961582855
P-значение: 0.0
Нулевая гипотеза: Доли побед игроков с разницей в ранге более 20 позиций и менее или равно 20 позиций равны.
Документация: https://www.statsmodels.org/stable/generated/statsmodels.stats.proportion.proportions_ztest.html




На основании результатов Z-теста для двух пропорций мы можем сделать вывод о статистической значимости различия между долями побед игроков с разницей в ранге более 20 позиций и 
менее или равно 20 позиций.

Статистика теста (stat) имеет отрицательное значение, что указывает на то, что доля побед игроков с разницей в ранге более 20 позиций меньше, чем доля побед игроков с 
разницей в ранге менее или равно 20 позиций.

P-значение (p_value) равно 0.0, что говорит о том, что нулевая гипотеза (доли побед в обеих группах равны) 
отвергается на уровне значимости α = 0.05 (или любом другом обычно используемом уровне значимости), и различие между долями побед является статистически значимым.

Таким образом, на основе этого теста можно подтвердить утверждение (а): если ранг игрока выше более, чем на 20 позиций, то в среднем он будет выигрывать с большей вероятностью.

"""

In [None]:
# Для проверки утверждения Б

import pandas as pd
import statsmodels.stats.proportion as sm

# Загрузка данных за все года
all_matches = pd.concat([pd.read_csv(f'C:/Users/tinew/Desktop/tennis_atp-master/atp_matches_{year}.csv') for year in range(1980, 2023)])

# Выборки побед с разницей в ранге в окне +-5 позиций
close_rank_wins = all_matches[abs(all_matches['winner_rank'] - all_matches['loser_rank']) <= 5]

# Выборки побед, где разница в ранге более 20 позиций и менее или равно 20 позиций
other_wins = all_matches[(all_matches['winner_rank'] - all_matches['loser_rank']) > 20]

# Вычисление количества побед в каждой выборке
n_close_rank_wins = len(close_rank_wins)
n_other_wins = len(other_wins)

# Вычисление общего количества матчей в каждой выборке
n_close_rank_matches = len(all_matches)
n_other_matches = len(all_matches)

# Выполнение Z-теста для двух пропорций
stat, p_value = sm.proportions_ztest([n_close_rank_wins, n_other_wins],
                                     [n_close_rank_matches, n_other_matches])

# Вывод результатов
print(f"Статистика теста: {stat}")
print(f"P-значение: {p_value}")
print("Нулевая гипотеза: Доли побед игроков с разницей в ранге в окне +-5 позиций и в других группах равны.")
print("Документация: https://www.statsmodels.org/stable/generated/statsmodels.stats.proportion.proportions_ztest.html")


"""
Статистика теста: -116.10396661969716
P-значение: 0.0
Нулевая гипотеза: Доли побед игроков с разницей в ранге в окне +-5 позиций и в других группах равны.
Документация: https://www.statsmodels.org/stable/generated/statsmodels.stats.proportion.proportions_ztest.html





На основании результатов Z-теста для двух пропорций мы можем сделать вывод о статистической значимости различия между долями побед игроков с разницей в ранге в окне +-5 позиций и в других группах.

Статистика теста (stat) имеет отрицательное значение, что может указывать на то, что доля побед игроков с разницей в ранге в окне +-5 позиций меньше, чем доля побед в других группах.

P-значение (p_value) равно 0.0, что говорит о том, что нулевая гипотеза (доли побед в обеих группах равны) отвергается на уровне значимости α = 0.05 
(или любом другом обычно используемом уровне значимости), 
и различие между долями побед является статистически значимым.

Таким образом, на основе этого теста можно подтвердить утверждение (б): если ранг игрока находится в окне +-5 позиций, то вероятность победы будет значительно 
отличаться от гипотезы из предыдущего случая.



"""


In [None]:
import pandas as pd
from scipy.stats import mannwhitneyu

# Функция загрузки и предварительной обработки данных для указанного диапазона лет
def load_and_preprocess_data(start_year, end_year):
    dataframes = []
    for year in range(start_year, end_year + 1):
        file_path = f'C:/Users/tinew/Desktop/tennis_atp-master/atp_matches_{year}.csv'
        df = pd.read_csv(file_path)
        dataframes.append(df)
    combined_df = pd.concat(dataframes, ignore_index=True)
    return combined_df

# Функция выполнения теста Манна-Уитни на столбце 'best_of'
def perform_mann_whitney_u_test(df1, df2):
    # Проверяем наличие столбца 'best_of' в обоих наборах данных
    if 'best_of' in df1.columns and 'best_of' in df2.columns:
        # Удаляем строки с отсутствующими значениями 'best_of' в обоих наборах данных
        df1_clean = df1.dropna(subset=['best_of'])
        df2_clean = df2.dropna(subset=['best_of'])
        
        # Проверяем, содержит ли столбец 'best_of' хотя бы одно ненулевое значение в обоих наборах данных
        if not df1_clean['best_of'].empty and not df2_clean['best_of'].empty:
            # Выполняем тест Манна-Уитни
            statistic, p_value = mannwhitneyu(df1_clean['best_of'], df2_clean['best_of'])
            return statistic, p_value
        else:
            print("Один из наборов данных не содержит ненулевых значений в столбце 'best_of' после удаления пропусков.")
            return None, None
    else:
        print("Столбец 'best_of' отсутствует в одном или обоих наборах данных.")
        return None, None

# Загрузка данных за периоды 1980-2001 и 2002-2022
df_1980_2001 = load_and_preprocess_data(1980, 2001)
df_2002_2022 = load_and_preprocess_data(2002, 2022)

# Выполнение теста Манна-Уитни
statistic, p_value = perform_mann_whitney_u_test(df_1980_2001, df_2002_2022)

# Вывод результатов
if statistic is not None and p_value is not None:
    print(f"Статистика теста: {statistic}")
    print(f"P-значение: {p_value}")
    
    # Проверка p-значения
    alpha = 0.05
    if p_value < alpha:
        print("Отвергаем нулевую гипотезу. Существует статистически значимое различие в среднем количестве сетов между 1980-2001 и 2002-2022 гг.")
    else:
        print("Не отвергаем нулевую гипотезу. Не существует статистически значимого различия в среднем количестве сетов между 1980-2001 и 2002-2022 гг.")



#Статистика теста: 2420897898.5
#P-значение: 3.4007755934932803e-35
#Отвергаем нулевую гипотезу. Существует статистически значимое различие в среднем количестве сетов между 1980-2001 и 2002-2022 гг.

#Полученные результаты показывают, что существует статистически значимое различие в среднем количестве сетов между периодами 1980-2001 и 2002-2022 годов. Это подтверждает, 
#что среднее количество сетов, необходимое для победы в матче, изменилось со временем.

#Использованный статистический тест - Mann-Whitney U test (также известный как Wilcoxon rank-sum test) - проверяет нулевую гипотезу о том, что две независимые выборки взяты из популяций с одинаковыми распределениями (источник: https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.mannwhitneyu.html).

In [None]:
import pandas as pd
from scipy.stats import ttest_ind

def load_and_preprocess_data(start_year, end_year):
    dataframes = []
    for year in range(start_year, end_year + 1):
        file_path = f'C:/Users/tinew/Desktop/tennis_atp-master/atp_matches_{year}.csv'
        df = pd.read_csv(file_path)
        dataframes.append(df)
    combined_df = pd.concat(dataframes, ignore_index=True)
    return combined_df

# Загрузка данных за периоды 1980-2001 и 2002-2022
df_1980_2001 = load_and_preprocess_data(1980, 2001)
df_2002_2022 = load_and_preprocess_data(2002, 2022)

# Преобразуем столбец 'tourney_date' в тип данных datetime
df_1980_2001['tourney_date'] = pd.to_datetime(df_1980_2001['tourney_date'])
df_2002_2022['tourney_date'] = pd.to_datetime(df_2002_2022['tourney_date'])

# Фильтрация данных: оставляем только матчи best of 5 для обоих периодов
matches_1980_2001_bo5 = df_1980_2001[(df_1980_2001['best_of'] == 5)]
matches_2002_2022_bo5 = df_2002_2022[(df_2002_2022['best_of'] == 5)]

# Вычисление среднего количества сетов в каждой группе
mean_sets_1980_2001_bo5 = matches_1980_2001_bo5['best_of'].mean()
mean_sets_2002_2022_bo5 = matches_2002_2022_bo5['best_of'].mean()

# Применение t-теста для проверки статистической значимости различия между средними
statistic, p_value = ttest_ind(matches_1980_2001_bo5['best_of'], matches_2002_2022_bo5['best_of'])

# Вывод результатов
print(f"Среднее количество сетов (1980-2001, best of 5): {mean_sets_1980_2001_bo5}")
print(f"Среднее количество сетов (2002-2022, best of 5): {mean_sets_2002_2022_bo5}")
print(f"Статистика теста: {statistic}")
print(f"P-значение: {p_value}")

# Проверка на статистическую значимость
alpha = 0.05
if p_value < alpha:
    print("Разница в среднем количестве сетов между 1980-2001 и 2002-2022 гг. для матчей best of 5 является статистически значимой.")
else:
    print("Разница в среднем количестве сетов между 1980-2001 и 2002-2022 гг. для матчей best of 5 не является статистически значимой.")


"""
Среднее количество сетов (1980-2001, best of 5): 5.0
Среднее количество сетов (2002-2022, best of 5): 5.0
Статистика теста: nan
P-значение: nan
Разница в среднем количестве сетов между 1980-2001 и 2002-2022 гг. для матчей best of 5 не является статистически значимой.


Полученное сообщение о предупреждении и потере точности может указывать на то, что в данных присутствует недостаточно разнообразие для проведения анализа. В данном случае, 
оба периода (1980-2001 и 2002-2022) имеют одинаковое среднее количество сетов для матчей типа "best of 5" - 5 сетов, что может быть причиной невозможности проведения t-теста и 
вызывает возникновение предупреждения о потере точности.

С учетом того, что среднее количество сетов одинаково для обоих периодов, разница между ними не является статистически значимой для матчей "best of 5"

"""

In [None]:

import pandas as pd
from scipy.stats import ks_2samp, mannwhitneyu

# Загрузка данных о матчах для каждого игрока
def load_matches_data(player_name, start_year, end_year):
    dataframes = []
    for year in range(start_year, end_year + 1):
        file_path = f'C:/Users/tinew/Desktop/tennis_atp-master/atp_matches_{year}.csv'
        df = pd.read_csv(file_path)
        player_matches = df[(df['winner_name'] == player_name) | (df['loser_name'] == player_name)]
        dataframes.append(player_matches)
    combined_df = pd.concat(dataframes, ignore_index=True)
    return combined_df

# Вычисление доли выигранных брейк-поинтов
def calculate_bp_win_ratio(matches_df, player_name):
    win_matches = matches_df[matches_df['winner_name'] == player_name]
    lose_matches = matches_df[matches_df['loser_name'] == player_name]
    
    win_bp_faced = win_matches['w_bpFaced'].sum()
    win_bp_saved = win_matches['w_bpSaved'].sum()
    lose_bp_faced = lose_matches['l_bpFaced'].sum()
    lose_bp_saved = lose_matches['l_bpSaved'].sum()
    
    total_win_bp = win_bp_faced + lose_bp_faced
    total_win_bp_saved = win_bp_saved + lose_bp_saved
    
    win_ratio = total_win_bp_saved / total_win_bp
    return win_ratio

# Выбираем трех игроков
players = ['Roger Federer', 'Rafael Nadal', 'Novak Djokovic']
start_year = 2012
end_year = 2022

# Загрузка данных и расчет доли выигранных брейк-поинтов для каждого игрока
player_data = {}
for player in players:
    matches_df = load_matches_data(player, start_year, end_year)
    win_ratio = calculate_bp_win_ratio(matches_df, player)
    player_data[player] = win_ratio

# Вывод результатов
for player, win_ratio in player_data.items():
    print(f"Доля выигранных брейк-поинтов для {player}: {win_ratio}")

# Функция для проверки независимости распределений с помощью теста Колмогорова-Смирнова
def test_independence(data1, data2):
    statistic, p_value = ks_2samp(data1, data2)
    return p_value < 0.05

# Функция для сравнения статистики между игроками попарно с помощью теста Манна-Уитни
def compare_players(player1_data, player2_data):
    statistic, p_value = mannwhitneyu(player1_data, player2_data, alternative='two-sided')
    return p_value < 0.05

# Проверка независимости распределений по годам для каждого игрока
for i in range(len(players)):
    for j in range(i+1, len(players)):
        player1 = players[i]
        player2 = players[j]
        data1 = player_data[player1]
        data2 = player_data[player2]
        independent = test_independence(data1, data2)
        print(f"Независимость распределений доли выигранных брейк-поинтов между {player1} и {player2}: {independent}")

# Сравнение статистики между игроками попарно
for i in range(len(players)):
    for j in range(i+1, len(players)):
        player1 = players[i]
        player2 = players[j]
        data1 = player_data[player1]
        data2 = player_data[player2]
        significant_diff = compare_players(data1, data2)
        print(f"Разница в средних доли выигранных брейк-поинтов между {player1} и {player2}: {significant_diff}")


#Доля выигранных брейк-поинтов для Roger Federer: 0.6827956989247311
#Доля выигранных брейк-поинтов для Rafael Nadal: 0.6676226896112173
#Доля выигранных брейк-поинтов для Novak Djokovic: 0.6571428571428571
#Независимость распределений доли выигранных брейк-поинтов между Roger Federer и Rafael Nadal: False
#Независимость распределений доли выигранных брейк-поинтов между Roger Federer и Novak Djokovic: False
#Независимость распределений доли выигранных брейк-поинтов между Rafael Nadal и Novak Djokovic: False
#Разница в средних доли выигранных брейк-поинтов между Roger Federer и Rafael Nadal: False
#Разница в средних доли выигранных брейк-поинтов между Roger Federer и Novak Djokovic: False
#Разница в средних доли выигранных брейк-поинтов между Rafael Nadal и Novak Djokovic: False
"""
   Исходя из результатов:

    Доля выигранных брейк-поинтов для Roger Federer составляет примерно 68.28%.
    Доля выигранных брейк-поинтов для Rafael Nadal составляет примерно 66.76%.
    Доля выигранных брейк-поинтов для Novak Djokovic составляет примерно 65.71%.

Тест Колмогорова-Смирнова показал, что независимость распределений доли выигранных брейк-поинтов между каждой парой игроков (Roger Federer vs Rafael Nadal, Roger Federer vs Novak Djokovic, Rafael Nadal vs Novak Djokovic) не подтверждается при выбранном уровне значимости 0.05.

Тест Манна-Уитни также показал, что нет статистически значимой разницы в средних долях выигранных брейк-поинтов между каждой парой игроков.

Эти результаты говорят о том, что нет статистически значимой разницы в долях выигранных брейк-поинтов между этими тремя игроками.

"""

#постороение графика 
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

# Загрузка данных о матчах для каждого игрока
def load_matches_data(player_name, start_year, end_year):
    dataframes = []
    for year in range(start_year, end_year + 1):
        file_path = f'C:/Users/tinew/Desktop/tennis_atp-master/atp_matches_{year}.csv'
        df = pd.read_csv(file_path)
        player_matches = df[(df['winner_name'] == player_name) | (df['loser_name'] == player_name)]
        dataframes.append(player_matches)
    combined_df = pd.concat(dataframes, ignore_index=True)
    return combined_df

# Вычисление доли выигранных брейк-поинтов для каждого игрока
def calculate_bp_win_ratio(matches_df, player_name):
    win_matches = matches_df[matches_df['winner_name'] == player_name]
    lose_matches = matches_df[matches_df['loser_name'] == player_name]
    
    win_bp_faced = win_matches['w_bpFaced'].sum()
    win_bp_saved = win_matches['w_bpSaved'].sum()
    lose_bp_faced = lose_matches['l_bpFaced'].sum()
    lose_bp_saved = lose_matches['l_bpSaved'].sum()
    
    total_win_bp = win_bp_faced + lose_bp_faced
    total_win_bp_saved = win_bp_saved + lose_bp_saved
    
    win_ratio = total_win_bp_saved / total_win_bp
    return win_ratio

# Выбор трех игроков
players = ['Roger Federer', 'Rafael Nadal', 'Novak Djokovic']
start_year = 2012
end_year = 2022

# Загрузка данных и расчет доли выигранных брейк-поинтов для каждого игрока
player_data = {}
for player in players:
    matches_df = load_matches_data(player, start_year, end_year)
    win_ratio = calculate_bp_win_ratio(matches_df, player)
    player_data[player] = win_ratio

# Создание датафрейма с данными для построения boxplot'ов
boxplot_data = pd.DataFrame(player_data, index=['Win Ratio'])

# Транспонирование датафрейма для удобства построения boxplot'ов
boxplot_data = boxplot_data.T

# Построение boxplot'ов
plt.figure(figsize=(10, 6))
sns.boxplot(x=boxplot_data.index, y='Win Ratio', data=boxplot_data, palette='Set2')
plt.title('Доля выигранных брейк-поинтов для победных и проигранных матчей')
plt.xlabel('Игрок')
plt.ylabel('Доля выигранных брейк-поинтов')
plt.xticks(rotation=45)
plt.grid(True)
plt.show()

In [None]:
import pandas as pd
from scipy.stats import chi2_contingency

# Загрузка данных о матчах
def load_matches_data(start_year, end_year):
    dataframes = []
    for year in range(start_year, end_year + 1):
        file_path = f'C:/Users/tinew/Desktop/tennis_atp-master/atp_matches_{year}.csv'
        df = pd.read_csv(file_path)
        dataframes.append(df)
    combined_df = pd.concat(dataframes, ignore_index=True)
    return combined_df

# Вычисление доли выигранных брейк-поинтов
def calculate_bp_win_ratio(matches_df):
    bp_win_ratios = []
    match_results = []

    for _, row in matches_df.iterrows():
        if row['w_bpFaced'] == 0 or row['l_bpFaced'] == 0:
            continue
        
        if row['winner_name'] == row['winner_name']:
            bp_win_ratio = row['w_bpSaved'] / row['w_bpFaced']
            match_result = 'win'
        else:
            bp_win_ratio = row['l_bpSaved'] / row['l_bpFaced']
            match_result = 'lose'
        
        bp_win_ratios.append(bp_win_ratio)
        match_results.append(match_result)
    
    return bp_win_ratios, match_results

# Загрузка данных о матчах за определенный период
start_year = 2012
end_year = 2022
matches_df = load_matches_data(start_year, end_year)

# Вычисление доли выигранных брейк-поинтов и результатов матчей
bp_win_ratios, match_results = calculate_bp_win_ratio(matches_df)

# Разделение доли выигранных брейк-поинтов на группы выше/ниже медианы
median_bp_win_ratio = pd.Series(bp_win_ratios).median()
above_median_bp_win_ratio = [1 if ratio > median_bp_win_ratio else 0 for ratio in bp_win_ratios]

# Проверка зависимости между количеством выигранных брейкпоинтов и результатом матча
contingency_table = pd.crosstab(pd.Series(match_results, name='Match Result'), 
                                pd.Series(above_median_bp_win_ratio, name='Above Median BP Win Ratio'))
chi2, p, _, _ = chi2_contingency(contingency_table)

# Вывод результатов
print("Chi-square Statistic:", chi2)
print("P-value:", p)
if p < 0.05:
    print("There is a significant association between the number of break points won and the match result.")
else:
    print("There is no significant association between the number of break points won and the match result.")



#Сhi-square Statistic: 0.0
#P-value: 1.0
#There is no significant association between the number of break points won and the match result.
    
#Статистика хи-квадрат равна 0.0, а p-значение равно 1.0. При таком высоком значении p-значения (больше чем 0.05) мы не можем отвергнуть нулевую гипотезу. 
#Следовательно, мы приходим к выводу, что между количеством выигранных брейк-поинтов и результатом матча нет значимой связи. Это означает, что доля выигранных брейк-поинтов в одиночестве может быть не сильным предиктором исхода матчей.