# Build a Prediction Model Using the DataFrame

In [18]:
import pandas as pd

In [19]:
# Load the dataset
ufc_data = pd.read_csv('data/processed/ufc_fight_data_cleaned.csv')


In [20]:
numeric_columns = ufc_data.select_dtypes(include=['number']).columns
ufc_data[numeric_columns] = ufc_data[numeric_columns].fillna(ufc_data[numeric_columns].mean())

# 2. Для строковых столбцов заполняем самым частым значением
string_columns = ufc_data.select_dtypes(include=['object']).columns
ufc_data[string_columns] = ufc_data[string_columns].fillna(ufc_data[string_columns].mode().iloc[0])

# Проверка, что пропусков больше нет
print("Проверка на пропуски после заполнения:")
print(ufc_data.isnull().sum())

Проверка на пропуски после заполнения:
event_name            0
date                  0
location              0
r_fighter             0
b_fighter             0
                     ..
td_acc_total_diff     0
str_def_total_diff    0
td_def_total_diff     0
sub_avg_diff          0
td_avg_diff           0
Length: 97, dtype: int64


In [22]:
# Display the list of column names
print("Column names in the dataset:")
print(ufc_data.columns)
# Saving the current DataFrame to the specified path with a descriptive filename


if 'winner' in ufc_data.columns:
    print("The 'winner' column exists in the dataset.")
else:
    print("The 'winner' column does not exist in the dataset.")

Column names in the dataset:
Index(['event_name', 'date', 'location', 'r_fighter', 'b_fighter', 'winner',
       'weight_class', 'is_title_bout', 'gender', 'method', 'finish_round',
       'total_rounds', 'time_sec', 'referee', 'r_kd', 'r_sig_str',
       'r_sig_str_att', 'r_sig_str_acc', 'r_str', 'r_str_att', 'r_str_acc',
       'r_td', 'r_td_att', 'r_td_acc', 'r_sub_att', 'r_rev', 'r_ctrl_sec',
       'r_wins_total', 'r_losses_total', 'r_age', 'r_height', 'r_weight',
       'r_reach', 'r_stance', 'r_SLpM_total', 'r_SApM_total',
       'r_sig_str_acc_total', 'r_td_acc_total', 'r_str_def_total',
       'r_td_def_total', 'r_sub_avg', 'r_td_avg', 'b_kd', 'b_sig_str',
       'b_sig_str_att', 'b_sig_str_acc', 'b_str', 'b_str_att', 'b_str_acc',
       'b_td', 'b_td_att', 'b_td_acc', 'b_sub_att', 'b_rev', 'b_ctrl_sec',
       'b_wins_total', 'b_losses_total', 'b_age', 'b_height', 'b_weight',
       'b_reach', 'b_stance', 'b_SLpM_total', 'b_SApM_total',
       'b_sig_str_acc_total', 'b_td_acc

In [24]:
# 1. Сначала определим целевую переменную 'y' до кодирования
y = ufc_data['winner']  # Убедитесь, что 'winner' — целевая переменная

# 2. Удалим 'winner' из признаков перед кодированием
X = ufc_data.drop(columns=['winner'])

# 3. Кодирование категориальных признаков
X_encoded = pd.get_dummies(X, drop_first=True)

# 4. Разделение на тренировочную и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X_encoded, y, test_size=0.2, random_state=42)

# Проверка размеров выборок
print("Размер тренировочного набора:", X_train.shape)
print("Размер тестового набора:", X_test.shape)


Размер тренировочного набора: (5951, 6047)
Размер тестового набора: (1488, 6047)


In [25]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report

# Инициализация и обучение модели
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)

# Предсказание на тестовых данных
y_pred = model.predict(X_test)

# Оценка качества модели
accuracy = accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred)

print("Accuracy of the model:", accuracy)
print("\nClassification Report:")
print(report)


Accuracy of the model: 0.8823924731182796

Classification Report:
              precision    recall  f1-score   support

        Blue       0.88      0.76      0.82       517
         Red       0.88      0.95      0.91       971

    accuracy                           0.88      1488
   macro avg       0.88      0.85      0.87      1488
weighted avg       0.88      0.88      0.88      1488



In [29]:
# Предположим, что исходный DataFrame называется ufc_data и содержит данные обо всех бойцах
r_fighter_data = ufc_data[ufc_data['r_fighter'] == 'Ilia Topuria']
b_fighter_data = ufc_data[ufc_data['b_fighter'] == 'Max Holloway']

# Проверка на наличие данных
if not r_fighter_data.empty and not b_fighter_data.empty:
    # Усреднение только числовых данных
    r_fighter_avg = r_fighter_data.select_dtypes(include=['number']).mean()
    b_fighter_avg = b_fighter_data.select_dtypes(include=['number']).mean()

    # Создание тестового набора данных с объединенными характеристиками бойцов
    test_data = pd.DataFrame({
        'r_fighter': ['Khamzat Chimaev'],
        'b_fighter': ['Robert Whittaker'],
        'r_kd': [r_fighter_avg.get('r_kd', 0)],
        'r_sig_str': [r_fighter_avg.get('r_sig_str', 0)],
        'r_sig_str_att': [r_fighter_avg.get('r_sig_str_att', 0)],
        'r_sig_str_acc': [r_fighter_avg.get('r_sig_str_acc', 0)],
        'b_kd': [b_fighter_avg.get('b_kd', 0)],
        'b_sig_str': [b_fighter_avg.get('b_sig_str', 0)],
        'b_sig_str_att': [b_fighter_avg.get('b_sig_str_att', 0)],
        'b_sig_str_acc': [b_fighter_avg.get('b_sig_str_acc', 0)],
        # Добавьте остальные нужные признаки
    })

    print("Тестовые данные для предсказания:")
    print(test_data)
else:
    print("Данные для одного или обоих бойцов отсутствуют в DataFrame.")


Тестовые данные для предсказания:
         r_fighter         b_fighter  r_kd  r_sig_str  r_sig_str_att  \
0  Khamzat Chimaev  Robert Whittaker   1.0       31.0           63.0   

   r_sig_str_acc  b_kd  b_sig_str  b_sig_str_att  b_sig_str_acc  
0           0.49   0.4       70.4          173.6          0.394  


In [30]:
# Кодирование категориальных переменных, чтобы совпадало с тренировочными данными
test_data_encoded = pd.get_dummies(test_data, drop_first=True)

# Убедимся, что test_data_encoded имеет те же колонки, что и X_train
test_data_encoded = test_data_encoded.reindex(columns=X_train.columns, fill_value=0)

# Выполним предсказание
prediction = model.predict(test_data_encoded)

# Интерпретация результата
result = "Red (Khamzat Chimaev)" if prediction[0] == 'Red' else "Blue (Robert Whittaker)"
print("Предсказание победителя:", result)


Предсказание победителя: Red (Khamzat Chimaev)


In [31]:
# 1. Кодирование категориальных переменных
test_data_encoded = pd.get_dummies(test_data, drop_first=True)

# Убедимся, что у test_data_encoded есть те же колонки, что и у X_train
# Если каких-то колонок не хватает, они будут заполнены значением 0
test_data_encoded = test_data_encoded.reindex(columns=X_train.columns, fill_value=0)

# 2. Выполнение предсказания
prediction = model.predict(test_data_encoded)

# 3. Интерпретация результата
result = "Red (Ilia Topuria)" if prediction[0] == 'Red' else "Blue (Max Holloway)"
print("Предсказание победителя:", result)


Предсказание победителя: Red (Ilia Topuria)


In [38]:
# Предположим, что исходный DataFrame называется ufc_data и содержит данные обо всех бойцах
r_fighter_data = ufc_data[ufc_data['r_fighter'] == 'Khabib Nurmagomedov']
b_fighter_data = ufc_data[ufc_data['b_fighter'] == 'Ilia Topuria']

# Проверка на наличие данных
if not r_fighter_data.empty and not b_fighter_data.empty:
    # Усреднение только числовых данных
    r_fighter_avg = r_fighter_data.select_dtypes(include=['number']).mean()
    b_fighter_avg = b_fighter_data.select_dtypes(include=['number']).mean()

    # Создание тестового набора данных с объединенными характеристиками бойцов
    test_data = pd.DataFrame({
        'r_fighter': ['Khabib Nurmagomedov'],
        'b_fighter': ['Ilia Topuria'],
        'r_kd': [r_fighter_avg.get('r_kd', 0)],
        'r_sig_str': [r_fighter_avg.get('r_sig_str', 0)],
        'r_sig_str_att': [r_fighter_avg.get('r_sig_str_att', 0)],
        'r_sig_str_acc': [r_fighter_avg.get('r_sig_str_acc', 0)],
        'b_kd': [b_fighter_avg.get('b_kd', 0)],
        'b_sig_str': [b_fighter_avg.get('b_sig_str', 0)],
        'b_sig_str_att': [b_fighter_avg.get('b_sig_str_att', 0)],
        'b_sig_str_acc': [b_fighter_avg.get('b_sig_str_acc', 0)],
        # Добавьте остальные нужные признаки
    })

    print("Тестовые данные для предсказания:")
    print(test_data)
    
    # Кодирование категориальных переменных
    test_data_encoded = pd.get_dummies(test_data, drop_first=True)
    test_data_encoded = test_data_encoded.reindex(columns=X_train.columns, fill_value=0)

    # Выполнение предсказания
    prediction = model.predict(test_data_encoded)
    result = "Red (Khabib Nurmagomedov)" if prediction[0] == 'Red' else "Blue (Ilia Topuria)"
    print("Предсказание победителя:", result)
else:
    print("Данные для одного или обоих бойцов отсутствуют в DataFrame.")


Тестовые данные для предсказания:
             r_fighter     b_fighter  r_kd  r_sig_str  r_sig_str_att  \
0  Khabib Nurmagomedov  Ilia Topuria   0.0     66.625          126.0   

   r_sig_str_acc      b_kd  b_sig_str  b_sig_str_att  b_sig_str_acc  
0        0.53875  0.666667  46.333333     100.666667       0.471667  
Предсказание победителя: Red (Khabib Nurmagomedov)


In [39]:
# Подсчет побед по значениям в колонке 'winner'
winner_counts = ufc_data['winner'].value_counts()

# Вывод количества побед Red и Blue
print("Количество побед Red:", winner_counts.get('Red', 0))
print("Количество побед Blue:", winner_counts.get('Blue', 0))


Количество побед Red: 4876
Количество побед Blue: 2563


In [41]:
# Проверьте названия всех колонок после кодирования
print("Названия колонок после кодирования:", ufc_data_encoded.columns)

# Найдите и сохраните название колонки для целевой переменной 'winner'
winner_columns = [col for col in ufc_data_encoded.columns if 'winner' in col]
print("Целевая колонка:", winner_columns)

# Если 'winner' была закодирована, выберите первую найденную колонку как целевую переменную
if winner_columns:
    target_column = winner_columns[0]
else:
    raise ValueError("Целевая колонка 'winner' не найдена после кодирования.")

# Разделите признаки и целевую переменную
X = ufc_data_encoded.drop(columns=winner_columns)
y = ufc_data_encoded[target_column]

# Теперь можно продолжить с разделением данных и обучением
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Инициализация модели с балансировкой классов и обучением
model = RandomForestClassifier(class_weight='balanced', random_state=42)
model.fit(X_train, y_train)

# Выполнение предсказания на тестовых данных
y_pred = model.predict(X_test)
print("Точность модели:", accuracy_score(y_test, y_pred))
print("Отчет по классификации:")
print(classification_report(y_test, y_pred))


Названия колонок после кодирования: Index(['is_title_bout', 'finish_round', 'total_rounds', 'time_sec', 'r_kd',
       'r_sig_str', 'r_sig_str_att', 'r_sig_str_acc', 'r_str', 'r_str_att',
       ...
       'referee_Wolf Menninger', 'referee_Yves Lavigne', 'r_stance_Orthodox',
       'r_stance_Sideways', 'r_stance_Southpaw', 'r_stance_Switch',
       'b_stance_Orthodox', 'b_stance_Sideways', 'b_stance_Southpaw',
       'b_stance_Switch'],
      dtype='object', length=6048)
Целевая колонка: ['winner_Red']
Точность модели: 0.8870967741935484
Отчет по классификации:
              precision    recall  f1-score   support

       False       0.88      0.79      0.83       517
        True       0.89      0.94      0.92       971

    accuracy                           0.89      1488
   macro avg       0.88      0.86      0.87      1488
weighted avg       0.89      0.89      0.89      1488



In [42]:
# Извлечение данных для бойцов
r_fighter_data = ufc_data[ufc_data['r_fighter'] == 'Khabib Nurmagomedov']
b_fighter_data = ufc_data[ufc_data['b_fighter'] == 'Ilia Topuria']

# Проверка на наличие данных для обоих бойцов
if not r_fighter_data.empty and not b_fighter_data.empty:
    # Усреднение числовых данных для каждого бойца
    r_fighter_avg = r_fighter_data.select_dtypes(include=['number']).mean()
    b_fighter_avg = b_fighter_data.select_dtypes(include=['number']).mean()

    # Создание DataFrame для предсказания
    test_data = pd.DataFrame({
        'r_fighter': ['Khabib Nurmagomedov'],
        'b_fighter': ['Ilia Topuria'],
        'r_kd': [r_fighter_avg.get('r_kd', 0)],
        'r_sig_str': [r_fighter_avg.get('r_sig_str', 0)],
        'r_sig_str_att': [r_fighter_avg.get('r_sig_str_att', 0)],
        'r_sig_str_acc': [r_fighter_avg.get('r_sig_str_acc', 0)],
        'b_kd': [b_fighter_avg.get('b_kd', 0)],
        'b_sig_str': [b_fighter_avg.get('b_sig_str', 0)],
        'b_sig_str_att': [b_fighter_avg.get('b_sig_str_att', 0)],
        'b_sig_str_acc': [b_fighter_avg.get('b_sig_str_acc', 0)],
        # Добавьте остальные необходимые признаки
    })

    print("Тестовые данные для предсказания:")
    print(test_data)
    
    # Кодирование категориальных переменных
    test_data_encoded = pd.get_dummies(test_data, drop_first=True)
    test_data_encoded = test_data_encoded.reindex(columns=X_train.columns, fill_value=0)

    # Выполнение предсказания
    prediction = model.predict(test_data_encoded)
    result = "Red (Khabib Nurmagomedov)" if prediction[0] else "Blue (Ilia Topuria)"
    print("Предсказание победителя:", result)
else:
    print("Данные для одного или обоих бойцов отсутствуют в DataFrame.")


Тестовые данные для предсказания:
             r_fighter     b_fighter  r_kd  r_sig_str  r_sig_str_att  \
0  Khabib Nurmagomedov  Ilia Topuria   0.0     66.625          126.0   

   r_sig_str_acc      b_kd  b_sig_str  b_sig_str_att  b_sig_str_acc  
0        0.53875  0.666667  46.333333     100.666667       0.471667  
Предсказание победителя: Red (Khabib Nurmagomedov)


In [43]:
# Извлечение данных для бойцов
r_fighter_data = ufc_data[ufc_data['r_fighter'] == 'Ilia Topuria']
b_fighter_data = ufc_data[ufc_data['b_fighter'] == 'Khabib Nurmagomedov']

# Проверка на наличие данных для обоих бойцов
if not r_fighter_data.empty and not b_fighter_data.empty:
    # Усреднение числовых данных для каждого бойца
    r_fighter_avg = r_fighter_data.select_dtypes(include=['number']).mean()
    b_fighter_avg = b_fighter_data.select_dtypes(include=['number']).mean()

    # Создание DataFrame для предсказания
    test_data = pd.DataFrame({
        'r_fighter': ['Ilia Topuria'],
        'b_fighter': ['Khabib Nurmagomedov'],
        'r_kd': [r_fighter_avg.get('r_kd', 0)],
        'r_sig_str': [r_fighter_avg.get('r_sig_str', 0)],
        'r_sig_str_att': [r_fighter_avg.get('r_sig_str_att', 0)],
        'r_sig_str_acc': [r_fighter_avg.get('r_sig_str_acc', 0)],
        'b_kd': [b_fighter_avg.get('b_kd', 0)],
        'b_sig_str': [b_fighter_avg.get('b_sig_str', 0)],
        'b_sig_str_att': [b_fighter_avg.get('b_sig_str_att', 0)],
        'b_sig_str_acc': [b_fighter_avg.get('b_sig_str_acc', 0)],
        # Добавьте остальные необходимые признаки
    })

    print("Тестовые данные для предсказания:")
    print(test_data)
    
    # Кодирование категориальных переменных
    test_data_encoded = pd.get_dummies(test_data, drop_first=True)
    test_data_encoded = test_data_encoded.reindex(columns=X_train.columns, fill_value=0)

    # Выполнение предсказания
    prediction = model.predict(test_data_encoded)
    result = "Red (Ilia Topuria)" if prediction[0] else "Blue (Khabib Nurmagomedov)"
    print("Предсказание победителя:", result)
else:
    print("Данные для одного или обоих бойцов отсутствуют в DataFrame.")


Тестовые данные для предсказания:
      r_fighter            b_fighter  r_kd  r_sig_str  r_sig_str_att  \
0  Ilia Topuria  Khabib Nurmagomedov   1.0       31.0           63.0   

   r_sig_str_acc  b_kd  b_sig_str  b_sig_str_att  b_sig_str_acc  
0           0.49   0.4       34.4           87.2          0.434  
Предсказание победителя: Red (Ilia Topuria)


In [44]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report
import pandas as pd

# Предполагаем, что 'ufc_data' — это основной DataFrame с данными
# и 'winner' является целевой переменной, закодированной как 'winner_Red'.

# Кодирование категориальных признаков
ufc_data_encoded = pd.get_dummies(ufc_data, drop_first=True)

# Разделение данных на признаки и целевую переменную
X = ufc_data_encoded.drop(columns=['winner_Red'])
y = ufc_data_encoded['winner_Red']

# Разделение на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Инициализация логистической регрессии с балансировкой классов
log_reg_model = LogisticRegression(class_weight='balanced', max_iter=1000, random_state=42)
log_reg_model.fit(X_train, y_train)

# Выполнение предсказания на тестовых данных
y_pred = log_reg_model.predict(X_test)

# Оценка точности и отчет по классификации
print("Точность модели:", accuracy_score(y_test, y_pred))
print("Отчет по классификации:")
print(classification_report(y_test, y_pred))


Точность модели: 0.8850806451612904
Отчет по классификации:
              precision    recall  f1-score   support

       False       0.80      0.89      0.84       517
        True       0.94      0.88      0.91       971

    accuracy                           0.89      1488
   macro avg       0.87      0.89      0.88      1488
weighted avg       0.89      0.89      0.89      1488



STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [48]:
# Подготовка данных для боя между Khabib Nurmagomedov и Ilia Topuria
r_fighter_data = ufc_data[ufc_data['r_fighter'] == 'Khabib Nurmagomedov']
b_fighter_data = ufc_data[ufc_data['b_fighter'] == 'Ilia Topuria']

if not r_fighter_data.empty and not b_fighter_data.empty:
    # Усреднение числовых данных для каждого бойца
    r_fighter_avg = r_fighter_data.select_dtypes(include=['number']).mean()
    b_fighter_avg = b_fighter_data.select_dtypes(include=['number']).mean()

    # Создание DataFrame для предсказания
    test_data = pd.DataFrame({
        'r_fighter': ['Khabib Nurmagomedov'],
        'b_fighter': ['Ilia Topuria'],
        'r_kd': [r_fighter_avg.get('r_kd', 0)],
        'r_sig_str': [r_fighter_avg.get('r_sig_str', 0)],
        'r_sig_str_att': [r_fighter_avg.get('r_sig_str_att', 0)],
        'r_sig_str_acc': [r_fighter_avg.get('r_sig_str_acc', 0)],
        'b_kd': [b_fighter_avg.get('b_kd', 0)],
        'b_sig_str': [b_fighter_avg.get('b_sig_str', 0)],
        'b_sig_str_att': [b_fighter_avg.get('b_sig_str_att', 0)],
        'b_sig_str_acc': [b_fighter_avg.get('b_sig_str_acc', 0)],
        # Добавьте остальные необходимые признаки
    })

    # Кодирование и подготовка для предсказания
    test_data_encoded = pd.get_dummies(test_data, drop_first=True)
    test_data_encoded = test_data_encoded.reindex(columns=X_train.columns, fill_value=0)

    # Выполнение предсказания
    prediction = log_reg_model.predict(test_data_encoded)
    result = "Red (Khabib Nurmagomedov)" if prediction[0] else "Blue (Ilia Topuria)"
    print("Предсказание победителя:", result)
else:
    print("Данные для одного или обоих бойцов отсутствуют в DataFrame.")


Предсказание победителя: Blue (Ilia Topuria)


In [49]:
# Подготовка данных для боя между Dustin Poirier и Khabib Nurmagomedov
r_fighter_data = ufc_data[ufc_data['r_fighter'] == 'Dustin Poirier']
b_fighter_data = ufc_data[ufc_data['b_fighter'] == 'Khabib Nurmagomedov']

if not r_fighter_data.empty and not b_fighter_data.empty:
    # Усреднение числовых данных для каждого бойца
    r_fighter_avg = r_fighter_data.select_dtypes(include=['number']).mean()
    b_fighter_avg = b_fighter_data.select_dtypes(include=['number']).mean()

    # Создание DataFrame для предсказания
    test_data = pd.DataFrame({
        'r_fighter': ['Dustin Poirier'],
        'b_fighter': ['Khabib Nurmagomedov'],
        'r_kd': [r_fighter_avg.get('r_kd', 0)],
        'r_sig_str': [r_fighter_avg.get('r_sig_str', 0)],
        'r_sig_str_att': [r_fighter_avg.get('r_sig_str_att', 0)],
        'r_sig_str_acc': [r_fighter_avg.get('r_sig_str_acc', 0)],
        'b_kd': [b_fighter_avg.get('b_kd', 0)],
        'b_sig_str': [b_fighter_avg.get('b_sig_str', 0)],
        'b_sig_str_att': [b_fighter_avg.get('b_sig_str_att', 0)],
        'b_sig_str_acc': [b_fighter_avg.get('b_sig_str_acc', 0)],
        # Добавьте остальные необходимые признаки
    })

    print("Тестовые данные для предсказания:")
    print(test_data)
    
    # Кодирование и подготовка для предсказания
    test_data_encoded = pd.get_dummies(test_data, drop_first=True)
    test_data_encoded = test_data_encoded.reindex(columns=X_train.columns, fill_value=0)

    # Выполнение предсказания
    prediction = log_reg_model.predict(test_data_encoded)
    result = "Red (Dustin Poirier)" if prediction[0] else "Blue (Khabib Nurmagomedov)"
    print("Предсказание победителя:", result)
else:
    print("Данные для одного или обоих бойцов отсутствуют в DataFrame.")


Тестовые данные для предсказания:
        r_fighter            b_fighter      r_kd  r_sig_str  r_sig_str_att  \
0  Dustin Poirier  Khabib Nurmagomedov  0.454545  51.590909      97.818182   

   r_sig_str_acc  b_kd  b_sig_str  b_sig_str_att  b_sig_str_acc  
0       0.528636   0.4       34.4           87.2          0.434  
Предсказание победителя: Red (Dustin Poirier)
