In [12]:
import pandas as pd

# Step 1: Load the raw data from the 'raw' folder
df_fighter_stats = pd.read_csv('data/raw/Fighter_stats/fighter_stats.csv')  # Fighter statistics
df_ufc_master = pd.read_csv('data/raw/ufc-master.csv')  # Event details

# Step 2: Basic Data Exploration (check columns)
print(df_fighter_stats.info())  # Check the structure of the fighter stats dataset
print(df_ufc_master.columns)  # Check the columns in the UFC event dataset

# Step 3: Data Processing/Cleaning (example)
df_fighter_stats_cleaned = df_fighter_stats.dropna()  # Remove missing values from fighter stats
df_ufc_master_cleaned = df_ufc_master.dropna()  # Remove missing values from UFC event data

# Save the cleaned data to the 'processed' folder
df_fighter_stats_cleaned.to_csv('data/processed/cleaned_fighter_stats.csv', index=False)
df_ufc_master_cleaned.to_csv('data/processed/cleaned_ufc_master.csv', index=False)

# Step 4: Analyze the DataFrame (example analysis)
# Example: Calculate the average number of wins for fighters
avg_wins = df_fighter_stats_cleaned['wins'].mean()
print(f'Average number of wins: {avg_wins}')

# Check for 'weight_class' column and adjust if necessary
if 'weight_class' in df_ufc_master_cleaned.columns:
    win_rate_by_weight_class = df_ufc_master_cleaned.groupby('weight_class')['winner'].value_counts(normalize=True)
    print(win_rate_by_weight_class)
else:
    print("The 'weight_class' column does not exist in the dataset. Available columns are:", df_ufc_master_cleaned.columns)

# Further analysis or model training can go here


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2479 entries, 0 to 2478
Data columns (total 16 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   name         2478 non-null   object 
 1   wins         2478 non-null   float64
 2   losses       2478 non-null   float64
 3   height       2478 non-null   float64
 4   weight       2478 non-null   float64
 5   reach        1823 non-null   float64
 6   stance       2401 non-null   object 
 7   age          2318 non-null   float64
 8   SLpM         2478 non-null   float64
 9   sig_str_acc  2478 non-null   float64
 10  SApM         2478 non-null   float64
 11  str_def      2478 non-null   float64
 12  td_avg       2478 non-null   float64
 13  td_acc       2478 non-null   float64
 14  td_def       2478 non-null   float64
 15  sub_avg      2478 non-null   float64
dtypes: float64(14), object(2)
memory usage: 310.0+ KB
None
Index(['RedFighter', 'BlueFighter', 'RedOdds', 'BlueOdds', 'RedExpectedValue'

In [13]:
import pandas as pd

# Укажите путь к вашему файлу
file_path = "data/raw/ufc-master.csv"

# Загрузка CSV файла в DataFrame
df = pd.read_csv(file_path)

# Просмотр первых нескольких строк
print(df.head())


         RedFighter      BlueFighter  RedOdds  BlueOdds  RedExpectedValue  \
0      Alex Pereira     Jamahal Hill   -130.0     110.0           76.9231   
1       Zhang Weili      Yan Xiaonan   -455.0     350.0           21.9780   
2    Justin Gaethje     Max Holloway   -185.0     154.0           54.0541   
3  Charles Oliveira  Arman Tsarukyan    190.0    -218.0          190.0000   
4         Bo Nickal    Cody Brundage  -1600.0     900.0            6.2500   

   BlueExpectedValue        Date                Location Country Winner  ...  \
0           110.0000  2024-04-13  Las Vegas, Nevada, USA     USA    Red  ...   
1           350.0000  2024-04-13  Las Vegas, Nevada, USA     USA    Red  ...   
2           154.0000  2024-04-13  Las Vegas, Nevada, USA     USA   Blue  ...   
3            45.8716  2024-04-13  Las Vegas, Nevada, USA     USA   Blue  ...   
4           900.0000  2024-04-13  Las Vegas, Nevada, USA     USA    Red  ...   

      FinishDetails FinishRound FinishRoundTime  TotalFi

In [14]:
import pandas as pd

# Load the datasets
fighter_stats = pd.read_csv('data/raw/Fighter_stats/fighter_stats.csv')
large_dataset = pd.read_csv('data/raw/Large_set/large_dataset.csv')
medium_dataset = pd.read_csv('data/raw/Medium_set/medium_dataset.csv')
ufc = pd.read_csv('data/raw/ufc.csv')
ufc_master = pd.read_csv('data/raw/ufc-master.csv')

# Display the column names of each dataset to understand their structure
fighter_stats_columns = fighter_stats.columns
large_dataset_columns = large_dataset.columns
medium_dataset_columns = medium_dataset.columns
ufc_columns = ufc.columns
ufc_master_columns = ufc_master.columns

fighter_stats_columns, large_dataset_columns, medium_dataset_columns, ufc_columns, ufc_master_columns



(Index(['name', 'wins', 'losses', 'height', 'weight', 'reach', 'stance', 'age',
        'SLpM', 'sig_str_acc', 'SApM', 'str_def', 'td_avg', 'td_acc', 'td_def',
        'sub_avg'],
       dtype='object'),
 Index(['event_name', 'r_fighter', 'b_fighter', 'winner', 'weight_class',
        'is_title_bout', 'gender', 'method', 'finish_round', 'total_rounds',
        'time_sec', 'referee', 'r_kd', 'r_sig_str', 'r_sig_str_att',
        'r_sig_str_acc', 'r_str', 'r_str_att', 'r_str_acc', 'r_td', 'r_td_att',
        'r_td_acc', 'r_sub_att', 'r_rev', 'r_ctrl_sec', 'r_wins_total',
        'r_losses_total', 'r_age', 'r_height', 'r_weight', 'r_reach',
        'r_stance', 'r_SLpM_total', 'r_SApM_total', 'r_sig_str_acc_total',
        'r_td_acc_total', 'r_str_def_total', 'r_td_def_total', 'r_sub_avg',
        'r_td_avg', 'b_kd', 'b_sig_str', 'b_sig_str_att', 'b_sig_str_acc',
        'b_str', 'b_str_att', 'b_str_acc', 'b_td', 'b_td_att', 'b_td_acc',
        'b_sub_att', 'b_rev', 'b_ctrl_sec', 'b_wins_t

In [15]:
import pandas as pd

# Загрузка данных
fighter_stats = pd.read_csv('data/raw/Fighter_stats/fighter_stats.csv')
large_dataset = pd.read_csv('data/raw/Large_set/large_dataset.csv')
medium_dataset = pd.read_csv('data/raw/Medium_set/medium_dataset.csv')
ufc = pd.read_csv('data/raw/ufc.csv')
ufc_master = pd.read_csv('data/raw/ufc-master.csv')

# Удаление дубликатов перед объединением
fighter_stats = fighter_stats.drop_duplicates(subset='name')
large_dataset = large_dataset.drop_duplicates(subset=['r_fighter', 'event_name'])
medium_dataset = medium_dataset.drop_duplicates(subset=['r_fighter', 'event'])
ufc = ufc.drop_duplicates(subset=['Fighter 1', 'Event Name'])
ufc_master = ufc_master.drop_duplicates(subset=['RedFighter', 'Date'])

# Объединение данных бойцов со статистикой боев
fighters_detailed_stats = pd.merge(fighter_stats, large_dataset, left_on='name', right_on='r_fighter', how='left')
fighters_detailed_stats = pd.merge(fighters_detailed_stats, medium_dataset, left_on='name', right_on='r_fighter', how='left')
fighters_detailed_stats = pd.merge(fighters_detailed_stats, ufc, left_on='name', right_on='Fighter 1', how='left')
fighters_detailed_stats = pd.merge(fighters_detailed_stats, ufc_master, left_on='name', right_on='RedFighter', how='left')

# Группировка и создание списков ивентов и результатов для каждого бойца
fighters_detailed_stats_grouped = fighters_detailed_stats.groupby('name').agg({
    'event_name': lambda x: ', '.join(x.dropna().unique()),  # Список уникальных ивентов через запятую
    'winner': lambda x: ', '.join(x.dropna().unique()),      # Список уникальных результатов через запятую
    'wins': 'first',                                         # Оставляем оригинальные данные бойца
    'losses': 'first',
    'height': 'first',
    'weight': 'first',
    'reach': 'first',
    'stance': 'first',
    'age': 'first',
    'SLpM': 'first',
    'sig_str_acc': 'first',
    'SApM': 'first',
    'str_def': 'first',
    'td_avg': 'first',
    'td_acc': 'first',
    'td_def': 'first',
    'sub_avg': 'first',
    'r_str_x': 'first',     # Столбцы по статистике боя
    'r_td_x': 'first',
    'r_sub_att': 'first'
}).reset_index()

# Добавляем новые колонки с ивентами и победами в relevant_columns
relevant_columns = ['name', 'wins', 'losses', 'height', 'weight', 'reach', 'stance', 'age', 
                    'SLpM', 'sig_str_acc', 'SApM', 'str_def', 'td_avg', 'td_acc', 'td_def', 'sub_avg', 
                    'r_str_x', 'r_td_x', 'r_sub_att', 'event_name', 'winner']

# Выбираем нужные колонки
fighters_detailed_stats_grouped = fighters_detailed_stats_grouped[relevant_columns]

# Показ первых строк результата
print(fighters_detailed_stats_grouped.head())

# Сохранение финального результата в CSV-файл
fighters_detailed_stats_grouped.to_csv('data/processed/fighters_detailed_stats_with_events_and_wins.csv', index=False)

print("Файл с бойцами, ивентами, результатами и всеми индексами сохранен в 'data/processed/fighters_detailed_stats_with_events_and_wins.csv'.")


            name  wins  losses  height  weight   reach    stance   age  SLpM  \
0  AJ Cunningham  11.0     4.0  177.80   70.31  180.34  Orthodox  29.0  7.66   
1      AJ Dobson   7.0     3.0  185.42   83.91  193.04  Orthodox  32.0  4.29   
2    AJ Fletcher  10.0     3.0  177.80   77.11  170.18    Switch  27.0  3.36   
3     Aalon Cruz   8.0     4.0  182.88   65.77  198.12    Switch  34.0  7.58   
4    Aaron Brink  26.0    26.0  190.50   92.99     NaN  Orthodox  49.0  3.49   

   sig_str_acc  ...  str_def  td_avg  td_acc  td_def  sub_avg  r_str_x  \
0         0.29  ...     0.48    0.00    0.00    0.33      0.0      NaN   
1         0.46  ...     0.46    1.67    0.75    0.65      0.3     98.0   
2         0.49  ...     0.46    1.54    0.35    0.33      0.9     23.0   
3         0.39  ...     0.58    0.00    0.00    0.00      0.0      2.0   
4         0.42  ...     0.57    0.00    0.00    0.00      0.0      NaN   

   r_td_x  r_sub_att                                         event_name  \

In [20]:
import pandas as pd

# Загрузка данных
fighter_stats = pd.read_csv('data/raw/Fighter_stats/fighter_stats.csv')
large_dataset = pd.read_csv('data/raw/Large_set/large_dataset.csv')
medium_dataset = pd.read_csv('data/raw/Medium_set/medium_dataset.csv')
ufc = pd.read_csv('data/raw/ufc.csv')
ufc_master = pd.read_csv('data/raw/ufc-master.csv')

# Удаление дубликатов перед объединением
fighter_stats = fighter_stats.drop_duplicates(subset='name')
large_dataset = large_dataset.drop_duplicates(subset=['r_fighter', 'event_name'])
medium_dataset = medium_dataset.drop_duplicates(subset=['r_fighter', 'event'])
ufc = ufc.drop_duplicates(subset=['Fighter 1', 'Event Name'])
ufc_master = ufc_master.drop_duplicates(subset=['RedFighter', 'Date'])

# Объединение данных бойцов со статистикой боев
fighters_detailed_stats = pd.merge(fighter_stats, large_dataset, left_on='name', right_on='r_fighter', how='left')
fighters_detailed_stats = pd.merge(fighters_detailed_stats, medium_dataset, left_on='name', right_on='r_fighter', how='left')
fighters_detailed_stats = pd.merge(fighters_detailed_stats, ufc, left_on='name', right_on='Fighter 1', how='left')
fighters_detailed_stats = pd.merge(fighters_detailed_stats, ufc_master, left_on='name', right_on='RedFighter', how='left')

# Группировка и создание списков ивентов, результатов и добавление пола бойца для каждого бойца
fighters_detailed_stats_grouped = fighters_detailed_stats.groupby('name').agg({
    'event_name': lambda x: ', '.join(x.dropna().unique()),  # Список уникальных ивентов через запятую
    'winner': lambda x: ', '.join(x.dropna().unique()),      # Список уникальных результатов через запятую
    'gender': 'first',                                       # Пол бойца (муж/жен)
    'wins': 'first',                                         # Оставляем оригинальные данные бойца
    'losses': 'first',
    'height': 'first',
    'weight': 'first',
    'reach': 'first',
    'stance': 'first',
    'age': 'first',
    'SLpM': 'first',
    'sig_str_acc': 'first',
    'SApM': 'first',
    'str_def': 'first',
    'td_avg': 'first',
    'td_acc': 'first',
    'td_def': 'first',
    'sub_avg': 'first',
    'r_str_x': 'first',     # Столбцы по статистике боя
    'r_td_x': 'first',
    'r_sub_att': 'first'
}).reset_index()

# Добавляем новые колонки с ивентами, полом бойца и результатами в relevant_columns
relevant_columns = ['name', 'wins', 'losses', 'height', 'weight', 'reach', 'stance', 'age', 
                    'SLpM', 'sig_str_acc', 'SApM', 'str_def', 'td_avg', 'td_acc', 'td_def', 'sub_avg', 
                    'r_str_x', 'r_td_x', 'r_sub_att', 'event_name', 'winner', 'gender']

# Выбираем нужные колонки
fighters_detailed_stats_grouped = fighters_detailed_stats_grouped[relevant_columns]

# Показ первых строк результата
print(fighters_detailed_stats_grouped.head())

# Сохранение финального результата в CSV-файл
fighters_detailed_stats_grouped.to_csv('data/processed/fighters_detailed_stats_with_events_and_wins.csv', index=False)

print("Файл с бойцами, ивентами, полом и результатами сохранен в 'data/processed/fighters_detailed_stats_with_events_and_wins.csv'.")


            name  wins  losses  height  weight   reach    stance   age  SLpM  \
0  AJ Cunningham  11.0     4.0  177.80   70.31  180.34  Orthodox  29.0  7.66   
1      AJ Dobson   7.0     3.0  185.42   83.91  193.04  Orthodox  32.0  4.29   
2    AJ Fletcher  10.0     3.0  177.80   77.11  170.18    Switch  27.0  3.36   
3     Aalon Cruz   8.0     4.0  182.88   65.77  198.12    Switch  34.0  7.58   
4    Aaron Brink  26.0    26.0  190.50   92.99     NaN  Orthodox  49.0  3.49   

   sig_str_acc  ...  td_avg  td_acc  td_def  sub_avg  r_str_x  r_td_x  \
0         0.29  ...    0.00    0.00    0.33      0.0      NaN     NaN   
1         0.46  ...    1.67    0.75    0.65      0.3     98.0     2.0   
2         0.49  ...    1.54    0.35    0.33      0.9     23.0     0.0   
3         0.39  ...    0.00    0.00    0.00      0.0      2.0     0.0   
4         0.42  ...    0.00    0.00    0.00      0.0      NaN     NaN   

   r_sub_att                                         event_name     winner  \
0 

In [21]:
import pandas as pd

# Загрузка данных
fighter_stats = pd.read_csv('data/raw/Fighter_stats/fighter_stats.csv')
large_dataset = pd.read_csv('data/raw/Large_set/large_dataset.csv')
medium_dataset = pd.read_csv('data/raw/Medium_set/medium_dataset.csv')
ufc = pd.read_csv('data/raw/ufc.csv')
ufc_master = pd.read_csv('data/raw/ufc-master.csv')

# Удаление дубликатов перед объединением
fighter_stats = fighter_stats.drop_duplicates(subset='name')
large_dataset = large_dataset.drop_duplicates(subset=['r_fighter', 'event_name'])
medium_dataset = medium_dataset.drop_duplicates(subset=['r_fighter', 'event'])
ufc = ufc.drop_duplicates(subset=['Fighter 1', 'Event Name'])
ufc_master = ufc_master.drop_duplicates(subset=['RedFighter', 'Date'])

# Объединение данных бойцов со статистикой боев, включая 'method' из ufc.csv
fighters_detailed_stats = pd.merge(fighter_stats, large_dataset, left_on='name', right_on='r_fighter', how='left')
fighters_detailed_stats = pd.merge(fighters_detailed_stats, medium_dataset, left_on='name', right_on='r_fighter', how='left')
fighters_detailed_stats = pd.merge(fighters_detailed_stats, ufc[['Fighter 1', 'Event Name', 'method']], left_on='name', right_on='Fighter 1', how='left')
fighters_detailed_stats = pd.merge(fighters_detailed_stats, ufc_master, left_on='name', right_on='RedFighter', how='left')

# Группировка и создание списков ивентов, результатов, методов побед и добавление пола бойца для каждого бойца
fighters_detailed_stats_grouped = fighters_detailed_stats.groupby('name').agg({
    'event_name': lambda x: ', '.join(x.dropna().unique()),  # Список уникальных ивентов через запятую
    'winner': lambda x: ', '.join(x.dropna().unique()),      # Список уникальных результатов через запятую
    'method': lambda x: ', '.join(x.dropna().unique()),      # Методы побед (KO, сабмишн и т.д.)
    'gender': 'first',                                       # Пол бойца (муж/жен)
    'wins': 'first',                                         # Оставляем оригинальные данные бойца
    'losses': 'first',
    'height': 'first',
    'weight': 'first',
    'reach': 'first',
    'stance': 'first',
    'age': 'first',
    'SLpM': 'first',
    'sig_str_acc': 'first',
    'SApM': 'first',
    'str_def': 'first',
    'td_avg': 'first',
    'td_acc': 'first',
    'td_def': 'first',
    'sub_avg': 'first',
    'r_str_x': 'first',     # Столбцы по статистике боя
    'r_td_x': 'first',
    'r_sub_att': 'first'
}).reset_index()

# Добавляем новые колонки с ивентами, методами побед, полом бойца и результатами в relevant_columns
relevant_columns = ['name', 'wins', 'losses', 'height', 'weight', 'reach', 'stance', 'age', 
                    'SLpM', 'sig_str_acc', 'SApM', 'str_def', 'td_avg', 'td_acc', 'td_def', 'sub_avg', 
                    'r_str_x', 'r_td_x', 'r_sub_att', 'event_name', 'winner', 'method', 'gender']

# Выбираем нужные колонки
fighters_detailed_stats_grouped = fighters_detailed_stats_grouped[relevant_columns]

# Показ первых строк результата
print(fighters_detailed_stats_grouped.head())

# Сохранение финального результата в CSV-файл
fighters_detailed_stats_grouped.to_csv('data/processed/fighters_detailed_stats_with_events_methods_and_wins.csv', index=False)

print("Файл с бойцами, ивентами, методами побед, полом и результатами сохранен в 'data/processed/fighters_detailed_stats_with_events_methods_and_wins.csv'.")


KeyError: "['method'] not in index"

In [22]:
# Проверка столбцов в файле ufc.csv
print(ufc.columns)


Index(['Location', 'Fighter 1', 'Fighter 2', 'Fighter_1_KD', 'Fighter_2_KD',
       'Fighter_1_STR', 'Fighter_2_STR', 'Fighter_1_TD', 'Fighter_2_TD',
       'Fighter_1_SUB', 'Fighter_2_SUB', 'Weight_Class', 'Method', 'Round',
       'Time', 'Event Name', 'Date', 'Winner'],
      dtype='object')


In [23]:
import pandas as pd

# Загрузка данных
fighter_stats = pd.read_csv('data/raw/Fighter_stats/fighter_stats.csv')
large_dataset = pd.read_csv('data/raw/Large_set/large_dataset.csv')
medium_dataset = pd.read_csv('data/raw/Medium_set/medium_dataset.csv')
ufc = pd.read_csv('data/raw/ufc.csv')
ufc_master = pd.read_csv('data/raw/ufc-master.csv')

# Удаление дубликатов перед объединением
fighter_stats = fighter_stats.drop_duplicates(subset='name')
large_dataset = large_dataset.drop_duplicates(subset=['r_fighter', 'event_name'])
medium_dataset = medium_dataset.drop_duplicates(subset=['r_fighter', 'event'])
ufc = ufc.drop_duplicates(subset=['Fighter 1', 'Event Name'])
ufc_master = ufc_master.drop_duplicates(subset=['RedFighter', 'Date'])

# Объединение данных бойцов со статистикой боев, включая 'Method' из ufc.csv
fighters_detailed_stats = pd.merge(fighter_stats, large_dataset, left_on='name', right_on='r_fighter', how='left')
fighters_detailed_stats = pd.merge(fighters_detailed_stats, medium_dataset, left_on='name', right_on='r_fighter', how='left')
fighters_detailed_stats = pd.merge(fighters_detailed_stats, ufc[['Fighter 1', 'Event Name', 'Method']], left_on='name', right_on='Fighter 1', how='left')
fighters_detailed_stats = pd.merge(fighters_detailed_stats, ufc_master, left_on='name', right_on='RedFighter', how='left')

# Группировка и создание списков ивентов, результатов, методов побед и добавление пола бойца для каждого бойца
fighters_detailed_stats_grouped = fighters_detailed_stats.groupby('name').agg({
    'event_name': lambda x: ', '.join(x.dropna().unique()),  # Список уникальных ивентов через запятую
    'winner': lambda x: ', '.join(x.dropna().unique()),      # Список уникальных результатов через запятую
    'Method': lambda x: ', '.join(x.dropna().unique()),      # Методы побед (KO, сабмишн и т.д.)
    'gender': 'first',                                       # Пол бойца (муж/жен)
    'wins': 'first',                                         # Оставляем оригинальные данные бойца
    'losses': 'first',
    'height': 'first',
    'weight': 'first',
    'reach': 'first',
    'stance': 'first',
    'age': 'first',
    'SLpM': 'first',
    'sig_str_acc': 'first',
    'SApM': 'first',
    'str_def': 'first',
    'td_avg': 'first',
    'td_acc': 'first',
    'td_def': 'first',
    'sub_avg': 'first',
    'r_str_x': 'first',     # Столбцы по статистике боя
    'r_td_x': 'first',
    'r_sub_att': 'first'
}).reset_index()

# Добавляем новые колонки с ивентами, методами побед, полом бойца и результатами в relevant_columns
relevant_columns = ['name', 'wins', 'losses', 'height', 'weight', 'reach', 'stance', 'age', 
                    'SLpM', 'sig_str_acc', 'SApM', 'str_def', 'td_avg', 'td_acc', 'td_def', 'sub_avg', 
                    'r_str_x', 'r_td_x', 'r_sub_att', 'event_name', 'winner', 'Method', 'gender']

# Выбираем нужные колонки
fighters_detailed_stats_grouped = fighters_detailed_stats_grouped[relevant_columns]

# Показ первых строк результата
print(fighters_detailed_stats_grouped.head())

# Сохранение финального результата в CSV-файл
fighters_detailed_stats_grouped.to_csv('data/processed/fighters_detailed_stats_with_events_methods_and_wins.csv', index=False)

print("Файл с бойцами, ивентами, методами побед, полом и результатами сохранен в 'data/processed/fighters_detailed_stats_with_events_methods_and_wins.csv'.")


            name  wins  losses  height  weight   reach    stance   age  SLpM  \
0  AJ Cunningham  11.0     4.0  177.80   70.31  180.34  Orthodox  29.0  7.66   
1      AJ Dobson   7.0     3.0  185.42   83.91  193.04  Orthodox  32.0  4.29   
2    AJ Fletcher  10.0     3.0  177.80   77.11  170.18    Switch  27.0  3.36   
3     Aalon Cruz   8.0     4.0  182.88   65.77  198.12    Switch  34.0  7.58   
4    Aaron Brink  26.0    26.0  190.50   92.99     NaN  Orthodox  49.0  3.49   

   sig_str_acc  ...  td_acc  td_def  sub_avg  r_str_x  r_td_x  r_sub_att  \
0         0.29  ...    0.00    0.33      0.0      NaN     NaN        NaN   
1         0.46  ...    0.75    0.65      0.3     98.0     2.0        0.0   
2         0.49  ...    0.35    0.33      0.9     23.0     0.0        1.0   
3         0.39  ...    0.00    0.00      0.0      2.0     0.0        0.0   
4         0.42  ...    0.00    0.00      0.0      NaN     NaN        NaN   

                                          event_name     winne

In [2]:
pip install dash


Collecting dash
  Downloading dash-2.18.1-py3-none-any.whl.metadata (10 kB)
Collecting Flask<3.1,>=1.0.4 (from dash)
  Downloading fla***REMOVED***3.0.3-py3-none-any.whl.metadata (3.2 kB)
Collecting dash-html-components==2.0.0 (from dash)
  Downloading dash_html_components-2.0.0-py3-none-any.whl.metadata (3.8 kB)
Collecting dash-core-components==2.0.0 (from dash)
  Downloading dash_core_components-2.0.0-py3-none-any.whl.metadata (2.9 kB)
Collecting dash-table==5.0.0 (from dash)
  Downloading dash_table-5.0.0-py3-none-any.whl.metadata (2.4 kB)
Collecting importlib-metadata (from dash)
  Downloading importlib_metadata-8.5.0-py3-none-any.whl.metadata (4.8 kB)
Collecting retrying (from dash)
  Downloading retrying-1.3.4-py3-none-any.whl.metadata (6.9 kB)
Collecting itsdangerous>=2.1.2 (from Flask<3.1,>=1.0.4->dash)
  Using cached itsdangerous-2.2.0-py3-none-any.whl.metadata (1.9 kB)
Collecting zipp>=3.20 (from importlib-metadata->dash)
  Downloading zipp-3.20.2-py3-none-any.whl.metadata (3

In [1]:
import dash
from dash import dcc, html
import plotly.graph_objects as go
import base64

# Функция для загрузки и кодирования SVG-файла
def get_svg_base64(file_path):
    with open(file_path, 'rb') as file:
        svg_data = file.read()
    return base64.b64encode(svg_data).decode('utf-8')

# Получаем закодированное изображение SVG
svg_base64 = get_svg_base64('human_body.svg')

# Данные для количества ударов
head_hits = 174
body_hits = 35
leg_hits = 45
total_hits = head_hits + body_hits + leg_hits

# Рассчитываем проценты попаданий
head_percentage = (head_hits / total_hits) * 100
body_percentage = (body_hits / total_hits) * 100
leg_percentage = (leg_hits / total_hits) * 100

# Определяем цвета в зависимости от количества попаданий
def get_color_by_hits(hits, max_hits):
    intensity = min(1, hits / max_hits)
    return f'rgba(255, 0, 0, {intensity})'  # Чем больше значение, тем насыщеннее красный цвет

head_color = get_color_by_hits(head_hits, total_hits)
body_color = get_color_by_hits(body_hits, total_hits)
leg_color = get_color_by_hits(leg_hits, total_hits)

# Инициализация Dash-приложения
app = dash.Dash(__name__)

# Создание layout для приложения
app.layout = html.Div([
    html.H1("UFC Strikes Visualization"),
    dcc.Graph(
        id='human-body-graph',
        figure={
            'data': [],
            'layout': go.Layout(
                images=[{
                    'source': 'data:image/svg+xml;base64,' + svg_base64,
                    'xref': "paper",
                    'yref': "paper",
                    'x': 0,
                    'y': 1,
                    'sizex':0.5,   # Сделать ширину равной 1
                    'sizey': 1.2, # Увеличить высоту до 1.8 для полного роста
                    'sizing': "stretch",
                    'opacity': 1,
                    'layer': "below"
                }],
                xaxis=dict(visible=False, range=[0, 1]),  # Настройка осей
                yaxis=dict(visible=False, range=[0, 1.8]), # Настройка осей
                showlegend=True,
            )
        }
    )
])

# Запуск сервера
if __name__ == '__main__':
    app.run_server(debug=True)


FileNotFoundError: [Errno 2] No such file or directory: 'human_body.svg'

In [31]:
pip install requests beautifulsoup4


Collecting beautifulsoup4
  Using cached beautifulsoup4-4.12.3-py3-none-any.whl.metadata (3.8 kB)
Collecting soupsieve>1.2 (from beautifulsoup4)
  Using cached soupsieve-2.6-py3-none-any.whl.metadata (4.6 kB)
Using cached beautifulsoup4-4.12.3-py3-none-any.whl (147 kB)
Using cached soupsieve-2.6-py3-none-any.whl (36 kB)
Installing collected packages: soupsieve, beautifulsoup4
Successfully installed beautifulsoup4-4.12.3 soupsieve-2.6
Note: you may need to restart the kernel to use updated packages.


In [36]:
import requests
from bs4 import BeautifulSoup

def get_fighter_stats_html(url):
    # Отправляем запрос на страницу бойца
    response = requests.get(url)
    if response.status_code != 200:
        print(f"Не удалось получить доступ к странице: {url}")
        return None

    # Разбираем HTML с помощью BeautifulSoup
    soup = BeautifulSoup(response.text, 'html.parser')

    # Находим блок с классом "l-container stats-record-wrap"
    stats_section = soup.find('div', class_='l-container stats-record-wrap')

    if not stats_section:
        print("Блок с классом 'l-container stats-record-wrap' не найден")
        return None

    # Возвращаем весь HTML-код данного блока
    return stats_section.prettify()

# Пример использования
fighter_url = 'https://www.ufc.com/athlete/bryan-battle'
fighter_stats_html = get_fighter_stats_html(fighter_url)

if fighter_stats_html:
    print("HTML-код блока STATS & RECORDS:")
    print(fighter_stats_html)


HTML-код блока STATS & RECORDS:
<div class="l-container stats-record-wrap">
 <div class="l-container__content">
  <div class="c-carousel-wrapper c-carousel--multiple">
   <div class="l-listing__header stats-records__header carousel-section-title-wrap carousel-section-title-wrap--multiple">
    <h2 class="l-listing__title stats-records__title">
     Stats &amp; Records
    </h2>
   </div>
   <div class="c-carousel--multiple__content carousel__multiple-items stats-records-inner-wrap" data-carousel="athlete">
    <div class="stats-records stats-records__container stats-records--one-column">
     <div class="stats-records-inner">
      <div class="athlete-stats">
       <div class="athlete-stats__stat">
        <p class="athlete-stats__text athlete-stats__stat-numb">
         4
        </p>
        <p class="athlete-stats__text athlete-stats__stat-text">
         Wins by Knockout
        </p>
       </div>
       <div class="athlete-stats__stat">
        <p class="athlete-stats__text athle

In [47]:
import os
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin

def save_multiple_fighters_stats(base_url, fighter_names, output_folder, output_file):
    # Создаем папку для сохранения файлов, если её нет
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)

    # Создаем новый HTML документ, который будет содержать информацию обо всех бойцах
    combined_soup = BeautifulSoup('<html><head></head><body></body></html>', 'html.parser')

    # Добавляем ссылку на style.css в head нового документа
    link_tag = combined_soup.new_tag('link', rel='stylesheet', href='style.css')
    combined_soup.head.append(link_tag)

    # Скачиваем и сохраняем все стили в один файл style.css
    css_file_path = os.path.join(output_folder, 'style.css')
    with open(css_file_path, 'w', encoding='utf-8') as css_file:
        css_content_collected = False  # Флаг для проверки, скачали ли мы стили
        for fighter_name in fighter_names:
            fighter_url = f"{base_url}/{fighter_name}"
            response = requests.get(fighter_url)
            if response.status_code != 200:
                print(f"Не удалось получить доступ к странице: {fighter_url}")
                continue

            # Разбираем HTML с помощью BeautifulSoup
            soup = BeautifulSoup(response.text, 'html.parser')

            if not css_content_collected:
                # Сохраняем CSS только один раз, если они еще не были добавлены
                css_links = soup.find_all('link', rel='stylesheet')
                for link in css_links:
                    css_url = urljoin(fighter_url, link['href'])
                    css_response = requests.get(css_url)
                    if css_response.status_code == 200:
                        css_file.write(css_response.text + "\n")
                        css_content_collected = True
                        print(f"Стили добавлены в {css_file_path}")
                    else:
                        print(f"Не удалось скачать CSS по адресу: {css_url}")

            # Находим блок с классом "l-container stats-record-wrap"
            stats_section = soup.find('div', class_='l-container stats-record-wrap')
            if not stats_section:
                print(f"Блок с дизайном не найден для {fighter_name}")
                continue

            # Находим блок с изображением бойца
            image_wrap = soup.find('div', class_='hero-profile__image-wrap')
            if image_wrap:
                img_tag = image_wrap.find('img')
                if img_tag and 'src' in img_tag.attrs:
                    img_url = urljoin(fighter_url, img_tag['src'])
                    # Скачиваем изображение
                    img_response = requests.get(img_url)
                    if img_response.status_code == 200:
                        # Сохраняем изображение в папке с именем бойца
                        img_file_name = f"{fighter_name}_image.jpg"
                        img_file_path = os.path.join(output_folder, img_file_name)
                        with open(img_file_path, 'wb') as img_file:
                            img_file.write(img_response.content)
                        print(f"Изображение бойца {fighter_name} сохранено в {img_file_path}")
                        # Добавляем тег <img> с локальным путем в stats_section
                        new_img_tag = soup.new_tag('img', src=img_file_name)
                        stats_section.insert(0, new_img_tag)
                    else:
                        print(f"Не удалось скачать изображение бойца {fighter_name}")

            # Находим блок с информацией о бойце
            profile_info = soup.find('div', class_='hero-profile__info')
            if profile_info:
                # Добавляем информацию о бойце перед stats_section
                stats_section.insert(0, profile_info)

            # Добавляем раздел с информацией о бойце в общий HTML-документ
            combined_soup.body.append(stats_section)

    # Сохраняем объединенный HTML-документ
    output_file_path = os.path.join(output_folder, output_file)
    with open(output_file_path, 'w', encoding='utf-8') as file:
        file.write(combined_soup.prettify())
    print(f"Информация о всех бойцах сохранена в {output_file_path}")

# Пример использования
base_url = 'https://www.ufc.com/athlete'
fighter_names = ['bryan-battle', 'conor-mcgregor', 'khabib-nurmagomedov']  # Список имен бойцов
output_folder = 'fighters_stats'
output_file = 'all_fighters_stats.html'

save_multiple_fighters_stats(base_url, fighter_names, output_folder, output_file)


Стили добавлены в fighters_stats/style.css
Стили добавлены в fighters_stats/style.css
Изображение бойца bryan-battle сохранено в fighters_stats/bryan-battle_image.jpg
Изображение бойца conor-mcgregor сохранено в fighters_stats/conor-mcgregor_image.jpg
Изображение бойца khabib-nurmagomedov сохранено в fighters_stats/khabib-nurmagomedov_image.jpg
Информация о всех бойцах сохранена в fighters_stats/all_fighters_stats.html


In [2]:
import pandas as pd

# Load the datasets
fighter_stats = pd.read_csv('data/raw/Fighter_stats/fighter_stats.csv')
large_dataset = pd.read_csv('data/raw/Large_set/large_dataset.csv')
medium_dataset = pd.read_csv('data/raw/Medium_set/medium_dataset.csv')
ufc = pd.read_csv('data/raw/ufc.csv')
ufc_master = pd.read_csv('data/raw/ufc-master.csv')
completed_events_small = pd.read_csv('data/raw/Small_set/completed_events_small.csv')

# Display the column names of each dataset to understand their structure
fighter_stats_columns = fighter_stats.columns
large_dataset_columns = large_dataset.columns
medium_dataset_columns = medium_dataset.columns
ufc_columns = ufc.columns
ufc_master_columns = ufc_master.columns
completed_events_small_columns = completed_events_small.columns

# Output the information for analysis with headings for clarity
print("=== Column Names for Each Dataset ===")
print("Fighter Stats Columns:", fighter_stats_columns)
print("Large Dataset Columns:", large_dataset_columns)
print("Medium Dataset Columns:", medium_dataset_columns)
print("UFC Columns:", ufc_columns)
print("UFC Master Columns:", ufc_master_columns)
print("Completed Events Small Columns:", completed_events_small_columns)


=== Column Names for Each Dataset ===
Fighter Stats Columns: Index(['name', 'wins', 'losses', 'height', 'weight', 'reach', 'stance', 'age',
       'SLpM', 'sig_str_acc', 'SApM', 'str_def', 'td_avg', 'td_acc', 'td_def',
       'sub_avg'],
      dtype='object')
Large Dataset Columns: Index(['event_name', 'r_fighter', 'b_fighter', 'winner', 'weight_class',
       'is_title_bout', 'gender', 'method', 'finish_round', 'total_rounds',
       'time_sec', 'referee', 'r_kd', 'r_sig_str', 'r_sig_str_att',
       'r_sig_str_acc', 'r_str', 'r_str_att', 'r_str_acc', 'r_td', 'r_td_att',
       'r_td_acc', 'r_sub_att', 'r_rev', 'r_ctrl_sec', 'r_wins_total',
       'r_losses_total', 'r_age', 'r_height', 'r_weight', 'r_reach',
       'r_stance', 'r_SLpM_total', 'r_SApM_total', 'r_sig_str_acc_total',
       'r_td_acc_total', 'r_str_def_total', 'r_td_def_total', 'r_sub_avg',
       'r_td_avg', 'b_kd', 'b_sig_str', 'b_sig_str_att', 'b_sig_str_acc',
       'b_str', 'b_str_att', 'b_str_acc', 'b_td', 'b_td_at

In [4]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time

# Основной URL сайта
base_url = "http://ufcstats.com/statistics/events/completed"

# Получение списка всех событий
response = requests.get(base_url)
soup = BeautifulSoup(response.text, 'html.parser')

# Сбор всех ссылок на события
event_links = []
for link in soup.find_all('a', class_='b-link'):
    href = link.get('href')
    if href and "event-details" in href:
        event_links.append(href)

# Пример: Извлечение данных по каждому событию
event_data = []
for event_url in event_links:
    event_response = requests.get(event_url)
    event_soup = BeautifulSoup(event_response.text, 'html.parser')
    
    # Извлечение информации о бойцах
    fighters = event_soup.find_all('td', class_='b-fight-details__table-col')
    # Пример: Здесь добавьте логику для сбора конкретных данных, таких как возраст, рост и т.д.
    
    # Пример добавления данных в список (добавьте реальную логику извлечения данных)
    event_info = {
        "fighter_name": "Имя бойца",  # Замените на реальное значение
        "age": "Возраст",             # Замените на реальное значение
        "height": "Рост",             # Замените на реальное значение
        "reach": "Размах рук"         # Замените на реальное значение
    }
    event_data.append(event_info)
    
    # Вывод извлеченных данных в консоль
    print("Найденные данные по событию:")
    print(event_info)
    
    # Небольшая пауза для предотвращения блокировки
    time.sleep(1)

# Создание DataFrame из собранных данных
event_df = pd.DataFrame(event_data)
print("\nСводная таблица данных по всем событиям:")
print(event_df)


Найденные данные по событию:
{'fighter_name': 'Имя бойца', 'age': 'Возраст', 'height': 'Рост', 'reach': 'Размах рук'}
Найденные данные по событию:
{'fighter_name': 'Имя бойца', 'age': 'Возраст', 'height': 'Рост', 'reach': 'Размах рук'}
Найденные данные по событию:
{'fighter_name': 'Имя бойца', 'age': 'Возраст', 'height': 'Рост', 'reach': 'Размах рук'}
Найденные данные по событию:
{'fighter_name': 'Имя бойца', 'age': 'Возраст', 'height': 'Рост', 'reach': 'Размах рук'}
Найденные данные по событию:
{'fighter_name': 'Имя бойца', 'age': 'Возраст', 'height': 'Рост', 'reach': 'Размах рук'}
Найденные данные по событию:
{'fighter_name': 'Имя бойца', 'age': 'Возраст', 'height': 'Рост', 'reach': 'Размах рук'}
Найденные данные по событию:
{'fighter_name': 'Имя бойца', 'age': 'Возраст', 'height': 'Рост', 'reach': 'Размах рук'}
Найденные данные по событию:
{'fighter_name': 'Имя бойца', 'age': 'Возраст', 'height': 'Рост', 'reach': 'Размах рук'}
Найденные данные по событию:
{'fighter_name': 'Имя бойца