In [3]:
%load_ext autoreload
%autoreload 2

In [4]:
import os
from os.path import join as p_join
import sys
from typing import List, Tuple, Dict, Set, Any, Optional, Callable
from pathlib import Path
sys.path.insert(0, str(Path(os.getcwd()).parent))
import requests
from tqdm import tqdm
try:
    from fabulous import color as fb_color
    color_print = lambda x, color='green': print(getattr(fb_color, color)(x)) if 'fb_color' in globals() else print(x)
except Exception as e:
    color_print = lambda x, color='green': print(x)

from bs4 import BeautifulSoup
import numpy as np
import pandas as pd
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

In [6]:
from src.parse_utils import get_events_list, get_events_info, get_fighters_info, get_one_fight_stats
from src.processing import eventslist2df

In [7]:
matplotlib.rcParams['figure.figsize'] = (8, 8)
sns.set_style('whitegrid')

---

In [9]:
PARSED_DATA_PATH = p_join(str(Path(os.getcwd()).parent), 'data/raw/all_fights.json')
print(f"PARSED_DATA_PATH: {PARSED_DATA_PATH}")

PARSED_DATA_PATH: /home/aiandrejcev/ufc/data/raw/all_fights.json


In [10]:
fights_list, status_ok = get_events_list()
print(status_ok)
print(len(fights_list))
fights_list[:3]

True
630


[{'event_url': 'http://www.ufcstats.com/event-details/56ec58954158966a',
  'event_name': 'UFC Fight Night: Cannonier vs. Strickland',
  'date': 'December 17, 2022',
  'location': 'Las Vegas, Nevada, USA'},
 {'event_url': 'http://www.ufcstats.com/event-details/f65a0eb902f9476b',
  'event_name': 'UFC 282: Blachowicz vs. Ankalaev',
  'date': 'December 10, 2022',
  'location': 'Las Vegas, Nevada, USA'},
 {'event_url': 'http://www.ufcstats.com/event-details/b23388ff8ac6637b',
  'event_name': 'UFC Fight Night: Thompson vs. Holland',
  'date': 'December 03, 2022',
  'location': 'Orlando, Florida, USA'}]

In [13]:
fights_df = eventslist2df(fights_list)
fights_df

Unnamed: 0,event_url,event_name,date,location
0,http://www.ufcstats.com/event-details/56ec5895...,UFC Fight Night: Cannonier vs. Strickland,"December 17, 2022","Las Vegas, Nevada, USA"
1,http://www.ufcstats.com/event-details/f65a0eb9...,UFC 282: Blachowicz vs. Ankalaev,"December 10, 2022","Las Vegas, Nevada, USA"
2,http://www.ufcstats.com/event-details/b23388ff...,UFC Fight Night: Thompson vs. Holland,"December 03, 2022","Orlando, Florida, USA"
3,http://www.ufcstats.com/event-details/012fc7cd...,UFC Fight Night: Nzechukwu vs. Cutelaba,"November 19, 2022","Las Vegas, Nevada, USA"
4,http://www.ufcstats.com/event-details/b3b6e80b...,UFC 281: Adesanya vs. Pereira,"November 12, 2022","New York City, New York, USA"
...,...,...,...,...
625,http://www.ufcstats.com/event-details/1c3f5e85...,UFC 6: Clash of the Titans,"July 14, 1995","Casper, Wyoming, USA"
626,http://www.ufcstats.com/event-details/dedc3bb4...,UFC 5: The Return of the Beast,"April 07, 1995","Charlotte, North Carolina, USA"
627,http://www.ufcstats.com/event-details/b60391da...,UFC 4: Revenge of the Warriors,"December 16, 1994","Tulsa, Oklahoma, USA"
628,http://www.ufcstats.com/event-details/1a49e067...,UFC 3: The American Dream,"September 09, 1994","Charlotte, North Carolina, USA"


In [8]:
# from src.parse_utils import get_events_info

In [9]:
# event_urls = ['http://www.ufcstats.com/event-details/a23e63184c65f5b8']
# events_stats_dict = {}
# for event_url in tqdm(event_urls):
#     one_event = requests.get(event_url)
#     one_event = BeautifulSoup(one_event.content, 'lxml')

#     fights_in_1_event = (
#             one_event
#             .find_all(
#                     "tr", {
#                             "class": "b-fight-details__table-row b-fight-details__table-row__hover js-fight-details-click"
#                     }
#             )
#     )

#     stat_cols_names = (
#             one_event.find_all('thead', {'class': "b-fight-details__table-head"})[0]
#             .find_all('th', {'class': "b-fight-details__table-col"})
#     )
#     item_number2stat_mapping = {
#             i: stat.text.strip().lower().replace('/', '_').replace(' ', '_') for i, stat in enumerate(stat_cols_names)
#     }

#     one_event_stats_list = []
#     for i, one_fight in enumerate(fights_in_1_event):
#         one_fights_stats = one_fight.find_all('td', {"class": "b-fight-details__table-col"})

#         curr_fight_stats_dict = {}
#         for j, stat in enumerate(one_fights_stats):
#                 stat = stat.find_all('p', {'class': 'b-fight-details__table-text'})
#                 if len(stat) == 1:
#                         curr_fight_stats_dict[item_number2stat_mapping[j]] = stat[0].text.strip()
#                 elif len(stat) == 2:
#                         curr_fight_stats_dict[item_number2stat_mapping[j]] = []
#                         for val in stat:
#                                 curr_fight_stats_dict[item_number2stat_mapping[j]].append(val.text.strip())
#                 else:
#                         raise ValueError("it's not expected to be more than 2 values!")

#         one_event_stats_list.append(curr_fight_stats_dict)
#     events_stats_dict[event_url] = one_event_stats_list

In [10]:
# fights_info_dict = get_events_info(event_urls=fights_df['event_url'].values.tolist())
# print(len(fights_info_dict))

In [9]:
all_fights_list = []
for event_uri, event_date, event_location, event_name in tqdm(
    fights_df[['event_url', 'date', 'location', 'event_name']].itertuples(index=False),
    total=len(fights_df)
):
    one_event = requests.get(event_uri)
    one_event = BeautifulSoup(one_event.content, 'lxml')
    one_event = (
        one_event
        .find_all(
            "tr", {"class": "b-fight-details__table-row b-fight-details__table-row__hover js-fight-details-click"}
        )
    )
    for one_fight in one_event:
        fight_uri = [
            row.replace('data-link', '').replace('=', '').replace('"', '') 
            for row in str(one_fight).split() if 'data-link' in row
        ][0]

        fight_stats_dict = get_one_fight_stats(fight_uri=fight_uri)
        fight_stats_dict['date'] = event_date
        fight_stats_dict['location'] = event_location
        fight_stats_dict['event_name'] = event_name
        fight_stats_dict['event_uri'] = event_uri
        fight_stats_dict['fight_uri'] = fight_uri
        all_fights_list.append(fight_stats_dict)


  0%|                                                                                                                                           | 0/630 [00:00<?, ?it/s][A
  0%|▏                                                                                                                                | 1/630 [00:12<2:15:09, 12.89s/it][A
  0%|▍                                                                                                                                | 2/630 [00:24<2:07:06, 12.14s/it][A
  0%|▌                                                                                                                                | 3/630 [00:38<2:16:12, 13.03s/it][A
  1%|▊                                                                                                                                | 4/630 [00:48<2:05:02, 11.99s/it][A
  1%|█                                                                                                                                | 5/6

  7%|█████████▌                                                                                                                      | 47/630 [09:10<1:56:43, 12.01s/it][A
  8%|█████████▊                                                                                                                      | 48/630 [09:24<2:00:34, 12.43s/it][A
  8%|█████████▉                                                                                                                      | 49/630 [09:39<2:09:58, 13.42s/it][A
  8%|██████████▏                                                                                                                     | 50/630 [09:58<2:23:23, 14.83s/it][A
  8%|██████████▎                                                                                                                     | 51/630 [10:07<2:07:41, 13.23s/it][A
  8%|██████████▌                                                                                                                     | 52/63

 15%|███████████████████                                                                                                             | 94/630 [17:51<1:33:13, 10.44s/it][A
 15%|███████████████████▎                                                                                                            | 95/630 [18:02<1:34:24, 10.59s/it][A
 15%|███████████████████▌                                                                                                            | 96/630 [18:14<1:38:47, 11.10s/it][A
 15%|███████████████████▋                                                                                                            | 97/630 [18:25<1:38:42, 11.11s/it][A
 16%|███████████████████▉                                                                                                            | 98/630 [18:36<1:37:17, 10.97s/it][A
 16%|████████████████████                                                                                                            | 99/63

 22%|████████████████████████████▍                                                                                                  | 141/630 [26:47<1:35:58, 11.78s/it][A
 23%|████████████████████████████▋                                                                                                  | 142/630 [26:59<1:36:51, 11.91s/it][A
 23%|████████████████████████████▊                                                                                                  | 143/630 [27:11<1:37:59, 12.07s/it][A
 23%|█████████████████████████████                                                                                                  | 144/630 [27:23<1:36:09, 11.87s/it][A
 23%|█████████████████████████████▏                                                                                                 | 145/630 [27:34<1:34:35, 11.70s/it][A
 23%|█████████████████████████████▍                                                                                                 | 146/63

 30%|█████████████████████████████████████▉                                                                                         | 188/630 [36:16<1:28:20, 11.99s/it][A
 30%|██████████████████████████████████████                                                                                         | 189/630 [36:28<1:27:01, 11.84s/it][A
 30%|██████████████████████████████████████▎                                                                                        | 190/630 [36:40<1:27:54, 11.99s/it][A
 30%|██████████████████████████████████████▌                                                                                        | 191/630 [36:53<1:29:37, 12.25s/it][A
 30%|██████████████████████████████████████▋                                                                                        | 192/630 [37:05<1:28:21, 12.10s/it][A
 31%|██████████████████████████████████████▉                                                                                        | 193/63

 37%|███████████████████████████████████████████████▎                                                                               | 235/630 [45:19<1:18:36, 11.94s/it][A
 37%|███████████████████████████████████████████████▌                                                                               | 236/630 [45:32<1:20:59, 12.33s/it][A
 38%|███████████████████████████████████████████████▊                                                                               | 237/630 [45:45<1:21:59, 12.52s/it][A
 38%|███████████████████████████████████████████████▉                                                                               | 238/630 [45:57<1:21:14, 12.43s/it][A
 38%|████████████████████████████████████████████████▏                                                                              | 239/630 [46:08<1:18:47, 12.09s/it][A
 38%|████████████████████████████████████████████████▍                                                                              | 240/63

 45%|████████████████████████████████████████████████████████▊                                                                      | 282/630 [54:31<1:11:58, 12.41s/it][A
 45%|█████████████████████████████████████████████████████████                                                                      | 283/630 [54:43<1:11:58, 12.44s/it][A
 45%|█████████████████████████████████████████████████████████▎                                                                     | 284/630 [54:55<1:10:14, 12.18s/it][A
 45%|█████████████████████████████████████████████████████████▍                                                                     | 285/630 [55:08<1:11:42, 12.47s/it][A
 45%|█████████████████████████████████████████████████████████▋                                                                     | 286/630 [55:21<1:12:22, 12.62s/it][A
 46%|█████████████████████████████████████████████████████████▊                                                                     | 287/63

 52%|██████████████████████████████████████████████████████████████████▎                                                            | 329/630 [1:03:30<56:20, 11.23s/it][A
 52%|██████████████████████████████████████████████████████████████████▌                                                            | 330/630 [1:03:42<56:56, 11.39s/it][A
 53%|██████████████████████████████████████████████████████████████████▋                                                            | 331/630 [1:03:53<56:05, 11.26s/it][A
 53%|██████████████████████████████████████████████████████████████████▉                                                            | 332/630 [1:04:04<55:14, 11.12s/it][A
 53%|███████████████████████████████████████████████████████████████████▏                                                           | 333/630 [1:04:15<55:56, 11.30s/it][A
 53%|███████████████████████████████████████████████████████████████████▎                                                           | 334/63

 60%|███████████████████████████████████████████████████████████████████████████▊                                                   | 376/630 [1:11:59<46:38, 11.02s/it][A
 60%|███████████████████████████████████████████████████████████████████████████▉                                                   | 377/630 [1:12:11<47:03, 11.16s/it][A
 60%|████████████████████████████████████████████████████████████████████████████▏                                                  | 378/630 [1:12:21<45:10, 10.76s/it][A
 60%|████████████████████████████████████████████████████████████████████████████▍                                                  | 379/630 [1:12:34<48:16, 11.54s/it][A
 60%|████████████████████████████████████████████████████████████████████████████▌                                                  | 380/630 [1:12:45<46:57, 11.27s/it][A
 60%|████████████████████████████████████████████████████████████████████████████▊                                                  | 381/63

 67%|█████████████████████████████████████████████████████████████████████████████████████▎                                         | 423/630 [1:20:54<37:23, 10.84s/it][A
 67%|█████████████████████████████████████████████████████████████████████████████████████▍                                         | 424/630 [1:21:05<37:36, 10.95s/it][A
 67%|█████████████████████████████████████████████████████████████████████████████████████▋                                         | 425/630 [1:21:16<37:28, 10.97s/it][A
 68%|█████████████████████████████████████████████████████████████████████████████████████▉                                         | 426/630 [1:21:26<36:06, 10.62s/it][A
 68%|██████████████████████████████████████████████████████████████████████████████████████                                         | 427/630 [1:21:39<38:15, 11.31s/it][A
 68%|██████████████████████████████████████████████████████████████████████████████████████▎                                        | 428/63

 75%|██████████████████████████████████████████████████████████████████████████████████████████████▋                                | 470/630 [1:29:27<28:25, 10.66s/it][A
 75%|██████████████████████████████████████████████████████████████████████████████████████████████▉                                | 471/630 [1:29:38<28:08, 10.62s/it][A
 75%|███████████████████████████████████████████████████████████████████████████████████████████████▏                               | 472/630 [1:29:48<28:02, 10.65s/it][A
 75%|███████████████████████████████████████████████████████████████████████████████████████████████▎                               | 473/630 [1:29:58<27:12, 10.40s/it][A
 75%|███████████████████████████████████████████████████████████████████████████████████████████████▌                               | 474/630 [1:30:08<26:18, 10.12s/it][A
 75%|███████████████████████████████████████████████████████████████████████████████████████████████▊                               | 475/63

 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏                      | 517/630 [1:37:23<18:03,  9.59s/it][A
 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████▍                      | 518/630 [1:37:31<17:24,  9.33s/it][A
 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████▌                      | 519/630 [1:37:41<17:25,  9.41s/it][A
 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████▊                      | 520/630 [1:37:50<16:59,  9.26s/it][A
 83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 521/630 [1:37:59<16:51,  9.28s/it][A
 83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▏                     | 522/63

 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋             | 564/630 [1:43:53<08:07,  7.38s/it][A
 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 565/630 [1:44:00<07:57,  7.34s/it][A
 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████             | 566/630 [1:44:07<07:42,  7.23s/it][A
 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎            | 567/630 [1:44:13<07:07,  6.79s/it][A
 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌            | 568/630 [1:44:20<06:55,  6.71s/it][A
 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋            | 569/63

 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏   | 611/630 [1:48:45<01:50,  5.80s/it][A

can't get per round statistics!
list index out of range

can't get per round statistics!
list index out of range




 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎   | 612/630 [1:48:51<01:49,  6.07s/it][A

can't get per round statistics!
list index out of range




 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 613/630 [1:48:57<01:42,  6.03s/it][A

can't get per round statistics!
list index out of range




 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 614/630 [1:49:03<01:32,  5.81s/it][A
 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉   | 615/630 [1:49:08<01:25,  5.67s/it][A
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 616/630 [1:49:15<01:26,  6.17s/it][A
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍  | 617/630 [1:49:22<01:21,  6.27s/it][A

can't get per round statistics!
list index out of range




 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 618/630 [1:49:29<01:18,  6.54s/it][A

can't get per round statistics!
list index out of range

can't get per round statistics!
list index out of range

can't get per round statistics!
list index out of range




 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 619/630 [1:49:36<01:14,  6.78s/it][A

can't get per round statistics!
list index out of range

can't get per round statistics!
list index out of range




 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉  | 620/630 [1:49:42<01:06,  6.61s/it][A

can't get per round statistics!
list index out of range

can't get per round statistics!
list index out of range




 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 621/630 [1:49:48<00:57,  6.37s/it][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 622/630 [1:49:53<00:48,  6.00s/it][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 623/630 [1:49:59<00:41,  5.93s/it][A

can't get per round statistics!
list index out of range

can't get per round statistics!
list index out of range




 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 624/630 [1:50:06<00:36,  6.09s/it][A

can't get per round statistics!
list index out of range

can't get per round statistics!
list index out of range




 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 625/630 [1:50:14<00:33,  6.73s/it][A

can't get per round statistics!
list index out of range

can't get per round statistics!
list index out of range




 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 626/630 [1:50:21<00:27,  6.78s/it][A

can't get per round statistics!
list index out of range




100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 627/630 [1:50:28<00:20,  6.96s/it][A

can't get per round statistics!
list index out of range




100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌| 628/630 [1:50:35<00:13,  6.85s/it][A

can't get per round statistics!
list index out of range




100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊| 629/630 [1:50:39<00:06,  6.15s/it][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 630/630 [1:50:50<00:00, 10.56s/it][A


In [11]:
json.dump(
    all_fights_list, 
    open(PARSED_DATA_PATH, mode='w', encoding='utf-8'), ensure_ascii=False, indent=2
)

NameError: name 'json' is not defined

In [10]:
from src.parse_utils import get_fighters_info

In [11]:
overall_fighters_list, status_ok = get_fighters_info()
print(f"status_ok: {status_ok}")
print(len(overall_fighters_list))

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████| 26/26 [00:30<00:00,  1.18s/it]

status_ok: True
476





In [400]:
# are there namesakes among fighters?
res = Counter([f"{dct['First']}_{dct['Last']}" for dct in overall_fighters_list])
res.most_common(1)

[('Tom_Aaron', 1)]

In [None]:
n = 2
unq = {1, 2}
p(n) = 1/2

In [None]:
"""
                        m
         1         2        3         4          5
    |--------||--------||--------||--------||--------|
    |        ||        ||        ||        |         |
  1 |    1   ||   0    ||    0   ||    0   |     0   | 
    |        ||        ||        ||        |         |
    |--------||--------||--------||--------||--------|
    |        ||        ||        ||        |         |
  2 |    0   ||   1/2  ||(1/2)^2*||(1/2)^3*|(1/2)^4* | 
    |        ||        ||(1/2)   ||(1/2)   |(1/2)    |
    |--------||--------||--------||--------||--------|
    |        ||        ||        ||        |         |
  3 |    0   ||   0    ||3!/3^3  ||p(3, 2)*|        |
    |        ||        ||        ||(1/n)   |         | 
    |--------||--------||--------||--------||--------| 
    |        ||        ||        ||        |         |
  4 |    0    ||        ||        ||        |        | 
    |        ||        ||        ||        |         | 
    |--------||--------||--------||--------||--------|
    |        ||        ||        ||        |         |
  5 |    0    ||        ||        ||        |        |
    |        ||        ||        ||        |         |
    |--------||--------||--------||--------||--------|
    

"""

In [None]:
p(4, 3) = p(3, 2)*(1/n) + p(2, 1)*p(2, 2) + p(2, 2)*p(2, 1)

In [None]:
p(m, n) = ???
p(1, 1) = 1
p(2, 2) = 1/2
p(3, 2) = 
                      m
       \   1  2  3  4  5  6  7 ...
    1      1 
    
n   2
    
    3
    
    4
    
    5

In [None]:
n = 2
p(m=2) = 1/2
p(m=3) = (1/2)^2 * (1/2)
p(m=4) = (1/2)^3 * (1/2)
...
p(m=x) = (1/2)^(x-1) * (1/2)


n=3 
p(m=1,2) = 0
p(m=3) = 3!/3^3
p(m=4) = (1 - p(m=3))*

In [None]:
p(3) = p(2)*(1/n) + p(1)

In [None]:
Omega_(m=2) = {(1, 1), (1, 2), (2, 1), (2, 2)}
Omega_(m=3) = {
    (1, 1, 1), (1, 1, 2), (1, 2, 1), (1, 2, 2), (2, 1, 1), (2, 1, 2), (2, 2, 1), (2, 2, 2)
}
Omega_(n=3) = {
    (1, 1, 1), 
    (1, 1, 2), (1, 2, 1), (1, 2, 2), (2, 1, 1), (2, 1, 2), (2, 2, 1), (2, 2, 2), 
    (1, 1, 3), (1, 3, 1), (1, 3, 3), (3, 1, 1), (3, 1, 3), (3, 3, 1), (3, 3, 3),
    (2, 2, 2), 
    (2, 2, 3), (2, 3, 2), (2, 3, 3), (3, 2, 2), (3, 2, 3), (3, 3, 2)
}