In [1]:
import os
import selenium
import requests
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup
import time
import csv
import numpy as np
import pandas as pd
import random
import base64
import inspect
import sqlalchemy as sa
import datetime

In [2]:
def sleep(base_time=0.5, float_part=1.5):
    '''Функция для случайного ожидания'''
    
    time.sleep(base_time + random.random() * float_part)

In [3]:
def click_button(browser, element, by=By.CSS_SELECTOR):
    '''Нажимает на элемент и возваращает его'''
    
    element_present = EC.presence_of_element_located((by, element))
    _element = WebDriverWait(browser, 10).until(element_present)
    # sleep(1, 2)
    browser.execute_script("arguments[0].click();", _element)
    sleep()
    return _element

In [4]:
def timing(func):
    """
    Декоратор, выводящий время, которое заняло
    выполнение декорируемой функции.
    """
     
    def wrapper(*args, **kwargs):
        t = time.time()
        res = func(*args, **kwargs)
        
        # Записываем время выполнения функции в time_df 
        
        # вытаскиваем родительскую функцию с помощью модуля inspect
        # можно также это сделать с помощью sys._getframe(1).f_code.co_name
        # но этот метод вообще начинается с нижнего подчеркивания
        # хз все кривое)) нужна ли родительская функция?
        time_df.loc[func.__name__] = [inspect.stack()[1].function, time.time() - t]
        return res
    return wrapper

# Создаем DataFrame для записи времени прохождения каждой функции
time_df = pd.DataFrame(columns=['parent_func', 'lead_time'])
time_df.index.name = 'func'
time_df

Unnamed: 0_level_0,parent_func,lead_time
func,Unnamed: 1_level_1,Unnamed: 2_level_1


In [5]:
def receive_time_df(my_soup, feat_list=['minute', 'data_type'], mode='match-centre', *args):
    
    '''Функция находит все элементы в общей каше данных, которые отвечают сходятся с *args,
       затем ищет среди них значения атрибутов из списка(feat_list) доставая их описание
       из внутреннего списка attr_dict. Поэтому каждый элемент в feat_list должен быть
       представлен в attr_dict'''
    
    def _inner_func(inc, feature_attr):
        
        '''Внутренняя функция ищет заданный атрибут(feature_attr[name]) в данном элементе(inc)
           и возвращает его значение. 
           Если значения сравнения с пустотой(feature_attr[empty_comparison]) равно True,
           то функция просто проверяет, есть ли заданный атрибут(feature_attr[name]) в данном элементе(inc)
           и возвращает булево значение наличия'''
        
        if feature_attr['empty_comparison']:
            return inc.get(feature_attr['name']) == ''
        else:
            return inc.get(feature_attr['name']) 

    attr_dict = {'minute':        {'name': 'data-minute', 'empty_comparison': False},
                 'second':        {'name': 'data-second', 'empty_comparison': False},
                 'team_id':       {'name': 'data-team-id', 'empty_comparison': False},
                 'player_id':     {'name': 'data-player-id', 'empty_comparison': False},
                 'assist':        {'name': 'data-event-satisfier-assist', 'empty_comparison': True},
                 'data_type':     {'name': 'data-type', 'empty_comparison': False},
                 'yellow_card':   {'name': 'data-event-satisfier-yellowcard', 'empty_comparison': True},
                 'second_yellow': {'name': 'data-event-satisfier-secondyellow', 'empty_comparison': True},
                 'red_card':      {'name': 'data-event-satisfier-redcard', 'empty_comparison': True},
                 'card_type':     {'name': 'data-card-type', 'empty_comparison': False},
                 'penalty':       {'name': 'data-event-satisfier-penaltyscored', 'empty_comparison': True},
                 'penalty_miss':  {'name': 'data-event-satisfier-penaltymissed', 'empty_comparison': True},
                 'goal_own':      {'name': 'data-event-satisfier-goalown', 'empty_comparison': True},
                 'error_lead':    {'name': 'data-event-satisfier-errorleadstogoal', 'empty_comparison': True},
                 'shots_on_post': {'name': 'data-event-satisfier-shotonpost', 'empty_comparison': True},
                 'clear_line':    {'name': 'data-event-satisfier-clearanceofftheline', 'empty_comparison': True},
                 'tacklelastman': {'name': 'data-event-satisfier-tacklelastman', 'empty_comparison': True}}
    
    # Достаем все элементы подходящие под заданный поиск
    tab = my_soup.findAll(*args)
    # Если разбираем timeline для chalkboard, то дополнительно раскрываем внутренние списки,
    # так как тут ячейки ищем по родительскому тегу
    # (чтобы легко можно было разделить на первый и второй тайм, добавляя on-right)
    if mode == 'chalkboard':
        tab = [y for i in tab for y in i.findChildren(recursive=False)]
    
    # Для каждого инцидента достаем все атрибуты из feat_list и складываем в словарь
    inc_list = []
    for incident in tab:
        inc_dict = {}
        for feature in feat_list:
            if feature == 'text':
                inc_dict[feature] = incident.findAll(text=True)[-1]  # пока текст по кривому достаю
            else:
                inc_dict[feature] = _inner_func(incident, attr_dict[feature])
        inc_list.append(inc_dict)
    
    return pd.DataFrame(inc_list)

# live_inc_list = ['minute', 'second', 'team_id', 'player_id', 'data_type']
# receive_time_df(live_inc, live_inc_list, *('div', {'class': 'incident-icon'}))

In [6]:
def timeline_exec(my_soup, attr_list, name, cls, mode='match-centre'):
    """Функция выделяет и объединяет полосы моментов в один DataFrame"""
    
    timeline_df = pd.DataFrame(columns=['minute', 'second']) #.set_index(['minute', 'second'])
    # Выбираем полосу моментов по каждой из сторон
    for side in ['home', 'away']:
        mc_timeline = my_soup.find('div', {'id': mode + '-timeline'}).find('div', {'class': 'timeline-events',
                                                                                        'data-field': side})
        # Выгружаем первый тайм
        first_time = receive_time_df(mc_timeline, attr_list, mode, name, cls)
        first_time['half'] = 1
        
        # добавляем в элементы поиска для второго тайма on-right
        cls2 = {'class': value + 'on-right' for key, value in cls.items()}
                    
        # Выгружаем второй тайм
        second_time = receive_time_df(mc_timeline, attr_list, mode, name, cls2)
        second_time['half'] = 2
        
        # Объединяем оба тайма в один DataFrame
        timeline_df_side = pd.concat([first_time, second_time], ignore_index=True, sort=False)
        # timeline_df_side = timeline_df_side.set_index(['minute', 'second'])
        timeline_df_side['side'] = side
        
        # Добавляем к общему DataFrame
        timeline_df = pd.concat([timeline_df, timeline_df_side], sort=False)
    return timeline_df.set_index(['minute', 'second'])
    

# timeline_attr_list = ['minute', 'second', 'team_id', 'player_id', 'assist', 'data_type', 'yellow_card',
#                       'second_yellow', 'red_card', 'card_type', 'penalty', 'penalty_miss', 'goal_own',
#                       'error_lead', 'shots_on_post', 'clear_line', 'tacklelastman', 'text']

# timeline_df = timeline_exec(soup, timeline_attr_list, 'div', {'class': 'timeline-event incident-icon '})
# timeline_df

In [7]:
# Функция для чтения состава и его атрибутов
def receive_stad(my_soup, category):
    stad_data = my_soup.find('div', {'id': 'stadium'})
    player_list = []
    
    for side in ('home', 'away'):
        # Читаем данные основы
        pitch_data = stad_data.find('div', {'class': 'pitch-field', 'data-field': side})
        team_id = pitch_data['data-team-id']
        
        # для каждого подкласса в основе
        for child in pitch_data.children:
            player_dict = {}
            player_dict['player_id'] = child['data-player-id']
            
            # Если рейтинг(первая) то читаем все дополнительные показатели игрок матча, в основе ли и т.д.
            if category == 'rating':
                player_dict['star'] = child['class'][-1] == 'is-man-of-the-match'
                player_dict['team_id'] = team_id
                player_dict['cast'] = 'first'               # для основы first
                player_dict['side'] = side
            
            # считываем название категории
            player_dict[category] = child.find('div', {'class': 'player-stat'}).find(text=True)
            
            player_list.append(player_dict)
        
        # Читаем данные скамейки
        bench = stad_data.find('div', {'class': 'substitutes', 'data-field': side})
        
        # для каждого покласса скамейки
        for child in bench.children:
            player_dict = {}
            player_dict['player_id'] = child['data-player-id']
            
            # только если категория рейтинг(первая) считываем остальные данные по игрокам
            if category == 'rating':
                player_dict['star'] = child['class'][-1] == 'is-man-of-the-match'
                player_dict['team_id'] = team_id
                player_dict['cast'] = 'sub'                     # для скамейки sub
                player_dict['side'] = side
            
            player_dict[category] = child.find('div', {'class': 'player-stat'}).find(text=True)
            
            player_list.append(player_dict)
    
    return pd.DataFrame(player_list).set_index(['player_id'])        

#receive_stad(soup, 'rating')

In [8]:
# Функция для быстрого создания примеров
def make_df(cols, ind):
    data = {c: [str(c) + str(i) for i in ind] for c in cols}
    return pd.DataFrame(data, ind)

AB = make_df('AB', range(4, 6))
print(np.all(AB.iloc[:, -1].values == make_df('B', range(4, 6)).iloc[:, -1].values))
AB

True


Unnamed: 0,A,B
4,A4,B4
5,A5,B5


In [9]:
def get_main_stat(_soup, tableName=[]):
    '''Функция достает общую статистику по командам за матч'''
    
    main_stat_list = []
    for side in ('home', 'away'):
        team_info = _soup.find('div', {'class': 'match-centre-header-team', 'data-field': side})
        team_info_dict = {} 
        team_info_dict['manager_name'] = team_info.find('span', {'class': 'manager-name'}).text
        team_info_dict['team_name'] = team_info.find('a', {'class': 'team-name'}).text
        team_info_dict['formation'] = team_info.find('div', {'class': 'formation'}).text
        # Рейтинг достаем отдельно от остальной статистики
        team_info_dict['rating'] = team_info.find('div', {'class': 'team-rating'}).text

        for main_name, sub in tableName.items():
            
            stat_element = _soup.find('li', {'class': 'match-centre-stat has-stats', 'data-for': main_name})
          
            team_info_dict[main_name] = stat_element.find('span', {'data-field': side})['data-value']
            for sub_name in sub:
                sub_element = _soup.find('li', {'class': 'match-centre-stat match-centre-sub-stat', 'data-for': sub_name})
                team_info_dict[sub_name] = sub_element.find('span', {'data-field': side})['data-value']
                
        main_stat_list.append(team_info_dict)
        
    main_stat_df = pd.DataFrame(main_stat_list, index=('home', 'away')).T
    return main_stat_df

# get_main_stat(soup, tableName)

In [10]:
def get_match_info(_soup):
    '''Достает общую информацию о матче(погода, посещаемость, судья, стадион)'''
    match_info = _soup.find('div', {'class': 'match-info'})
    match_info_dict = {}
    match_info_dict['venue'] = match_info.find('span', {'class': 'venue'})['data-core-value']
    match_info_dict['attendance'] = match_info.find('span', {'class': 'attendance'})['data-core-value']
    match_info_dict['weather_name'] = match_info.find('span', {'class': 'weather'})['data-value']
    match_info_dict['weather_code'] = match_info.find('span', {'class': 'weather'})['data-core-value']
    match_info_dict['referee'] = match_info.find('span', {'class': 'referee'})['title']

    return pd.Series(match_info_dict)

# get_match_info(soup)
# soup.findAll('div', {'class': 'match-info'})

In [11]:
def get_content(browser, css_element, mode='main'):
    """Функция находит и выбирает заданный в css_element элемент,
       а также раскрывает кнопку more в элементе если стоит режим main.
       И возвращает контент страницы после нажатия"""
    
    try:
        # получаем назад элемент чтобы потом внетри него нажать кнопку more если main
        element = click_button(browser, css_element)
        
        if mode == 'main':
            more_button_css = 'div[class*="toggle-stat-details iconize iconize-icon-right ui-state-transparent-default"]'
            button = element.find_element(By.CSS_SELECTOR, more_button_css)
            button.click()
    except:
        print("Problem with ", css_element)
        sleep()

    # Загружаем данные страницы
    content = browser.page_source
    soup = BeautifulSoup(''.join(content), 'lxml')
    return soup

In [12]:
def add_aditional_cat(player_stats, browser, tableName, main_stat_df):
    '''Добавляет в player_stats все данные по категориям из tableName'''
    
    def _add_cat(browser, stat_df, cat_name, css_elem, main_stat_df, mode='main'):
        '''Внутренняя функция достает с помощью get_content данные по игрокам в категории
           и проверяет ее на ошибку сравнивая с предыдущей. И заносит в общий
           DataFrame по игрокам'''

        main_soup = get_content(browser, css_elem, mode)
        cat_df = receive_stad(main_soup, cat_name)
        
        # достаем данные по предыдущей категории для сравнения с текущей
        previous_stat = stat_df.iloc[:, -1].values

        # Если собранные данные по текущей категории по игрокам полностью совпадает с предыдущей 
        # и сумма из таблицы с общими данными по данной категории равна нулю 
        # и тогда данные в виджете не обновляются. Поэтому просто проставляем пустые значения в таких случаях.
        if np.all(np.all(previous_stat == cat_df.iloc[:, -1].values) and main_stat_df.loc[[cat_name]].astype('float').sum(1) == 0):
            stat_df[cat_name] = None
        else:
            stat_df = stat_df.join(cat_df)

        return stat_df
    
    # для каждой основной категории и списка дополнительных
    for main_name, sub in tableName.items():

        main_css = "li[class*='match-centre-stat  has-stats'][data-for='" + main_name + "']"
        # добавляешь категорию в общий df
        player_stats = _add_cat(browser, player_stats, main_name, main_css, main_stat_df)
        
        # для каждой дополнительной категории
        for sub_name in sub:
            sub_css = "li[class*='match-centre-stat match-centre-sub-stat'][data-for='" + sub_name + "']"
            # добавляем категорию в общий df
            player_stats = _add_cat(browser, player_stats, sub_name, sub_css, main_stat_df, 'sub')
            
    return player_stats

In [13]:
@timing
def get_match_center_data(browser, timeline_attr_list, match_center_cat_table):
    # Загружаем все данные с изначальной страницы

    content = browser.page_source
    soup = BeautifulSoup(''.join(content), 'lxml')

    # Достаем данные по погоде, полю и рефери
    match_info = get_match_info(soup)

    # можно еще добавить разбор данных из верхнего Timeline
    # (timeline_exec изначально ее разбирал и в нем есть такой режим), правда в нижнем timeline просто больше данных:))

    # Получаем DataFrame с основными моментами за игру
    timeline_mc_df = timeline_exec(soup, timeline_attr_list, 'div', {'class': 'timeline-event incident-icon '})

    # Получаем изначальную статистику по игрокам(рейтинг)
    player_stats = receive_stad(soup, 'rating')

    # Достаем остальную информацию по игрокам

    

    # С помощью функции get_main_stat достаем общую за матч статистику по командам
    main_stat_df = get_main_stat(soup, match_center_cat_table)

    # достаем дополнительную статистику по игрокам в категориях из таблицы tableName
    # и добавляем ее в player_stats

    player_stats = add_aditional_cat(player_stats, browser, match_center_cat_table, main_stat_df)
    
    return match_info, timeline_mc_df, main_stat_df, player_stats


In [14]:
@timing
def get_chalkboard_data(browser, cat_table, timeline_attr_list, chalk_data_df=None):
    '''Достаем и нажимаем(click_button) на каждую категорию из cat_table,
       далее с помощью внутренней функции добавляем данные по каждой из них в общий DataFrame'''
    
    def _add_category_data(browser, chalk_data_df, timeline_attr_list, category, subcategory=None):
        '''Достаем из Timeline данные по категории с помощью timeline_exec,
           выбирая в данных атрибуты из timeline_attr_list
           если это первый вызов функции общего chalk_data_df еще нет,
           то он будет просто возвращен получившийся из timeline_exec DataFrame,
           в другом случае данные прибавяться к уже имеющемся в chalk_data_df'''
        
        content = browser.page_source
        _soup = BeautifulSoup(''.join(content), 'lxml')
        
        # грузим данные по категории
        cat_df = timeline_exec(_soup, timeline_attr_list,
                               'div', {'class': 'chalkboard-timeline-events '},
                               mode='chalkboard')
        cat_df['category'] = category
        cat_df['subcat'] = subcategory
        # Если первый случай то создаем новый df
        if chalk_data_df is None:
            chalk_data_df = cat_df
        else:
            chalk_data_df = pd.concat([chalk_data_df, cat_df], sort=False)
            
        return chalk_data_df

    def is_category_empty(browser, xpath_element, mode='main'):
        '''Проверка на наличие данных по данной категории, если данных нет то след. итерация'''
        # если основная категория
        if mode == 'main':
            test_xpath_element = xpath_element + '/../..'
        # если дополнительная
        elif mode == 'sub':
            test_xpath_element = xpath_element + '/..'
        elem = browser.find_element_by_xpath(test_xpath_element)
        # возвращаем булево значение пустая ли улика
        return elem.get_attribute('data-sum') == '0'
        
    # Переходим в Chalkboard
    css_element = 'a[href="#chalkboard"]'
    click_button(browser, css_element)
    sleep(1, 2)
    
    # для основных атрибутов и списков дополнительных
    for main_attr, sub in cat_table.items():
        
        xpath_element = '//li[@class="filterz-option"]/a/h4[text()="' + main_attr + '"]'
        
        # проверка пустой категории
        if is_category_empty(browser, xpath_element, 'main'):
            continue
        # нажимаем на категорию
        click_button(browser, xpath_element, By.XPATH)
        
        # добавляем данные по категории в df
        chalk_data_df = _add_category_data(browser, chalk_data_df, timeline_attr_list, main_attr)
        
        # для каждой дополнительной категории
        for sub_attr in sub:
            
            xpath_element = '//div[@class="filterz-filter"]/label[text()="' + sub_attr + '"]'
            # Проверка пустой категории
            if is_category_empty(browser, xpath_element, 'sub'):
                continue
            # нажимаем на категорию
            click_button(browser, xpath_element, By.XPATH)
            
            chalk_data_df = _add_category_data(browser, chalk_data_df, timeline_attr_list, main_attr, sub_attr)
            
            # Повторно нажимаем кнопку, чтобы выключить выделение
            # чтобы получать полную статистику, если еще есть дополнительные категории
            xpath_element = '//div[@class="filterz-filter selected"]/label[text()="' + sub_attr + '"]'
            click_button(browser, xpath_element, By.XPATH)
            
    return chalk_data_df.sort_index()

In [15]:
def get_match_summary(soup):
    '''Функция достает данные из Match Summary в Match report укладывая их в словарь,
       затем с помощью функции create_df создает общий DataFrame'''
    def get_match_summary_data(soup):
        
        table_match_summary = soup.find('table', {'class': 'matchstory'})
        char_list = {i: {'Strengths': [], 'Weaknesses': [], 'Styles': []} for i in ['home', 'away']}
        for line in table_match_summary.findAll('tr'):
            if line['class'] == ['teamheader']:
                char_list['home']['team'], char_list['away']['team'] = [i for i in line.findAll(text=True) if i != '\n']
            elif line['class'] == ['matchstory-typeheader']:
                typeheader = [i for i in line.findAll(text=True) if i != '\n'][0]
                if typeheader in ['Strengths', 'Weaknesses', 'Styles']:
                    home_list = char_list['home'][typeheader]
                    away_list = char_list['away'][typeheader]
                else:
                    raise BaseException
            elif line['class'] == ['matchstory-row']:
                td_list = line.findAll('td')
                td_line = []
                for td in td_list:
                    span = td.find('span')
                    if span is not None:
                        td_line.append(span.find(text=True))
                    else: 
                        td_line.append(None)

                home_list.append(td_line[0])
                away_list.append(td_line[1])
        return char_list

    
    def create_df(char_list):
        def create_internal_df(key, llist, team, side):
            df = pd.DataFrame(llist, columns=['Char']).dropna()
            df['+/-'] = key
            df['Team'] = team
            df['Side'] = side

            return df
        return_list = []
        for side in char_list:
            side_df_list = []
            side_list = char_list[side]
            team = side_list['team']

            for key in [i for i in side_list if i != 'team']:
                internal_df = create_internal_df(key, side_list[key], team, side)
                side_df_list.append(internal_df)

            side_df = pd.concat(side_df_list, ignore_index=True)
            return_list.append(side_df)

        char_df = pd.concat(return_list, ignore_index=True)
        return char_df
    
    data_list = get_match_summary_data(soup)
    match_summary_df = create_df(data_list)
    
    return match_summary_df



In [16]:
@timing
def get_situational_report_data(browser, css_list_sit_but, div_id_sit_dict, xpath_attempt_type_list):
    '''Функция с помощью внутренней функции get_label_content нажимает на все кнопки из css_list_sit_but
       (после активации каждого меню все данные есть), затем из общего супа достает данные по каждому
       label-значению из div_id_dict
       Потом с помощью функции get_goal_attempt_types достаем дополнительный параметр - голы по типу атаки.
       Приходится доставать их дополнительно, так как необходимо нажимать на кнопки внутреннего меню situational report
       Затем объединяем все это в общий DataFrame и возвращаем его.'''
    
    def get_label_content(browser, div_id_sit_dict, css_list):
        
        def get_one_label_content(soup, div_id, label):
            '''1) Достаем текстовые данные, начиная со второго элемента,
               2) Из сгруппированных по тройкам данных достаем статистику 
                  по домашней, гостевой команде и названию показателя'''
            data_list = soup.find('div', {'id': div_id}).findAll(text=True)[1:]

            def grouped(iterable, n):
                '''Группирует словарь по кортежам с n-кол-вом объектов словаря'''
                "s -> (s0,s1,s2,...sn-1), (sn,sn+1,sn+2,...s2n-1), (s2n,s2n+1,s2n+2,...s3n-1), ..."
                return zip(*[iter(iterable)]*n)
            index, data = [], []
            
            # немного топорная группировка, но работает)
            for home, title, away in grouped(data_list, 3):
                label_dict = {}
                label_dict['home'] = home
                label_dict['away'] = away
                data.append(label_dict)
                # Приьавояем label, чтобы избежать путаницы с названиями внутри общего DataFrame
                index.append(title + ' ' + label)
            return pd.DataFrame(data, index)
        
        # Нажимаем на все кнопки
        for css in css_list:
            click_button(browser, css)

        content = browser.page_source
        soup = BeautifulSoup(''.join(content), 'lxml')

        label_df_list = []
        
        # div_id_dict состоит из label-ключа и словаря с id-значениями таблиц с данными
        for label, div_id_list in div_id_sit_dict.items():
            for div_id in div_id_list:
                # из каждой таблицы достаем данные
                label_df = get_one_label_content(soup, div_id, label)
                # Добавляя в общий список
                label_df_list.append(label_df)

        main_df = pd.concat(label_df_list)
        
        # Возварщаем суп для последующего использования
        return main_df, soup  
        
    def get_goal_attempt_types(browser, attempt_types):
        
        attempt_list = []
    
        for attempt in attempt_types:
            # Нажимаем на каждую кнопку из списка attempt_types внутреннего меню situational Report
            # в категории attempt types
            search_pattern = '//div[@id="live-goals-content-comparision"]/div/div/span[text()="' + attempt + '"]'
            click_button(browser, search_pattern, By.XPATH)

            goal_dict = {}
            # span - номер элемента в списке для задания шаблона поиска(Нумерация в списке начинается с 1)
            for side, span in (('home', '2'), ('away', '4')):
                xpath_pattern_goal_get = '//div[@id="live-goals-info"]/div/div[3]/span/span[' + span + ']'
                text = browser.find_element_by_xpath(xpath_pattern_goal_get).text
                goal_dict[side] = text
            attempt_list.append(goal_dict)
        # Прибавляем goal чтобы потом не было путаницы с названиями внутри DataFrame
        goal_name = ['Goal(' + i + ')' for i in xpath_attempt_type_list]
        return pd.DataFrame(attempt_list, goal_name)
    
    label_df, soup = get_label_content(browser, div_id_sit_dict, css_list_sit_but)

    goal_type_df = get_goal_attempt_types(browser, xpath_attempt_type_list)

    label_df = pd.concat([goal_type_df, label_df])
    
    return label_df, soup


In [17]:
def load_canvas_list(browser, match_id, png_list, png_dir):
    '''
    Загружает canvas-фото из positional report страницы match_report
    по указанному в png_dir пути. 
    png_list состоит из словарей с id для поиска фотографий
    
    Название каждой фотографии строится по следующему шаблону: 
    match_id-png_list[0, 1, ...][stat_name]-png_list[0, 1, ...][side_name]
    '''
    
    def get_canvas_img(browser, match_id, stat_id, canvas_id, png_dir, stat_name, side_name):
        '''
        Загрузка одной фотграфии'''
        
        # Создаем путь прибавляя png_dir к текущему рабочему каталогу
        png_dir = os.path.join(os.getcwd(), png_dir)
        
        # Если не существует путь мы его создаем
        if not os.path.exists(png_dir):
            os.makedirs(png_dir)
        
        css_selector = '#{} #{}'.format(stat_id, canvas_id)
        
        img_name = '{}-{}-{}.png'.format(match_id, stat_name, side_name)   
        
        canvas = browser.find_element_by_css_selector(css_selector)

        # get the canvas as a PNG base64 string
        canvas_base64 = browser.execute_script("return arguments[0].toDataURL('image/png').substring(21);", canvas)

        # decode
        canvas_png = base64.b64decode(canvas_base64)

        # save to a file
        with open(os.path.join(png_dir, img_name), 'wb') as f:
            f.write(canvas_png)
    
    # Для каждой картинки в png_list
    for pic in png_list:
        # Нажимаем на кнопку если это не изначальная картинка
        if pic['stat_id'] != 'live-touch-channels':
            css_selector = 'a[href="#{}"]'.format(pic['stat_id'])
            click_button(browser, css_selector)
        # если для домашних и гостевых данных единый рисунок, грузим один   
        if pic['home'] == pic['away']:
            get_canvas_img(browser, match_id, pic['stat_id'], pic['home'], png_dir,
                           pic['stat_name'], 'home_away')
        # в обычных случаях грузим две фотографии
        else:
            for side in ['home', 'away']:
                get_canvas_img(browser, match_id, pic['stat_id'], pic[side], png_dir,
                               pic['stat_name'], side)

In [18]:
@timing
def get_match_report_data(browser, css_list_sit_but, div_id_dict, xpath_attempt_type_list,
                          png_id_list, match_id, png_dir):
    '''
    Переключается во вкладку match_report
    и загружает данные из match summary, situational report и фото из positional report
    '''
    
    xpath_match_report = '//a[text()="Match Report"]'
    click_button(browser, xpath_match_report, By.XPATH)
    sleep()
    
    # Достаем данные из situational report
    # match_report_soup для последующей выгрузки match_summary-данных
    sit_report_data, match_report_soup = get_situational_report_data(browser, css_list_sit_but,
                                                                     div_id_dict, xpath_attempt_type_list)
    
    # Достаем match_summary-данные
    match_summary = get_match_summary(match_report_soup)
    
    # загружаем фотки
    load_canvas_list(browser, match_id, png_id_list, png_dir)
    
    return sit_report_data, match_summary       

In [19]:
def get_char_data(h2h_soup):
    '''Достаем данные из Team Characteristic'''
    # Выделяем суп с данными
    team_char_soup = h2h_soup.find('div', {'class': 'character-card for-comparision'})
    # Словарь для создания DataFrame
    data_list = []
    # для каждой группы 
    for char in ['strengths', 'weaknesses', 'style']:
        # Выделяем суп для каждой характеристики
        char_soup = team_char_soup.find('div', {'class': char})
        for side in ['home', 'away']:
            # Выделяем суп для каждой стороны
            side_soup = char_soup.find('div', {'class': side})
            
            # У style другое внутреннее устройство
            if char != 'style':
                storage_mode = 'tr'
            else:
                storage_mode = 'li'
                
            feature_list = side_soup.findAll(storage_mode)
            
            for feature_soup in feature_list:
                # У style другое внутреннее устройство
                if char != 'style':
                    # print(feature_soup)
                    feat_text_soup, feat_quality_soup = feature_soup.findAll('td')
                else: 
                    feat_text_soup, feat_quality_soup = feature_soup, None
                
                # направаление атака/оборона
                feature_attr = feat_text_soup.find('span')['title']
                # достаем свойство команды текстом и обрезаем пробелы в начале и конце
                feature_text = feat_text_soup.text.strip()
                # качество свойства достается текстом, но в style их нет для этого улсовие
                feature_qual = feat_quality_soup.text.strip() if feat_quality_soup is not None else None
                
                # создаем словарь для каждого свойства
                d_dict = {}
                d_dict['characteristic'] = char
                d_dict['side'] = side
                d_dict['attr_dir'] = feature_attr
                d_dict['feature'] = feature_text
                d_dict['quality'] = feature_qual
                
                # и добавляем словарь в список для создания DataFrame
                data_list.append(d_dict)

    return pd.DataFrame(data_list)

In [20]:
def get_forecast(h2h_soup):
    '''Функция достает данные из xml супа по предсказаниям и укладывает их в DataFrame'''
    
    # Выделяем суп с предсказаниями
    forecast_soup = h2h_soup.find('div', {'id': 'match-forecast'})

    # создаем список строк таблицы
    forecast_table = forecast_soup.findAll('tr')
    data_list = []
    # для каждой строки таблицы
    for tr in forecast_table:
        # находим все ячейки в этой строке
        td_list = tr.findAll('td')
        
        # Первая ячейка состоит из Названия команды и текста предсказания
        forecast = td_list[0].findAll(text=True)
        fcast = {}
        
        fcast['team'] = forecast[0]
        fcast['forecast'] = forecast[1]
        # Во второй ячейке вероятность текстом
        fcast['probability'] = td_list[1].text

        data_list.append(fcast)

    return pd.DataFrame(data_list)

In [21]:
@timing
def get_h2h_data(browser, xpath_h2h):
    click_button(browser, xpath_head_2_head, By.XPATH)
    sleep()

    content = browser.page_source
    h2h_soup = BeautifulSoup(''.join(content), 'lxml')
    
    # Получаем данные о характеристиках команды
    h2h_char_df = get_char_data(h2h_soup)
    # Получаем предсказание whoscored(или Opta хз)
    h2h_forecast_df = get_forecast(h2h_soup)
    
    return h2h_char_df, h2h_forecast_df

In [22]:
# Match center
# match_info      общая информация по матчу (погода, посещаемость, стадион, рефери)  1
# timeline_mc_df  основные моменты с нижнего timeline  - по минутам изначальные формации, карточки, голы, замены. 4
# main_stat_df    общая статистика за матч по командам - общая по матчу 2
# player_stats    статистика за матч по игрокам        - общая по матчу, дан только id игроков 3

# Chalkboard
# chalk_data_df   статистика по каждому игроку         - время, действие, игрок 4

# Match report 
# match_summary   сильные и слабые стороны команд и просто отличительные черты стиля игры - длинное описание каждой 5
# sit_report_data статитистика по видам атак, голам, пассам и нарушениям - Общие по матчу  2

# Head2head
# h2h_char_df     сильные и слабые стороны команд и просто отличительные черты стиля игры(до матча и больше статистики) 5
# h2h_forecast_df и предсказания на основе сильных и слабых сторон 5

finalURL = 'https://www.whoscored.com/Matches/1284753/Live/England-Premier-League-2018-2019-Cardiff-Newcastle-United'

# Соединяемся с webdriver
browser =  webdriver.Chrome()
browser.set_window_size(1920, 1080) # По умолчанию 400X300 - может привести к проблемам
browser.get(finalURL)

sleep(1, 2)

####################################################################################################################
# Выгружаем статистику по странице match_center
# Словарь атрибутов timeline
timeline_attr_list = ['minute', 'second', 'team_id', 'player_id', 'assist', 'data_type', 'yellow_card',
                      'second_yellow', 'red_card', 'card_type', 'penalty', 'penalty_miss', 'goal_own',
                      'error_lead', 'shots_on_post', 'clear_line', 'tacklelastman', 'text']
# Словарь основных и дополнительных элементов
match_center_cat_table = {'passSuccess': ['passesAccurate'],
                         # 'shotsTotal': [],
                         'possession': [],
                         'dribblesWon': [], # ['dribblesAttempted'],
                         'aerialsWon': ['aerialSuccess', 'defensiveAerials'], # , 'offensiveAerials'
                         'tackleSuccessful': ['tackleUnsuccesful'],
                         'cornersTotal': ['cornerAccuracy'],
                         'dispossessed': []}

# Функция достает данные из match_center
match_info, timeline_mc_df, main_stat_df, player_stats = get_match_center_data(browser, timeline_attr_list, match_center_cat_table)

####################################################################################################################
# Выгрузка данных из chalkboard
# Атрибуты данных для timeline chalkboard
chalk_timeline_attr_list = ['minute', 'second', 'team_id', 'player_id', 'data_type']
# Словарь категорий данных для выгрузки из chalkboard
chalk_cat_table = {'Shots': ['Shots on Target', 'Shots off Target', 'Woodworks', 'Blocked',
                             'Penalty Area', 'Outside of box', 'Open Play', 'Fastbreak', 'Set Pieces'],
                             #  '6-yard box','Penalty', 'Own Goal'],
                   'Dribbles': ['Successful'],
                   'Tackles Attempted': ['Successful Tackles'],
                   'Interceptions': [],
                   'Clearances': ['Total', 'Off The Line'], #, 'Head', 'Feet'],
                   'Blocks': [], # ['Blocked Shots', 'Crosses'],  data_type 10 - Blocked Shots, 74 - Crosses 
                   'Offsides': [],
                   'Fouls': [],
                   'Aerial duels': [],
                   'Touches': [],
                   'Loss of possession': [], # ['Dispossessed', 'Turnover'], data_type 61 - Turnover, 50 - Dispossessed 
                   'Errors': [], # ['Lead to Shot', 'Lead to Goal'],
                   'Saves': [],
                   'Claims': [],
                   'Punches': [],
                   'Passes': ['Cross', 'Freekick', 'Corner', 'Through Ball', 'Throw In', 'Key Passes', 
                              'Long', 'Ground',  'Feet', 'Forward', 'Backward', 'Defensive Third', 'Mid Third']}
                                #  'Short','Chipped','Head', 'Final Third','Left', 'Right',

# Функция достает данные из chalkboard
chalk_data_df = get_chalkboard_data(browser, chalk_cat_table, chalk_timeline_attr_list)

####################################################################################################################
# Выгрузка данных из match report
# список с кнопками верхнего меню situational report(live_goals в конце,
# чтобы потом переключать там меню и получить информацию из какой атаки пришли голы)
css_list_sit_but = ['a[href="#live-passes"]', 'a[href="#live-aggression"]', 'a[href="#live-goals"]']

# В словаре собраны указатели на id таблицы с данными по каждому key-подразделу Situational report
div_id_dict = {'attempts': ['live-goals-content-comparision', 'live-goals-info'],
               'passes': ['live-passes-content-comparision', 'live-passes-info'],
               'agression': ['live-aggression-content-comparision', 'live-aggression-info']}



# Список с кнопками в situational report в Attempt types для выгрузки ситуаций из которой пришли голы
xpath_attempt_type_list = ['Open Play', 'Set Piece', 'Counter Attack', 'Penalty', 'Own Goal']


# Достаем картинки из positional report

png_id_list = [{'stat_id': 'live-touch-channels',
                 'stat_name': 'atack_sides', 
                 'home': 'live-touch-channels-content-homeStatsCanvas', 
                 'away': 'live-touch-channels-content-awayStatsCanvas'}, 
                {'stat_id': 'live-attempt-directions',
                 'stat_name': 'attempt_dir',
                 'home': 'live-attempt-directions-content-homeStatsCanvas',
                 'away': 'live-attempt-directions-content-awayStatsCanvas'}, 
                {'stat_id': 'live-touch-zones',
                 'stat_name': 'touch_zone',
                 'home': 'live-touch-zones-contentStatsCanvas',
                 'away': 'live-touch-zones-contentStatsCanvas'}, 
                {'stat_id': 'live-average-positions',
                 'stat_name': 'average_pl_pos',
                 'home': 'live-average-positions-content-homeStatsCanvas',
                 'away': 'live-average-positions-content-awayStatsCanvas'}]

# match_id для названия
match_id = '1111'
# путь от текущего для хранения фото
png_dir = 'canvas_img'

# функция достает данные из match_report
sit_report_data, match_summary  = get_match_report_data(browser,  css_list_sit_but, div_id_dict, xpath_attempt_type_list,
                                                        png_id_list, match_id, png_dir)

####################################################################################################################
# Выгрузка данных из head to head

# для перехода по странице
xpath_head_2_head = '//a[text()="Head to Head"]'
# функция достает данные со страницы head to head
h2h_char_df, h2h_forecast_df = get_h2h_data(browser, xpath_head_2_head)

# TODO Надо сделать обработку ошибок должным образом
# Также посмотреть форматы данных.(Все в тексте)

browser.quit()

In [23]:
time_df

Unnamed: 0_level_0,parent_func,lead_time
func,Unnamed: 1_level_1,Unnamed: 2_level_1
get_match_center_data,<module>,53.756118
get_chalkboard_data,<module>,145.268741
get_situational_report_data,get_match_report_data,11.314018
get_match_report_data,<module>,23.801115
get_h2h_data,<module>,7.935774


In [24]:
main_stat_df.T[['cornerAccuracy', 'cornersTotal']].reset_index().rename({'index': 'side'}, axis='columns').head()

Unnamed: 0,side,cornerAccuracy,cornersTotal
0,home,40,5
1,away,20,5


### Подключаемся к базе данных

In [25]:
path = 'C:\\P'
filepath = os.path.join(path, 'my.txt')
with open(filepath, 'r') as f:
    password = f.read()

In [26]:
engine = sa.create_engine(
                "mysql+mysqldb://py:{}@localhost/sports_data?charset=utf8mb4&use_unicode=True".format(password)
                ,convert_unicode=True
                # ,isolation_level="READ UNCOMMITTED"
                #,encoding='utf-8'
                        )
connection = engine.connect()

In [27]:
metadata = sa.MetaData()

In [28]:
for t in metadata.sorted_tables:
    print(t.name)

### Загрузка данных в базу данных

In [70]:
def df_to_numeric(df, feat_list, include_list=True):
    '''
    Приводит к цифровым типам столбцы из df 
    
    Если include_list=True, то используем колонки из feat_list,
    иначе наоброт используем колонки df которых там нет.
    '''
    df = df.copy()
    
    if include_list==False:
        col_isin = list(~df.columns.isin(feat_list))
        feat_list = list(df.loc[:, col_isin])
        
    for col in feat_list:
        df[col] = df[col].str.replace('%', '')
        df[col] = pd.to_numeric(df[col])
        
    return df

##### Загрузим match_info_df (1)

In [58]:
# Предобработка df типов перед загрузкой

match_info_df = pd.DataFrame(match_info).T
match_info_df = df_to_numeric(match_info_df, ['weather_code', 'attendance'])

# Добавление id матча
match_info_df['match_id'] = 1

match_info_df.dtypes

venue           object
attendance       int64
weather_name    object
weather_code     int64
referee         object
match_id         int64
dtype: object

In [31]:
# Добавим столбцы 
match_info_df = match_info_df.assign(**{'match_date': pd.to_datetime('2018-08-18'),
                                        'home_team': ['Cardiff'],
                                        'away_team': ['Newcastle'],
                                        'league': ['Premier League'],
                                        'start_season_year':[2018],
                                        'finish_season_year': [2019],
                                        'country': ['England'],
                                        })

In [55]:
match_info_df.copy()

Unnamed: 0,venue,attendance,weather_name,weather_code,referee,match_id,match_date,home_team,away_team,league,start_season_year,finish_season_year,country
0,Cardiff City Stadium,30720,Clear,5,Craig Pawson,1,2018-08-18,Cardiff,Newcastle,Premier League,2018,2019,England


In [61]:
# Создание таблицы из dataframe
# match_info_df.to_sql('match_info', connection, index=False, index_label='match_id')

##### Загрузим team_stat_df (2)

In [74]:
team_stat_df.dtypes

side                               object
aerialSuccess                      object
aerialsWon                         object
cornerAccuracy                     object
cornersTotal                       object
defensiveAerials                   object
dispossessed                       object
dribblesWon                        object
formation                          object
manager_name                       object
passSuccess                        object
passesAccurate                     object
possession                         object
rating                             object
tackleSuccessful                   object
tackleUnsuccesful                  object
team_name                          object
Goal(Open Play)                    object
Goal(Set Piece)                    object
Goal(Counter Attack)               object
Goal(Penalty)                      object
Goal(Own Goal)                     object
Total attempts                     object
Open Play attempts                

In [75]:
# Объединим все таблицы одного уровня(общая статистика матча по командам)
team_stat_df = pd.concat([main_stat_df, sit_report_data], sort=False).T
team_stat_df['match_id'] = '1'

team_stat_df = team_stat_df.reset_index().rename(columns={'index': 'side'})

In [76]:
team_stat_df = df_to_numeric(team_stat_df,
                             ['side', 'formation', 'manager_name', 'team_name'],
                             include_list=False)

In [77]:
# float?
team_stat_df.dtypes

side                                object
aerialSuccess                        int64
aerialsWon                           int64
cornerAccuracy                       int64
cornersTotal                         int64
defensiveAerials                     int64
dispossessed                         int64
dribblesWon                          int64
formation                           object
manager_name                        object
passSuccess                          int64
passesAccurate                       int64
possession                         float64
rating                             float64
tackleSuccessful                     int64
tackleUnsuccesful                    int64
team_name                           object
Goal(Open Play)                      int64
Goal(Set Piece)                      int64
Goal(Counter Attack)                 int64
Goal(Penalty)                        int64
Goal(Own Goal)                       int64
Total attempts                       int64
Open Play a

In [74]:
team_stat_df.dtypes

aerialSuccess                      object
aerialsWon                         object
cornerAccuracy                     object
cornersTotal                       object
defensiveAerials                   object
dispossessed                       object
dribblesWon                        object
formation                          object
manager_name                       object
passSuccess                        object
passesAccurate                     object
possession                         object
rating                             object
tackleSuccessful                   object
tackleUnsuccesful                  object
team_name                          object
Goal(Open Play)                    object
Goal(Set Piece)                    object
Goal(Counter Attack)               object
Goal(Penalty)                      object
Goal(Own Goal)                     object
Total attempts                     object
Open Play attempts                 object
Set Piece attempts                

### Черновик

In [None]:
orders = sa.Table('заказы', metadata, autoload_with=engine, autoload=True
                  # ,mysql_charset='utf8mb4'
                  # ,mysql_keyword_name='utf8mb4'
                  # ,mysql_index_directory='utf8mb4'
                  # ,mysql_engine='InnoDB'
                 )

In [29]:
from sqlalchemy.ext.automap import automap_base

Base = automap_base()
Base.prepare(oracle_db, reflect=True)

match_info_cls = Base.classes.match_info

In [30]:
match_info_df.to_dict(orient="records")

[{'venue': 'Cardiff City Stadium',
  'attendance': 30720,
  'weather_name': 'Clear',
  'weather_code': 5,
  'referee': 'Craig Pawson',
  'match_id': 1}]

In [47]:
# session.rollback()

In [None]:
match_info_cls.delete().where 

In [32]:
from sqlalchemy.orm.session import sessionmaker
Session = sessionmaker(bind=oracle_db)
session = Session()

In [40]:
session.query(match_info_cls).filter(match_info_cls.match_id == 1)\
                             .delete(synchronize_session=False)
session.commit()

1

In [38]:
session.bulk_insert_mappings(match_info_cls, match_info_df.to_dict(orient="records"))
session.commit()

In [43]:
match_info_df.head()

Unnamed: 0,venue,attendance,weather_name,weather_code,referee,match_id
0,Cardiff City Stadium,30720,Clear,5,Craig Pawson,1


In [44]:
match_info_df.to_sql('match_info', con=oracle_db, if_exists='append', index=False)
oracle_db.execute("SELECT * FROM match_info").fetchall()

[(1, 'Cardiff City Stadium', 30720, 'Clear', 5, 'Craig Pawson')]

In [36]:
# count_df = chalk_data_df.groupby(['minute', 'second', 'category', 'subcat']).count()
# count_df.loc[count_df['data_type']==1]
# # chalk_data_df.loc[(chalk_data_df['category']=='Passes')&(chalk_data_df['subcat'].isnull())]
# # pd.Timestamp(chalk_data_df.index)

In [38]:
# chalk_data_df.loc[chalk_data_df['category']=='Touches'].groupby('data_type').count()

In [39]:
# chalk_data_df[(chalk_data_df['category']!='Touches')].fillna('main')\
#             .groupby(['data_type', 'category']).size().reset_index(name='freq')

In [40]:
# chalk_data_df.loc[(chalk_data_df['category']=='Touches') & (chalk_data_df['data_type']=='2')]

In [41]:
# chalk_data_df.loc[chalk_data_df['data_type'].isin(['2','42'])]

In [16]:
b = ['raj', 'e', 'f', 'r']
a = {'raj': [], 'f': []}
for ele in b:
    if ele in ['raj', 'f']:
        k = a[ele]
    else:
        k.append(ele)
        # raise AssertionError
        
# a['raj'].append('aa')
# a['raj'].append('a')
a

{'raj': ['e'], 'f': ['r']}