In [2]:
import pandas as pd 
from tqdm import tqdm 
from pathlib import Path
from typing import Dict, List
import re 
from collections import defaultdict
import os
import re
import logging

from dotenv import load_dotenv
import openai
from tqdm import tqdm
import pandas as pd

logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
output_handler = logging.StreamHandler()
output_handler.setLevel(logging.INFO)

pd.set_option('display.max_rows', 500)
pd.set_option('display.max_columns', 500)
pd.set_option('display.width', 1000)

load_dotenv('../openai.env')
openai.api_key  = os.getenv('API_KEY')
logger = logging.getLogger()

### Utils

In [13]:
def min_to_second(string: str):
    """
    Перевеод формата времени матча в секунды
    
    Аргументы:
        string: str - формат времени матча 
    Возвращает:
        время в секундах (int)
    """
    
    if isinstance(string, str):
        pattern = r"(\d+)\.(\d+):(\d+)"

        match = re.match(pattern, string)
        if match:
            minutes = int(match.group(1))*60
            seconds = int(match.group(3))
            return minutes+seconds
    else:
        return 0
    
    
def get_file_list(path_docs: str) -> List[str]:
    """
    Получитьл список всех файлов в папке
    
    Аргументы:
        path_docs - путь до папки с исходниками для рассчёта статистики  
    Возвращает:
        список путей исходников
    """
    
    path = Path(path_docs)
    parent =  path.parent
    name = path.name
    return [parent/name/path for path in os.listdir(path)]

class StatsHolder:
    """
    Класс для хранение и обработки сигнальных показателей
    """
    
    target_columns: list= ['MIN', 'FGM','FGA','FG3M','FTM','FTA','FT_PCT', 
                           'OREB','DREB','REB','AST','STL','BLK','TO','PF','PTS', 'PLAYER_ID', 'GAME_ID']
    calculus_columns: list = ['MIN', 'FGM','FGA','FG3M','FTM','FTA',
                              'FT_PCT','OREB','DREB','REB','AST','STL','BLK','TO','PF','PTS']
    labels_columns: list = ['PLAYER_ID', 'GAME_ID']
    
    def __init__(self, players_stats: Dict[int, List[pd.Series]]):
        """
        Аргументы:
            players_stats - статистика по игрокам. Ключи - индексы игроков, 
                            значения - сисок статистики по игроку за все указанные игры
        """
        
        self.players_stats: Dict[int, List[pd.Series]] = players_stats # статистика по игрокам
        self._old_rating = self._calculate_rating() # инициализация начального рейтинга

    
    @classmethod
    def from_csv(cls, path_docs: str) -> 'StatsHolder':
        """ 
        Создание объекта StatsHolder из списка файлов со статистикой формата .csv
        """
       
        file_list = get_file_list(path_docs)#[:100]
        players_stats = defaultdict(list)
        
        for path in tqdm(file_list, total=len(file_list)):
            df = pd.read_csv(path).fillna(0)
            
            if 'PLAYER_ID' not in df.columns:
                continue
            
            df['MIN'] = df['MIN'].apply(min_to_second)
            df[cls.calculus_columns] =df[cls.calculus_columns].fillna(0).astype(int)
            for index, row in df.iterrows():
                players_stats[row.PLAYER_ID].append(row[cls.target_columns])
                
        return cls(players_stats=players_stats)
        
        
    def add_record(self, record: pd.DataFrame) -> None:
        """
        Добавить запись к общецй статистике игроков
        
        Аргументы:
            record: pd.DataFrame - запись конкретной игры
        """
        
        for _, row in record[self.target_columns].iterrows():
            player_id = row.PLAYER_ID
            game_id = row.GAME_ID

            id_game_list = [stat.GAME_ID for stat in  self.players_stats[player_id]]
             
            if game_id in id_game_list:
                logger.info(f'This GAME_ID:{game_id} is already in the dataset') 
                return None
            
            self.players_stats[player_id].append(row)
           
        logger.info(f'added game_id: {game_id}') 
        
        # вычисление нового рейтинга (после добавление записи)
        self._new_rating = self._calculate_rating() 
        
              
    def set_strategy(self):
        """
        Установить стратегию срабатывания сигнальных показателей
        """
        
        pass
    
    def _calculate_rating(self) -> Dict[str, pd.DataFrame]:
        """
        Рассчёт рейтинга для явсе игроков по всем показателям
        
        Возвращает:
            словарь, где:
                ключь - это наименование сигнального показателя (MIN, PTS и т.п.)
                значение - это DataFrame со следующими колонками:
                    PLAYER_ID - идентификатор игрока
                    VALUE - суммарное значение показателя игрока за весь период рассчёта
                    RATING - какое место занимает игрок в рейтинге по этому показателю \
                        относительно других игроков (0 - самое высокое место)            
        """
        
        # агрегация (суммирование) по игрокам 
        df_all = pd.concat([pd.DataFrame(records) for _, records in self.players_stats.items()], axis=0)
        df_all = df_all.groupby('PLAYER_ID').sum()
        #  получение словаря с рейтингами игроков для каждого сигнального показателя
        ratings = {col: df_all[col].sort_values(ascending=False).to_frame().reset_index()\
                    .rename(columns={col:'VALUE'}).assign(RATING=range(len(df_all[col]))) for col in df_all.columns} 
                                                            
        return ratings

In [14]:
stats = StatsHolder.from_csv(path_docs='resource/boxscoretraditionalv2/')

100%|██████████| 6273/6273 [00:47<00:00, 131.32it/s]


In [15]:
# Add record

record = pd.read_csv(r'resource\boxscoretraditionalv2\boxscoretraditionalv2_0_0012100003.csv') 
record['MIN'] = record['MIN'].apply(min_to_second)
record[stats.calculus_columns] = record[stats.calculus_columns].fillna(0).astype(int)
record['GAME_ID'] = 21211221
record.loc[0,'PLAYER_ID'] = 202681
record.loc[0,'MIN'] = 10000000000
stats.add_record(record)


  record.loc[0,'MIN'] = 10000000000
2023-10-24 15:10:23,157 - INFO - added game_id: 21211221


In [20]:
old_rating = stats._old_rating
new_rating = stats._new_rating

print(old_rating['MIN'])
print(new_rating['MIN'])

      PLAYER_ID   VALUE  RATING
0       1628369  229153       0
1       1628969  206137       1
2       1627827  203462       2
3       1628973  192901       3
4       1630178  192065       4
...         ...     ...     ...
1013     203933       0    1013
1014     203487       0    1014
1015     203099       0    1015
1016     202695       0    1016
1017  196293918       0    1017

[1018 rows x 3 columns]
      PLAYER_ID        VALUE  RATING
0        202681  10000078223       0
1       1628369       230669       1
2       1628969       206137       2
3       1627827       203462       3
4       1628973       192901       4
...         ...          ...     ...
1013     203933            0    1013
1014     203487            0    1014
1015     203099            0    1015
1016     202695            0    1016
1017  196293918            0    1017

[1018 rows x 3 columns]
