#Начальные установки и загрузка

In [None]:
import numpy as np
import pandas as pd
import os
import matplotlib.pyplot as plt
import cv2
import sys
from IPython.display import clear_output
from google.colab.patches import cv2_imshow

import warnings
warnings.filterwarnings('ignore')

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
#Грузим основной датасет
data_path = '/content/drive/MyDrive/internship/karate/CSV/'
filename = 'dataset__all_features.csv'
df = pd.read_csv(os.path.join(data_path,filename)) #Основной датасет

In [None]:
def add_column (df,column_name,loc=None):
  '''
  Добавляет новый столбец в указанное место, если такого еще нет
  '''
  if column_name not in df.columns:
    if loc is None:
      loc=len(df.columns)
    df.insert(loc,column_name,np.zeros(len(df)))

In [None]:
#Проверим существование столбца для сохранения фаз, если отсутствует, то добавим
add_column(df,'phase')
df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,o23_25_OY,o23_25_OX,o23_25_OZ,o26_28_OY,o26_28_OX,o26_28_OZ,o25_27_OY,o25_27_OX,o25_27_OZ,phase
0,0,1,0,0,0,0,0,0,0,0,...,0.839532,0.539682,-0.062687,0.746729,-0.545266,0.380895,0.805452,-0.073288,0.588113,0.0
1,0,1,0,0,0,0,0,0,0,0,...,0.829084,0.549687,-0.102292,0.756509,-0.525787,0.388899,0.803362,-0.068162,0.591577,0.0
2,0,1,0,0,0,0,0,0,0,0,...,0.826367,0.553103,-0.105799,0.763141,-0.515636,0.389532,0.804396,-0.064436,0.590588,0.0
3,0,1,0,0,0,0,0,0,0,0,...,0.823055,0.551126,-0.137264,0.764354,-0.504475,0.401582,0.797728,-0.061704,0.599852,0.0
4,0,1,0,0,0,0,0,0,0,0,...,0.825035,0.549418,-0.132121,0.766788,-0.502895,0.398914,0.799612,-0.060594,0.597452,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
284636,0,0,0,0,0,0,0,0,0,1,...,0.906085,0.364353,-0.215073,0.894297,-0.337195,0.294164,0.793764,0.577821,0.189900,0.0
284637,0,0,0,0,0,0,0,0,0,1,...,0.906407,0.366269,-0.210411,0.891249,-0.348732,0.289934,0.802920,0.567092,0.183646,0.0
284638,0,0,0,0,0,0,0,0,0,1,...,0.904525,0.371435,-0.209451,0.890072,-0.356947,0.283480,0.806687,0.563872,0.176929,0.0
284639,0,0,0,0,0,0,0,0,0,1,...,0.903095,0.380851,-0.198425,0.885717,-0.362682,0.289772,0.811039,0.558422,0.174299,0.0


In [None]:
#Добавим к датасету еще несколько классов (12 - стойка, 13 - Прочее (возвраты и т.д))
add_column(df,'10',10)
add_column(df,'11',11)
add_column(df,'12',12)
add_column(df,'13',13)
df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,o23_25_OY,o23_25_OX,o23_25_OZ,o26_28_OY,o26_28_OX,o26_28_OZ,o25_27_OY,o25_27_OX,o25_27_OZ,phase
0,0,1,0,0,0,0,0,0,0,0,...,0.839532,0.539682,-0.062687,0.746729,-0.545266,0.380895,0.805452,-0.073288,0.588113,0.0
1,0,1,0,0,0,0,0,0,0,0,...,0.829084,0.549687,-0.102292,0.756509,-0.525787,0.388899,0.803362,-0.068162,0.591577,0.0
2,0,1,0,0,0,0,0,0,0,0,...,0.826367,0.553103,-0.105799,0.763141,-0.515636,0.389532,0.804396,-0.064436,0.590588,0.0
3,0,1,0,0,0,0,0,0,0,0,...,0.823055,0.551126,-0.137264,0.764354,-0.504475,0.401582,0.797728,-0.061704,0.599852,0.0
4,0,1,0,0,0,0,0,0,0,0,...,0.825035,0.549418,-0.132121,0.766788,-0.502895,0.398914,0.799612,-0.060594,0.597452,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
284636,0,0,0,0,0,0,0,0,0,1,...,0.906085,0.364353,-0.215073,0.894297,-0.337195,0.294164,0.793764,0.577821,0.189900,0.0
284637,0,0,0,0,0,0,0,0,0,1,...,0.906407,0.366269,-0.210411,0.891249,-0.348732,0.289934,0.802920,0.567092,0.183646,0.0
284638,0,0,0,0,0,0,0,0,0,1,...,0.904525,0.371435,-0.209451,0.890072,-0.356947,0.283480,0.806687,0.563872,0.176929,0.0
284639,0,0,0,0,0,0,0,0,0,1,...,0.903095,0.380851,-0.198425,0.885717,-0.362682,0.289772,0.811039,0.558422,0.174299,0.0


#Основные функции

##Для разметки

In [None]:
phase_dic={
    'uncnown':0,
    'stance':1,
    'kick':2,
    'return':3,
    'swing':4
}

In [None]:
def str2int(value):
  '''
  Преобразует строку в целое число, в случае неудачи возвращает None
  '''
  value=value.strip()
  try:
    v=int(value)
    return v
  except ValueError:
    return None

In [None]:
def get_diapazon(value):
  '''
  Принимает на вход строку, содержащую число или диапазон 2 чисел раздеделенных -
  Возврашает 2 числа, нижний и верхний пределы диапазона
  '''
  values=value.split('-')
  if len(values)==1:
    v=str2int(value)
    return v,v
  if len(values)==2:
    v1=str2int(values[0])
    v2=str2int(values[1])
    return v1,v2
  return None,None


In [None]:
def process_data(file_name,data,mark):
  '''
  Обрабатывает одну колонку (все данные об одной фазе) удара
  file_name - имя обрабатываемого видеофайла
  data - строка, содержащая диапазоны кадров для данной фазы, данного видео файла
  mark - метка фазы
  '''
  if  not (data ==data) or data is None or str(data).strip()=='':
    return
  if type(data) not in (int,str):
    return
  data=data.strip()
  diapasons=data.split(';')
  for diapazon in diapasons:
    diapazon=diapazon.strip()
    if diapazon=='':
      continue
    v_min,v_max=get_diapazon(diapazon)
    if v_min is None or v_max is None:
      print(f'Файл: {file_name}. Ошибка преобразования диапазона: {diapazon}. Метка: {mark}')
      continue
    df.loc[(df['filename']==file_name) & (df['frame#'].isin(range(v_min,v_max+1))),'phase']=mark

In [None]:
def process_video_file(file_name,row):
  '''
  Обрабатывает одну строку (один видео файл) из файла с маркерами
  file_name - название файла
  row  - строка из датасета с маркерами
  '''
  file_name=file_name.replace('й','й');# Это разные буквы.
  l=len(df[df['filename']==file_name])
  if l==0:
    #Если имя файла в xlsx  написано не верно, то для него не будет найдено данных. Сообщим об этом
    print(f'ВНИМАНИЕ!!! ДЛЯ ФАЙЛА {file_name} НЕ ОБНАРУЖЕНО ДАННЫХ В ДАТАСЕТЕ!!! ПРОВЕРЬ ПРАВИЛЬНОСТЬ НАПИСАНИЯ ИМЕНИ ФАЙЛА!!!')
  else:
    print (f'Обработка {file_name}. Всего {l} кадров')
  for column in row.index[1:]:
    mark=phase_dic[column] #Метка фазы
    data=row[column]

    print (f'Файл: {file_name}  дата: {data} Метка {mark}')
    process_data(file_name,data,mark)

  #В некоторых разметках не размечены первые и последние кадры файлов, они соответствуют стойке
  df.loc[(df['filename']==file_name) & (df['phase']==0),'phase']=1

In [None]:
def process_row(row):
  '''
  Обрабатывает одну строку (один видео файл) из файла с маркерами
  row  - строка из датасета с маркерами
  '''
  file_name=row.loc['file'] #Первый столбец это название обрабатываемого ведео файла
  process_video_file(file_name,row)
  process_video_file(file_name+'_flip',row)

In [None]:
def process_file(path):
  '''
  Выполняет обработку одного XLSX файла с маркерами
  '''
  print(f'Обработка файла {path}')
  df_marks=pd.read_excel(path)
  for row_index in df_marks.index:
    process_row(df_marks.loc[row_index])


#Разметка

In [None]:
markup_path='/content/drive/MyDrive/internship/karate/Разметки/main';
#Получаем список XLSX файлов с разметками
file_names=os.listdir(markup_path)
for file_name in file_names:
  _, ext=os.path.splitext(file_name)
  if ext!='.xlsx':
    continue
  path=os.path.join(markup_path,file_name)
  process_file(path)

Обработка файла /content/drive/MyDrive/internship/karate/Разметки/main/Гедан.xlsx
Обработка Андрей ГЕДАН БАРАЙ. Всего 549 кадров
Файл: Андрей ГЕДАН БАРАЙ  дата: 0-40;85-96;136-145;185-194;234-244;285-292;334-344;386-395;438-449;489-499;543-548; Метка 1
Файл: Андрей ГЕДАН БАРАЙ  дата: 41-53;97-104;146-155;195-204;245-253;293-304;345-355;396-407;450-458;500-509; Метка 4
Файл: Андрей ГЕДАН БАРАЙ  дата: 54-69;105-120;156-169;205-219;254-268;305-318;356-371;408-421;459-475;510-525; Метка 2
Файл: Андрей ГЕДАН БАРАЙ  дата: 70-84;121-135;170-184;220-233;269-284;319-333;372-385;422-437;476-488;526-542; Метка 3
Обработка Андрей ГЕДАН БАРАЙ_flip. Всего 549 кадров
Файл: Андрей ГЕДАН БАРАЙ_flip  дата: 0-40;85-96;136-145;185-194;234-244;285-292;334-344;386-395;438-449;489-499;543-548; Метка 1
Файл: Андрей ГЕДАН БАРАЙ_flip  дата: 41-53;97-104;146-155;195-204;245-253;293-304;345-355;396-407;450-458;500-509; Метка 4
Файл: Андрей ГЕДАН БАРАЙ_flip  дата: 54-69;105-120;156-169;205-219;25

In [None]:
#заполним столбец для стойки и возврата
df.loc[df['phase']==1,'12']=1 #стойка
df.loc[df['phase']==3,'13']=1 #прочее
#остальные метки обнулить
df.loc[df['phase']==1,['0','1','2','3','4','5','6','7','8','9','10','11']]=0
df.loc[df['phase']==3,['0','1','2','3','4','5','6','7','8','9','10','11']]=0

In [None]:
df.shape

(284641, 358)

In [None]:
np.unique(df[df['phase']==0]['filename'])

array([], dtype=object)

In [None]:
filename='dataset__all_features_phase.csv'
df.to_csv(os.path.join(data_path,filename), index=False)