## Скрипты для создания метаданных для тренировки и валидации к датасету dota2

In [1]:
import json
import pandas as pd
from sklearn.model_selection import train_test_split

In [2]:
import sys
import os

# Получаем абсолютный путь к корневой директории проекта (директория выше текущей)
root_path = os.path.abspath(os.path.join(os.getcwd(), '..'))

# Добавляем корневую директорию в sys.path
if root_path not in sys.path:
    sys.path.append(root_path)

In [3]:
def create_dataframe(directory):
    data = []
    # Traverse through the directory structure
    for root, dirs, files in os.walk(directory):
        for file in files:
            if file.endswith(".wav"):  # Assuming we are only interested in '.wav' files
                path = os.path.join(root, file)
                caption = os.path.basename(root)
                data.append({"path": path, "caption": caption.lower()})

    # Create a DataFrame
    df = pd.DataFrame(data)
    return df

df = create_dataframe('../evaluation/data/dota2')
df

Unnamed: 0,path,caption
0,../evaluation/data/dota2/Dazzle/14.wav,dazzle
1,../evaluation/data/dota2/Dazzle/5.wav,dazzle
2,../evaluation/data/dota2/Dazzle/13.wav,dazzle
3,../evaluation/data/dota2/Dazzle/8.wav,dazzle
4,../evaluation/data/dota2/Dazzle/16.wav,dazzle
...,...,...
2466,../evaluation/data/dota2/Spirit Breaker/7.wav,spirit breaker
2467,../evaluation/data/dota2/Spirit Breaker/19.wav,spirit breaker
2468,../evaluation/data/dota2/Spirit Breaker/3.wav,spirit breaker
2469,../evaluation/data/dota2/Spirit Breaker/9.wav,spirit breaker


In [4]:
train_df, val_df = train_test_split(df, test_size=0.25, random_state=42, stratify=df['caption'])

In [5]:
display((len(train_df), len(val_df)))
display(train_df['caption'].value_counts().value_counts())
display(val_df['caption'].value_counts().value_counts())

(1853, 618)

15    123
8       1
Name: caption, dtype: int64

5    123
3      1
Name: caption, dtype: int64

In [7]:
def get_dataset_json_metadata(dataset):
    data = []
    for index, row in dataset.iterrows():
        wav = row['path']
        caption = row['caption']

        data.append({"wav": wav.replace('../', '', 1), "caption": caption})

    return data

In [8]:
data = get_dataset_json_metadata(train_df)
# Создаем JSON объект
json_data = {"data": data}
filename = 'dota2.train.json'
# Сохраняем JSON в файл
with open(f"../datafiles/{filename}", "w") as json_file:
    json.dump(json_data, json_file, indent=4)

print(f"Готово. JSON метаданные сохранены в файле {filename}")

Готово. JSON метаданные сохранены в файле dota2.train.json


In [9]:
data = get_dataset_json_metadata(val_df)
# Создаем JSON объект
json_data = {"data": data}
filename = 'dota2.val.json'
# Сохраняем JSON в файл
with open(f"../datafiles/{filename}", "w") as json_file:
    json.dump(json_data, json_file, indent=4)

print(f"Готово. JSON метаданные сохранены в файле {filename}")

Готово. JSON метаданные сохранены в файле dota2.val.json
