### Создание манифеста для обучаего/валидационного набора данных для аудио .wav

Обучение

In [None]:
import os
import json
import wave

# Путь к папке с файлами .wav и .txt
folder_path = r"C:\Users\vdovichev\Documents\DatasetForFineTune\RuDevicesDataset\files"

# Путь к выходному файлу manifest.jsonl
output_file = r"C:\Users\vdovichev\Documents\DatasetForFineTune\RuDevicesDataset\manifestRuDevices.jsonl"

# Список для хранения данных о каждом элементе
manifest_data = []

In [None]:
# Функция для получения длительности аудио файла
def get_audio_duration(audio_path):
    with wave.open(audio_path, 'rb') as audio_file:
        frames = audio_file.getnframes()
        rate = audio_file.getframerate()
        duration = frames / float(rate)
        return round(duration, 1)

# Перебираем все файлы .txt в папке
for file in os.listdir(folder_path):
    if file.endswith('.txt'):
        text_file_path = os.path.join(folder_path, file)
        audio_file_path = os.path.join(folder_path, file[:-4] + '.wav')
        if os.path.exists(audio_file_path):
            # Создаем уникальный ID из имени файла
            file_id = os.path.splitext(file)[0]

            # Получаем текст из .txt файла
            with open(text_file_path, 'r', encoding='utf-8') as text_file:
                text = text_file.read().strip()


            # Получаем длительность аудио файла
            duration = get_audio_duration(audio_file_path)

            # Создаем объект данных для добавления в manifest.jsonl
            data = {
                "id": file_id,
                "audio_filepath": f"files/{file_id}.wav",
                "text": text,
                "duration": duration
            }
            manifest_data.append(data)

# Записываем данные в manifest.jsonl
with open(output_file, 'w', encoding='utf-8') as manifest_file:
    for data in manifest_data:
        json.dump(data, manifest_file, ensure_ascii=False)
        manifest_file.write('\n')

In [None]:
# проверка созданного манифеста

# путь к manifest.jsonl
manifest_path = output_file

#manifest_path = r"C:\Users\vdovichev\Documents\DatasetForFineTune\RuDevicesDataset\manifestRuDevices.jsonl"

with open(manifest_path, 'r', encoding='utf-8') as f:
    manifest_data = [json.loads(line) for line in f]
print(len(manifest_data))

Валидация

In [None]:
import os
import json
import wave

# Путь к папке с файлами .wav и .txt
folder_path = r"C:\Users\vdovichev\Documents\DatasetForFineTune\RuDevicesDataset\validationfiles"

# Путь к выходному файлу manifest.jsonl
output_file = r"C:\Users\vdovichev\Documents\DatasetForFineTune\RuDevicesDataset\manifestValidationRuDevices.jsonl"

# Список для хранения данных о каждом элементе
manifest_data = []

In [None]:
# Функция для получения длительности аудио файла
def get_audio_duration(audio_path):
    with wave.open(audio_path, 'rb') as audio_file:
        frames = audio_file.getnframes()
        rate = audio_file.getframerate()
        duration = frames / float(rate)
        return round(duration, 1)

# Перебираем все файлы .txt в папке
for file in os.listdir(folder_path):
    if file.endswith('.txt'):
        text_file_path = os.path.join(folder_path, file)
        audio_file_path = os.path.join(folder_path, file[:-4] + '.wav')
        if os.path.exists(audio_file_path):
            # Создаем уникальный ID из имени файла
            file_id = os.path.splitext(file)[0]

            # Получаем текст из .txt файла
            with open(text_file_path, 'r', encoding='utf-8') as text_file:
                text = text_file.read().strip()


            # Получаем длительность аудио файла
            duration = get_audio_duration(audio_file_path)

            # Создаем объект данных для добавления в manifest.jsonl
            data = {
                "id": file_id,
                "audio_filepath": f"validationfiles/{file_id}.wav",
                "text": text,
                "duration": duration
            }
            manifest_data.append(data)

# Записываем данные в manifest.jsonl
with open(output_file, 'w', encoding='utf-8') as manifest_file:
    for data in manifest_data:
        json.dump(data, manifest_file, ensure_ascii=False)
        manifest_file.write('\n')

In [None]:
# проверка созданного манифеста
# путь к manifest.jsonl
manifest_path = output_file

#manifest_path = r"C:\Users\vdovichev\Documents\DatasetForFineTune\RuDevicesDataset\manifestValidationRuDevices.jsonl"

with open(manifest_path, 'r', encoding='utf-8') as f:
    manifest_data = [json.loads(line) for line in f]
print(len(manifest_data))

### Создание манифеста для набора данных Шумов .wav

In [3]:
import os
import json
import wave

# Путь к папке с файлами .wav
folder_path = r"C:\Users\vdovichev\Documents\DatasetForFineTune\PointSourceNoises\files"

# Путь к выходному файлу manifest.jsonl
output_file = r"C:\Users\vdovichev\Documents\DatasetForFineTune\PointSourceNoises\manifestNoises.jsonl"

# Список для хранения данных о каждом элементе
manifest_data = []

# Функция для получения длительности аудио файла (не более 15 секунд)
def get_audio_duration(audio_path):
    with wave.open(audio_path, 'rb') as audio_file:
        frames = audio_file.getnframes()
        rate = audio_file.getframerate()
        duration = frames / float(rate)
        return round(min(duration, 15.0), 1)
    

# Перебираем все файлы .wav в папке
for file in os.listdir(folder_path):
    if file.endswith('.wav'):
        audio_file_path = os.path.join(folder_path, file)
        if os.path.exists(audio_file_path):
            
            # Создаем уникальный ID из имени файла
            file_id = os.path.splitext(file)[0]

            # Получаем длительность аудио файла
            duration = get_audio_duration(audio_file_path)

            # Создаем объект данных для добавления в manifest.jsonl
            data = {
                "audio_filepath": f"files/{file_id}.wav",
                "duration": duration,
                "label": "noise",
                "text": "_",
                "offset": 0.0,
            }
            manifest_data.append(data)

# Записываем данные в manifest.jsonl
with open(output_file, 'w', encoding='utf-8') as manifest_file:
    for data in manifest_data:
        json.dump(data, manifest_file, ensure_ascii=False)
        manifest_file.write('\n')

In [5]:
# проверка созданного манифеста
# путь к manifest.jsonl
manifest_path = output_file

#manifest_path = r"C:\Users\vdovichev\Documents\DatasetForFineTune\PointSourceNoises\manifestNoises.jsonl"

with open(manifest_path, 'r', encoding='utf-8') as f:
    manifest_data = [json.loads(line) for line in f]
print(len(manifest_data))

843
