In [2]:
import pandas as pd
import librosa

female_dir ='/mnt/sea/speech/indictts_ds/punjabi/female/'
male_dir = '/mnt/sea/speech/indictts_ds/punjabi/male'

import os
import json

def get_duration(file_path):
    y, sr = librosa.load(file_path)
    duration = librosa.get_duration(y=y, sr=sr)
    return duration

def get_text(file_path):
    with open(file_path, 'r') as f:
        text = f.read().strip()
    return text

def get_audio_files(dir_path):
    audio_files = []
    for root, dirs, files in os.walk(dir_path):
        for file in files:
            if file.endswith('.wav'):
                audio_files.append(os.path.join(root, file))
    return audio_files

def get_text_files(dir_path):
    text_files = []
    for root, dirs, files in os.walk(dir_path):
        for file in files:
            if file.endswith('.lab'):
                text_files.append(os.path.join(root, file))
    return text_files

def get_data(audio_files, text_files):
    data = []
    for audio_file in audio_files:
        text_file = audio_file.replace('.wav', '.lab')
        if text_file in text_files:
            duration = get_duration(audio_file)
            text = get_text(text_file)
            # remove '/mnt/sea/speech/' from audio_file path
            audio_file = audio_file.replace('/mnt/sea/speech/', '')
            data.append({"audio_filepath": audio_file, "duration": duration, "text": text})
    return data

male_data = get_data(get_audio_files(male_dir), get_text_files(male_dir))
female_data = get_data(get_audio_files(female_dir), get_text_files(female_dir))

print(len(male_data), len(female_data))
print(male_data[:5])


8036 6491
[{'audio_filepath': 'indictts_ds/punjabi/male/test_punjabi_voice_0001.wav', 'duration': 8.971473922902494, 'text': 'ਅੰਗੂਰੀ ਮੇਰੇ ਗਵਾਂਢੀਆਂ ਦੇ ਗਵਾਂਢੀਆਂ ਦੇ ਗਵਾਂਢੀਆਂ ਦੇ ਘਰ ਉਹਨਾਂ ਦੇ ਬੜੇ ਪੁਰਾਣੇ ਨੌਕਰ ਦੀ ਬੜੀ ਨਵੀਂ ਬੀਵੀ ਹੈ'}, {'audio_filepath': 'indictts_ds/punjabi/male/test_punjabi_voice_0002.wav', 'duration': 10.071473922902495, 'text': 'ਇਕ ਤਾਂ ਨਵੀਂ ਇਸ ਗੱਲੋਂ ਕਿ ਉਹ ਆਪਣੇ ਖ਼ਾਵੰਦ ਦੀ ਦੂਸਰੀ ਬੀਵੀ ਹੈ ਸੋ ਉਸ ਦਾ ਖ਼ਾਵੰਦ ਦੁਹਾਜੂ ਹੋਇਆ'}, {'audio_filepath': 'indictts_ds/punjabi/male/test_punjabi_voice_0003.wav', 'duration': 7.7555555555555555, 'text': 'ਹੁਣ ਤੈਨੂੰ ਰੋਣ ਦੀ ਲੋੜ ਨਹੀਂ ਮੈਂ ਤੇਰੇ ਅੱਥਰੂਆਂ ਨਾਲ ਭਿੱਜਾ ਹੋਇਆ ਪਰਨਾ ਵੀ ਸੁਕਾ ਦਿੱਤਾ ਹੈ'}, {'audio_filepath': 'indictts_ds/punjabi/male/test_punjabi_voice_0004.wav', 'duration': 5.7877551020408164, 'text': 'ਇੰਜ ਪ੍ਰਭਾਤੀ ਦਾ ਇਸ ਅੰਗੂਰੀ ਨਾਲ ਦੂਸਰਾ ਵਿਆਹ ਹੋ ਗਿਆ ਸੀ'}, {'audio_filepath': 'indictts_ds/punjabi/male/test_punjabi_voice_0005.wav', 'duration': 14.488480725623583, 'text': 'ਪਰ ਇਕ ਤਾਂ ਅੰਗੂਰੀ ਅਜੇ ਉਮਰ ਦੀ ਛੋਟੀ ਸੀ ਤੇ ਦੂਸਰਾ ਅੰਗੂਰੀ ਦੀ ਮਾਂ ਜੂੜੀ ਦੇ ਰੋਗ ਨਾਲ ਬੱਝੀ ਹੋਈ ਸੀ ਇਸ 

In [3]:
all = male_data + female_data

In [4]:
# save data as jsonl 
with open('/mnt/sea/speech/indictts_ds/punjabi/manifest.json', 'w') as f:
    for line in all:
        f.write(json.dumps(line) + '\n')