In [24]:
import os
import datetime
import tempfile
import subprocess
import IPython.display as ipd
import librosa
from scipy.io import wavfile
import csv

In [25]:
FESTVOX_BIN = "/mnt/d/projects/tts_festvox/festival/bin/text2wave"
HINDI_SENT_POOL = "/mnt/c/Users/ranu/Desktop/iitb_corpus/prunedCorpus/pruned_train.hi"
DATA_SOURCE = ""
CUR_DIR = os.getcwd()
DATA_ROOT = "/mnt/d/projects/data/hindi_festvox"
CLIP_DIR = os.path.join(DATA_ROOT, "clips")
DATASET_CSV = os.path.join(DATA_ROOT, "dataset.csv")

os.makedirs(CLIP_DIR, exist_ok = False)
if os.path.exists(DATASET_CSV):
    raise Exception('csv already exists')

csvfile = open(DATASET_CSV, 'w', newline='')
fieldnames = ['wav_path', 'text']
csvwriter = csv.DictWriter(csvfile, fieldnames=fieldnames)
csvwriter.writeheader()

In [26]:
def get_temp_file(content="क्या हाल है"):
    fp = tempfile.NamedTemporaryFile(mode='w', suffix=".txt", prefix="festvox_", dir=tempfile.gettempdir(), delete=False)
    fp.write(content)
    fpath = os.path.realpath(str(fp.name))
    fp.close()
    return fpath

def get_output_file(dirpath="."):
    fname = str(datetime.datetime.now()).replace(' ', '-').replace(':', '-').replace('.','-') + ".wav"
    return os.path.join(dirpath, fname)

def write_dataset_row(writer, wav_path, text):
    writer.writerow({'wav_path' : wav_path, 'text' : text})

In [27]:
ops = []
with open(HINDI_SENT_POOL, 'r') as hp:
    cnt = 0
    for line in hp.readlines():
        line = line.strip("\n\r").strip("\n")
        print(line)
        input_file = get_temp_file(line)
        output_file = get_output_file(CLIP_DIR)
        ops.append(output_file)
        subprocess.run([FESTVOX_BIN, input_file, "-o", output_file])
        print("input : {} -- output : {}".format(input_file, output_file))
        write_dataset_row(csvwriter, output_file, line)
        cnt = cnt + 1
        if cnt >= 100:
            break
csvfile.close()

प्रायः हम इस भंडार को लौकिक विषयों पर और पत्नी , पुत्र मित्र आदि सगे संबंधियों पर प्रवर्तित कर देते हैं । 
input : /tmp/festvox_29vx0pt6.txt -- output : /mnt/d/projects/data/hindi_festvox/clips/2019-10-12-09-34-50-150360.wav
मुझे जनता हूँ की मैं इस वीडियो में किसी भी समय
input : /tmp/festvox_uhaop0co.txt -- output : /mnt/d/projects/data/hindi_festvox/clips/2019-10-12-09-35-01-315363.wav
वेब ब्राउज़र मदद दिखाएँ
input : /tmp/festvox_8yqhycqf.txt -- output : /mnt/d/projects/data/hindi_festvox/clips/2019-10-12-09-35-08-585627.wav
और उसने अपनी मेहरबानी से तुम्हारे वास्ते रात और दिन को बनाया ताकि तुम रात में आराम करो और दिन में उसके फज़ल व करम की तलाश करो और ताकि तुम लोग शुक्र करो
input : /tmp/festvox_9fdcq67q.txt -- output : /mnt/d/projects/data/hindi_festvox/clips/2019-10-12-09-35-14-652851.wav
एब्सकार्बिक अम्ल कुपोषण की कमी के कारण द्वारा होने वाली बीमारी जो आमतौर से लोगो में होता है जिसके कारण गोलाकार धब्बे , पट्टियों या जांघों , बांह और धड़ पर चकत्ते । 
input : /tmp/festvox_4stv0skm.txt

input : /tmp/festvox_zszzr694.txt -- output : /mnt/d/projects/data/hindi_festvox/clips/2019-10-12-09-42-19-105625.wav
भगवान शिव को समर्पित यह मंदिर प्रतिवर्ष हजारों देशी - विदेशी श्रद्धालुओं को अपनी ओर खींचता है । 
input : /tmp/festvox_k1zzaocx.txt -- output : /mnt/d/projects/data/hindi_festvox/clips/2019-10-12-09-42-37-250590.wav
इस प्रकार की दुर्भावपूर्ण और झूठी बातों की किस प्रकार चर्चा की जा रही है या उनके बारे में लिखा जा रहा है , इसका एक और उदाहरण देना चाहूंगी । 
input : /tmp/festvox_cwcbxlsr.txt -- output : /mnt/d/projects/data/hindi_festvox/clips/2019-10-12-09-42-48-686532.wav
एक नया क्लाएंट अभी आया
input : /tmp/festvox_ga7na1zr.txt -- output : /mnt/d/projects/data/hindi_festvox/clips/2019-10-12-09-43-02-404706.wav
यदि दो तिहाई बहुमत से राज्य सभा इस आशय का कोई संकल्प पारित कर देती है तो संसद समूचे भारत या उसके किसी भाग के लिए विधियां बना सकती है अनुच्छेद 249 । 
input : /tmp/festvox_hz23t9a2.txt -- output : /mnt/d/projects/data/hindi_festvox/clips/2019-10-12-09-43-09-328549.wav


input : /tmp/festvox_qkn9kplp.txt -- output : /mnt/d/projects/data/hindi_festvox/clips/2019-10-12-09-51-13-744238.wav
यह कंपनी की परिसंपत्तियों में कोई अधिकार का दावा नहीं कर सकता
input : /tmp/festvox_07ao3esr.txt -- output : /mnt/d/projects/data/hindi_festvox/clips/2019-10-12-09-51-32-412304.wav
कोमा की स्थिति में गया हुआ
input : /tmp/festvox_0281shi5.txt -- output : /mnt/d/projects/data/hindi_festvox/clips/2019-10-12-09-51-43-334830.wav
दूसरे शब्दों में , हमें शुद्धि का कोई ऐसा सीमित अर्थ नहीं लेना चाहिये कि किन्हीं बाह्म रजोगुणी चेष्टाओं को चुनकर उन्हें नियमित करना , अन्य सब कार्यों का निषेध करना अथवा चरित्र के कुछ - एक रूपों या किन्हीं विशेष मानसिक एवं नैतिक क्षमताओं को उन्मुक्त करनाइसी का नाम शुद्धि है । 
input : /tmp/festvox_65pzdh43.txt -- output : /mnt/d/projects/data/hindi_festvox/clips/2019-10-12-09-51-52-675670.wav
सरकार उनसे देशद्रोहियों की तरह बर्ताव करना चाहती थी और उन्हें दंड देना चाहती थी . 
input : /tmp/festvox_eqj9q1cc.txt -- output : /mnt/d/projects/data/hindi_festvo

In [68]:
ops

['/mnt/d/projects/tts_festvox/output/2019-10-10-22-06-23-891584.wav']

In [69]:
sample_rate, samples = wavfile.read(ops[0])
ipd.Audio(samples, rate=sample_rate)

In [38]:
import codecs 
class Alphabet(object):
    def __init__(self, config_file):
        self._config_file = config_file
        self._label_to_str = []
        self._str_to_label = {}
        self._size = 0
        with codecs.open(config_file, 'r', 'utf-8') as fin:
            for line in fin:
                if line[0:2] == '\\#':
                    line = '#\n'
                elif line[0] == '#':
                    continue
                self._label_to_str += line[:-1] # remove the line ending
                self._str_to_label[line[:-1]] = self._size
                self._size += 1

    def string_from_label(self, label):
        return self._label_to_str[label]

    def label_from_string(self, string):
        try:
            return self._str_to_label[string]
        except KeyError as e:
            raise KeyError(
                'ERROR: Your transcripts contain characters (e.g. \'{}\') which do not occur in data/alphabet.txt! Use ' \
                'util/check_characters.py to see what characters are in your [train,dev,test].csv transcripts, and ' \
                'then add all these to data/alphabet.txt.'.format(string)
            ).with_traceback(e.__traceback__)

    def decode(self, labels):
        res = ''
        for label in labels:
            res += self.string_from_label(label)
        return res

    def size(self):
        return self._size

    def config_file(self):
        return self._config_file


In [51]:
a = Alphabet('/mnt/d/projects/DeepSpeech/data/alphabet.txt')

In [52]:
len(a._str_to_label)

89

In [53]:
a._label_to_str

[' ',
 'a',
 'b',
 'c',
 'd',
 'e',
 'f',
 'g',
 'h',
 'i',
 'j',
 'k',
 'l',
 'm',
 'n',
 'o',
 'p',
 'q',
 'r',
 's',
 't',
 'u',
 'v',
 'w',
 'x',
 'y',
 'z',
 "'",
 'ध',
 'ल',
 'g',
 'स',
 'श',
 'ो',
 'z',
 'इ',
 'w',
 'ा',
 'अ',
 'औ',
 'म',
 'ू',
 'भ',
 'ण',
 'ु',
 'थ',
 '़',
 'ए',
 'घ',
 'ब',
 'फ',
 'त',
 'ट',
 '!',
 'च',
 'न',
 'ष',
 'ग',
 'n',
 'ॉ',
 'छ',
 't',
 'व',
 'm',
 'ऐ',
 '्',
 'ऊ',
 'द',
 'े',
 'ज',
 'r',
 'ृ',
 'ई',
 'ढ',
 'e',
 'ख',
 'प',
 'o',
 'ओ',
 'आ',
 'ह',
 'ठ',
 'ै',
 'र',
 'क',
 'r',
 'ृ',
 'ई',
 'ढ',
 'e',
 'ख',
 'प',
 'o',
 'ओ',
 'आ',
 'ह',
 'ठ',
 'ै',
 'र',
 'क',
 'ड',
 'ँ',
 'ौ',
 'य',
 'ि',
 'ी',
 'उ',
 'k',
 'व',
 'ः',
 'ं',
 '।',
 'व',
 'a',
 'झ',
 'व']

In [54]:
print(a._str_to_label)

a._str_to_label['व']


{' ': 0, 'a': 112, 'b': 2, 'c': 3, 'd': 4, 'e': 88, 'f': 6, 'g': 30, 'h': 8, 'i': 9, 'j': 10, 'k': 106, 'l': 12, 'm': 63, 'n': 58, 'o': 91, 'p': 16, 'q': 17, 'r': 70, 's': 19, 't': 61, 'u': 21, 'v': 22, 'w': 36, 'x': 24, 'y': 25, 'z': 34, "'": 27, 'ध': 28, 'ल': 29, 'स': 31, 'श': 32, 'ो': 33, 'इ': 35, 'ा': 37, 'अ': 38, 'औ': 39, 'म': 40, 'ू': 41, 'भ': 42, 'ण': 43, 'ु': 44, 'थ': 45, '़': 46, 'ए': 47, 'घ': 48, 'ब': 49, 'फ': 50, 'त': 51, 'ट': 52, '!': 53, 'च': 54, 'न': 55, 'ष': 56, 'ग': 57, 'ॉ': 59, 'छ': 60, 'व': 114, 'ऐ': 64, '्': 65, 'ऊ': 66, 'द': 67, 'े': 68, 'ज': 69, 'ृ': 85, 'ई': 86, 'ढ': 87, 'ख': 89, 'प': 90, 'ओ': 92, 'आ': 93, 'ह': 94, 'ठ': 95, 'ै': 96, 'र': 97, 'कr': 84, 'क': 98, 'ड': 99, 'ँ': 100, 'ौ': 101, 'य': 102, 'ि': 103, 'ी': 104, 'उ': 105, 'ः': 108, 'ं': 109, '।': 110, 'झ': 113, '': 115}


114